Digitalizace úvod do problematiky Martin Krčál VIKBB42 Knihovnické procesy a služby Brno, 22. dubna 2015 Otázka na úvod * Jak získáme elektronický dokument? > Digitalizace * převod info z analogové do digitální (elektronické) podoby * formy informace vtextové vobrazové vzvukové vjejich kombinacích Proč digitalizujeme * dostupnost informací * úspora místa * ochrana a archivace * vyhledávání Základní pojmy Rozlišení * rozdělení obrazu na síť pixelů * pixel = jedna barva * větší hustota (rozlišení) = větší kvalita = větší velikost souboru * základní jednotka dpi (dots per inch) * tisková kvalita od 300 dpi * na web od 75 dpi Barevná hloubka * počet barev použitých při skenu * černobílé skeny: čb nebo stupně šedi * barevné skeny: 24-bitů+ * zdravé oko vnímá okolo 4 mld. odstínů barev * * Barevná hloubka - počty barev Druh obrazu Počet bitů Počet barev černobílý (bitonální, monochromatické) 1 21 = 2 stupně šedi (grayscale) 8 28 = 256 odstínů šedi 8-bitový barevný (color) 8 28 = 256 16-bitový (high color) 16 216 = 65 536 24-bitový (true color) 24 224 = 16 777 216 32-bitový (super true color) 32 232 = 4 294 967 296 48-bitový (deep color) 48 248 = 281 474 976 710 656 Komprese * zmenšení velikosti souboru * druhy komprese vztrátová – vypuštění některých pixelů (např. podprahové), větší komprese zmenšuje soubor, ale snižuje kvalitu, trvalá a nevratná (JPG, MP3, MPEG, AAC) vbezztrátová – převod na matematický algoritmus, okolní barvy se dopočítávají, není tak účinná jako ztrátová, ale je vratná (GIF, PNG, TIFF, WMA Lossless, RealAudio Lossless, některé video kodeky – HuffyUV, Lagarith) OCR * Optical Character Recognition * automatické rozpoznávání textu vobrazová předloha vanalýza znaků vporovnání s DB (znaky, slova) * kvalita OCR vpřesnost rozpoznání vkvalita předlohy * OCR pro národní jazyky * Nástroje - funkce * profi i free nástroje, home verze * ručně psané písmo – problémy * podpora národních jazyků * zachování layoutu a formátování vpísmo, velikost, odstavce, obrázky * označení bloků k rozpoznání * ukládání jako PDF s txt vrstvou * dávkové zpracování * serverové verze OmniPage Omnipage * nyní verze 18 * různé licence vStandard, Professional, Enterprise * 123 jazyků vvč. češtiny, nemá český interface * přesnost 99% * propojení se zařízeními a SW vKindle, MS Office * propojení na cloud úložiště vEvernote a Dropbox Readiris Readiris * nyní verze 14 * 120 jazyků (vč. češtiny) * spolupracuje s MS Office * konverze do PDF * info o verzi 12 na Grafika.cz http://www.irislink.com/Documents/Image/aa-products/readiris/v14/images/box-pro-table.jpg Abby Fine Reader Abby Fine Reader * verze 11 * 189 jazyků (včetně češtiny) * stejné funkce jako konkurence * serverová verze * více info na Grafika.cz * PDF Transformer 3.0 vpřevod PDF do editovatelné podoby * Free OCR * FreeOCR * OCR zdarma pro Windows * verze 4.2.2 * vychází z Tesseract OCR Engine * nepodporuje češtinu * horší kvalita výstupu * solidní výsledky na podporované jazyky vENG, GER, SPA, POR, NDL, ITA, FRA, DEN, POL,... Online služby * OnlineOCR v32 jazyků včetně češtiny vdobrá kvalita, zachování v layoutu, výstupy do DOC, XLS, TXT vomezení (odpadnou po registraci) * NewOCR v58 jazyků včetně češtiny vupload souborů i z URL vposloupnost odkazů, ale nezachová layout, dobrá kvalita vpropojení s Google Docs a Translate + Bing Translate vbez registrace, bez omezení Online služby * Free OCR v29 jazyků včetně češtiny vdobrá kvalita, dobré výsledky vmax. 2MB, 10 stran za hodinu vcapcha ScanTaylor * opensource * komplexní nástroj pro úpravu dokumentů (video návod) * otáčení, spojování, odstraňování částí stránek, OCR * JPG, TIFF Články k nástrojům * http://extrawindows.cnews.cz/prehled-softwaru-rozpoznavani-textu-ocr-jak-na * http://extrawindows.cnews.cz/prehled-softwaru-rozpoznavani-textu-ocr-jak-na?page=0,1 Výstupní formáty Výstupní formáty * grafické vJPG, TIFF, PNG, GIF, BMP * textové vTXT, RTF, PDF, DjVu JPG (JPEG) * Joint Photographic (Expert) Group * nejrozšířenější formát * ztrátová komprese (0-100%) * malé soubory * vhodné na web * TIFF * Tagged Interchange File Format * podobný BMP * ztrátová komprese PNG * Portable Network Graphics * bezztrátová komprese * náhrada formátu GIF * podpora 24-bitové grafiky * průhlednost * na rozdíl od GIF nepodporuje animace BMP * bitová mapa (bit map) * složen z bodů * neumožňuje kompresi GIF * Graphics Interchange Format * v minulosti velmi populární * využití u animovaných obrázků * uchová max. 256 barev * bezztrátová komprese TXT * Plain Text * text bez formátování vpouze odstavce * zpracuje jakýkoliv program pracující s textem RTF * Rich Text Format * prostý text se základním formátováním * Microsoft PDF * Portable Document Format * Adobe * komerční Adobe Acrobat * prohlížení Reader * volně dostupné programy vPDFCreator, PDFill PDF Tools a další vkancelářské balíky: Open Office, MS Office 2007+,… v DjVu * konkurence PDF * otevřený formát * vhodný pro text, obrázky, kresby * rozdělení do vrstev vvýběr vhodné komprese = efektivnější komprese = malé soubory * více info: http://djvu.org Hardware pro digitalizaci Skenery * kvalita skenování * zvolit vhodný skener pro konkrétní druh dokumentu!!! * Ruční a tužkové skenery * Ruční a tužkové skenery * problémy s kvalitou a přesností * chyby při OCR (nejen) českých textů * výhoda - přenosnost zařízení * novější integrovaný disk Plochý skener * Plochý skener * stolní skener * relativně kvalitní * nízká cena vv multifunkcích již okolo 1000Kč * formát A4 * velkoformátové skenery * odrážení světla na CCD snímač včím tmavší, tím menší odraz světla = určení barvy Rotační skener * Rotační skener * bubnový skener * profesionální využití * kvalitní výstup * nelze použít na knihy vupínání na válec * extrémně drahé vstovky tisíc až mil. Kč * 3D skener * tvorba 3D modelů * Knižní skener * http://www.youtube.com/watch?v=-oOXXpxzETA Knižní skener * fotografické skenery * komplexní systémy vvč. PC a SW * robotické skenery votáčení stránek vextrémně drahé Postup digitalizace Stanovení pravidel * workflow = jednotný postup při digitalizaci, pravidla digitalizace * uplatnění zejména v projektech a při vícenásobném skenování * kvalita, rozlišení, komprese, formát,… * záleží na typu dokumentu * Standard digitalizace (NKP+MZK) vplatný od roku 2011, vyvinut v rámci NDK Výběr a příprava dokumentů * vytipování dokumentů k digitalizaci * různá kritéria výběru * registr digitalizace vnapř.: http://www.registrdigitalizace.cz * prohlédnutí a volba zařízení pro digitalizaci vzáleží na typu dokumentu vdigitalizace VŠKP na MU – rozřezání vvyčištění, narovnání listů, svorky,… vkvalita předlohy * Digitalizace * zdigitalizování dokumentu dle nastavených pravidel * kontrola na výstupu vkompletace (doskenování chybějících stran) vkontrola kvality (přeskenování špatných stran) * finální sken poslán k dalšímu zpracování v Uložení do repozitáře * zvolit vhodný archiv * metadata * vhodný formát * zálohování vzálohovací strategie (migrace, emulace) * zpřístupnění dle zákona Využití digitalizace * Kde se digitalizace využívá??? * * > Použité zdroje * NDK - digitalizace * Digitální knihovny – teorie a praxe (Bartošek) * Projekt digitalizace vysokoškolských prací MU (Bartošek) * Zpracování novinových článků v Digitální knihovně Arna Nováka (Damborská) * Závěr •Děkuji Vám za pozornost billboard Martin Krčál krcal@phil.muni.cz