D 2010

Document Engineering for a Digital Library: PDF recompression using JBIG2 and other optimization of PDF documents

SOJKA, Petr a Radim HATLAPATKA

Základní údaje

Originální název

Document Engineering for a Digital Library: PDF recompression using JBIG2 and other optimization of PDF documents

Název česky

Dokumentové inženýrství pro digitální knihovnu: rekomprese PDF s JBIG2 a další optimalizace PDF dokumentů

Autoři

SOJKA, Petr a Radim HATLAPATKA

Vydání

Znojmo, Czech Republic, Proceedings of MEMICS 2010 conference, s. 205-205, 2010

Nakladatel

NOVPRESS s.r.o.

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Organizační jednotka

Fakulta informatiky

ISBN

978-80-87342-10-7

Klíčová slova česky

autorské nástroje a systémy; rekomprese PDF; kategorizace; klasifikace; standardizace a reprezentace dokumentů; rozpoznávání znaků; OCR; EuDML; DML-CZ; digitizační workflow; digitální matematická knihovna

Klíčová slova anglicky

Authoring tools and systems; Categorization; Classification; Document presentation; Representations/Standards; Character recognition; Digital mathematical library; Digitisation workflow

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 15. 4. 2014 23:08, doc. RNDr. Petr Sojka, Ph.D.

Anotace

V originále

Several innovative document transformations and tools developed in the process of building the Digital Mathematical Library DML-CZ http://dml.cz are described. The main result is our new PDF re-compression tool, developed using a enhanced jbig2enc library. Together with pdfsizeopt.py by Péter Szabó, we have managed to decrease PDF storage size and transmission needs by 62%: using both programs we reduced the size of the original already compressed PDFs to 38%. We briefly describe workflow and tools developed for creating the digital library. The batch digital signature stamper, the document similarity metrics which uses four different methods, a [meta]data validation process and math OCR tools represent some of the main [by]products. Such document engineering, together with Google Scholar indexing optimization, have led to the success of serving digitized and born-digital scientific math documents to the public in DML-CZ, and are being employed also in The European Digital Mathematics Library, EuDML.

Česky

Tento článek popisuje několik inovativních nástrojů a transformací dokumentů, které byli vyvinuty v rámci digitální matematické knihovny DML-CZ. Jako hlavní výsledek tohoto článku je prezentován námi vyvinutý nástroj pro PDF rekompresi, který využívá enkodér jbig2enc. Dohromady s dalšími programy, především pdfsizeopt.py, který vyvinul Péter Szabó, jsme byli schopni snížít velikost PDF a nároky na jejich přenos o 62 %: použitím obou nástrojů jsme snížíli velikost PDF dokumentů na 38 % z původní velikosti. V tomto článku krátce popisujeme další nástroje vyvinuté v rámci digitální knihovny. Mezi hlavní vedlejší produkty tohoto projektu patří dávkové podepisování PDF documentů, metriky vyhledávání podobností u dokumentů, které používají čtyři různé metody, process validace [meta]dat a OCR nástroje pro matematiku. Tento způsob tvorby dokumentů spolu s Google Scholar optimalizací indexace, vedlo k úspěšné obsluze digitalizovaných a born-digital vědeckých matematických dokumentů pro veřejnost v DML-CZ a bude dále nasazeno také v projektu evropské digitální matematické knihovny EuDML.

Návaznosti

LA09016, projekt VaV
Název: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Akronym: ERCIM)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Účast ČR v European Research Consortium for Informatics and Mathematics
LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaV
Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce
250503, interní kód MU
Název: The European Digital Mathematics Library (Akronym: EuDML)
Investor: Evropská unie, The European Digital Mathematics Library