Information System of Masaryk University 

Document Engineering for a Digital Library: PDF recompression using JBIG2 and other optimization of ...

česky | in English

SOJKA, Petr and Radim HATLAPATKA. Document Engineering for a Digital Library: PDF recompression using JBIG2 and other optimization of PDF documents. In Proceedings of MEMICS 2010 conference. Znojmo, Czech Republic: NOVPRESS s.r.o., 2010. p. 205. ISBN 978-80-87342-10-7.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Document Engineering for a Digital Library: PDF recompression using JBIG2 and other optimization of PDF documents
Name in Czech Dokumentové inženýrství pro digitální knihovnu: rekomprese PDF s JBIG2 a další optimalizace PDF dokumentů
Authors SOJKA, Petr and Radim HATLAPATKA.
Edition Znojmo, Czech Republic, Proceedings of MEMICS 2010 conference, p. 205-205, 2010.
Publisher NOVPRESS s.r.o.
Other information
Original language English
Type of outcome article in proceedings
Field of Study Informatics
Country of publisher Czech Republic
Confidentiality degree is not subject to a state or trade secret
Publication form printed version "print"
Organization unit Faculty of Informatics
ISBN 978-80-87342-10-7
Keywords (in Czech) autorské nástroje a systémy; rekomprese PDF; kategorizace; klasifikace; standardizace a reprezentace dokumentů; rozpoznávání znaků; OCR; EuDML; DML-CZ; digitizační workflow; digitální matematická knihovna
Keywords in English Authoring tools and systems; Categorization; Classification; Document presentation; Representations/Standards; Character recognition; Digital mathematical library; Digitisation workflow
Tags International impact, Reviewed
Changed by Changed by: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Changed: 15. 4. 2014 23:08.
Abstract
Several innovative document transformations and tools developed in the process of building the Digital Mathematical Library DML-CZ http://dml.cz are described. The main result is our new PDF re-compression tool, developed using a enhanced jbig2enc library. Together with pdfsizeopt.py by Péter Szabó, we have managed to decrease PDF storage size and transmission needs by 62%: using both programs we reduced the size of the original already compressed PDFs to 38%. We briefly describe workflow and tools developed for creating the digital library. The batch digital signature stamper, the document similarity metrics which uses four different methods, a [meta]data validation process and math OCR tools represent some of the main [by]products. Such document engineering, together with Google Scholar indexing optimization, have led to the success of serving digitized and born-digital scientific math documents to the public in DML-CZ, and are being employed also in The European Digital Mathematics Library, EuDML.
Abstract (in Czech)
Tento článek popisuje několik inovativních nástrojů a transformací dokumentů, které byli vyvinuty v rámci digitální matematické knihovny DML-CZ. Jako hlavní výsledek tohoto článku je prezentován námi vyvinutý nástroj pro PDF rekompresi, který využívá enkodér jbig2enc. Dohromady s dalšími programy, především pdfsizeopt.py, který vyvinul Péter Szabó, jsme byli schopni snížít velikost PDF a nároky na jejich přenos o 62 %: použitím obou nástrojů jsme snížíli velikost PDF dokumentů na 38 % z původní velikosti. V tomto článku krátce popisujeme další nástroje vyvinuté v rámci digitální knihovny. Mezi hlavní vedlejší produkty tohoto projektu patří dávkové podepisování PDF documentů, metriky vyhledávání podobností u dokumentů, které používají čtyři různé metody, process validace [meta]dat a OCR nástroje pro matematiku. Tento způsob tvorby dokumentů spolu s Google Scholar optimalizací indexace, vedlo k úspěšné obsluze digitalizovaných a born-digital vědeckých matematických dokumentů pro veřejnost v DML-CZ a bude dále nasazeno také v projektu evropské digitální matematické knihovny EuDML.
Links
LA09016, research and development projectName: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Acronym: ERCIM)
Investor: Ministry of Education, Youth and Sports of the CR, INGO
LC536, research and development projectName: Centrum komputační lingvistiky
Investor: Ministry of Education, Youth and Sports of the CR, Basic Research Center
2C06009, research and development projectName: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Acronym: COT-SEWing)
Investor: Ministry of Education, Youth and Sports of the CR, Information technologies for knowledge society
250503, internal MU codeName: The European Digital Mathematics Library (Acronym: EuDML)
Investor: European Union, Competitiveness and inovation framework programme
PrintDisplayed: 20. 9. 2017 04:16

Other references 


Go to top | Current date and time: 20. 9. 2017 04:16, Week 38 (even)

Contact: istech(zavináč/atsign)fi(tečka/dot)muni(tečka/dot)cz, Office for Studies, access rights administrators, is-technicians, e-technicians, IT support | Use of cookies | learn more about Information System