SOJKA, Petr and Radim HATLAPATKA. Document Engineering for a Digital Library: PDF recompression using JBIG2 and other optimization of PDF documents. Online. In Proceedings of DocEng 2010 conference. Manchester, UK: ACM, 2010, p. 3-12. ISBN 978-1-4503-0231-9. Available from: https://dx.doi.org/10.1145/1860559.1860563.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Document Engineering for a Digital Library: PDF recompression using JBIG2 and other optimization of PDF documents
Name in Czech Dokumentové inženýrství pro digitální knihovnu: rekomprese PDF s JBIG2 a další optimalizace PDF dokumentů
Authors SOJKA, Petr (203 Czech Republic, guarantor, belonging to the institution) and Radim HATLAPATKA (203 Czech Republic, belonging to the institution).
Edition Manchester, UK, Proceedings of DocEng 2010 conference, p. 3-12, 10 pp. 2010.
Publisher ACM
Other information
Original language English
Type of outcome Proceedings paper
Field of Study 10201 Computer sciences, information science, bioinformatics
Country of publisher United Kingdom of Great Britain and Northern Ireland
Confidentiality degree is not subject to a state or trade secret
Publication form electronic version available online
WWW slides preprint PDF fulltext in ACM DL DOI ACM DL Proceedings (accept. rate 31%) DocEng homepage
RIV identification code RIV/00216224:14330/10:00040554
Organization unit Faculty of Informatics
ISBN 978-1-4503-0231-9
Doi http://dx.doi.org/10.1145/1860559.1860563
UT WoS 000286949400002
Keywords (in Czech) autorské nástroje a systémy; rekomprese PDF; kategorizace; klasifikace; standardizace a reprezentace dokumentů; rozpoznávání znaků; OCR; EuDML; DML-CZ; digitizační workflow; digitální matematická knihovna
Keywords in English Authoring tools and systems; Categorization; Classification; Document presentation; Representations/Standards; Character recognition; Digital mathematical library; Digitisation workflow
Tags DML-CZ, E U DML, JBIG2, MathML, OCR, PDF, TeX
Tags International impact, Reviewed
Changed by Changed by: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Changed: 10/5/2013 15:11.
Abstract
Several innovative document transformations and tools developed in the process of building the Digital Mathematical Library DML-CZ http://dml.cz are described. The main result is our new PDF re-compression tool, developed using a enhanced jbig2enc library. Together with pdfsizeopt.py by Péter Szabó, we have managed to decrease PDF storage size and transmission needs by 62%: using both programs we reduced the size of the original already compressed PDFs to 38%. We briefly describe workflow and tools developed for creating the digital library. The batch digital signature stamper, the document similarity metrics which uses four different methods, a [meta]data validation process and math OCR tools represent some of the main [by]products. Such document engineering, together with Google Scholar indexing optimization, have led to the success of serving digitized and born-digital scientific math documents to the public in DML-CZ, and are being employed also in The European Digital Mathematics Library, EuDML.
Abstract (in Czech)
Tento článek popisuje několik inovativních nástrojů a transformací dokumentů, které byli vyvinuty v rámci digitální matematické knihovny DML-CZ. Jako hlavní výsledek tohoto článku je prezentován námi vyvinutý nástroj pro PDF rekompresi, který využívá enkodér jbig2enc. Dohromady s dalšími programy, především pdfsizeopt.py, který vyvinul Péter Szabó, jsme byli schopni snížít velikost PDF a nároky na jejich přenos o 62 %: použitím obou nástrojů jsme snížíli velikost PDF dokumentů na 38 % z původní velikosti. V tomto článku krátce popisujeme další nástroje vyvinuté v rámci digitální knihovny. Mezi hlavní vedlejší produkty tohoto projektu patří dávkové podepisování PDF documentů, metriky vyhledávání podobností u dokumentů, které používají čtyři různé metody, process validace [meta]dat a OCR nástroje pro matematiku. Tento způsob tvorby dokumentů spolu s Google Scholar optimalizací indexace, vedlo k úspěšné obsluze digitalizovaných a born-digital vědeckých matematických dokumentů pro veřejnost v DML-CZ a bude dále nasazeno také v projektu evropské digitální matematické knihovny EuDML.
Links
LA09016, research and development projectName: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Acronym: ERCIM)
Investor: Ministry of Education, Youth and Sports of the CR, Czech Republic membership in the European Research Consortium for Informatics and Mathematics
LC536, research and development projectName: Centrum komputační lingvistiky
Investor: Ministry of Education, Youth and Sports of the CR, Centrum komputační lingvistiky
1ET200190513, research and development projectName: DML-CZ: Česká digitální matematická knihovna
Investor: Academy of Sciences of the Czech Republic, DML-CZ: Czech Digital Mathematical Library
2C06009, research and development projectName: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Acronym: COT-SEWing)
Investor: Ministry of Education, Youth and Sports of the CR
250503, interní kód MUName: The European Digital Mathematics Library (Acronym: EuDML)
Investor: European Union
PrintDisplayed: 16/7/2024 03:58