Document Engineering for a Digital Library: PDF recompression using JBIG2 and other optimization of ...
SOJKA, Petr and Radim HATLAPATKA. Document Engineering for a Digital Library: PDF recompression using JBIG2 and other optimization of PDF documents. Online. In Proceedings of DocEng 2010 conference. Manchester, UK: ACM, 2010, p. 3-12. ISBN 978-1-4503-0231-9. Available from: https://dx.doi.org/10.1145/1860559.1860563. |
Other formats:
BibTeX
LaTeX
RIS
|
Basic information | |
---|---|
Original name | Document Engineering for a Digital Library: PDF recompression using JBIG2 and other optimization of PDF documents |
Name in Czech | Dokumentové inženýrství pro digitální knihovnu: rekomprese PDF s JBIG2 a další optimalizace PDF dokumentů |
Authors | SOJKA, Petr (203 Czech Republic, guarantor, belonging to the institution) and Radim HATLAPATKA (203 Czech Republic, belonging to the institution). |
Edition | Manchester, UK, Proceedings of DocEng 2010 conference, p. 3-12, 10 pp. 2010. |
Publisher | ACM |
Other information | |
---|---|
Original language | English |
Type of outcome | Proceedings paper |
Field of Study | 10201 Computer sciences, information science, bioinformatics |
Country of publisher | United Kingdom of Great Britain and Northern Ireland |
Confidentiality degree | is not subject to a state or trade secret |
Publication form | electronic version available online |
WWW | slides preprint PDF fulltext in ACM DL DOI ACM DL Proceedings (accept. rate 31%) DocEng homepage |
RIV identification code | RIV/00216224:14330/10:00040554 |
Organization unit | Faculty of Informatics |
ISBN | 978-1-4503-0231-9 |
Doi | http://dx.doi.org/10.1145/1860559.1860563 |
UT WoS | 000286949400002 |
Keywords (in Czech) | autorské nástroje a systémy; rekomprese PDF; kategorizace; klasifikace; standardizace a reprezentace dokumentů; rozpoznávání znaků; OCR; EuDML; DML-CZ; digitizační workflow; digitální matematická knihovna |
Keywords in English | Authoring tools and systems; Categorization; Classification; Document presentation; Representations/Standards; Character recognition; Digital mathematical library; Digitisation workflow |
Tags | DML-CZ, E U DML, JBIG2, MathML, OCR, PDF, TeX |
Tags | International impact, Reviewed |
Changed by | Changed by: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Changed: 10/5/2013 15:11. |
Abstract |
---|
Several innovative document transformations and tools developed in the process of building the Digital Mathematical Library DML-CZ http://dml.cz are described. The main result is our new PDF re-compression tool, developed using a enhanced jbig2enc library. Together with pdfsizeopt.py by Péter Szabó, we have managed to decrease PDF storage size and transmission needs by 62%: using both programs we reduced the size of the original already compressed PDFs to 38%. We briefly describe workflow and tools developed for creating the digital library. The batch digital signature stamper, the document similarity metrics which uses four different methods, a [meta]data validation process and math OCR tools represent some of the main [by]products. Such document engineering, together with Google Scholar indexing optimization, have led to the success of serving digitized and born-digital scientific math documents to the public in DML-CZ, and are being employed also in The European Digital Mathematics Library, EuDML. |
Abstract (in Czech) |
---|
Tento článek popisuje několik inovativních nástrojů a transformací dokumentů, které byli vyvinuty v rámci digitální matematické knihovny DML-CZ. Jako hlavní výsledek tohoto článku je prezentován námi vyvinutý nástroj pro PDF rekompresi, který využívá enkodér jbig2enc. Dohromady s dalšími programy, především pdfsizeopt.py, který vyvinul Péter Szabó, jsme byli schopni snížít velikost PDF a nároky na jejich přenos o 62 %: použitím obou nástrojů jsme snížíli velikost PDF dokumentů na 38 % z původní velikosti. V tomto článku krátce popisujeme další nástroje vyvinuté v rámci digitální knihovny. Mezi hlavní vedlejší produkty tohoto projektu patří dávkové podepisování PDF documentů, metriky vyhledávání podobností u dokumentů, které používají čtyři různé metody, process validace [meta]dat a OCR nástroje pro matematiku. Tento způsob tvorby dokumentů spolu s Google Scholar optimalizací indexace, vedlo k úspěšné obsluze digitalizovaných a born-digital vědeckých matematických dokumentů pro veřejnost v DML-CZ a bude dále nasazeno také v projektu evropské digitální matematické knihovny EuDML. |
Links | |
---|---|
LA09016, research and development project | Name: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Acronym: ERCIM) |
Investor: Ministry of Education, Youth and Sports of the CR, Czech Republic membership in the European Research Consortium for Informatics and Mathematics | |
LC536, research and development project | Name: Centrum komputační lingvistiky |
Investor: Ministry of Education, Youth and Sports of the CR, Centrum komputační lingvistiky | |
1ET200190513, research and development project | Name: DML-CZ: Česká digitální matematická knihovna |
Investor: Academy of Sciences of the Czech Republic, DML-CZ: Czech Digital Mathematical Library | |
2C06009, research and development project | Name: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Acronym: COT-SEWing) |
Investor: Ministry of Education, Youth and Sports of the CR | |
250503, interní kód MU | Name: The European Digital Mathematics Library (Acronym: EuDML) |
Investor: European Union |
PrintDisplayed: 9/10/2024 13:15