SOJKA, Petr. Document Engineering for Digital Libraries (invited talk 5.11.2010,Portsmouth University Computing Seminar,UK). In University of Portsmouth Computing Seminar. 2010.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Document Engineering for Digital Libraries (invited talk 5.11.2010,Portsmouth University Computing Seminar,UK)
Název česky Dokumentové inženýrství pro digitální knihovny (zvaná přednáška 5.11.2010,Portsmouth University Computing Seminar,Portsmouth,UK)
Autoři SOJKA, Petr (203 Česká republika, garant, domácí).
Vydání University of Portsmouth Computing Seminar, 2010.
Další údaje
Originální jazyk angličtina
Typ výsledku Vyžádané přednášky
Obor Dokumentace, knihovnictví, práce s informacemi
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
WWW slides
Kód RIV RIV/00216224:14330/10:00045289
Organizační jednotka Fakulta informatiky
Klíčová slova česky digitalizace matematických dokumentů;DML-CZ;workflow digitalizace;digitalni knihovny;pdfjbim;jbig2enc;RDF recompression
Klíčová slova anglicky mathematics knowledge management;DML-CZ;digitization workflow;digital libraries;pdfJbim;big2enc;PDF recompression
Štítky DML-CZ, EuDML--The European Digital Mathematics Library
Příznaky Mezinárodní význam
Změnil Změnil: doc. RNDr. Petr Sojka, Ph.D., učo 2378. Změněno: 28. 5. 2012 17:12.
Anotace
Several innovative document transformations and tools developed in the process of building the Digital Mathematical Library DML-CZ http://dml.cz are described. The main result is our new PDF re-compression tool, developed using a enhanced jbig2enc library. Together with pdfsizeopt.py by Péter Szabó, we have managed to decrease PDF storage size and transmission needs by 62%: using both programs we reduced the size of the original already compressed PDFs to 38%. We briefly describe workflow and tools developed for creating the digital library. The batch digital signature stamper, the document similarity metrics which uses four different methods, a [meta]data validation process and math OCR tools represent some of the main [by]products. Such document engineering, together with Google Scholar indexing optimization, have led to the success of serving digitized and born-digital scientific math documents to the public in DML-CZ, and are being employed also in The European Digital Mathematics Library, EuDML.
Anotace česky
Přednáška bude uvozena vizí světové digitální matematické knihovny. Popíši architekturu zpracování matematických dokumentů v Digitální matematické knihovně DML-CZ. Speciální pozornost bude věnována vyvinutym inovativním nástrojům a transformací dokumentů, které byly vyvinuty v rámci digitální matematické knihovny DML-CZ: nástroj pro PDF rekompresi, který využívá enkodér jbig2enc. Dohromady s dalšími programy, především pdfsizeopt.py, který vyvinul Péter Szabó, jsme byli schopni snížít velikost PDF a nároky na jejich přenos o 62 %: použitím obou nástrojů jsme snížíli velikost PDF dokumentů na 38 % z původní velikosti. Mezi produkty tohoto projektu patří i dávkové podepisování PDF documentů, metriky vyhledávání podobností u dokumentů, které používají čtyři různé metody, process validace [meta]dat a OCR nástroje pro matematiku. Tento způsob tvorby dokumentů spolu s Google Scholar optimalizací indexace, vedlo k úspěšné obsluze digitalizovaných a born-digital vědeckých matematických dokumentů pro veřejnost v DML-CZ a bude dále nasazeno také v projektu evropské digitální matematické knihovny EuDML.
Návaznosti
LA09016, projekt VaVNázev: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Akronym: ERCIM)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Účast ČR v European Research Consortium for Informatics and Mathematics
250503, interní kód MUNázev: The European Digital Mathematics Library (Akronym: EuDML)
Investor: Evropská unie, The European Digital Mathematics Library
VytisknoutZobrazeno: 29. 3. 2024 07:22