D 2013

Towards Machine-Actionable Modules of a Digital Mathematics Library: The Example of DML-CZ

RŮŽIČKA, Michal, Petr SOJKA and Vlastimil KREJČÍŘ

Basic information

Original name

Towards Machine-Actionable Modules of a Digital Mathematics Library: The Example of DML-CZ

Authors

RŮŽIČKA, Michal (203 Czech Republic, guarantor, belonging to the institution), Petr SOJKA (203 Czech Republic, belonging to the institution) and Vlastimil KREJČÍŘ (203 Czech Republic, belonging to the institution)

Edition

Berlin / Heidelberg, CICM 2013, LNAI 7961, p. 263-277, 15 pp. 2013

Publisher

Springer

Other information

Language

English

Type of outcome

Stať ve sborníku

Field of Study

10201 Computer sciences, information science, bioinformatics

Country of publisher

Czech Republic

Confidentiality degree

není předmětem státního či obchodního tajemství

Publication form

printed version "print"

Impact factor

Impact factor: 0.402 in 2005

RIV identification code

RIV/00216224:14330/13:00068438

Organization unit

Faculty of Informatics

ISBN

978-3-642-39319-8

ISSN

Keywords (in Czech)

DML-CZ; EuDML; DOI; ParsCit; reference; validace; DSpace; OAI-PMH; TeX; LaTeX; Tralics; Infty; automatizovaná digitální knihovna; automatizace knihoven; Google Scholar; webové metriky

Keywords in English

DML-CZ; EuDML; DOI; ParsCit; references; validation; DSpace; OAI-PMH; TeX; LaTeX; Tralics; Infty; machine-actionable digital library; library automation; Google Scholar; webometrics

Tags

Tags

International impact, Reviewed
Změněno: 28/4/2014 06:26, RNDr. Pavel Šmerk, Ph.D.

Abstract

V originále

Publishing and archiving mathematical literature presents its own sets of problems. Reaching the goal of building global digital mathematics library (DML), smaller DMLs play an inevitable role in collecting, validating, digitizing and checking data from smaller publishers. In this paper, we overview the technical challenges of building a machine-actionable set of modules we have developed over almost a decade of evolution of the Czech Digital Mathematics Library (DML-CZ). Firstly, we survey methods of effective automated data acquisition from the content providers. Then we show OCR processing of mathematical documents and automated segmentation of plain text references for metadata enhancement and effective DOI look up. Finally we describe connection to the European Digital Mathematics Library (EuDML) project and public interfaces of DML-CZ for the best visibility and accessibility.

In Czech

Publikování a archivace matematické literatury představuje samostatnou kategorii problémů. K dosažení cíle vybudování globální digitální matematické knihovny hrají nepostradatelnou roli malé digitální knihovny při shromažďování, validaci, digitalizaci a kontrole dat od menších vydavatelů. V tomto článku je představen přehled technických výzev, na které jsme narazili při vývoji automatizovaných modulů v průběhu mnohaletého budování České digitální matematické knihovny (DML-CZ). Nejdříve jsou představeny metody automatického sbírání dat od vydavatelů. Dále je představen proces optického rozpoznávání znaků (OCR) ve skenech matematických dokumentů a automatizovaná segmentace textových referencí pro obohacení metadat a efektivní dohledání DOI. Nakonec popíšeme napojení na projekt Evropské digitální matematické knihovny (EuDML) a veřejná rozhraní DML-CZ pro vylepšení viditelnosti a přístupnosti.

Links

LG13010, research and development project
Name: Zastoupení ČR v European Research Consortium for Informatics and Mathematics (Acronym: ERCIM-CZ)
Investor: Ministry of Education, Youth and Sports of the CR
250503, interní kód MU
Name: The European Digital Mathematics Library (Acronym: EuDML)
Investor: European Union