D 2014

Digitization Workflow in the Czech Digital Mathematics Library

SOJKA, Petr

Basic information

Original name

Digitization Workflow in the Czech Digital Mathematics Library

Name in Czech

Technologie digitalizace České digitální matematické knihovny

Authors

SOJKA, Petr (203 Czech Republic, guarantor, belonging to the institution)

Edition

Berlin, Heidelberg, Computer Mathematics, p. 147-156, 10 pp. 2014

Publisher

Springer Berlin Heidelberg

Other information

Language

English

Type of outcome

Proceedings paper

Field of Study

20200 2.2 Electrical engineering, Electronic engineering, Information engineering

Country of publisher

Germany

Confidentiality degree

is not subject to a state or trade secret

Publication form

printed version "print"

References:

RIV identification code

RIV/00216224:14330/14:00073362

Organization unit

Faculty of Informatics

ISBN

978-3-662-43798-8

Keywords (in Czech)

DML-CZ; digitizační workflow; česká matematická literatura; projekt digitální matematické knihovny; skenování; MathML; vyhledávání matematiky; metadata; metadatový editor; FineReader

Keywords in English

DML-CZ; digitisation workflow; Czech mathematical literature; Digital mathematics library project; scanning; MathML; math retrieval; metadata; metadata editor; FineReader

Tags

International impact, Reviewed
Changed: 28/4/2015 22:28, doc. RNDr. Petr Sojka, Ph.D.

Abstract

V originále

Experience in setting up a workflow from scanned images of mathematical writings into a fully fledged mathematical library is described on the example of the project Czech Digital Mathematics Library DML-CZ http://dml.cz. An overview of the whole process is given, with detailed description of production steps involving scanned image processing and optical character recognition. Experience gained, lessons learned and tools prepared during development of DML-CZ are described. DML-CZ now serves over 30,000 articles (300,000 digitised pages) to the public.

In Czech

V článku sumarizujeme zkušenosti z vývoje digitalizačního procesu (od naskenovaných obrázků stránek až po plnotextovou digitální knihovnu) projektu České digitální matematické knihovny DML-CZ http://dml.cz . Je podán přehled celého procesu, spolu s detailnějším popisem kroků zpracovávajících skenované bitmapy a OCR matematického textu. Upozorňujeme na možná úskalí a problémy, s nimiž jsme se při práci na DML-CZ (300000 volně zveřejněných stránek) potýkali.

Links

LA09016, research and development project
Name: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Acronym: ERCIM)
Investor: Ministry of Education, Youth and Sports of the CR, Czech Republic membership in the European Research Consortium for Informatics and Mathematics
1ET200190513, research and development project
Name: DML-CZ: Česká digitální matematická knihovna
Investor: Academy of Sciences of the Czech Republic, DML-CZ: Czech Digital Mathematical Library
2C06009, research and development project
Name: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Acronym: COT-SEWing)
Investor: Ministry of Education, Youth and Sports of the CR