J 2009

Digitisation Workflow in the Czech Digital Mathematics Library

SOJKA, Petr

Základní údaje

Originální název

Digitisation Workflow in the Czech Digital Mathematics Library

Název česky

Technologie digitalizace České digitální matematické knihovny

Autoři

SOJKA, Petr (203 Česká republika, garant, domácí)

Vydání

Math-for-Industry, Kyushu, Japan, Faculty of Mathematics,Kyushu University, 2009, 1881-4042

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Japonsko

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/09:00028732

Organizační jednotka

Fakulta informatiky

Klíčová slova česky

DML-CZ; digitizační workflow; česká matematická literatura; projekt digitální matematické knihovny; skenování; MathML; vyhledávání matematiky; metadata; metadatový editor; FineReader

Klíčová slova anglicky

DML-CZ; digitisation workflow; Czech mathematical literature; Digital mathematics library project; scanning; MathML; math retrieval; metadata; metadata editor; FineReader

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 25. 9. 2012 16:02, doc. RNDr. Petr Sojka, Ph.D.

Anotace

V originále

Experience in setting up a workflow from scanned images of mathematical writings into a fully fledged mathematical library is described on the example of the project Czech Digital Mathematics Library DML-CZ http://dml.cz. An overview of the whole process is given, with detailed description of production steps involving scanned image processing and optical character recognition. Experience gained, lessons learned and tools prepared during development of DML-CZ are described. DML-CZ now serves over 25,600 articles (275,000 digitised pages) to the public.

Česky

V článku sumarizujeme zkušenosti z vývoje digitalizačního procesu (od naskenovaných obrázků stránek až po plnotextovou digitální knihovnu) projektu České digitální matematické knihovny DML-CZ http://dml.cz . Je podán přehled celého procesu, spolu s detailnějším popisem kroků zpracovávajících skenované bitmapy a OCR matematického textu. Upozorňujeme na možná úskalí a problémy, s nimiž jsme se při práci na DML-CZ (275000 volně zveřejněných stránek) potýkali.

Návaznosti

1ET200190513, projekt VaV
Název: DML-CZ: Česká digitální matematická knihovna
Investor: Akademie věd ČR, DML-CZ: Česká digitální matematická knihovna
2C06009, projekt VaV
Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce