x 2006

Digitalizácia matematických textov

PANÁK, Radovan a Petr SOJKA

Základní údaje

Originální název

Digitalizácia matematických textov

Název česky

Digitalizace matematických textů

Název anglicky

Digitalization of mathematics

Autoři

PANÁK, Radovan a Petr SOJKA ORCID

Vydání

2006

Další údaje

Jazyk

slovenština

Typ výsledku

Projekty výzkumu a vývoje

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14330/06:00028750

Organizační jednotka

Fakulta informatiky

Klíčová slova anglicky

OCR; FineReader; InftyReader; XML; IML; DML CZ; structural analysis of mathematical expressions
Změněno: 16. 1. 2010 16:47, Mgr. Radovan Panák

Anotace

V originále

Práca sa venuje riešeniu problému OCR projektu digitálnej matematickej knižnice DML-CZ. Špecifické požiadavky vyplývajúce zo spracovania za účelom vytvorenia digitálnej matematickej knižnice si vyžiadali zvláštny prístup. Podobne aj spracovanie matematických textov si vyžaduje špeciálny prístup k niektorým problémom. Cieľom práce bolo umožniť automatizované spracovanie OCR v rámci projektu. Množstvo problémov sa podarilo uspokojivo vyriešiť, niektoré zostali čiastočne otvorené do budúcna. Zrejmé je, že procesy zabezpečujúce OCR je nutné pri automatizovanom dávkovom spracovaní objemov dát úrovne DML-CZ priebežne vylepšovať a prispôsobovať novým podmienkam. Implementácia riešení jednotlivých problémov je popísaná podrobnejšie.

Česky

Práca sa venuje riešeniu problému OCR projektu digitálnej matematickej knižnice DML-CZ. Špecifické požiadavky vyplývajúce zo spracovania za účelom vytvorenia digitálnej matematickej knižnice si vyžiadali zvláštny prístup. Podobne aj spracovanie matematických textov si vyžaduje špeciálny prístup k niektorým problémom. Cieľom práce bolo umožniť automatizované spracovanie OCR v rámci projektu. Množstvo problémov sa podarilo uspokojivo vyriešiť, niektoré zostali čiastočne otvorené do budúcna. Zrejmé je, že procesy zabezpečujúce OCR je nutné pri automatizovanom dávkovom spracovaní objemov dát úrovne DML-CZ priebežne vylepšovať a prispôsobovať novým podmienkam. Implementácia riešení jednotlivých problémov je popísaná podrobnejšie.

Anglicky

This thesis is about solving the OCR process for DML-CZ project. Common text and mathematical OCR methods are introduced to reader. In following chapters, our implemented solution is desribed and also how to improve it in future.

Návaznosti

1ET200190513, projekt VaV
Název: DML-CZ: Česká digitální matematická knihovna
Investor: Akademie věd ČR, DML-CZ: Česká digitální matematická knihovna