Bakalářská práce

Recognition of Mathematical Texts

Miroslav Hrdina
Anotace

Táto práca sa zameriava na vyriešenie problému rozpoznávania znakov pre projekt EuDML so zameraním na rozpoznávanie matematického obsahu. Cieľom práce bolo navrhnúť pracovný postup pre matematické OCR, ktorý transformuje matematické publikácie na indexovatelný rozpoznaný výstup. To bolo dosiahnuté použitím OCR sofvéru InftyReader. Zvolený postup práce bol otestovaný a výsledky boli vyhodnotené. Počas …více

Abstract

This work aims to resolve the OCR issue for EuDML project with the most important part being the recognition of mathematical content. Goal of this work was to create workflow for mathematical OCR, which transforms the mathematical publications to indexable recognized output. This was achieved by using the InftyReader OCR software. The chosen recognition workflow was tested and results were evaluated …více

Zadání práce
Student se seznámí se stávajícími postupy rozpoznávání textů (OCR) se zřetelem na matematické texty, zejména s existujícím řešením z DP Panáka a Mudráka využívajícím SDK FineReader a s výsledky projektu Infty.

Seznámí se dse stávajícími technologiemi a realizuje worflow pro matematické OCR s využitím zakoupené verze Infty a Finereader nad daty projektu DML-CZ. Navrhne rozšíření workflow o krok vedoucí k indexovatelné textové podobě rozpoznávaných matematických textů (MathML, LaTeX).

Navrhne postup vyhodnocení a testování kvality OCR založený na referenční sadě příkladů dobře rozpoznaných stránek (ground truth). V případě nasazení realizovaného řešení je možná finanční odměna formou DOPP.

Práce zkontrolována:
14. 1. 2013 08:21, doc. RNDr. Petr Sojka, Ph.D., učo 2378
Plný text práce
453,7 KB / soubor PDF
Jazyk práce
angličtina angličtina
Termín obhajoby
4. 2. 2013
Práce byla úspěšně obhájena

Vedoucí

doc. RNDr. Petr Sojka, Ph.D., učo 2378
KVI FI MU

Oponent

Mgr. Vlastimil Krejčíř, učo 4189
KSOV ScColl CERIT-SC ÚVT MU

Konzultant

RNDr. Michal Růžička, Ph.D., učo 143424
ADM RE-infra CERIT-SC ÚVT MU

Literatura

  • SUZUKI, Masakazu; Fumikazu TAMARI; Ryoji FUKUDA; Seiichi UCHIDA a Toshihiro KANAHORI. INFTY: an integrated OCR system for mathematical documents. In Proceedings of the 2003 ACM symposium on Document engineering. Grenoble: ACM, 2003, s. 95-104. ISBN 1-58113-724-9.

Masarykova univerzita Fakulta informatiky
Studijní program
Aplikovaná informatika
Obor

Práce na příbuzné téma

Seznam prací, které mají shodná klíčová slova.

  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.