When Tesseract Does It Alone: Optical Character Recognition of
Medieval Texts

D 2020

When Tesseract Does It Alone: Optical Character Recognition of Medieval Texts

NOVOTNÝ, Vít

Základní údaje

Originální název

When Tesseract Does It Alone: Optical Character Recognition of Medieval Texts

Autoři

NOVOTNÝ, Vít (203 Česká republika, garant, domácí)

Vydání

Brno, Proceedings of the Fourteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2020, od s. 3-12, 10 s. 2020

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Domovská stránka workshopu PDF

Kód RIV

RIV/00216224:14330/20:00117104

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-1600-8

ISSN

UT WoS

000655471300001

Klíčová slova anglicky

Optical character recognition; OCR; Historical texts

Štítky

OCR, Optical Character Recognition

Příznaky

Mezinárodní význam

Změněno: 16. 5. 2022 15:06, Mgr. Michal Petr

Anotace

V originále

Optical character recognition of scanned images for contemporary printed texts is widely considered a solved problem. However, the optical character recognition of early printed books and reprints of Medieval texts remains an open challenge.

In our work, we present a dataset of 19th and 20th century letterpress reprints of documents from the Hussite era (1419–1436) and perform a quantitative and qualitative evaluation of speed and accuracy on six existing OCR algorithms.

We conclude that the Tesseract family of OCR algoritms is the fastest and the most accurate on our dataset, and we suggest improvements to our dataset.

Návaznosti

MUNI/A/1076/2019, interní kód MU

Název: Zapojení studentů Fakulty informatiky do mezinárodní vědecké komunity 20 (Akronym: SKOMU)

Investor: Masarykova univerzita, Zapojení studentů Fakulty informatiky do mezinárodní vědecké komunity 20, DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty

MUNI/A/1411/2019, interní kód MU

Název: Aplikovaný výzkum: softwarové architektury kritických infrastruktur, bezpečnost počítačových systémů, zpracování přirozeného jazyka a jazykové inženýrství, vizualizaci velkých dat a rozšířená realita.

Investor: Masarykova univerzita, Aplikovaný výzkum: softwarové architektury kritických infrastruktur, bezpečnost počítačových systémů, zpracování přirozeného jazyka a jazykové inženýrství, vizualizaci velkých dat a rozšířená realita., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty

Podrobný výpis o publikaci