Recognition of OCR Invoice Metadata Block Types

HA, Hien Thi, Aleš HORÁK, Marek MEDVEĎ a Zuzana NEVĚŘILOVÁ. Recognition of OCR Invoice Metadata Block Types. In P. Sojka, A. Horák, I. Kopeček, K. Pala. Text, Speech, and Dialogue, 21st International Conference, TSD 2018. Switzerland: Springer International Publishing, 2018, s. 304-312. ISBN 978-3-030-00793-5. Dostupné z: https://dx.doi.org/10.1007/978-3-030-00794-2_33.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Recognition of OCR Invoice Metadata Block Types
Autoři	HA, Hien Thi (704 Vietnam, domácí), Aleš HORÁK (203 Česká republika, garant, domácí), Marek MEDVEĎ (703 Slovensko, domácí) a Zuzana NEVĚŘILOVÁ (203 Česká republika, domácí).
Vydání	Switzerland, Text, Speech, and Dialogue, 21st International Conference, TSD 2018, od s. 304-312, 9 s. 2018.
Nakladatel	Springer International Publishing

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Švýcarsko
Utajení	není předmětem státního či obchodního tajemství
Forma vydání	tištěná verze "print"
Impakt faktor	Impact factor: 0.402 v roce 2005
Kód RIV	RIV/00216224:14330/18:00103049
Organizační jednotka	Fakulta informatiky
ISBN	978-3-030-00793-5
ISSN	0302-9743
Doi	http://dx.doi.org/10.1007/978-3-030-00794-2_33
UT WoS	000611532300033
Klíčová slova anglicky	OCR;scanned documents;document metadata;invoice metadata extraction
Štítky	firank_B
Příznaky	Mezinárodní význam, Recenzováno
Změnil	Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 30. 4. 2019 07:42.

Anotace

Automatically cataloging of thousands of paper-based structured documents is a crucial fund-saving task for future document management systems. Current optical character recognition (OCR) systems process the tabular data with a sufficient level of character-level accuracy; however, the overall structure of the document metadata is still an open practical task. In this paper, we introduce the OCRMiner system designed to extract the indexing metadata of structured documents obtained from an image scanning process and OCR. We present the details of the system modular architecture and evaluate the detection of text block types that appear within invoice documents. The system is based on text analysis in combination of layout features, and is developed and tested in cooperation with a renowned copy machine producer. The system uses an open source OCR and reaches the overall accuracy of 80.1%.

Návaznosti
MUNI/A/0854/2017, interní kód MU	Název: Rozsáhlé výpočetní systémy: modely, aplikace a verifikace VII.
MUNI/A/0854/2017, interní kód MU	Investor: Masarykova univerzita, Rozsáhlé výpočetní systémy: modely, aplikace a verifikace VII., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
MUNI/33/55939/2017, interní kód MU	Název: Ověření úspěšnosti technik zpracování přirozeného jazyka pro extrakci informací ze skenovaných dokumentů
MUNI/33/55939/2017, interní kód MU	Investor: Masarykova univerzita, Ověření úspěšnosti technik zpracování přirozeného jazyka pro extrakci informací ze skenovaných dokumentů

VytisknoutZobrazeno: 13. 10. 2024 12:35

Recognition of OCR Invoice Metadata Block Types

Další aplikace