HA, Hien Thi, Aleš HORÁK, Marek MEDVEĎ a Zuzana NEVĚŘILOVÁ. Recognition of OCR Invoice Metadata Block Types. In P. Sojka, A. Horák, I. Kopeček, K. Pala. Text, Speech, and Dialogue, 21st International Conference, TSD 2018. Switzerland: Springer International Publishing, 2018, s. 304-312. ISBN 978-3-030-00793-5. Dostupné z: https://dx.doi.org/10.1007/978-3-030-00794-2_33.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Recognition of OCR Invoice Metadata Block Types
Autoři HA, Hien Thi (704 Vietnam, domácí), Aleš HORÁK (203 Česká republika, garant, domácí), Marek MEDVEĎ (703 Slovensko, domácí) a Zuzana NEVĚŘILOVÁ (203 Česká republika, domácí).
Vydání Switzerland, Text, Speech, and Dialogue, 21st International Conference, TSD 2018, od s. 304-312, 9 s. 2018.
Nakladatel Springer International Publishing
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Švýcarsko
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
Impakt faktor Impact factor: 0.402 v roce 2005
Kód RIV RIV/00216224:14330/18:00103049
Organizační jednotka Fakulta informatiky
ISBN 978-3-030-00793-5
ISSN 0302-9743
Doi http://dx.doi.org/10.1007/978-3-030-00794-2_33
UT WoS 000611532300033
Klíčová slova anglicky OCR;scanned documents;document metadata;invoice metadata extraction
Štítky firank_B
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 30. 4. 2019 07:42.
Anotace
Automatically cataloging of thousands of paper-based structured documents is a crucial fund-saving task for future document management systems. Current optical character recognition (OCR) systems process the tabular data with a sufficient level of character-level accuracy; however, the overall structure of the document metadata is still an open practical task. In this paper, we introduce the OCRMiner system designed to extract the indexing metadata of structured documents obtained from an image scanning process and OCR. We present the details of the system modular architecture and evaluate the detection of text block types that appear within invoice documents. The system is based on text analysis in combination of layout features, and is developed and tested in cooperation with a renowned copy machine producer. The system uses an open source OCR and reaches the overall accuracy of 80.1%.
Návaznosti
MUNI/A/0854/2017, interní kód MUNázev: Rozsáhlé výpočetní systémy: modely, aplikace a verifikace VII.
Investor: Masarykova univerzita, Rozsáhlé výpočetní systémy: modely, aplikace a verifikace VII., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
MUNI/33/55939/2017, interní kód MUNázev: Ověření úspěšnosti technik zpracování přirozeného jazyka pro extrakci informací ze skenovaných dokumentů
Investor: Masarykova univerzita, Ověření úspěšnosti technik zpracování přirozeného jazyka pro extrakci informací ze skenovaných dokumentů
VytisknoutZobrazeno: 10. 5. 2024 06:13