HA, Hien Thi, Aleš HORÁK a BUi MINH TUAN. Contract Metadata Identification in Czech Scanned Documents. Online. In Ana Paula Rocha ; Luc Steels and Jaap van den Herik. Proceedings of the 13th International Conference on Agents and Artificial Intelligence - Volume 2: ICAART. Portugal: The SciTePress Digital Library, 2021, s. 795-802. ISBN 978-989-758-484-8. Dostupné z: https://dx.doi.org/10.5220/0010243807950802.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Contract Metadata Identification in Czech Scanned Documents
Autoři HA, Hien Thi (704 Vietnam, domácí), Aleš HORÁK (203 Česká republika, garant, domácí) a BUi MINH TUAN (704 Vietnam).
Vydání Portugal, Proceedings of the 13th International Conference on Agents and Artificial Intelligence - Volume 2: ICAART, od s. 795-802, 8 s. 2021.
Nakladatel The SciTePress Digital Library
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Utajení není předmětem státního či obchodního tajemství
Forma vydání elektronická verze "online"
WWW URL
Kód RIV RIV/00216224:14330/21:00121131
Organizační jednotka Fakulta informatiky
ISBN 978-989-758-484-8
Doi http://dx.doi.org/10.5220/0010243807950802
UT WoS 000661455800087
Klíčová slova anglicky Information Extraction; Scanned Documents; Document Metadata; Contract Metadata Extraction; Czech
Štítky firank_B
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 23. 5. 2022 14:21.
Anotace
Although nowadays digital-born documents are generally prevalent, exchange of business documents often consists in processing their scanned image form as a general human-readable format with one-to-one correspondence to paper documents. Bulk processing of such scanned documents then requires human intervention to extract and enter the main document metadata. In this paper, we present the design and evaluation of a contract processing module in the OCRMiner system. The information extraction process allows to combine layout properties with text analysis as input to a rule-based extraction with confidence score propagation. The first results are evaluated with public Czech contract documents reaching the item extraction accuracy of almost 88%.
Návaznosti
LM2018101, projekt VaVNázev: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
VytisknoutZobrazeno: 26. 8. 2024 00:53