2021
Contract Metadata Identification in Czech Scanned Documents
HA, Hien Thi, Aleš HORÁK a BUi MINH TUANZákladní údaje
Originální název
Contract Metadata Identification in Czech Scanned Documents
Autoři
HA, Hien Thi (704 Vietnam, domácí), Aleš HORÁK (203 Česká republika, garant, domácí) a BUi MINH TUAN (704 Vietnam)
Vydání
Portugal, Proceedings of the 13th International Conference on Agents and Artificial Intelligence - Volume 2: ICAART, od s. 795-802, 8 s. 2021
Nakladatel
The SciTePress Digital Library
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
elektronická verze "online"
Odkazy
Kód RIV
RIV/00216224:14330/21:00121131
Organizační jednotka
Fakulta informatiky
ISBN
978-989-758-484-8
UT WoS
000661455800087
Klíčová slova anglicky
Information Extraction; Scanned Documents; Document Metadata; Contract Metadata Extraction; Czech
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 23. 5. 2022 14:21, RNDr. Pavel Šmerk, Ph.D.
Anotace
V originále
Although nowadays digital-born documents are generally prevalent, exchange of business documents often consists in processing their scanned image form as a general human-readable format with one-to-one correspondence to paper documents. Bulk processing of such scanned documents then requires human intervention to extract and enter the main document metadata. In this paper, we present the design and evaluation of a contract processing module in the OCRMiner system. The information extraction process allows to combine layout properties with text analysis as input to a rule-based extraction with confidence score propagation. The first results are evaluated with public Czech contract documents reaching the item extraction accuracy of almost 88%.
Návaznosti
LM2018101, projekt VaV |
|