D 2021

Contract Metadata Identification in Czech Scanned Documents

HA, Hien Thi, Aleš HORÁK a BUi MINH TUAN

Základní údaje

Originální název

Contract Metadata Identification in Czech Scanned Documents

Autoři

HA, Hien Thi (704 Vietnam, domácí), Aleš HORÁK (203 Česká republika, garant, domácí) a BUi MINH TUAN (704 Vietnam)

Vydání

Portugal, Proceedings of the 13th International Conference on Agents and Artificial Intelligence - Volume 2: ICAART, od s. 795-802, 8 s. 2021

Nakladatel

The SciTePress Digital Library

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Odkazy

Kód RIV

RIV/00216224:14330/21:00121131

Organizační jednotka

Fakulta informatiky

ISBN

978-989-758-484-8

UT WoS

000661455800087

Klíčová slova anglicky

Information Extraction; Scanned Documents; Document Metadata; Contract Metadata Extraction; Czech

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 23. 5. 2022 14:21, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

Although nowadays digital-born documents are generally prevalent, exchange of business documents often consists in processing their scanned image form as a general human-readable format with one-to-one correspondence to paper documents. Bulk processing of such scanned documents then requires human intervention to extract and enter the main document metadata. In this paper, we present the design and evaluation of a contract processing module in the OCRMiner system. The information extraction process allows to combine layout properties with text analysis as input to a rule-based extraction with confidence score propagation. The first results are evaluated with public Czech contract documents reaching the item extraction accuracy of almost 88%.

Návaznosti

LM2018101, projekt VaV
Název: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy