D 2021

Who is Selling to Whom – Feature Evaluation for Multi-block Classification in Invoice Information Extraction

HA, Hien Thi a Aleš HORÁK

Základní údaje

Originální název

Who is Selling to Whom – Feature Evaluation for Multi-block Classification in Invoice Information Extraction

Autoři

HA, Hien Thi (704 Vietnam, domácí) a Aleš HORÁK (203 Česká republika, domácí)

Vydání

St. Petersburg, Russia, SPECOM 2021: 23rd International Conference on Speech and Computer, od s. 250-261, 12 s. 2021

Nakladatel

Springer

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Odkazy

Impakt faktor

Impact factor: 0.402 v roce 2005

Kód RIV

RIV/00216224:14330/21:00123275

Organizační jednotka

Fakulta informatiky

ISBN

978-3-030-87801-6

ISSN

Klíčová slova anglicky

OCR; Invoice; Block type classification; Seller; Buyer; Delivery address

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 10. 10. 2022 10:26, doc. RNDr. Aleš Horák, Ph.D.

Anotace

V originále

The invoice information extraction task aims at unifying the automatized processing of invoices in structured forms and in the form of a scanned image. Recognizing the pieces of information where a specific value is identified with a keyword (such as the invoice date) is a relatively well-managed task. On the other hand, identification of multi-block information on the invoice, such as distinguishing the seller, buyer, and the delivery address, is much more challenging due to versatile invoice layouts. In this work, we present a new technique of feature extraction and classification to recognize the seller, buyer, and delivery address text blocks in scanned invoices based on a combination of complex layout and annotated text features. The method does not only consider the block positional features but also the relation between blocks and block contents at a higher level. The technique is implemented as a module of the OCRMiner system. We offer its detailed evaluation and error analysis with a dataset of more than five hundred Czech invoices reaching the overall macro average F1-score of 94%.

Návaznosti

LM2018101, projekt VaV
Název: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
MUNI/A/1195/2021, interní kód MU
Název: Aplikovaný výzkum v oblastech vyhledávání, analýz a vizualizací rozsáhlých dat, zpracování přirozeného jazyka a aplikované umělé inteligence
Investor: Masarykova univerzita, Aplikovaný výzkum v oblastech vyhledávání, analýz a vizualizací rozsáhlých dat, zpracování přirozeného jazyka a aplikované umělé inteligence