GELETKA, Martin, Mikuláš BANKOVIČ, Dávid MELUŠ, Šárka ŠČAVNICKÁ, Michal ŠTEFÁNIK a Petr SOJKA. Information Extraction from Business Documents. In Aleš Horák, Pavel Rychlý, Adam Rambousek. Recent Advances in Slavonic Natural Language Processing (RASLAN 2022). Brno: Tribun EU, 2022, s. 35-46. ISBN 978-80-263-1752-4.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Information Extraction from Business Documents
Autoři GELETKA, Martin (703 Slovensko, garant, domácí), Mikuláš BANKOVIČ (703 Slovensko, domácí), Dávid MELUŠ (703 Slovensko, domácí), Šárka ŠČAVNICKÁ (703 Slovensko, domácí), Michal ŠTEFÁNIK (703 Slovensko, domácí) a Petr SOJKA (203 Česká republika, domácí).
Vydání Brno, Recent Advances in Slavonic Natural Language Processing (RASLAN 2022), od s. 35-46, 12 s. 2022.
Nakladatel Tribun EU
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW fulltext PDF
Kód RIV RIV/00216224:14330/22:00127213
Organizační jednotka Fakulta informatiky
ISBN 978-80-263-1752-4
ISSN 2336-4289
Klíčová slova česky OCR; multimodální učení; extrakce informací; transformery; strukturované dokumenty
Klíčová slova anglicky OCR; Multi-modal learning; Information extraction; Transformers; Structured Documents
Příznaky Mezinárodní význam
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 15. 5. 2024 09:51.
Anotace
Document AI is a relatively new research topic that refers to techniques for automatically reading, understanding, and analyzing business documents. Nowadays, many companies extract data from business documents through manual efforts that are time-consuming and expensive, requiring manual customization or configuration. This paper describes techniques to address these problems, apply them to real-world data, and implement them to an end-to-end solution for automatic information extraction from business documents.
Návaznosti
CZ.01.1.02/0.0/0.0/21_374/0026711, interní kód MUNázev: Inteligentní back office
Investor: Ministerstvo průmyslu a obchodu ČR, Inteligentní back office
EG21_374/0026711, projekt VaVNázev: Inteligentní back office
MUNI/A/1195/2021, interní kód MUNázev: Aplikovaný výzkum v oblastech vyhledávání, analýz a vizualizací rozsáhlých dat, zpracování přirozeného jazyka a aplikované umělé inteligence
Investor: Masarykova univerzita, Aplikovaný výzkum v oblastech vyhledávání, analýz a vizualizací rozsáhlých dat, zpracování přirozeného jazyka a aplikované umělé inteligence
VytisknoutZobrazeno: 18. 7. 2024 11:01