2019
Approximate String Matching for Detecting Keywords in Scanned Business Documents
HA, Hien ThiZákladní údaje
Originální název
Approximate String Matching for Detecting Keywords in Scanned Business Documents
Autoři
HA, Hien Thi (704 Vietnam, garant, domácí)
Vydání
Brno, Czech Republic, Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2019, od s. 49-54, 6 s. 2019
Nakladatel
NLP Consulting
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
elektronická verze "online"
Odkazy
Kód RIV
RIV/00216224:14330/19:00113733
Organizační jednotka
Fakulta informatiky
ISBN
978-80-263-1530-8
ISSN
UT WoS
000604899800006
Klíčová slova anglicky
approximate string matching; Levenshtein distance; weighted edit distance; OCR; invoice
Příznaky
Mezinárodní význam, Recenzováno
Změněno: 15. 5. 2024 01:32, RNDr. Pavel Šmerk, Ph.D.
Anotace
V originále
Optical Character Recognition (OCR) is achieving higher ac- curacy. However, to decrease error rate down to zero is still a human desire. This paper presents an approximate string matching method using weighted edit distance for searching keywords in OCR-ed business docu- ments. The evaluation on a Czech invoice dataset shows that the method can detect a significant part of erroneous keywords.