2018
OCRMiner
HA, Hien Thi, Aleš HORÁK, Marek MEDVEĎ a Zuzana NEVĚŘILOVÁZákladní údaje
Originální název
OCRMiner
Název česky
OCRMiner
Autoři
HA, Hien Thi (704 Vietnam, domácí), Aleš HORÁK (203 Česká republika, domácí), Marek MEDVEĎ (703 Slovensko, garant, domácí) a Zuzana NEVĚŘILOVÁ (203 Česká republika, domácí)
Vydání
2018
Další údaje
Jazyk
angličtina
Typ výsledku
Software
Obor
10200 1.2 Computer and information sciences
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Odkazy
Kód RIV
RIV/00216224:14330/18:00101859
Organizační jednotka
Fakulta informatiky
Klíčová slova česky
data mining; extrakce informací; klasifikace textu; OCR
Klíčová slova anglicky
data mining; information extraction; text classification; OCR
Technické parametry
Aplikace pro vytěžování dat z finančních dokumentů. Vstupem aplikace je obrázek dokumentu, případně jazyk dokumentu, výstupem je soubor XML s vyznačenými třídami a významy jednotlivých bloků. Aplikace má webové rozhraní použitelné i pro mobilní zařízení.
Změněno: 2. 4. 2019 13:34, doc. RNDr. Aleš Horák, Ph.D.
V originále
The aim of the OCRMiner project is to use natural language processing technologies for extracting information from financial documents. At first stage, a document has to be classified, i.e. it has to be decided whether it is a financial document (invoice, proforma invoice). Second step is information extraction and detection of meaning of a particular information, i.e. classification into classes such as buyer, seller, due date.
Česky
Cílem projektu OCRMiner je využít technologií zpracování přirozeného jazyka pro vytěžování informací z finančních dokumentů. Prvním krokem řešení je klasifikace dokumentů a zjištění, zda jde o finanční dokument (faktura, proforma faktura). Druhým krokem je vytěžování informací a detekce významu těchto informací, tj. klasifikace do tříd dodavatel, odběratel, datum splatnosti apod.
Návaznosti
MUNI/A/0854/2017, interní kód MU |
| ||
TG02010067, projekt VaV |
|