Detailed Information on Publication Record
2018
OCRMiner
HA, Hien Thi, Aleš HORÁK, Marek MEDVEĎ and Zuzana NEVĚŘILOVÁBasic information
Original name
OCRMiner
Name in Czech
OCRMiner
Authors
HA, Hien Thi (704 Viet Nam, belonging to the institution), Aleš HORÁK (203 Czech Republic, belonging to the institution), Marek MEDVEĎ (703 Slovakia, guarantor, belonging to the institution) and Zuzana NEVĚŘILOVÁ (203 Czech Republic, belonging to the institution)
Edition
2018
Other information
Language
English
Type of outcome
Software
Field of Study
10200 1.2 Computer and information sciences
Country of publisher
Czech Republic
Confidentiality degree
není předmětem státního či obchodního tajemství
References:
RIV identification code
RIV/00216224:14330/18:00101859
Organization unit
Faculty of Informatics
Keywords (in Czech)
data mining; extrakce informací; klasifikace textu; OCR
Keywords in English
data mining; information extraction; text classification; OCR
Technical parameters
Aplikace pro vytěžování dat z finančních dokumentů. Vstupem aplikace je obrázek dokumentu, případně jazyk dokumentu, výstupem je soubor XML s vyznačenými třídami a významy jednotlivých bloků. Aplikace má webové rozhraní použitelné i pro mobilní zařízení.
Změněno: 2/4/2019 13:34, doc. RNDr. Aleš Horák, Ph.D.
V originále
The aim of the OCRMiner project is to use natural language processing technologies for extracting information from financial documents. At first stage, a document has to be classified, i.e. it has to be decided whether it is a financial document (invoice, proforma invoice). Second step is information extraction and detection of meaning of a particular information, i.e. classification into classes such as buyer, seller, due date.
In Czech
Cílem projektu OCRMiner je využít technologií zpracování přirozeného jazyka pro vytěžování informací z finančních dokumentů. Prvním krokem řešení je klasifikace dokumentů a zjištění, zda jde o finanční dokument (faktura, proforma faktura). Druhým krokem je vytěžování informací a detekce významu těchto informací, tj. klasifikace do tříd dodavatel, odběratel, datum splatnosti apod.
Links
MUNI/A/0854/2017, interní kód MU |
| ||
TG02010067, research and development project |
|