HA, Hien Thi, Aleš HORÁK, Marek MEDVEĎ and Zuzana NEVĚŘILOVÁ. OCRMiner. 2018.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name OCRMiner
Name in Czech OCRMiner
Authors HA, Hien Thi (704 Viet Nam, belonging to the institution), Aleš HORÁK (203 Czech Republic, belonging to the institution), Marek MEDVEĎ (703 Slovakia, guarantor, belonging to the institution) and Zuzana NEVĚŘILOVÁ (203 Czech Republic, belonging to the institution).
Edition 2018.
Other information
Original language English
Type of outcome Software
Field of Study 10200 1.2 Computer and information sciences
Country of publisher Czech Republic
Confidentiality degree is not subject to a state or trade secret
WWW URL
RIV identification code RIV/00216224:14330/18:00101859
Organization unit Faculty of Informatics
Keywords (in Czech) data mining; extrakce informací; klasifikace textu; OCR
Keywords in English data mining; information extraction; text classification; OCR
Technical parameters Aplikace pro vytěžování dat z finančních dokumentů. Vstupem aplikace je obrázek dokumentu, případně jazyk dokumentu, výstupem je soubor XML s vyznačenými třídami a významy jednotlivých bloků. Aplikace má webové rozhraní použitelné i pro mobilní zařízení.
Changed by Changed by: doc. RNDr. Aleš Horák, Ph.D., učo 1648. Changed: 2/4/2019 13:34.
Abstract
The aim of the OCRMiner project is to use natural language processing technologies for extracting information from financial documents. At first stage, a document has to be classified, i.e. it has to be decided whether it is a financial document (invoice, proforma invoice). Second step is information extraction and detection of meaning of a particular information, i.e. classification into classes such as buyer, seller, due date.
Abstract (in Czech)
Cílem projektu OCRMiner je využít technologií zpracování přirozeného jazyka pro vytěžování informací z finančních dokumentů. Prvním krokem řešení je klasifikace dokumentů a zjištění, zda jde o finanční dokument (faktura, proforma faktura). Druhým krokem je vytěžování informací a detekce významu těchto informací, tj. klasifikace do tříd dodavatel, odběratel, datum splatnosti apod.
Links
MUNI/A/0854/2017, interní kód MUName: Rozsáhlé výpočetní systémy: modely, aplikace a verifikace VII.
Investor: Masaryk University, Category A
TG02010067, research and development projectName: Rozvoj systému komercializace výsledků VaV na Masarykově univerzitě (Acronym: Rozvoj systému komercializace na MU)
Investor: Technology Agency of the Czech Republic, Subprogram 1
PrintDisplayed: 26/5/2024 21:20