HA, Hien Thi, Aleš HORÁK, Marek MEDVEĎ and Zuzana NEVĚŘILOVÁ. OCRMiner. 2018. |
Other formats:
BibTeX
LaTeX
RIS
|
Basic information | |
---|---|
Original name | OCRMiner |
Name in Czech | OCRMiner |
Authors | HA, Hien Thi (704 Viet Nam, belonging to the institution), Aleš HORÁK (203 Czech Republic, belonging to the institution), Marek MEDVEĎ (703 Slovakia, guarantor, belonging to the institution) and Zuzana NEVĚŘILOVÁ (203 Czech Republic, belonging to the institution). |
Edition | 2018. |
Other information | |
---|---|
Original language | English |
Type of outcome | Software |
Field of Study | 10200 1.2 Computer and information sciences |
Country of publisher | Czech Republic |
Confidentiality degree | is not subject to a state or trade secret |
WWW | URL |
RIV identification code | RIV/00216224:14330/18:00101859 |
Organization unit | Faculty of Informatics |
Keywords (in Czech) | data mining; extrakce informací; klasifikace textu; OCR |
Keywords in English | data mining; information extraction; text classification; OCR |
Technical parameters | Aplikace pro vytěžování dat z finančních dokumentů. Vstupem aplikace je obrázek dokumentu, případně jazyk dokumentu, výstupem je soubor XML s vyznačenými třídami a významy jednotlivých bloků. Aplikace má webové rozhraní použitelné i pro mobilní zařízení. |
Changed by | Changed by: doc. RNDr. Aleš Horák, Ph.D., učo 1648. Changed: 2/4/2019 13:34. |
Abstract |
---|
The aim of the OCRMiner project is to use natural language processing technologies for extracting information from financial documents. At first stage, a document has to be classified, i.e. it has to be decided whether it is a financial document (invoice, proforma invoice). Second step is information extraction and detection of meaning of a particular information, i.e. classification into classes such as buyer, seller, due date. |
Abstract (in Czech) |
---|
Cílem projektu OCRMiner je využít technologií zpracování přirozeného jazyka pro vytěžování informací z finančních dokumentů. Prvním krokem řešení je klasifikace dokumentů a zjištění, zda jde o finanční dokument (faktura, proforma faktura). Druhým krokem je vytěžování informací a detekce významu těchto informací, tj. klasifikace do tříd dodavatel, odběratel, datum splatnosti apod. |
Links | |
---|---|
MUNI/A/0854/2017, interní kód MU | Name: Rozsáhlé výpočetní systémy: modely, aplikace a verifikace VII. |
Investor: Masaryk University, Category A | |
TG02010067, research and development project | Name: Rozvoj systému komercializace výsledků VaV na Masarykově univerzitě (Acronym: Rozvoj systému komercializace na MU) |
Investor: Technology Agency of the Czech Republic, Subprogram 1 |
PrintDisplayed: 26/5/2024 21:20