R 2018

OCRMiner

HA, Hien Thi, Aleš HORÁK, Marek MEDVEĎ and Zuzana NEVĚŘILOVÁ

Basic information

Original name

OCRMiner

Name in Czech

OCRMiner

Authors

HA, Hien Thi (704 Viet Nam, belonging to the institution), Aleš HORÁK (203 Czech Republic, belonging to the institution), Marek MEDVEĎ (703 Slovakia, guarantor, belonging to the institution) and Zuzana NEVĚŘILOVÁ (203 Czech Republic, belonging to the institution)

Edition

2018

Other information

Language

English

Type of outcome

Software

Field of Study

10200 1.2 Computer and information sciences

Country of publisher

Czech Republic

Confidentiality degree

není předmětem státního či obchodního tajemství

References:

RIV identification code

RIV/00216224:14330/18:00101859

Organization unit

Faculty of Informatics

Keywords (in Czech)

data mining; extrakce informací; klasifikace textu; OCR

Keywords in English

data mining; information extraction; text classification; OCR

Technical parameters

Aplikace pro vytěžování dat z finančních dokumentů. Vstupem aplikace je obrázek dokumentu, případně jazyk dokumentu, výstupem je soubor XML s vyznačenými třídami a významy jednotlivých bloků. Aplikace má webové rozhraní použitelné i pro mobilní zařízení.
Změněno: 2/4/2019 13:34, doc. RNDr. Aleš Horák, Ph.D.

Abstract

V originále

The aim of the OCRMiner project is to use natural language processing technologies for extracting information from financial documents. At first stage, a document has to be classified, i.e. it has to be decided whether it is a financial document (invoice, proforma invoice). Second step is information extraction and detection of meaning of a particular information, i.e. classification into classes such as buyer, seller, due date.

In Czech

Cílem projektu OCRMiner je využít technologií zpracování přirozeného jazyka pro vytěžování informací z finančních dokumentů. Prvním krokem řešení je klasifikace dokumentů a zjištění, zda jde o finanční dokument (faktura, proforma faktura). Druhým krokem je vytěžování informací a detekce významu těchto informací, tj. klasifikace do tříd dodavatel, odběratel, datum splatnosti apod.

Links

MUNI/A/0854/2017, interní kód MU
Name: Rozsáhlé výpočetní systémy: modely, aplikace a verifikace VII.
Investor: Masaryk University, Category A
TG02010067, research and development project
Name: Rozvoj systému komercializace výsledků VaV na Masarykově univerzitě (Acronym: Rozvoj systému komercializace na MU)
Investor: Technology Agency of the Czech Republic, Subprogram 1