R 2018

OCRMiner

HA, Hien Thi, Aleš HORÁK, Marek MEDVEĎ a Zuzana NEVĚŘILOVÁ

Základní údaje

Originální název

OCRMiner

Název česky

OCRMiner

Autoři

HA, Hien Thi (704 Vietnam, domácí), Aleš HORÁK (203 Česká republika, domácí), Marek MEDVEĎ (703 Slovensko, garant, domácí) a Zuzana NEVĚŘILOVÁ (203 Česká republika, domácí)

Vydání

2018

Další údaje

Jazyk

angličtina

Typ výsledku

Software

Obor

10200 1.2 Computer and information sciences

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Kód RIV

RIV/00216224:14330/18:00101859

Organizační jednotka

Fakulta informatiky

Klíčová slova česky

data mining; extrakce informací; klasifikace textu; OCR

Klíčová slova anglicky

data mining; information extraction; text classification; OCR

Technické parametry

Aplikace pro vytěžování dat z finančních dokumentů. Vstupem aplikace je obrázek dokumentu, případně jazyk dokumentu, výstupem je soubor XML s vyznačenými třídami a významy jednotlivých bloků. Aplikace má webové rozhraní použitelné i pro mobilní zařízení.
Změněno: 2. 4. 2019 13:34, doc. RNDr. Aleš Horák, Ph.D.

Anotace

V originále

The aim of the OCRMiner project is to use natural language processing technologies for extracting information from financial documents. At first stage, a document has to be classified, i.e. it has to be decided whether it is a financial document (invoice, proforma invoice). Second step is information extraction and detection of meaning of a particular information, i.e. classification into classes such as buyer, seller, due date.

Česky

Cílem projektu OCRMiner je využít technologií zpracování přirozeného jazyka pro vytěžování informací z finančních dokumentů. Prvním krokem řešení je klasifikace dokumentů a zjištění, zda jde o finanční dokument (faktura, proforma faktura). Druhým krokem je vytěžování informací a detekce významu těchto informací, tj. klasifikace do tříd dodavatel, odběratel, datum splatnosti apod.

Návaznosti

MUNI/A/0854/2017, interní kód MU
Název: Rozsáhlé výpočetní systémy: modely, aplikace a verifikace VII.
Investor: Masarykova univerzita, Rozsáhlé výpočetní systémy: modely, aplikace a verifikace VII., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
TG02010067, projekt VaV
Název: Rozvoj systému komercializace výsledků VaV na Masarykově univerzitě (Akronym: Rozvoj systému komercializace na MU)
Investor: Technologická agentura ČR, Rozvoj systému komercializace výsledků VaV na Masarykově univerzitě II., Podprogram 1