HA, Hien Thi, Aleš HORÁK, Marek MEDVEĎ a Zuzana NEVĚŘILOVÁ. OCRMiner. 2018.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název OCRMiner
Název česky OCRMiner
Autoři HA, Hien Thi (704 Vietnam, domácí), Aleš HORÁK (203 Česká republika, domácí), Marek MEDVEĎ (703 Slovensko, garant, domácí) a Zuzana NEVĚŘILOVÁ (203 Česká republika, domácí).
Vydání 2018.
Další údaje
Originální jazyk angličtina
Typ výsledku Software
Obor 10200 1.2 Computer and information sciences
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
WWW URL
Kód RIV RIV/00216224:14330/18:00101859
Organizační jednotka Fakulta informatiky
Klíčová slova česky data mining; extrakce informací; klasifikace textu; OCR
Klíčová slova anglicky data mining; information extraction; text classification; OCR
Technické parametry Aplikace pro vytěžování dat z finančních dokumentů. Vstupem aplikace je obrázek dokumentu, případně jazyk dokumentu, výstupem je soubor XML s vyznačenými třídami a významy jednotlivých bloků. Aplikace má webové rozhraní použitelné i pro mobilní zařízení.
Změnil Změnil: doc. RNDr. Aleš Horák, Ph.D., učo 1648. Změněno: 2. 4. 2019 13:34.
Anotace
The aim of the OCRMiner project is to use natural language processing technologies for extracting information from financial documents. At first stage, a document has to be classified, i.e. it has to be decided whether it is a financial document (invoice, proforma invoice). Second step is information extraction and detection of meaning of a particular information, i.e. classification into classes such as buyer, seller, due date.
Anotace česky
Cílem projektu OCRMiner je využít technologií zpracování přirozeného jazyka pro vytěžování informací z finančních dokumentů. Prvním krokem řešení je klasifikace dokumentů a zjištění, zda jde o finanční dokument (faktura, proforma faktura). Druhým krokem je vytěžování informací a detekce významu těchto informací, tj. klasifikace do tříd dodavatel, odběratel, datum splatnosti apod.
Návaznosti
MUNI/A/0854/2017, interní kód MUNázev: Rozsáhlé výpočetní systémy: modely, aplikace a verifikace VII.
Investor: Masarykova univerzita, Rozsáhlé výpočetní systémy: modely, aplikace a verifikace VII., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
TG02010067, projekt VaVNázev: Rozvoj systému komercializace výsledků VaV na Masarykově univerzitě (Akronym: Rozvoj systému komercializace na MU)
Investor: Technologická agentura ČR, Rozvoj systému komercializace výsledků VaV na Masarykově univerzitě II., Podprogram 1
VytisknoutZobrazeno: 26. 4. 2024 20:18