V originále
The aim of the OCRMiner project is to use natural language processing technologies for extracting information from financial documents. At first stage, a document has to be classified, i.e. it has to be decided whether it is a financial document (invoice, proforma invoice). Second step is information extraction and detection of meaning of a particular information, i.e. classification into classes such as buyer, seller, due date.
Česky
Cílem projektu OCRMiner je využít technologií zpracování přirozeného jazyka pro vytěžování informací z finančních dokumentů. Prvním krokem řešení je klasifikace dokumentů a zjištění, zda jde o finanční dokument (faktura, proforma faktura). Druhým krokem je vytěžování informací a detekce významu těchto informací, tj. klasifikace do tříd dodavatel, odběratel, datum splatnosti apod.