Závěrečná práce: Samuel Benko: A tool for checking texts extracted from PDF
Bakalářská práce
A tool for checking texts extracted from PDF
Anotace
Táto práca predstavuje vývoj a vyhodnotenie nástroja na extrakciu textu pre súbory PDF so zameraním na udržiavanie kontextu a zvládanie bežných problémov spojených s extrakciou textu PDF, ako je zlučovanie iniciálok, súvislých blokov, hlavičiek a pätiek, tabuliek, viacstĺpcových dokumentov, číslovaných dokumentov. zoznamy a delenie slov. Primárnym cieľom je znížiť ľudské úsilie potrebné na dohľad nad …více
Abstract
This thesis presents the development and evaluation of a text extraction tool for PDF files, focusing on maintaining context and handling common challenges associated with PDF text extraction, such as merging initials, continuous blocks, headers and footers, tables, multi-column documents, numbered lists, and hyphenation. The primary goal is to reduce human effort required for overseeing extracted …více
Zadání práce
Cílem práce je seznámit se se současnými nástroji pro extrakci textu z formátu PDF a popsat problémy, které se při jejich použití vyskytují: Chybný tok textu ve sloupcích, slova rozbitá mezerami, slova rozdělená spojovníkem na konci odstavce nebo stránky, iniciála v samostatném odstavci a další.
Student vybere vhodné nástroje a provede extrakci textu na souborech PDF dodaných zadavatelem.
Dále student vytvoří nástroj, který v získaném textu označí potenciálně chybně extrahované části textu, vzhledem k rozpoznávaným problémům, případně některé chyby automaticky opraví a opravu též vyznačí.
Takto zpracovaný výstup bude sloužit ke kontrole a ruční opravě extrahovaného textu člověkem. Cílem je snížit úsilí potřebné k této kontrole a opravě, přičemž z opravených textů zadavatel sestavuje textové korpusy pro jazykové analýzy a vytváření jazykových slovníků.
18. 5. 2023 13:28, RNDr. Vít Suchomel, Ph.D., učo 139723
Práce na příbuzné téma
Seznam prací, které mají shodná klíčová slova.
-
Obrazové transformace při digitalizaci textů
Bc. Tomáš Pulkrábek -
Enhancing Quality of Optical Character Recognition for Financial Document Processing
Mgr. Dávid Meluš -
Improving text and certification metadata extraction in sec-certs
Bc. Jakub Borský, učo 536361 -
Multimedia, streaming a výukové metody
Bc. Marek Bešta, učo 237235 -
JBIG2 compression of monochrome images with OCR
Mgr. Radim Hatlapatka -
Recognition of Mathematical Texts
Bc. Miroslav Hrdina -
Digitalizace dokumentů na fakultách Masarykovy univerzity v Brně
Mgr. Jana Otevřelová -
Dolování metadat z fotografií turistických rozcestníků
Mgr. Přemek Hnilica




