Bakalářská práce

Kdo, co, o čem - TextVis aneb vizualizace obsahu textu

Who, What, about What - TextVis or Text Content Visualisation

Radek Mejzlík
Anotace

Práce se zabývá problematikou automatické extrakce informací z nestrukturovaných textů v přirozeném jazyce jako jsou příspěvky na sociálních sítích či novinové články. Praktickou část práce tvoří analýza, návrh a implementace systému pro extrakci informací s názvem TextVis. Součástí systému je konzolová aplikace, jejímž účelem je identifikace entit a vztahů v česky psaných textech, analýza polarity …více

Abstract

The thesis explores the field of automatic information extraction from unstuctured natural language texts such as social media posts or news articles. The practical part of the thesis consists of the analysis, design and implementation of an information extraction system named TextVis. The system comes with a console application whose purpose is the detection of entities and their relations in Czech …více

Zadání práce

Analýza internetových textů slouží jako velice důležitý podklad pro aktuální mediální analýzy nejrůznějších jevů a situací, jako jsou např. volby, oblíbenost určitého výrobku nebo vztahy mezi známými osobnostmi a firmami. Všechny stávající produkty zakládají (zejména v případě češtiny) pouze na statistických výpočtech nad slovy a jejich četnostmi.

Cílem práce je navrhnout a implementovat systém, který využije metody a nástroje jazykové analýzy vyvinuté v Laboratoři zpracování přirozeného jazyka na FI MU pro extrakci a reprezentaci funkčních vztahů v internetových textech. Konkrétně systém zpracuje data z rozpoznaných pojmenovaných entit (osoby, firmy, místa, ...), ze syntaktické analýzy extrakce faktů (kdo, co, kde, ...) a z rozpoznání polarity textu (pozitivní/negativní). Tato data systém agreguje, zobecní nalezené vztahy a výsledek umožní efektivně prohledávat v podobě tabulek a síťových grafů. Vstupní texty pro analýzu budou pocházet z monitorovaných webových dokumentů typu blogy, novinové články nebo příspěvky na sociálních sítích.

Výsledná práce se bude skládat jednak z praktické části v podobě funkčního implementovaného systému, jednak z textové části obsahující přehled řešených projektů na podobné téma ve světě, popis použitých podkladových technik, analýzu, návrh a popis implementace vlastního systému a jeho ověření na netriviálních datech.

Práce zkontrolována:
20. 5. 2022 13:45, doc. RNDr. Aleš Horák, Ph.D., učo 1648
Jazyk práce
čeština čeština
Termín obhajoby
28. 6. 2022
Práce byla úspěšně obhájena

Vedoucí

doc. RNDr. Aleš Horák, Ph.D., učo 1648
KSUZD FI MU

Oponent

RNDr. Adam Rambousek, Ph.D., učo 60380
KSUZD FI MU

Masarykova univerzita Fakulta informatiky
Studijní program
Aplikovaná informatika
  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.