Bakalářská práce

Dolování informací z textů na základě nízkorozměrných reprezentací

Data mining from texts based on low-dimensional representations

Riva Nathans, BA
Anotace

Tato práce srovnává efektivnost různých metod (mutual information, χ-squared, tf-idf) pro výběr klíčových slov z textů pro automatické rozpoznávání témat. Klasifikace proběhla na nizkorozměrných reprezentacích textů z Fisher Speech Corpus použití multinomial Naive Bayes a support vector machines. Nejefektivnější kombinace metod byla mutual information pro výběr rysů s SVM pro klasifikaci: umožnila 88% korektní klasifikaci textů do 40 tříd podle témat na základě < 1.5% slov použitých v kolekci.

Abstract

This thesis compares the effectiveness of several methods (mutual information, χ-squared, tf-idf) for extracting keyword features from text documents for efficient, automatic topic detection. Classification was performed on reduced-dimensional representations of transcripts from the Fisher Speech Corpus using multinomial Naive Bayes classi- fication and support vector machines. The most effective combination …více

Zadání práce
Compare the effectiveness of several different methods of generating low-dimensional vector representations of texts (mutual information, chi-square, 2-layer neural network). Test these methods on the task of topic classification using the Fisher speech corpus.
Práce zkontrolována:
24. 5. 2016 08:44, prof. Ing. Pavel Zezula, CSc., učo 47485
Jazyk práce
angličtina angličtina
Termín obhajoby
15. 2. 2017
Práce byla úspěšně obhájena

Vedoucí

prof. Ing. Pavel Zezula, CSc., učo 47485
KPSK FI MU

Oponent

RNDr. Petr Eliáš, Ph.D.
DK DITS ÚVT MU

Masarykova univerzita Fakulta informatiky
Studijní program
Aplikovaná informatika
  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.