Závěrečná práce: Riva Nathans, BA: Dolování informací z textů na základě nízkorozměrných reprezentací
Bakalářská práce
Dolování informací z textů na základě nízkorozměrných reprezentací
Data mining from texts based on low-dimensional representations
Anotace
Tato práce srovnává efektivnost různých metod (mutual information, χ-squared, tf-idf) pro výběr klíčových slov z textů pro automatické rozpoznávání témat. Klasifikace proběhla na nizkorozměrných reprezentacích textů z Fisher Speech Corpus použití multinomial Naive Bayes a support vector machines. Nejefektivnější kombinace metod byla mutual information pro výběr rysů s SVM pro klasifikaci: umožnila 88% korektní klasifikaci textů do 40 tříd podle témat na základě < 1.5% slov použitých v kolekci.
Abstract
This thesis compares the effectiveness of several methods (mutual information, χ-squared, tf-idf) for extracting keyword features from text documents for efficient, automatic topic detection. Classification was performed on reduced-dimensional representations of transcripts from the Fisher Speech Corpus using multinomial Naive Bayes classi- fication and support vector machines. The most effective combination …více
Zadání práce
24. 5. 2016 08:44, prof. Ing. Pavel Zezula, CSc., učo 47485
- Zadáno/změněno 15. 2. 2017 16:11, Helena Kryštofová
- Záznam založen 29. 3. 2016 14:30, Jana Zemanová, učo 9619
- Zveřejnit od 23. 5. 2016 10:31, Alena Dvořáková
- Práce převzata 23. 5. 2016 10:31, Alena Dvořáková
Přílohy
riva_nathans_thesis_data.zip
riva_nathans_thesis_code.zip
Práce na příbuzné téma
Seznam prací, které mají shodná klíčová slova.
-
Virtuální screening biologicky aktivních látek
Mgr. Veronika Modravá, učo 270012 -
Mapa akcií pre verejnosť
Mgr. Lenka Horváthová -
Research of Fedora Status for Machine Learning
Mgr. Dominik Tuchyňa -
Identification of attributes with a high impact on student performance.
Mgr. Vojtěch Kubín -
Information extraction for news analytics
Bc. Petra Hana Štěpánová -
Learning algorithms in processing of various difficult medical and environmental data
Mgr. Tomáš Hudík, Ph.D., učo 55775 -
Analýza vhodnosti metod a nástrojů dobývání znalostí
Mgr. Samuel Kováč -
Applying Text Mining Classification for Software Requirements Prioritization
Mgr. Jan Trnka




