2003
Searching for Significant Word Associations in Text Documents Using Genetic Algorithms
ŽIŽKA, Jan, Michal ŠRÉDL a Aleš BOUREKZákladní údaje
Originální název
Searching for Significant Word Associations in Text Documents Using Genetic Algorithms
Autoři
ŽIŽKA, Jan (203 Česká republika, garant), Michal ŠRÉDL (203 Česká republika) a Aleš BOUREK (203 Česká republika)
Vydání
Berlin Heidelberg New York, Computional Linguistics and Intelligent Text Processing, od s. 584-587, 4 s. 2003
Nakladatel
Springer Verlag
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Mexiko
Utajení
není předmětem státního či obchodního tajemství
Kód RIV
RIV/00216224:14330/03:00009148
Organizační jednotka
Fakulta informatiky
ISBN
3-540-00532-3
UT WoS
000182492300064
Klíčová slova anglicky
machine learning; text document processing; genetic algorithms; naive Bayes method
Změněno: 8. 9. 2004 16:37, doc. Ing. Jan Žižka, CSc.
Anotace
V originále
The paper describes experiments that used Genetic Algorithms for looking for important word assocoations (phrases) in unstructured text documents obtained from the Internet in the area of a specialized medicine branch. Genetic alforithms can evolve sets of word associations with assigned significance weights from the document categorization point of view (relevant and irrelevant documents). The categorization is similarly reliable like the naive Bayes classification based on individual words. In addition, genetic algorithms provided phrases consisting of one, two, and three words. The phrases were quite meaningful from the human point of view.
Návaznosti
MSM 143300003, záměr |
|