D 2003

Searching for Significant Word Associations in Text Documents Using Genetic Algorithms

ŽIŽKA, Jan, Michal ŠRÉDL a Aleš BOUREK

Základní údaje

Originální název

Searching for Significant Word Associations in Text Documents Using Genetic Algorithms

Autoři

ŽIŽKA, Jan (203 Česká republika, garant), Michal ŠRÉDL (203 Česká republika) a Aleš BOUREK (203 Česká republika)

Vydání

Berlin Heidelberg New York, Computional Linguistics and Intelligent Text Processing, od s. 584-587, 4 s. 2003

Nakladatel

Springer Verlag

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Mexiko

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/03:00009148

Organizační jednotka

Fakulta informatiky

ISBN

3-540-00532-3

UT WoS

000182492300064

Klíčová slova anglicky

machine learning; text document processing; genetic algorithms; naive Bayes method
Změněno: 8. 9. 2004 16:37, doc. Ing. Jan Žižka, CSc.

Anotace

V originále

The paper describes experiments that used Genetic Algorithms for looking for important word assocoations (phrases) in unstructured text documents obtained from the Internet in the area of a specialized medicine branch. Genetic alforithms can evolve sets of word associations with assigned significance weights from the document categorization point of view (relevant and irrelevant documents). The categorization is similarly reliable like the naive Bayes classification based on individual words. In addition, genetic algorithms provided phrases consisting of one, two, and three words. The phrases were quite meaningful from the human point of view.

Návaznosti

MSM 143300003, záměr
Název: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Interakce člověka s počítačem, dialogové systémy a asistivní technologie