2004
Fragments and Text Categorization
BLAŤÁK, Jan, Lubomír POPELÍNSKÝ a Eva MRÁKOVÁZákladní údaje
Originální název
Fragments and Text Categorization
Název česky
Fragmenty a kategorizace textů
Autoři
BLAŤÁK, Jan (203 Česká republika), Lubomír POPELÍNSKÝ (203 Česká republika, garant) a Eva MRÁKOVÁ (203 Česká republika)
Vydání
Barcelona (Spain), The Companion Volume to the Proceedings of 42st Annual Meeting of the Association for Computational Linguistics, od s. 226-229, 4 s. 2004
Nakladatel
Association for Computational Linguistics
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Španělsko
Utajení
není předmětem státního či obchodního tajemství
Kód RIV
RIV/00216224:14330/04:00010203
Organizační jednotka
Fakulta informatiky
ISBN
1-932432-33-7
Klíčová slova anglicky
text classification; fragments
Štítky
Změněno: 3. 2. 2005 16:57, RNDr. Jan Blaťák, Ph.D.
V originále
We introduce two novel methods of text categorization in which documents are split into fragments. We conducted experiments on English, French and Czech. In all cases, the problems referred to a binary document classification. We find that both methods increase the accuracy of text categorization. For the Naive Bayes classifier this increase is significant.
Česky
Prezentujeme dvě nové metody pro kategorizaci dokumentů za použití fragmentů. Uvádíme výsledky experimentů binární klasifikace anglických, francouzských a českých dokumentů. Obě metody poskytují zlepšení přesnosti, přičemž pro naivní bayesovský klasifikátor je zlepšení statisticky významné.
Návaznosti
MSM 143300003, záměr |
|