2004
Víceslovné výrazy a klasifikace českých textů
MRÁKOVÁ, Eva, Lubomír POPELÍNSKÝ a Jan BLAŤÁKZákladní údaje
Originální název
Víceslovné výrazy a klasifikace českých textů
Název anglicky
Multiword expressions and Czech document classification
Autoři
MRÁKOVÁ, Eva (203 Česká republika, garant), Lubomír POPELÍNSKÝ (203 Česká republika) a Jan BLAŤÁK (203 Česká republika)
Vydání
1. vyd. Ostrava, Znalosti 2004, sborník posterů, od s. 53-56, 4 s. 2004
Nakladatel
VŠB--Technická univerzita Ostrava
Další údaje
Jazyk
čeština
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Kód RIV
RIV/00216224:14330/04:00010075
Organizační jednotka
Fakulta informatiky
Klíčová slova anglicky
text classification; machine learning; multword expressions
Změněno: 24. 5. 2004 22:52, RNDr. Jan Blaťák, Ph.D.
V originále
Presentujeme první výsledky experimentů týkající se použití víceslovných výrazů pro klasifikaci českých textů. Podáváme přehled nejdelších, nejčastěji použitých a nejužitečnějších víceslovných skupin. Všímáme si též vlivu lematizace na přesnost klasifikace textů.
Anglicky
The use of chunks - noun, verb and prepositional phrases - as new features in Czech text classification is discussed, and the most interesting as well as the most useful chunks found are introduced. We also mention the role of lemmatization in Czech text classification.
Návaznosti
MSM 143300003, záměr |
|