D 2004

Víceslovné výrazy a klasifikace českých textů

MRÁKOVÁ, Eva, Lubomír POPELÍNSKÝ a Jan BLAŤÁK

Základní údaje

Originální název

Víceslovné výrazy a klasifikace českých textů

Název anglicky

Multiword expressions and Czech document classification

Autoři

MRÁKOVÁ, Eva (203 Česká republika, garant), Lubomír POPELÍNSKÝ (203 Česká republika) a Jan BLAŤÁK (203 Česká republika)

Vydání

1. vyd. Ostrava, Znalosti 2004, sborník posterů, od s. 53-56, 4 s. 2004

Nakladatel

VŠB--Technická univerzita Ostrava

Další údaje

Jazyk

čeština

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/04:00010075

Organizační jednotka

Fakulta informatiky

Klíčová slova anglicky

text classification; machine learning; multword expressions
Změněno: 24. 5. 2004 22:52, RNDr. Jan Blaťák, Ph.D.

Anotace

V originále

Presentujeme první výsledky experimentů týkající se použití víceslovných výrazů pro klasifikaci českých textů. Podáváme přehled nejdelších, nejčastěji použitých a nejužitečnějších víceslovných skupin. Všímáme si též vlivu lematizace na přesnost klasifikace textů.

Anglicky

The use of chunks - noun, verb and prepositional phrases - as new features in Czech text classification is discussed, and the most interesting as well as the most useful chunks found are introduced. We also mention the role of lemmatization in Czech text classification.

Návaznosti

MSM 143300003, záměr
Název: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Interakce člověka s počítačem, dialogové systémy a asistivní technologie