MRÁKOVÁ, Eva, Lubomír POPELÍNSKÝ a Jan BLAŤÁK. Víceslovné výrazy a klasifikace českých textů. In Znalosti 2004, sborník posterů. 1. vyd. Ostrava: VŠB--Technická univerzita Ostrava, 2004, s. 53-56.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Víceslovné výrazy a klasifikace českých textů
Název anglicky Multiword expressions and Czech document classification
Autoři MRÁKOVÁ, Eva (203 Česká republika, garant), Lubomír POPELÍNSKÝ (203 Česká republika) a Jan BLAŤÁK (203 Česká republika).
Vydání 1. vyd. Ostrava, Znalosti 2004, sborník posterů, od s. 53-56, 4 s. 2004.
Nakladatel VŠB--Technická univerzita Ostrava
Další údaje
Originální jazyk čeština
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Kód RIV RIV/00216224:14330/04:00010075
Organizační jednotka Fakulta informatiky
Klíčová slova anglicky text classification; machine learning; multword expressions
Štítky machine learning, multword expressions, text classification
Změnil Změnil: RNDr. Jan Blaťák, Ph.D., učo 2978. Změněno: 24. 5. 2004 22:52.
Anotace
Presentujeme první výsledky experimentů týkající se použití víceslovných výrazů pro klasifikaci českých textů. Podáváme přehled nejdelších, nejčastěji použitých a nejužitečnějších víceslovných skupin. Všímáme si též vlivu lematizace na přesnost klasifikace textů.
Anotace anglicky
The use of chunks - noun, verb and prepositional phrases - as new features in Czech text classification is discussed, and the most interesting as well as the most useful chunks found are introduced. We also mention the role of lemmatization in Czech text classification.
Návaznosti
MSM 143300003, záměrNázev: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Interakce člověka s počítačem, dialogové systémy a asistivní technologie
VytisknoutZobrazeno: 12. 5. 2024 22:20