D 2004

Fragments and Text Categorization

BLAŤÁK, Jan, Lubomír POPELÍNSKÝ a Eva MRÁKOVÁ

Základní údaje

Originální název

Fragments and Text Categorization

Název česky

Fragmenty a kategorizace textů

Autoři

BLAŤÁK, Jan (203 Česká republika), Lubomír POPELÍNSKÝ (203 Česká republika, garant) a Eva MRÁKOVÁ (203 Česká republika)

Vydání

Barcelona (Spain), The Companion Volume to the Proceedings of 42st Annual Meeting of the Association for Computational Linguistics, od s. 226-229, 4 s. 2004

Nakladatel

Association for Computational Linguistics

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Španělsko

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/04:00010203

Organizační jednotka

Fakulta informatiky

ISBN

1-932432-33-7

Klíčová slova anglicky

text classification; fragments
Změněno: 3. 2. 2005 16:57, RNDr. Jan Blaťák, Ph.D.

Anotace

V originále

We introduce two novel methods of text categorization in which documents are split into fragments. We conducted experiments on English, French and Czech. In all cases, the problems referred to a binary document classification. We find that both methods increase the accuracy of text categorization. For the Naive Bayes classifier this increase is significant.

Česky

Prezentujeme dvě nové metody pro kategorizaci dokumentů za použití fragmentů. Uvádíme výsledky experimentů binární klasifikace anglických, francouzských a českých dokumentů. Obě metody poskytují zlepšení přesnosti, přičemž pro naivní bayesovský klasifikátor je zlepšení statisticky významné.

Návaznosti

MSM 143300003, záměr
Název: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Interakce člověka s počítačem, dialogové systémy a asistivní technologie