J 2007

The Influence of Preprocessing Parameters on Text Categorization

POMIKÁLEK, Jan a Radim ŘEHŮŘEK

Základní údaje

Originální název

The Influence of Preprocessing Parameters on Text Categorization

Název česky

Vliv parametrů předzpracování na kategorizaci textu

Autoři

POMIKÁLEK, Jan (203 Česká republika, garant) a Radim ŘEHŮŘEK (203 Česká republika)

Vydání

International Journal of Applied Science, Engineering and Technology, 2007, 1307-4318

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Thajsko

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Kód RIV

RIV/00216224:14330/07:00022183

Organizační jednotka

Fakulta informatiky

UT WoS

000260422800082

Klíčová slova anglicky

machine learning; text categorization; preprocessing; feature selection

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 29. 3. 2010 18:48, RNDr. Radim Řehůřek, Ph.D.

Anotace

V originále

Results of a large scale study on mutual influence of preprocessing parameters in automated text categorization are presented and analyzed. These parameters include choice of tokenizer, feature selection, stemming, term weighing and data amount in combination with various Machine Learning algorithms.

Česky

Výsledek studie o vzájemném vlivu parametrů předzpracování na automatickou kategorizaci textu. Sledované parametry zahrnují tokenizaci, výběr rysů, váhování, stemming a objem dat v kombinaci s několika metodami strojového učení.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaV
Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce