J 2007

The Influence of Preprocessing Parameters on Text Categorization

POMIKÁLEK, Jan and Radim ŘEHŮŘEK

Basic information

Original name

The Influence of Preprocessing Parameters on Text Categorization

Name in Czech

Vliv parametrů předzpracování na kategorizaci textu

Authors

POMIKÁLEK, Jan (203 Czech Republic, guarantor) and Radim ŘEHŮŘEK (203 Czech Republic)

Edition

International Journal of Applied Science, Engineering and Technology, 2007, 1307-4318

Other information

Language

English

Type of outcome

Článek v odborném periodiku

Field of Study

10201 Computer sciences, information science, bioinformatics

Country of publisher

Thailand

Confidentiality degree

není předmětem státního či obchodního tajemství

References:

RIV identification code

RIV/00216224:14330/07:00022183

Organization unit

Faculty of Informatics

UT WoS

000260422800082

Keywords in English

machine learning; text categorization; preprocessing; feature selection

Tags

International impact, Reviewed
Změněno: 29/3/2010 18:48, RNDr. Radim Řehůřek, Ph.D.

Abstract

V originále

Results of a large scale study on mutual influence of preprocessing parameters in automated text categorization are presented and analyzed. These parameters include choice of tokenizer, feature selection, stemming, term weighing and data amount in combination with various Machine Learning algorithms.

In Czech

Výsledek studie o vzájemném vlivu parametrů předzpracování na automatickou kategorizaci textu. Sledované parametry zahrnují tokenizaci, výběr rysů, váhování, stemming a objem dat v kombinaci s několika metodami strojového učení.

Links

LC536, research and development project
Name: Centrum komputační lingvistiky
Investor: Ministry of Education, Youth and Sports of the CR, Centrum komputační lingvistiky
2C06009, research and development project
Name: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Acronym: COT-SEWing)
Investor: Ministry of Education, Youth and Sports of the CR