POMIKÁLEK, Jan a Radim ŘEHŮŘEK. The Influence of Preprocessing Parameters on Text Categorization. International Journal of Applied Science, Engineering and Technology. 2007, roč. 4/2007, č. 1, s. 430-434. ISSN 1307-4318.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název The Influence of Preprocessing Parameters on Text Categorization
Název česky Vliv parametrů předzpracování na kategorizaci textu
Autoři POMIKÁLEK, Jan (203 Česká republika, garant) a Radim ŘEHŮŘEK (203 Česká republika).
Vydání International Journal of Applied Science, Engineering and Technology, 2007, 1307-4318.
Další údaje
Originální jazyk angličtina
Typ výsledku Článek v odborném periodiku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Thajsko
Utajení není předmětem státního či obchodního tajemství
WWW URL
Kód RIV RIV/00216224:14330/07:00022183
Organizační jednotka Fakulta informatiky
UT WoS 000260422800082
Klíčová slova anglicky machine learning; text categorization; preprocessing; feature selection
Štítky feature selection, machine learning, preprocessing, text categorization
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Radim Řehůřek, Ph.D., učo 39672. Změněno: 29. 3. 2010 18:48.
Anotace
Results of a large scale study on mutual influence of preprocessing parameters in automated text categorization are presented and analyzed. These parameters include choice of tokenizer, feature selection, stemming, term weighing and data amount in combination with various Machine Learning algorithms.
Anotace česky
Výsledek studie o vzájemném vlivu parametrů předzpracování na automatickou kategorizaci textu. Sledované parametry zahrnují tokenizaci, výběr rysů, váhování, stemming a objem dat v kombinaci s několika metodami strojového učení.
Návaznosti
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaVNázev: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce
VytisknoutZobrazeno: 10. 5. 2024 09:27