Effects of Selected Basic Algorithm Parameters and Data
Features on Text Categorization by Support Vector Machines

HUDÍK, Tomáš a Jan ŽIŽKA. Effects of Selected Basic Algorithm Parameters and Data Features on Text Categorization by Support Vector Machines. In Znalosti 2005, sborník příspěvků. 1. vyd. Ostrava: VŠB--Technická univerzita Ostrava, 2005, s. 210-217. ISBN 80-248-0755-6.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Effects of Selected Basic Algorithm Parameters and Data Features on Text Categorization by Support Vector Machines
Název česky	Vplyv vybraných základných parametrov a dátových atribútov na textovú kategorizáciu pomocou Support Vector Machines
Autoři	HUDÍK, Tomáš (703 Slovensko, garant) a Jan ŽIŽKA (203 Česká republika).
Vydání	1. vyd. Ostrava, Znalosti 2005, sborník příspěvků, od s. 210-217, 8 s. 2005.
Nakladatel	VŠB--Technická univerzita Ostrava

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
Kód RIV	RIV/00216224:14330/05:00013634
Organizační jednotka	Fakulta informatiky
ISBN	80-248-0755-6
Klíčová slova anglicky	text categorization; support vector machines
Štítky	Support Vector Machines, text categorization
Změnil	Změnil: Mgr. Tomáš Hudík, učo 55775. Změněno: 7. 8. 2007 20:21.

Anotace

This paper describes results acquired from testing influences of selected important parameters of Support Vector Machines (SVM) applied to text categorization. The main object was to verify whether results obtained with standard, publicly accessible datasets (the traditional Reuters text documents and the 20Newsgroups) could be applied to real medical text documents from various Internet resources utilized by physicians. The research also focused on features as document similarity, balance of categories, presence of common words (stop-words), and data volume. The results of experiments demonstrated that there could be typical problems with setting up parameters for some real data. Especially the medical documents provided worse outcomes because the real-data categories were not well balanced and the documents in different categories were mutually rather similar-i.e., overlapping classes. As a result, SVM could not always find sufficiently good separating hyperplanes as it mostly did for `trouble-free' datasets like Reuters or 20Newsgroups.

Anotace česky

Tento článok popisuje výsledky získané z testovanie vplyvu vybraných dôležitých parametrov Support Vector Machines (SVM) aplikovaných na klasifikáciu textov Hlavným cieľom bolo zistiť, či výsledky získané štandardnými verejne dostupnými dátovými množinami (tradičné Reuters textové dokumenty a 20Newsgroups) môžu byť aplikované na skutočné medicínske texty získané z internetu používané lekármi. Výskum sa toež zameral na vlastnosti ako podobnosť dokumentov, vyváženosť kategórií, prítomnosť bežných slov a množstvo dokumentov. Výsledky testov ukazujú, že môťu nastať problémy s nastavením parametriv pre niektoré prirodzené dáta. Špeciálne medicínske dokumenty dávali zlé výsledky pretože skutočné kategórie neboli dobre vyvážené a dokumnety v rôznych kategóriách sa vzájomne prekrývali. Výsledok - SVM nedokáže vždy nájsť vhodnú deliacu nadrovinu na rozdiel od 'bezproblémových' dátových množín ako Reuters, či 20Newsgroups

Návaznosti
MSM 143300003, záměr	Název: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
MSM 143300003, záměr	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Interakce člověka s počítačem, dialogové systémy a asistivní technologie

VytisknoutZobrazeno: 3. 5. 2024 16:00

Effects of Selected Basic Algorithm Parameters and Data Features on Text Categorization by Support ...

Další aplikace