Filtering Very Similar Text Documents: A Case Study

HROZA, Jiří, Jan ŽIŽKA a Aleš BOUREK. Filtering Very Similar Text Documents: A Case Study. In Computational linguistics and Intelligent Text Processing. Germany: Springer-Verlag Berlin Heidelberg, 2004, s. 511-520. ISBN 3-540-21006-7.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Filtering Very Similar Text Documents: A Case Study
Název česky	Filtrace velmi podobných textových dokumentů: Studie případu.
Autoři	HROZA, Jiří (203 Česká republika, garant), Jan ŽIŽKA (203 Česká republika) a Aleš BOUREK (203 Česká republika).
Vydání	Germany, Computational linguistics and Intelligent Text Processing, od s. 511-520, 10 s. 2004.
Nakladatel	Springer-Verlag Berlin Heidelberg

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Německo
Utajení	není předmětem státního či obchodního tajemství
Kód RIV	RIV/00216224:14330/04:00009948
Organizační jednotka	Fakulta informatiky
ISBN	3-540-21006-7
UT WoS	000189417900064
Klíčová slova anglicky	machine learning; text categorization; text filtration; text similarity
Štítky	machine learning, text categorization, text filtration, text similarity
Změnil	Změnil: doc. Ing. Jan Žižka, CSc., učo 2431. Změněno: 21. 1. 2005 18:31.

Anotace

This paper describes problems with classification and filtration of similar relevant and irrelevant real medical documents from one very specific domain, obtained from the Internet resources. Besides the similarity, the documents are often unbalanced-a lack of irrelevant documents for the training. A definition of similarity is suggested. For the classification, six algorithms are tested from the document similarity point of view. The best results are provided by the back propagation-based neural network and by the radial basis function-based support vector machine.

Anotace česky

Článek popisuje problémy s klasifikací a filtrací podobných relevantních a nerelevantních reálných textových dokumentů z jedné velmi specifické domény, získané z internetových zdrojů. Kromě podobnosti jsou dokumenty často nevyváženy -- nedostatek nerelevantních dokumentů pro trénování. Je navržena definice podobnosti. Klasifikace byla testována pomocí šesti algoritmů z hlediska podobnosti textů. Nejlepší výsledky poskytly neuronové sítě založené na backpropagation a support vector machines s radiálními bázovými funkcemi.

Návaznosti
MSM 143300003, záměr	Název: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
MSM 143300003, záměr	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Interakce člověka s počítačem, dialogové systémy a asistivní technologie

VytisknoutZobrazeno: 14. 5. 2024 19:05

Filtering Very Similar Text Documents: A Case Study

Další aplikace