Detailed Information on Publication Record
2005
Selecting Interesting Articles Using Their Similarity Based Only on Positive Examples
HROZA, Jiří and Jan ŽIŽKABasic information
Original name
Selecting Interesting Articles Using Their Similarity Based Only on Positive Examples
Name in Czech
Výběr zajímavých článků pomocí jejich podobnosti k relevantním příkladům
Authors
HROZA, Jiří (203 Czech Republic, guarantor) and Jan ŽIŽKA (203 Czech Republic)
Edition
Germany, Computational linguistics and Intelligent Text Processing, p. 608-611, 4 pp. 2005
Publisher
Springer-Verlag Berlin Heidelberg
Other information
Language
English
Type of outcome
Stať ve sborníku
Field of Study
10201 Computer sciences, information science, bioinformatics
Country of publisher
Germany
Confidentiality degree
není předmětem státního či obchodního tajemství
RIV identification code
RIV/00216224:14330/05:00013632
Organization unit
Faculty of Informatics
ISBN
3-540-24523-5
UT WoS
000228725100065
Keywords in English
machine learning; text categorization; text filtration; text similarity; k-NN; ranking
Změněno: 1/3/2005 13:35, RNDr. Jiří Hroza
V originále
The task of automated searching for interesting text documents frequently suffers from a~very poor balance among documents representing both positive and negative examples or from one completely missing class. This paper suggests the ranking approach based on the k-NN algorithm adapted for determining the similarity degree of new documents just to the representative positive collection. From the viewpoint of the precision-recall relation, a~user can decide in advance how many and how similar articles should be released through a filter.
In Czech
Automatizované vyhledávání zajímavých článků často trpí nevyvážeností tříd reprezentujících pozitivní a negativní příklady nebo přímo chybějící třídou. Tento článek navrhuje přístup založený na algoritmu k-NN modifikovaném pro seřazení neznámých dokumentů jen na základě pozitivních příkladů. Z pohledu přesnosti a pokrytí se může uživatel rozhodnout, jak mnoho zajímavých článků má být tímto algoritmem propuštěno.
Links
MSM 143300003, plan (intention) |
|