HROZA, Jiří and Jan ŽIŽKA. Selecting Interesting Articles Using Their Similarity Based Only on Positive Examples. In Computational linguistics and Intelligent Text Processing. Germany: Springer-Verlag Berlin Heidelberg. p. 608-611. ISBN 3-540-24523-5. 2005.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Selecting Interesting Articles Using Their Similarity Based Only on Positive Examples
Name in Czech Výběr zajímavých článků pomocí jejich podobnosti k relevantním příkladům
Authors HROZA, Jiří (203 Czech Republic, guarantor) and Jan ŽIŽKA (203 Czech Republic).
Edition Germany, Computational linguistics and Intelligent Text Processing, p. 608-611, 4 pp. 2005.
Publisher Springer-Verlag Berlin Heidelberg
Other information
Original language English
Type of outcome Proceedings paper
Field of Study 10201 Computer sciences, information science, bioinformatics
Country of publisher Germany
Confidentiality degree is not subject to a state or trade secret
RIV identification code RIV/00216224:14330/05:00013632
Organization unit Faculty of Informatics
ISBN 3-540-24523-5
UT WoS 000228725100065
Keywords in English machine learning; text categorization; text filtration; text similarity; k-NN; ranking
Tags k-NN, machine learning, ranking, text categorization, text filtration, text similarity
Changed by Changed by: RNDr. Jiří Hroza, učo 3800. Changed: 1/3/2005 13:35.
Abstract
The task of automated searching for interesting text documents frequently suffers from a~very poor balance among documents representing both positive and negative examples or from one completely missing class. This paper suggests the ranking approach based on the k-NN algorithm adapted for determining the similarity degree of new documents just to the representative positive collection. From the viewpoint of the precision-recall relation, a~user can decide in advance how many and how similar articles should be released through a filter.
Abstract (in Czech)
Automatizované vyhledávání zajímavých článků často trpí nevyvážeností tříd reprezentujících pozitivní a negativní příklady nebo přímo chybějící třídou. Tento článek navrhuje přístup založený na algoritmu k-NN modifikovaném pro seřazení neznámých dokumentů jen na základě pozitivních příkladů. Z pohledu přesnosti a pokrytí se může uživatel rozhodnout, jak mnoho zajímavých článků má být tímto algoritmem propuštěno.
Links
MSM 143300003, plan (intention)Name: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministry of Education, Youth and Sports of the CR, Human-computer interaction, dialog systems and assistive technologies
PrintDisplayed: 20/4/2024 03:23