D 2005

Selecting Interesting Articles Using Their Similarity Based Only on Positive Examples

HROZA, Jiří and Jan ŽIŽKA

Basic information

Original name

Selecting Interesting Articles Using Their Similarity Based Only on Positive Examples

Name in Czech

Výběr zajímavých článků pomocí jejich podobnosti k relevantním příkladům

Authors

HROZA, Jiří (203 Czech Republic, guarantor) and Jan ŽIŽKA (203 Czech Republic)

Edition

Germany, Computational linguistics and Intelligent Text Processing, p. 608-611, 4 pp. 2005

Publisher

Springer-Verlag Berlin Heidelberg

Other information

Language

English

Type of outcome

Stať ve sborníku

Field of Study

10201 Computer sciences, information science, bioinformatics

Country of publisher

Germany

Confidentiality degree

není předmětem státního či obchodního tajemství

RIV identification code

RIV/00216224:14330/05:00013632

Organization unit

Faculty of Informatics

ISBN

3-540-24523-5

UT WoS

000228725100065

Keywords in English

machine learning; text categorization; text filtration; text similarity; k-NN; ranking
Změněno: 1/3/2005 13:35, RNDr. Jiří Hroza

Abstract

V originále

The task of automated searching for interesting text documents frequently suffers from a~very poor balance among documents representing both positive and negative examples or from one completely missing class. This paper suggests the ranking approach based on the k-NN algorithm adapted for determining the similarity degree of new documents just to the representative positive collection. From the viewpoint of the precision-recall relation, a~user can decide in advance how many and how similar articles should be released through a filter.

In Czech

Automatizované vyhledávání zajímavých článků často trpí nevyvážeností tříd reprezentujících pozitivní a negativní příklady nebo přímo chybějící třídou. Tento článek navrhuje přístup založený na algoritmu k-NN modifikovaném pro seřazení neznámých dokumentů jen na základě pozitivních příkladů. Z pohledu přesnosti a pokrytí se může uživatel rozhodnout, jak mnoho zajímavých článků má být tímto algoritmem propuštěno.

Links

MSM 143300003, plan (intention)
Name: Interakce člověka s počítačem, dialogové systémy a asistivní technologie
Investor: Ministry of Education, Youth and Sports of the CR, Human-computer interaction, dialog systems and assistive technologies