2013
Diverse queries and feature type selection for plagiarism discovery: Notebook for PAN at CLEF 2013
SUCHOMEL, Šimon, Jan KASPRZAK a Michal BRANDEJSZákladní údaje
Originální název
Diverse queries and feature type selection for plagiarism discovery: Notebook for PAN at CLEF 2013
Autoři
SUCHOMEL, Šimon (203 Česká republika, domácí), Jan KASPRZAK (203 Česká republika, domácí) a Michal BRANDEJS (203 Česká republika, domácí)
Vydání
Valencia; Spain, 2013 Cross Language Evaluation Forum Conference, CLEF 2013, CEUR Workshop Proceedings Volume 1179, od s. nestránkováno, 8 s. 2013
Nakladatel
CEUR
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Stát vydavatele
Španělsko
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
elektronická verze "online"
Odkazy
Kód RIV
RIV/00216224:14330/13:00087410
Organizační jednotka
Fakulta informatiky
ISSN
Klíčová slova anglicky
suspicious document; plagiarism detection; search engine; source retrieval; stop word; text alignment; contextual n gram; word n gram; representative sentence; overlapping detection; snippet similarity; global postprocessing
Změněno: 27. 8. 2019 11:55, RNDr. Pavel Šmerk, Ph.D.
Anotace
V originále
This paper describes approaches used for the Plagiarism Detection task in PAN 2013 international competition on uncovering plagiarism, authorship, and social software misuse. We present modified three-way search methodology for Source Retrieval subtask and analyse snippet similarity performance. The results show, that presented approach is adaptable in real-world plagiarism situations. For the Detailed Comparison task, we discuss feature type selection and global postprocessing. Resulting performance is significantly better with the described modifications, and further improvement is still possible.
Návaznosti
LG13010, projekt VaV |
|