D 2013

Diverse queries and feature type selection for plagiarism discovery: Notebook for PAN at CLEF 2013

SUCHOMEL, Šimon, Jan KASPRZAK a Michal BRANDEJS

Základní údaje

Originální název

Diverse queries and feature type selection for plagiarism discovery: Notebook for PAN at CLEF 2013

Autoři

SUCHOMEL, Šimon (203 Česká republika, domácí), Jan KASPRZAK (203 Česká republika, domácí) a Michal BRANDEJS (203 Česká republika, domácí)

Vydání

Valencia; Spain, 2013 Cross Language Evaluation Forum Conference, CLEF 2013, CEUR Workshop Proceedings Volume 1179, od s. nestránkováno, 8 s. 2013

Nakladatel

CEUR

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Španělsko

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

elektronická verze "online"

Odkazy

Kód RIV

RIV/00216224:14330/13:00087410

Organizační jednotka

Fakulta informatiky

ISSN

Klíčová slova anglicky

suspicious document; plagiarism detection; search engine; source retrieval; stop word; text alignment; contextual n gram; word n gram; representative sentence; overlapping detection; snippet similarity; global postprocessing
Změněno: 27. 8. 2019 11:55, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

This paper describes approaches used for the Plagiarism Detection task in PAN 2013 international competition on uncovering plagiarism, authorship, and social software misuse. We present modified three-way search methodology for Source Retrieval subtask and analyse snippet similarity performance. The results show, that presented approach is adaptable in real-world plagiarism situations. For the Detailed Comparison task, we discuss feature type selection and global postprocessing. Resulting performance is significantly better with the described modifications, and further improvement is still possible.

Návaznosti

LG13010, projekt VaV
Název: Zastoupení ČR v European Research Consortium for Informatics and Mathematics (Akronym: ERCIM-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Zastoupení ČR v European Research Consortium for Informatics and Mathematics