SUCHOMEL, Šimon, Jan KASPRZAK a Michal BRANDEJS. Diverse queries and feature type selection for plagiarism discovery: Notebook for PAN at CLEF 2013. Online. In 2013 Cross Language Evaluation Forum Conference, CLEF 2013, CEUR Workshop Proceedings Volume 1179. Valencia; Spain: CEUR, 2013, s. nestránkováno, 8 s. ISSN 1613-0073.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Diverse queries and feature type selection for plagiarism discovery: Notebook for PAN at CLEF 2013
Autoři SUCHOMEL, Šimon (203 Česká republika, domácí), Jan KASPRZAK (203 Česká republika, domácí) a Michal BRANDEJS (203 Česká republika, domácí).
Vydání Valencia; Spain, 2013 Cross Language Evaluation Forum Conference, CLEF 2013, CEUR Workshop Proceedings Volume 1179, od s. nestránkováno, 8 s. 2013.
Nakladatel CEUR
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Španělsko
Utajení není předmětem státního či obchodního tajemství
Forma vydání elektronická verze "online"
WWW URL
Kód RIV RIV/00216224:14330/13:00087410
Organizační jednotka Fakulta informatiky
ISSN 1613-0073
Klíčová slova anglicky suspicious document; plagiarism detection; search engine; source retrieval; stop word; text alignment; contextual n gram; word n gram; representative sentence; overlapping detection; snippet similarity; global postprocessing
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 27. 8. 2019 11:55.
Anotace
This paper describes approaches used for the Plagiarism Detection task in PAN 2013 international competition on uncovering plagiarism, authorship, and social software misuse. We present modified three-way search methodology for Source Retrieval subtask and analyse snippet similarity performance. The results show, that presented approach is adaptable in real-world plagiarism situations. For the Detailed Comparison task, we discuss feature type selection and global postprocessing. Resulting performance is significantly better with the described modifications, and further improvement is still possible.
Návaznosti
LG13010, projekt VaVNázev: Zastoupení ČR v European Research Consortium for Informatics and Mathematics (Akronym: ERCIM-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Zastoupení ČR v European Research Consortium for Informatics and Mathematics
VytisknoutZobrazeno: 26. 4. 2024 07:11