Three Way Search Engine Queries with Multi-feature Document
Comparison for Plagiarism Detection

SUCHOMEL, Šimon, Jan KASPRZAK a Michal BRANDEJS. Three Way Search Engine Queries with Multi-feature Document Comparison for Plagiarism Detection. Online. In CLEF2012 Working Notes ; CEUR Workshop Proceedings Vol. 1178. Italy, Rome: Univesity "La Sapienza", 2012, s. 1-12. ISSN 1613-0073.

Další formáty: BibTeX LaTeX RIS

TY  - JOUR
ID  - 1080912
AU  - Suchomel, Šimon - Kasprzak, Jan - Brandejs, Michal
PY  - 2012
TI  - Three Way Search Engine Queries with Multi-feature Document Comparison for Plagiarism Detection
PB  - Univesity "La Sapienza"
CY  - Italy, Rome
KW  - plagiarism
KW  - document similarity
KW  - external plagiarism
KW  - intrinsic plagiarism
KW  - candidate document retrieval
KW  - web search
KW  - queries construction
KW  - common features
UR  - http://dblp.uni-trier.de/db/conf/clef/clef2012w.html#SuchomelKB12
L2  - http://dblp.uni-trier.de/db/conf/clef/clef2012w.html#SuchomelKB12
N2  - In this paper, we describe our approach at the PAN 2012 plagiarism detection competition. Our candidate retrieval system is based on extraction of three different types of Web queries with narrowing their execution by skipping certain passages of an input document. We have created queries based on keywords extraction, intrinsic plagiarism detection and headers extraction. We have also compared the performance of constructed queries used during the PAN 2012 test process. The proposed methodology was the best performing one in case of long term operation and also the most cost-effective one. Our detailed comparison system is based on detecting common features of several types (in the final submission, we have used two types of features: sorted word 5-grams and unsorted stop word 8-grams) in the input document pair. We propose a method of computing so called valid intervals from those features, represented by their offset and length attributes in both source and suspicious document. Previous works use the feature ordering as the measure of distance, which is not usable for multiple types of features, which do not have any natural ordering. From those valid intervals we compute final detections in the post-processing phase, where we merge neighbouring valid intervals and remove some types of overlapping detections. We further discuss other approaches which we explored, but which have not been used in our final submission. In the paper we also discuss the performance aspects of our program, parameter settings, and the relevance of current PAN 2012 rules (including the plagdet score) to the real-world plagiarism detection systems.
ER  -

Základní údaje
Originální název	Three Way Search Engine Queries with Multi-feature Document Comparison for Plagiarism Detection
Název česky	Trojcestné dotazování s detailním porovnáním dokumentů pro detekci plagiátorství
Autoři	SUCHOMEL, Šimon (203 Česká republika, garant, domácí), Jan KASPRZAK (203 Česká republika, domácí) a Michal BRANDEJS (203 Česká republika, domácí).
Vydání	Italy, Rome, CLEF2012 Working Notes ; CEUR Workshop Proceedings Vol. 1178, od s. 1-12, 12 s. 2012.
Nakladatel	Univesity "La Sapienza"

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Itálie
Utajení	není předmětem státního či obchodního tajemství
Forma vydání	elektronická verze "online"
WWW	Text publikace
Kód RIV	RIV/00216224:14330/12:00081844
Organizační jednotka	Fakulta informatiky
ISSN	1613-0073
Klíčová slova česky	plagiátorství; podobnost dokumentů; vnější plagiátorství; vnitřtní plagiátorství; vyhledávání zdrojových dokumentů; webové vyhledávání; formulace dotazů; společné vlastnosti
Klíčová slova anglicky	plagiarism; document similarity; external plagiarism; intrinsic plagiarism; candidate document retrieval; web search; queries construction; common features
Štítky	candidate document retrieval, IS, PAN, Plagiarism, plagiarism detection
Příznaky	Mezinárodní význam, Recenzováno
Změnil	Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 5. 5. 2016 16:15.

Anotace

In this paper, we describe our approach at the PAN 2012 plagiarism detection competition. Our candidate retrieval system is based on extraction of three different types of Web queries with narrowing their execution by skipping certain passages of an input document. We have created queries based on keywords extraction, intrinsic plagiarism detection and headers extraction. We have also compared the performance of constructed queries used during the PAN 2012 test process. The proposed methodology was the best performing one in case of long term operation and also the most cost-effective one. Our detailed comparison system is based on detecting common features of several types (in the final submission, we have used two types of features: sorted word 5-grams and unsorted stop word 8-grams) in the input document pair. We propose a method of computing so called valid intervals from those features, represented by their offset and length attributes in both source and suspicious document. Previous works use the feature ordering as the measure of distance, which is not usable for multiple types of features, which do not have any natural ordering. From those valid intervals we compute final detections in the post-processing phase, where we merge neighbouring valid intervals and remove some types of overlapping detections. We further discuss other approaches which we explored, but which have not been used in our final submission. In the paper we also discuss the performance aspects of our program, parameter settings, and the relevance of current PAN 2012 rules (including the plagdet score) to the real-world plagiarism detection systems.

Anotace česky

V tomto článku popisujeme náš přístup v soutěži PAN 2012 v detekci plagiátorství. V první části, vyhledávání podezřelých dokumentů, jsme použili přístup založený na extrakci tří odlišných typů Webových dotazů a aplikovali heuristiku pro minimalizaci celkového počtu použitých dotazů na základě nalezených podobností dokumentů. Jednotlivé typy dotazů byly vytvořeny z klíčových slov dokumentu, z částí textu detekovaných metodou pro detekci vnitřního plagiátorství a na základě lokálních nadpisů v textu. Tato metodika pro vyhledávání podezřelých dokumentů byla v rámci soutěže nejefektivnější. Náš systém pro detailní porovnávání párů dokumentů je založen na hledání výskytu společných vlastností (například společné skupiny slov), přičemž systém vyhodnocuje společné vlastnosti více různých typů. Náš finální výsledek byl založen na dvou typech vlastností: setříděné pětice slov a nesetříděné osmice stop-slov. Navrhujeme metodu výpočtu takzvaných platných rozsahů na základě těchto společných vlastností, kde platný rozsah je reprezentován svým počátečním znakem a délkou jak ve zdrojovém, tak v podezřelém dokumentu. Předchozí práce používaly pro reprezentaci vzdálenosti pořadí výskytu jednotlivých společných vlastností. Toto není použitelné pro systém s více typy vlastností, které nemusejí mít mezi sebou navzájem žádné přirozené uspořádání. Z těchto platných rozsahů počítáme výsledné detekované pasáže textu ve fázi následného zpracování, kde se snažíme slučovat blízké platné rozsahy a odstraňovat některé typy překrývajících se rozsahů. Dále rozebíráme jiné přístupy které jsme vyzkoušeli, ale nepoužili v našem finálním výsledku. V tomto článku také diskutujeme výkonnostní aspekty našeho programu, nastavení parametrů, a relevantnost kritérií hodnocení PAN 2012 (včetně hodnoty plagdet) pro reálné systémy na odhalování plagiátů.

Návaznosti
LA09016, projekt VaV	Název: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Akronym: ERCIM)
LA09016, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Účast ČR v European Research Consortium for Informatics and Mathematics

Typ	Název	Vložil/a	Vloženo
	CLEF2012wn-PAN-SuchomelEt2012.pdf	Suchomel, Š.	16. 1. 2013
Vlastnosti Adresa v ISu https://is.muni.cz/auth/publication/1080912/CLEF2012wn-PAN-SuchomelEt2012.pdf Adresa ze světa https://is.muni.cz/publication/1080912/CLEF2012wn-PAN-SuchomelEt2012.pdf Adresa do Správce https://is.muni.cz/auth/publication/1080912/CLEF2012wn-PAN-SuchomelEt2012.pdf?info Ze světa do Správce https://is.muni.cz/publication/1080912/CLEF2012wn-PAN-SuchomelEt2012.pdf?info Vloženo St 16. 1. 2013 11:41, RNDr. Šimon Suchomel, Ph.D. Práva Právo číst kdokoliv v Internetu osoba RNDr. Jan Kasprzak, Ph.D., učo 1885 osoba doc. Ing. Michal Brandejs, CSc., učo 2116 osoba RNDr. Pavel Šmerk, Ph.D., učo 3880 osoba RNDr. Šimon Suchomel, Ph.D., učo 98949 Právo vkládat Právo spravovat osoba RNDr. Jan Kasprzak, Ph.D., učo 1885 osoba doc. Ing. Michal Brandejs, CSc., učo 2116 osoba RNDr. Pavel Šmerk, Ph.D., učo 3880 osoba RNDr. Šimon Suchomel, Ph.D., učo 98949 Atributy CLEF2012wn-PAN-SuchomelEt2012.pdf Aplikace Otevřít soubor. Stáhnout soubor. Adresa v ISu https://is.muni.cz/auth/publication/1080912/CLEF2012wn-PAN-SuchomelEt2012.pdf Adresa ze světa https://is.muni.cz/publication/1080912/CLEF2012wn-PAN-SuchomelEt2012.pdf Typ souboru PDF (application/pdf) Velikost 134,7 KB Hash md5 e8cc81f620585960b99e31ca8c9aa2cf Vloženo St 16. 1. 2013 11:41 CLEF2012wn-PAN-SuchomelEt2012.txt Aplikace Otevřít soubor. Stáhnout soubor. Adresa v ISu https://is.muni.cz/auth/publication/1080912/CLEF2012wn-PAN-SuchomelEt2012.txt Adresa ze světa https://is.muni.cz/publication/1080912/CLEF2012wn-PAN-SuchomelEt2012.txt Typ souboru holý text (text/plain) Velikost 30,8 KB Hash md5 20e191185395b6b5f924a922d5207b02 Vloženo St 16. 1. 2013 11:43

Vytisknout
Nahlásit neoprávněně vložený soubor Zobrazeno: 11. 10. 2024 23:57

Three Way Search Engine Queries with Multi-feature Document Comparison for Plagiarism Detection

Vlastnosti

Práva

CLEF2012wn-PAN-SuchomelEt2012.pdf

CLEF2012wn-PAN-SuchomelEt2012.txt

Další aplikace