SUCHOMEL, Šimon a Michal BRANDEJS. Determining Window Size from Plagiarism Corpus for Stylometric Features. In Mothe, Josiane and Savoy, Jacques and Kamps, Jaap and Pinel-Sauvagnat, Karen and Jones, GarethJ.F. and SanJuan, Eric and Cappellato, Linda and Ferro, Nicola. Experimental IR Meets Multilinguality, Multimodality, and Interaction. Toulouse, France: Springer International Publishing, 2015. s. 293-299. ISBN 978-3-319-24026-8. doi:10.1007/978-3-319-24027-5_31.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Determining Window Size from Plagiarism Corpus for Stylometric Features
Autoři SUCHOMEL, Šimon (203 Česká republika, domácí) a Michal BRANDEJS (203 Česká republika, garant, domácí).
Vydání Toulouse, France, Experimental IR Meets Multilinguality, Multimodality, and Interaction, od s. 293-299, 7 s. 2015.
Nakladatel Springer International Publishing
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Francie
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW Springer Link
Impakt faktor Impact factor: 0.402 v roce 2005
Kód RIV RIV/00216224:14330/15:00084706
Organizační jednotka Fakulta informatiky
ISBN 978-3-319-24026-8
ISSN 0302-9743
Doi http://dx.doi.org/10.1007/978-3-319-24027-5_31
UT WoS 000364677800034
Klíčová slova anglicky plagiarism; average word frequency class; stylometry; text classification; intrinsic plagiarism
Štítky firank_B, intrinsic plagiarism, Plagiarism, plagiarism detection, stylometric features, stylometry
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Šimon Suchomel, Ph.D., učo 98949. Změněno: 16. 11. 2015 11:33.
Anotace
The sliding window concept is a common method for computing a profile of a document with unknown structure. This paper outlines an experiment with stylometric word-based feature in order to determine an optimal size of the sliding window. It was conducted for a vocabulary richness method called ‘average word frequency class’ using the PAN 2015 source retrieval training corpus for plagiarism detection. The paper shows the pros and cons of the stop words removal for the sliding window document profiling and discusses the utilization of the selected feature for intrinsic plagiarism detection. The experiment resulted in the recommendation of setting the sliding windows to around 100 words in length for computing the text profile using the average word frequency class stylometric feature.
Návaznosti
LG13010, projekt VaVNázev: Zastoupení ČR v European Research Consortium for Informatics and Mathematics (Akronym: ERCIM-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Zastoupení ČR v European Research Consortium for Informatics and Mathematics
Typ Název Vložil/a Vloženo Práva
Determining_Window_Size_from_Plagiarism_Corpus_for_Stylometric_Features.pdf Licence Creative Commons  Verze souboru Suchomel, Š. 16. 11. 2015

Vlastnosti

Adresa v ISu
https://is.muni.cz/auth/publication/1317554/Determining_Window_Size_from_Plagiarism_Corpus_for_Stylometric_Features.pdf
Adresa ze světa
https://is.muni.cz/publication/1317554/Determining_Window_Size_from_Plagiarism_Corpus_for_Stylometric_Features.pdf
Adresa do Správce
https://is.muni.cz/auth/publication/1317554/Determining_Window_Size_from_Plagiarism_Corpus_for_Stylometric_Features.pdf?info
Ze světa do Správce
https://is.muni.cz/publication/1317554/Determining_Window_Size_from_Plagiarism_Corpus_for_Stylometric_Features.pdf?info
Vloženo
Po 16. 11. 2015 11:31, RNDr. Šimon Suchomel, Ph.D.

Práva

Právo číst
  • kdokoliv v Internetu
Právo vkládat
 
Právo spravovat
  • osoba doc. Ing. Michal Brandejs, CSc., učo 2116
  • osoba RNDr. Šimon Suchomel, Ph.D., učo 98949
Atributy
 

Determining_Window_Size_from_Plagiarism_Corpus_for_Stylometric_Features.pdf

Aplikace
Otevřít soubor.
Stáhnout soubor.
Adresa v ISu
https://is.muni.cz/auth/publication/1317554/Determining_Window_Size_from_Plagiarism_Corpus_for_Stylometric_Features.pdf
Adresa ze světa
http://is.muni.cz/publication/1317554/Determining_Window_Size_from_Plagiarism_Corpus_for_Stylometric_Features.pdf
Typ souboru
PDF (application/pdf)
Velikost
272,5 KB
Hash md5
f756015f85e300ee0e3670485a138dee
Vloženo
Po 16. 11. 2015 11:31

Determining_Window_Size_from_Plagiarism_Corpus_for_Stylometric_Features.txt

Aplikace
Otevřít soubor.
Stáhnout soubor.
Adresa v ISu
https://is.muni.cz/auth/publication/1317554/Determining_Window_Size_from_Plagiarism_Corpus_for_Stylometric_Features.txt
Adresa ze světa
http://is.muni.cz/publication/1317554/Determining_Window_Size_from_Plagiarism_Corpus_for_Stylometric_Features.txt
Typ souboru
holý text (text/plain)
Velikost
17 KB
Hash md5
63b9ecd8e5c558c1468190492f8c2017
Vloženo
Po 16. 11. 2015 11:34
Vytisknout
Nahlásit neoprávněně vložený soubor Zobrazeno: 10. 8. 2022 11:20