D 2015

Determining Window Size from Plagiarism Corpus for Stylometric Features

SUCHOMEL, Šimon a Michal BRANDEJS

Základní údaje

Originální název

Determining Window Size from Plagiarism Corpus for Stylometric Features

Autoři

SUCHOMEL, Šimon (203 Česká republika, domácí) a Michal BRANDEJS (203 Česká republika, garant, domácí)

Vydání

Toulouse, France, Experimental IR Meets Multilinguality, Multimodality, and Interaction, od s. 293-299, 7 s. 2015

Nakladatel

Springer International Publishing

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Francie

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Impakt faktor

Impact factor: 0.402 v roce 2005

Kód RIV

RIV/00216224:14330/15:00084706

Organizační jednotka

Fakulta informatiky

ISBN

978-3-319-24026-8

ISSN

UT WoS

000364677800034

Klíčová slova anglicky

plagiarism; average word frequency class; stylometry; text classification; intrinsic plagiarism

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 16. 11. 2015 11:33, RNDr. Šimon Suchomel, Ph.D.

Anotace

V originále

The sliding window concept is a common method for computing a profile of a document with unknown structure. This paper outlines an experiment with stylometric word-based feature in order to determine an optimal size of the sliding window. It was conducted for a vocabulary richness method called ‘average word frequency class’ using the PAN 2015 source retrieval training corpus for plagiarism detection. The paper shows the pros and cons of the stop words removal for the sliding window document profiling and discusses the utilization of the selected feature for intrinsic plagiarism detection. The experiment resulted in the recommendation of setting the sliding windows to around 100 words in length for computing the text profile using the average word frequency class stylometric feature.

Návaznosti

LG13010, projekt VaV
Název: Zastoupení ČR v European Research Consortium for Informatics and Mathematics (Akronym: ERCIM-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Zastoupení ČR v European Research Consortium for Informatics and Mathematics

Přiložené soubory