D 2009

Finding Plagiarism by Evaluating Document Similarities

KASPRZAK, Jan, Michal BRANDEJS and Miroslav KŘIPAČ

Basic information

Original name

Finding Plagiarism by Evaluating Document Similarities

Name in Czech

Hledání plagiátů pomocí vyhodnocení podobností dokumentů

Authors

KASPRZAK, Jan (203 Czech Republic, guarantor), Michal BRANDEJS (203 Czech Republic) and Miroslav KŘIPAČ (203 Czech Republic)

Edition

Vol. 502. San Sebastian, Španělsko, Proceedings of the SEPLN'09 Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse, p. 24-28, 5 pp. 2009

Publisher

CEUR Workshop Proceedings

Other information

Language

English

Type of outcome

Stať ve sborníku

Field of Study

10201 Computer sciences, information science, bioinformatics

Country of publisher

Spain

Confidentiality degree

není předmětem státního či obchodního tajemství

RIV identification code

RIV/00216224:14330/09:00036624

Organization unit

Faculty of Informatics

ISSN

Keywords (in Czech)

Plagiátorství Podobné dokumenty Překryv dokumentů Distribuované výpočty Paralelismus

Keywords in English

Plagiarism Similar Documents Document Overlap Distributed Computing Parallelism

Tags

Tags

International impact, Reviewed
Změněno: 26/3/2010 11:52, RNDr. Jan Kasprzak, Ph.D.

Abstract

V originále

In this paper we discuss the approach we have used for finding plagiarized passages of text during the PAN'09 plagiarism detection competition. We describe the existing anti-plagiarism system we use in the Czech National Archive of Graduate Theses. We then discuss the modifications to this system which have been necessary in order to fit the results to the competition rules. We also present a performance data of the described system, and the possible improvement for our production systems, which result from the code written for the PAN'09 competition.

In Czech

V tomto článku diskutujeme postup, který jsme použili pro nalezení opsaných pasáží textu během soutěže PAN'09 v detekci plagiátů. Popisujeme existující software pro odhalování plagiátů, použitý v Českém národním archívu závěrečných prací (theses.cz). Dále diskutujeme úpravy tohoto systému, které byly nezbytné pro výpočet výsledků podle pravidel soutěže. Diskutujeme také výkon popsaného systému a možná rozšíření našich produkčních systému, která vyplynula z kódu napsaného pro soutěž PAN'09.

Links

LA09016, research and development project
Name: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Acronym: ERCIM)
Investor: Ministry of Education, Youth and Sports of the CR, Czech Republic membership in the European Research Consortium for Informatics and Mathematics