D 2009

Finding Plagiarism by Evaluating Document Similarities

KASPRZAK, Jan, Michal BRANDEJS a Miroslav KŘIPAČ

Základní údaje

Originální název

Finding Plagiarism by Evaluating Document Similarities

Název česky

Hledání plagiátů pomocí vyhodnocení podobností dokumentů

Autoři

KASPRZAK, Jan (203 Česká republika, garant), Michal BRANDEJS (203 Česká republika) a Miroslav KŘIPAČ (203 Česká republika)

Vydání

Vol. 502. San Sebastian, Španělsko, Proceedings of the SEPLN'09 Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse, od s. 24-28, 5 s. 2009

Nakladatel

CEUR Workshop Proceedings

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Španělsko

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14330/09:00036624

Organizační jednotka

Fakulta informatiky

ISSN

Klíčová slova česky

Plagiátorství Podobné dokumenty Překryv dokumentů Distribuované výpočty Paralelismus

Klíčová slova anglicky

Plagiarism Similar Documents Document Overlap Distributed Computing Parallelism

Štítky

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 26. 3. 2010 11:52, RNDr. Jan Kasprzak, Ph.D.

Anotace

V originále

In this paper we discuss the approach we have used for finding plagiarized passages of text during the PAN'09 plagiarism detection competition. We describe the existing anti-plagiarism system we use in the Czech National Archive of Graduate Theses. We then discuss the modifications to this system which have been necessary in order to fit the results to the competition rules. We also present a performance data of the described system, and the possible improvement for our production systems, which result from the code written for the PAN'09 competition.

Česky

V tomto článku diskutujeme postup, který jsme použili pro nalezení opsaných pasáží textu během soutěže PAN'09 v detekci plagiátů. Popisujeme existující software pro odhalování plagiátů, použitý v Českém národním archívu závěrečných prací (theses.cz). Dále diskutujeme úpravy tohoto systému, které byly nezbytné pro výpočet výsledků podle pravidel soutěže. Diskutujeme také výkon popsaného systému a možná rozšíření našich produkčních systému, která vyplynula z kódu napsaného pro soutěž PAN'09.

Návaznosti

LA09016, projekt VaV
Název: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Akronym: ERCIM)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Účast ČR v European Research Consortium for Informatics and Mathematics