D 2008

Plagiarism Detection through Vector Space Models Applied to a Digital Library

ŘEHŮŘEK, Radim

Basic information

Original name

Plagiarism Detection through Vector Space Models Applied to a Digital Library

Name in Czech

Detekce plagiátů v digitální knihovně

Authors

ŘEHŮŘEK, Radim (203 Czech Republic, guarantor, belonging to the institution)

Edition

1,. Brno, RASLAN 2008, p. 75-83, 9 pp. 2008

Publisher

Masarykova Univerzita

Other information

Language

English

Type of outcome

Stať ve sborníku

Field of Study

20200 2.2 Electrical engineering, Electronic engineering, Information engineering

Country of publisher

Czech Republic

Confidentiality degree

není předmětem státního či obchodního tajemství

Publication form

printed version "print"

References:

RIV identification code

RIV/00216224:14330/08:00024438

Organization unit

Faculty of Informatics

ISBN

978-80-210-4741-9

UT WoS

000302212600013

Keywords in English

plagiarism; vector space; digital library

Tags

International impact
Změněno: 7/6/2021 22:08, RNDr. Pavel Šmerk, Ph.D.

Abstract

V originále

Plagiarism is an increasing problem in the digital world. The sheer amount of digital data calls for automation of plagirism discovery. In this paper we evaluate an Information Retrieval approach of dealing with plagiarism through Vector Spaces. This will allow us to detect similarities that are not result of naive copy\&paste. We also consider the extension of Vector Spaces where input documents are analyzed for term co-occurence, allowing us to introduce some semantics into our approach beyond mere word matching. The approach is evaluated on a real-world collection of mathematical documents as part of the DML-CZ project.

In Czech

Článek se věnuje využití vektorových prostorů pro detekci plagiátů. Jsou uvažovany metody rozšiřující základní vektorový model o práci se synonymy a statistickou sémantikou. Přístupy jsou vyhodnoceny na reálné kolekci matematických textů z projektu DML-CZ.

Links

LC536, research and development project
Name: Centrum komputační lingvistiky
Investor: Ministry of Education, Youth and Sports of the CR, Centrum komputační lingvistiky
1ET200190513, research and development project
Name: DML-CZ: Česká digitální matematická knihovna
Investor: Academy of Sciences of the Czech Republic, DML-CZ: Czech Digital Mathematical Library
2C06009, research and development project
Name: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Acronym: COT-SEWing)
Investor: Ministry of Education, Youth and Sports of the CR