Plagiarism Detection through Vector Space Models Applied to a Digital Library
Basic information
Original name
Plagiarism Detection through Vector Space Models Applied to a Digital Library
Name in Czech
Detekce plagiátů v digitální knihovně
ŘEHŮŘEK, Radim (203 Czech Republic, guarantor, belonging to the institution)
1,. Brno, RASLAN 2008, p. 75-83, 9 pp. 2008
Masarykova Univerzita
Other information
Type of outcome
Stať ve sborníku
Field of Study
20200 2.2 Electrical engineering, Electronic engineering, Information engineering
Country of publisher
Czech Republic
Confidentiality degree
není předmětem státního či obchodního tajemství
Publication form
printed version "print"
RIV identification code
Organization unit
Faculty of Informatics
Keywords in English
plagiarism; vector space; digital library
International impact
V originále
Plagiarism is an increasing problem in the digital world. The sheer amount of digital data calls for automation of plagirism discovery. In this paper we evaluate an Information Retrieval approach of dealing with plagiarism through Vector Spaces. This will allow us to detect similarities that are not result of naive copy\&paste. We also consider the extension of Vector Spaces where input documents are analyzed for term co-occurence, allowing us to introduce some semantics into our approach beyond mere word matching. The approach is evaluated on a real-world collection of mathematical documents as part of the DML-CZ project.
In Czech
Článek se věnuje využití vektorových prostorů pro detekci plagiátů. Jsou uvažovany metody rozšiřující základní vektorový model o práci se synonymy a statistickou sémantikou. Přístupy jsou vyhodnoceny na reálné kolekci matematických textů z projektu DML-CZ.
LC536, research and development project | Name: Centrum komputační lingvistiky | Investor: Ministry of Education, Youth and Sports of the CR, Centrum komputační lingvistiky |
1ET200190513, research and development project | Name: DML-CZ: Česká digitální matematická knihovna | Investor: Academy of Sciences of the Czech Republic, DML-CZ: Czech Digital Mathematical Library |
2C06009, research and development project | Name: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Acronym: COT-SEWing) | Investor: Ministry of Education, Youth and Sports of the CR |
Displayed: 13/2/2025 17:01