D
2008
Plagiarism Detection through Vector Space Models Applied to a Digital Library
ŘEHŮŘEK, Radim
Základní údaje
Originální název
Plagiarism Detection through Vector Space Models Applied to a Digital Library
Název česky
Detekce plagiátů v digitální knihovně
Autoři
ŘEHŮŘEK, Radim (203 Česká republika, garant, domácí)
Vydání
1,. Brno, RASLAN 2008, od s. 75-83, 9 s. 2008
Nakladatel
Masarykova Univerzita
Další údaje
Typ výsledku
Stať ve sborníku
Obor
20200 2.2 Electrical engineering, Electronic engineering, Information engineering
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Kód RIV
RIV/00216224:14330/08:00024438
Organizační jednotka
Fakulta informatiky
Klíčová slova anglicky
plagiarism; vector space; digital library
Příznaky
Mezinárodní význam
V originále
Plagiarism is an increasing problem in the digital world. The sheer amount of digital data calls for automation of plagirism discovery. In this paper we evaluate an Information Retrieval approach of dealing with plagiarism through Vector Spaces. This will allow us to detect similarities that are not result of naive copy\&paste. We also consider the extension of Vector Spaces where input documents are analyzed for term co-occurence, allowing us to introduce some semantics into our approach beyond mere word matching. The approach is evaluated on a real-world collection of mathematical documents as part of the DML-CZ project.
Česky
Článek se věnuje využití vektorových prostorů pro detekci plagiátů. Jsou uvažovany metody rozšiřující základní vektorový model o práci se synonymy a statistickou sémantikou. Přístupy jsou vyhodnoceny na reálné kolekci matematických textů z projektu DML-CZ.
Návaznosti
LC536, projekt VaV | Název: Centrum komputační lingvistiky | Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky |
|
1ET200190513, projekt VaV | Název: DML-CZ: Česká digitální matematická knihovna | Investor: Akademie věd ČR, DML-CZ: Česká digitální matematická knihovna |
|
2C06009, projekt VaV | Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing) | Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce |
|
Zobrazeno: 21. 1. 2025 12:42