D 2008

Plagiarism Detection through Vector Space Models Applied to a Digital Library

ŘEHŮŘEK, Radim

Základní údaje

Originální název

Plagiarism Detection through Vector Space Models Applied to a Digital Library

Název česky

Detekce plagiátů v digitální knihovně

Autoři

ŘEHŮŘEK, Radim (203 Česká republika, garant, domácí)

Vydání

1,. Brno, RASLAN 2008, od s. 75-83, 9 s. 2008

Nakladatel

Masarykova Univerzita

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

20200 2.2 Electrical engineering, Electronic engineering, Information engineering

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Kód RIV

RIV/00216224:14330/08:00024438

Organizační jednotka

Fakulta informatiky

ISBN

978-80-210-4741-9

UT WoS

000302212600013

Klíčová slova anglicky

plagiarism; vector space; digital library

Příznaky

Mezinárodní význam
Změněno: 7. 6. 2021 22:08, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

Plagiarism is an increasing problem in the digital world. The sheer amount of digital data calls for automation of plagirism discovery. In this paper we evaluate an Information Retrieval approach of dealing with plagiarism through Vector Spaces. This will allow us to detect similarities that are not result of naive copy\&paste. We also consider the extension of Vector Spaces where input documents are analyzed for term co-occurence, allowing us to introduce some semantics into our approach beyond mere word matching. The approach is evaluated on a real-world collection of mathematical documents as part of the DML-CZ project.

Česky

Článek se věnuje využití vektorových prostorů pro detekci plagiátů. Jsou uvažovany metody rozšiřující základní vektorový model o práci se synonymy a statistickou sémantikou. Přístupy jsou vyhodnoceny na reálné kolekci matematických textů z projektu DML-CZ.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
1ET200190513, projekt VaV
Název: DML-CZ: Česká digitální matematická knihovna
Investor: Akademie věd ČR, DML-CZ: Česká digitální matematická knihovna
2C06009, projekt VaV
Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce