ŘEHŮŘEK, Radim. Plagiarism Detection through Vector Space Models Applied to a Digital Library. In RASLAN 2008. 1,. Brno: Masarykova Univerzita, 2008. s. 75-83, 9 s. ISBN 978-80-210-4741-9.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Plagiarism Detection through Vector Space Models Applied to a Digital Library
Název česky Detekce plagiátů v digitální knihovně
Autoři ŘEHŮŘEK, Radim (203 Česká republika, garant).
Vydání 1,. Brno, RASLAN 2008, od s. 75-83, 9 s. 2008.
Nakladatel Masarykova Univerzita
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 20200 2.2 Electrical engineering, Electronic engineering, Information engineering
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
WWW URL
Kód RIV RIV/00216224:14330/08:00024438
Organizační jednotka Fakulta informatiky
ISBN 978-80-210-4741-9
UT WoS 000302212600013
Klíčová slova anglicky plagiarism; vector space; digital library
Štítky digital library, Plagiarism, vector space
Příznaky Mezinárodní význam
Změnil Změnil: RNDr. Radim Řehůřek, Ph.D., učo 39672. Změněno: 28. 1. 2009 16:01.
Anotace
Plagiarism is an increasing problem in the digital world. The sheer amount of digital data calls for automation of plagirism discovery. In this paper we evaluate an Information Retrieval approach of dealing with plagiarism through Vector Spaces. This will allow us to detect similarities that are not result of naive copy\&paste. We also consider the extension of Vector Spaces where input documents are analyzed for term co-occurence, allowing us to introduce some semantics into our approach beyond mere word matching. The approach is evaluated on a real-world collection of mathematical documents as part of the DML-CZ project.
Anotace česky
Článek se věnuje využití vektorových prostorů pro detekci plagiátů. Jsou uvažovany metody rozšiřující základní vektorový model o práci se synonymy a statistickou sémantikou. Přístupy jsou vyhodnoceny na reálné kolekci matematických textů z projektu DML-CZ.
Návaznosti
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centra základního výzkumu
1ET200190513, projekt VaVNázev: DML-CZ: Česká digitální matematická knihovna
Investor: Akademie věd ČR, Informační společnost (Národní program výzkumu)
2C06009, projekt VaVNázev: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Informační technologie pro znalostní společnost
VytisknoutZobrazeno: 10. 4. 2020 15:42