D 2009

Distributed Aspects of the System for Discovering Similar Documents

KASPRZAK, Jan, Michal BRANDEJS and Jitka BRANDEJSOVÁ

Basic information

Original name

Distributed Aspects of the System for Discovering Similar Documents

Name in Czech

Distribuované aspekty systému na objevování podobných dokumentů

Authors

KASPRZAK, Jan (203 Czech Republic, guarantor), Michal BRANDEJS (203 Czech Republic) and Jitka BRANDEJSOVÁ (203 Czech Republic)

Edition

Wrexham, UK, Proceedings of the Third International Conference on Internet Technologies and Applications, p. 557-564, 8 pp. 2009

Publisher

Glyndwr University

Other information

Language

English

Type of outcome

Stať ve sborníku

Field of Study

10201 Computer sciences, information science, bioinformatics

Country of publisher

United Kingdom of Great Britain and Northern Ireland

Confidentiality degree

není předmětem státního či obchodního tajemství

References:

RIV identification code

RIV/00216224:14330/09:00036620

Organization unit

Faculty of Informatics

ISBN

978-0-946881-65-9

Keywords (in Czech)

Theses Archív Plagiátorství Podobné dokumenty Distribuované výpočty

Keywords in English

Theses Archive Plagiarism Similar documents Distributed computing

Tags

Tags

International impact, Reviewed
Změněno: 26/3/2010 11:47, RNDr. Jan Kasprzak, Ph.D.

Abstract

V originále

With wide deployment of e-learning methods such as computer-mediated communication between the students and teachers, including papers and essays submission and evaluation, it has become much easier for students to base those works on electronic resources, including the plagiarization of the work of other people. In this paper we will briefly present a system for discovering similarities in a large base of documents, which has been in production use inside the Czech National Archive of Graduate Theses since January 2008. We will then focus on the distributed aspects of such a system, especially on the task of creating and maintaining the index for discovering the similarities on a cluster of commodity computers.

In Czech

S rozšířením e-learningových metod jako je počítačem zprostředkovaná komunikace mezi studentem a vyučujícím, včetně odevzdávání esejí a článků, a včetně hodnocení výsledků, se stalo mnohem jednodušším pro studenty svoji práci založit na elektronických zdrojích, včetně plagiátorství cizí práce. V tomto článku stručně představujeme systém pro objevování podobných dokumentů ve velké databázi dokumentů, který je v produkčním nasazení v rámci Českého národního archívu závěrečných prací (theses.cz) od ledna 2008. Poté se zaměříme na distribuované aspekty takového systému, zejména na úkol vytváření a údržby indexu pro objevování podobností na clusteru běžných počítačů.

Links

LA09016, research and development project
Name: Účast ČR v European Research Consortium for Informatics and Mathematics (ERCIM) (Acronym: ERCIM)
Investor: Ministry of Education, Youth and Sports of the CR, Czech Republic membership in the European Research Consortium for Informatics and Mathematics