Odhaľovanie plagiátov v seminárnych prácach

Plagiarism-tracing in seminar papers

Michal Brandejs, Jitka Brandejsová, Ľuboš Lunter, Miroslav Křipač, Jan Kasprzak

Abstrakt: V roku 2009 prebieha projekt Odhaľovania plagiátov v seminárnych prácach, ktorého sa účastní 10 verejných vysokých škôl z Českej republiky. Tento projekt rieši problematiku, ktorou sa akademická sféra zaoberá už dlhšiu dobu – problematiku neopisovania prác a snahy pomáhať odhaľovať plagiáty prostredníctvom informačných technológií. Internet a sprístupňovanie zdrojov v digitálnej forme sú jednou z veľmi prínosných možností pokročilých technológií. Na druhej strane, sú ľahko zneužiteľné podvodníkmi. Vývojový tým Informačného systému Masarykovej univerzity pre podporu štúdia najskôr vyvinul službu pre odhaľovanie plagiátov pre vlastné účely. Dopyt po tejto službe vznikol vďaka zavedeniu archívu záverečných prác v tomto systéme už v roku 2004, pretože riziko zneužitia týchto prác v digitálnej podobe rastie. A tiež vďaka vzniku komplexného e-learningového systému v IS MU. Učitelia teraz nemusia mať príliš veľké obavy zo zverejňovania svojich publikácií, výukových materiálov a ďalších dokumentov, a sú im k dispozícii nástroje pre odhaľovanie plagiátov v tomto systéme. Ďalší význam mala aj novela zákona o vysokých školách so svojou povinnosťou zverejňovať záverečné práce na Internete v roku 2006. Takto bola v roku 2006 táto služba pre odhaľovanie plagiátov daná k dispozícii pre akademikov a študentov MU a v roku 2008 ďalším 21 vysokým školám prostredníctvom systému Theses (http://theses.sk/ a http://theses.cz/) pre odhaľovanie plagiátov medzi záverečnými prácami. Lenže práce nie sú opisované len medzi záverečnými prácami navzájom a pre niektoré štúdia majú zásadný význam seminárne práce, preto je v tomto roku aktuálne riešenie projektu pre odhaľovanie plagiátov medzi seminárnymi prácami Odevzdej.cz (http://odevzdej.cz/). Na Internete rastie počet serverov, ktoré zhromažďujú seminárne a iné práce a umožňujú tak ich opisovanie a tento projekt má za cieľ mi. eliminovať zmysel týchto serverov.

Abstract: In 2009 project of plagiarism-tracing in seminar papers involves 10 public universities in Czech Republic. This project addresses the issue which is academia dealing with for a long time - the issue of not to copy works and effort to help to detect and trace plagiarism through Information Technology. Internet and access to resources in digital form is one of the very beneficial possibilities of advanced technologies. On the other side they are easily exploitable by cheaters. Developing team of Information System of Masaryk University developed a service for the detection plagiarism for their own purposes first. The demand for this service was due to the introduction of the archives of the final works in this system in 2004, because the risk of misuse of these works in digital form is growing. And also thanks to the emergence of a comprehensive e-learning system in IS MU. Teachers don’t need to worry about disclosure their publications, teaching materials and other documents now and there are available tools for tracing plagiarism in this system. Thus the service to trace plagiarism was made available for academics and students of MU first in 2006 a further 21 universities through Theses systems (http://theses.sk/ and http://theses.cz/) for the plagiarism-tracing in the final theses in 2008. Some studies have important seminar papers, therefore this year the project for the plagiarism-tracing in the seminar papers Odevzdej.cz (http://odevzdej.cz/). The growing number of Internet servers, which collect seminar papers, etc. allowing the cribbing and the project aims to eliminate the sense of these servers.

1 Úvod

Masarykova univerzita (MU) sa zaoberá problémom plagiátorstva už niekoľko rokov. Keďže MU podporuje sprístupňovanie študijných materiálov v elektronickej podobe, rovnako ako zverejňovanie záverečných prác a uvedomuje si riziko zneužitia týchto materiálov, logicky vznikol dopyt po systéme, ktorý by na prípadné zneužitie upozornil. V roku 2004 vytvorila MU pre vlastné potreby úložisko elektronických verzií záverečných prác a v roku 2006 dala k dispozícii svojim študentom, vyučujúcim a zamestnancom nástroj na odhaľovanie podobností súborov v Informačnom systéme Masarykovej univerzity (IS MU). V IS MU je plne implementovaná e-learningová podpora výuky, a teda aj podpora pre vystavovanie študijných materiálov a zber úloh od študentov, ktorí vkladajú vypracované úlohy do tzv. „Odevzdavární“. Takto odovzdané úlohy môže učiteľ veľmi pohodlne skontrolovať a porovnať podobnosť s ostatnými súbormi vloženými do systému.

Myšlienka vzniku centralizovaného systému na odhaľovanie plagiátov v seminárnych prácach nadväzuje na úspešný projekt Národného registru vysokoškolských kvalifikačných prác, ktorý bol realizovaný v roku 2008 a zapojilo sa doň 21 vysokých škôl. Ich zoznam je uvedený na stránkach http://theses.cz/. V tomto systéme sa porovnáva naprieč so všetkými prácami a dokumentmi, ktoré v systéme sú (medzi záverečnými prácami, študijnými materiálmi, publikáciami, apod.), a porovnáva sa bez ohľadu na jazyk prác (čeština, slovenčina, angličtina, francúzština, nemčina a ďalšie). V tejto chvíli obsahuje systém približne 60 tisíc záverečných prác (vyše 200 tisíc súborov záverečných prác) a cez 1,2 milióna dokumentov (iných prác, publikácií, dokumentov). Plagiátorstvo však nie je len problémom záverečných prác. Pre niektoré štúdia sú zásadné seminárne práce, v ktorých môže byť ľahko zneužitá dostupnosť elektronických zdrojov. Neustále rastie počet serverov, ktoré zhromažďujú seminárne práce alebo referáty a uľahčujú tak ich opisovanie. V tejto súvislosti bol zaznamenaný výrazný dopyt po systéme na odhaľovanie plagiátov medzi seminárnymi prácami, referátmi, esejami, spracovávanými úlohami, projektmi, laboratórnymi cvičeniami, protokolmi, správami, slohovými cvičeniami ap. Preto podalo 10 vysokých škôl a univerzít žiadosť o rozvojový projekt Odhaľovanie plagiátov v seminárnych prácach, ktorý bude prepojený so systémom pre odhaľovanie plagiátov v záverečných prácach Theses.cz.

2 Ciele projektu

Za koordináciu a technologickú realizáciu projektu zodpovedá Masarykova univerzita. Cieľom projektu Odhaľovania plagiátov v seminárnych prácach je prispieť k zvýšeniu kvality vysokoškolských prác a tým aj k zvýšeniu kvality vysokoškolského vzdelávania vytvorením služby na vyhľadávanie podobných textov. Služba „odhaľovanie plagiátov“ bude realizovaná pre úložisko seminárnych prác a bude prepojená s celonárodným úložiskom vysokoškolských kvalifikačných prác (VŠKP) so zachovaním nastavených prístupových práv. Toto prepojenie zabezpečí vyhľadávanie podobností medzi záverečnými prácami a seminárnymi prácami navzájom a zvýši sa takto báza dát pre vyhľadávanie podobností. Okrem vytvorenia úložiska seminárnych a i. prác, prístupného na adrese http://odevzdej.cz/, vytvorí hlavný riešiteľ projektu podmienky pre vkladanie prác zo strany zúčastnených škôl. Systém bude individuálne prispôsobený potrebám zapojených škôl, aby sa maximálne zabezpečilo pohodlie užívateľov a úspora ľudských kapacít. Systém predpokladá diferencovaný prístup jednotlivých škôl pre plnohodnotné hľadanie podobných textov.

Pre tento projekt je tiež nutné navrhnúť, overiť a spracovať novú verziu algoritmu pre porovnávanie súborov, ktorá bude schopná zabezpečiť porovnávanie rádovo vyššieho počtu súborov, ako tomu bolo v projekte Theses.cz.

Zúčastnené školy budú vo svojom lokálnom prostredí realizovať podporu pre predávanie súborov so seminárnymi a i. prácami do novovytvoreného centrálneho systému, v ktorom sa práce porovnajú. Cieľom zúčastnených škôl bude teda vkladať seminárne a i. práce do centrálneho systému Odevzdej.cz zo svojich lokálnych úložísk, prípadne si vybudujú školské alebo fakultné úložisko prác. Každá zúčastnená škola musí vytvoriť organizačné zázemie pre zber prác a následný import do systému Odevzdej.cz. Zber seminárnych prác môže prebiehať buď na celouniverzitnej úrovni danej školy, alebo na fakultnej úrovni, prípadne na úrovni vybraného pracoviska.

3 Technická realizácia

Do systému Odevzdej.cz bude mať prístup každá spolupracujúca vysoká škola na adrese http://odevzdej.cz/ a svoje práce bude môcť ukladať v niekoľkých režimoch vkladania (od strojového až po individuálne vkladanie jednotlivými študentmi). Ak bude záujem o priame vkladanie prác študentov školy, systém umožní vkladanie súborov do adresárového stromu študentom. V prípade záujmu pedagógov o priamu kontrolu vložených prác, umožní systém prístup pedagógom pre kontrolu plagiátov medzi vloženými súbormi. Ak škola už disponuje vlastným riešením elektronického archívu seminárnych prác, systém umožní vkladať práce do centrálneho archívu automaticky a rovnako automaticky umožní spätne si strojovo preberať informácie o nájdených podobnostiach.

Vkladané práce môžu byť v rozličných formátoch. Súbory dodané vo Worde, formáte OpenOffice, TeX apod. sa automaticky prevedú do formátu PDF a do holého textu. Práce vložené vo formáte PDF sa automaticky prevedú do holého textu, ktorý umožní vyhľadávanie podobností. Systém ponúka aj automatické rozpoznávanie naskenovaných textov (OCR), ktoré umožní porovnávanie prác odovzdaných na papieri. Takto sa zabezpečí pohodlný prevod odovzdaných prác do elektronickej podoby a následná kontrola systémom na odhaľovanie plagiátov. Súčasťou systému je aj automatická antivírová ochrana súborov. Kontroluje sa každý novo vložený súbor a v prípade zistenia závadného obsahu bude súbor okamžite odstránený a vkladateľ bude o tejto skutočnosti informovaný.

Prístupy škôl k prácam a prístupové práva budú riešené individuálne podľa požiadaviek jednotlivých zapojených škôl. Práce budú môcť byť dostupné autentizovaným užívateľom podľa nastavení školou. Každý adresár bude mať vlastnú webovú adresu a bude možné na neho kliknúť a prezerať si jeho obsah s ohľadom na nastavené prístupové práva. Súčasťou systému bude aj fulltextové vyhľadávanie nad dostupnými (podľa prístupových práv verejnými) súbormi.

Vložené práce budú viacstupňovo zálohované v rôznych lokalitách pre maximálne zabezpečenie spoľahlivosti systému.

4 Vyhľadávanie plagiátov (podobných súborov)

Systém ponúkne možnosť vyhľadávania podobných súborov k dopredu označeným dokumentom. Je možné nastaviť rôzne kritéria vyhľadávania („vyhľadať od určitého percenta podobnosti“, „nevyhľadávať medzi prácami rovnakého vkladateľa“ a pod.) alebo vyhľadávanie podobných dokumentov bez dopredu vybraných súborov podľa kritérií (z akej fakulty, po akom dátume vloženia súborov, od akého zvoleného percenta podobností apod.). Služby vyhľadávania plagiátov je možné použiť aj pre všetky cudzojazyčné texty písané latinkou. V prípade nálezu podobnosti dokumentov v prácach študentov dvoch rôznych škôl, budú oba podobné dokumenty dostupné pracovníkom preverujúcim podobnosť podľa aktuálnych nastavení prístupových práv. V prípade, že niektorý z nájdených podobných dokumentov nie je verejný, bude predaný odkaz na príslušného správcu dokumentu.

5 Využitie systému ďalšími subjektmi

Systém je otvorený pre vstup ďalších subjektov, nielen vysokých škôl. K 28. 2. 2009 sa zapojilo 17 verejných vysokých škôl ČR, 2 súkromné vysoké školy ČR, 1 štátna vysoká škola ČR, 1 zahraničná vysoká škola – Ekonomická univerzita v Bratislave a v zmluvnom jednaní sú ďalšie, jednania prebiehajú tiež na úrovni spolupráce s knižnicami.

Literatúra:

[1] Vysokoškolské kvalifikační práce. Oficiální stránky Theses.cz [online]. 2009. Dostupný z www: http://theses.cz/. [cit. 2009-02-22]