Národní registr VŠKP a systém na odhalování plagiátů

Michal Brandejs, Jitka Brandejsová, Miroslav Křipač, Jan Kasprzak

článek ve Čtenáři (leden 2009)

Plagiátorství pokládá mnoho základních a opakovaně i několik kontroverzních otázek. Položme si některé z nich i v našem článku, aniž bychom u všech museli dojít k jednoznačným odpovědím. Není ani tak cílem dát nesporné odpovědi, jako spíše posbírat a shrnout otázky, které slýcháváme, a podívat se takto na problematiku plagiátorství z více stran. Hlavním cílem článku však zůstává téma uvedené v titulku a tím je projekt Národního registru VŠKP a systému na odhalování plagiátů.

Co je plagiátorství?

Definice z internetového slovníku cizích slov, kterou formuloval dle informací zde uvedených prof.PhDr.Rudolf Kohoutek,CSc., říká, že plagiátorství je opisování, vydávání cizí práce za vlastní, neuvedení zdrojů ze kterých práce čerpá, publikování cizích výsledků výzkumu a vývoje bez uvedení pramenů. Plagiát je podvrh; úmyslná napodobenina vydávaná za vlastní dílo; umělecká nebo vědecká krádež. Pro srovnání, Wikipedia.org říká zcela shodnou definici, tj. že plagiátorství je užití nebo blízká napodobenina jazyka a myšlenek jiného autora a jejich vydávání za své vlastní dílo. Názor, že neexistuje jednoznačnost v definici plagiátů, volající po nápravě tohoto stavu, by se snad dala v tomto momentu považovat za bezpředmětnou a tyto iniciativy za zbytečné. Všem, i laikům, je jistě zcela jasné, že opsal-li člověk do svého díla cizí text, aniž by uvedl autora, je zcela jistě plagiátorem.

Těžší se situace může jevit u pojmu self-plagiátorství nebo autoplagiátorství, které představuje opisování, kopírování výtvorů vlastní osoby, či svých dřívějších prací, aniž by byly zmíněny. (Definice je citována z internetového slovníku cizích slov.) Je však vůbec možné opisování od sebe samé nebo samého považovat za plagiátorství? Vždyť přece nepoškozujeme jiné autory a neporušujeme autorská práva. Znamená to, že toto počínání je „jen“ neetické? Chceme-li se těmto otázkám jednoznačně vyhnout, je na místě se řádně citovat.

Jaké jsou příčiny plagiátorství?

Zdroj Wikipedia.org zmiňuje, že v oblasti vědy, vzdělání a žurnalistiky má plagiátorství svoji historii již po staletí, ale vývoj Internetu, kde se na webových stránkách objevují články v elektronické podobě, způsobil, že se kopírování cizích prací stalo mnohem jednodušším. Vše můžeme sdílet, odevšad můžeme čerpat, informace máme na dosah ruky, těžíme z těchto možností, o nichž se našim babičkám ani nesnilo. V dobách dřívějších studií byly veškerými knížkami dostupnými ke studiu buď skripta nebo anglické knížky v jednom paré a další informace se při zpracování vysokoškolské práce už očekávaly od studentů. V některých oborech je tomu tak dodneška. Nebylo to těžší, ale bylo to jiné. Jsme raději, když dnes můžeme čerpat z mnohem většího spektra zdrojů. Ale možná právě proto je obtížnější čerpat a nevyužít přesné interpretace ba dokonce znění myšlenek. S tím je však potřebné se smířit a nemyslet si, že správnou cestou je články nezveřejňovat a neponechávat je volně dostupné v elektronické formě. To je trochu proti samotnému účelu vědy a vzdělání, jejichž výsledky by tu měly být pro všechny, dostupné a inspirativní pro ostatní. Zejména utajování informací dává naopak příležitost podvodníkům a spekulantům, protože ti, budou-li chtít, se k pramenu stejně dostanou.

Jak moc je plagiátorství rozšířené?

Častou otázkou, s níž se u veřejnosti setkáváme, je zda je plagiátorství opravdu tak rozšířené v terciárním vzdělávání. Ne, není rozšířeno více než kdekoli jinde. Je ojedinělé stejně jako kterékoli jiné prohřešky, stejně ve vzdělávání jako v jiných oblastech a stejně u nás jako ve světě. Začalo se však o něm mluvit například v souvislosti s prohřešky politiků a známých osobností, protože jde přirozeně o mediálně atraktivní téma, což nemůžeme mít pisatelům ani čtenářům za zlé. Za zlé to můžeme mít pouze hříšníkům. Získat tímto nečestným způsobem akademický titul na vysoké škole, a teď už bez ohledu na to, kdo se za osobou plagiátora skrývá, ukazuje na dost významnou vadu charakteru a nepoctivost člověka. I když je potřeba připomenout, že plagiátorství není běžné, přesto figuruje mezi důvody disciplinárních řízení na předních místech, často na místě prvním. Zejména na vysokých školách a fakultách, kde jsou značné nároky na psaní rozsáhlých textových prací během studia.

Jedním z důvodů pro rozšíření plagiátů může být velký počet studentů na vysokých školách a z toho vyplývající velké množství zpracovávaných prací, ať už se jedná o závěrečné nebo seminární či jiné práce. Bylo by však správné pro získání větší kvality prací snížit kvantitu studentů? Trendem v naší krajině je, aby studovalo co nejvíce mladých lidí, abychom vytvářeli znalostní společnost, tedy čím vzdělanější členové společnosti, tím větší přínos pro ekonomiku a další rozvoj země. Statisticky skutečně studuje více mladých lidí než v dřívějších dobách a o co jednodušší přístup ke vzdělání mají, o to těžší je naplnit originalitu jejich studia tím, že napíší zcela originální závěrečnou práci. Nebo i seminární práci. Je dobře, že nám roste vzdělanostní společnost, a je potřeba se poprat se situací, kdy je nutné vychovat velké množství vzdělaných lidí. I kdybychom měli zahodit některé sentimentální myšlenky, například jak je hezké znát každého studenta jménem. Ale ani v tomto případě není nutné zcela rezignovat na to, aby učitel znal některé studenty, alespoň třeba ty nejlepší, jménem – prostor při vhodném způsobu výuky vytvořit lze.

Na druhé straně se lze setkat s názory, že sami učitelé nemohou dostatečně kontrolovat práce, které vedou, protože ani při nejlepší vůli nemohou odhalit podobnost či shodnost tolika textů od tolika studentů za tolik let. Při velkém množství generovaných prací může být nadlidský úkol pojmout podezření u některých z plagiátorství a ještě nadlidštější zjistit zdroj opisování a prokázat to. Učitelé s nízkým počtem studentů na učitele mohou mít práci s odhalením plagiátů samozřejmě jednodušší, pokud ani počet zpracovaných prací není vysoký.

Lze plagiátorství předcházet?

Umíme vychovávat studenty, aby neopisovali? Je potřebné dnes více než dříve učit studenty potřebné zákony a normy? Stačí začít s výchovou na vysoké škole? Je účelnější vtloukat dětem tyto zásady už na základní škole při psaní referátů nebo je účelnější nechat tyto informace až na dobu studia na VŠ, kdy je potřebují nejvíce?

Nízká výchova k etice při zpracování studijních výsledků ve vysokoškolských pracích a ke správnému použití cizího textu a citování jiného autorského díla převažuje. S výchovou se rozhodně nemá otálet, ale také nelze úplně spoléhat na to, že všichni studenti základních nebo středních škol porozumějí přesně důvodům a důsledkům, proč nelze bezprostředně a bez zlých úmyslů používat texty z Internetu nejjednodušším způsobem, tj. „kopíruj a vlož“ (copy nad paste). Neočekávejme, že ze středních škol přijdou na vysokou školu poučení uživatelé se znalostmi, jak zacházet s cizím textem, a na vysoké škole již nebude potřeba žádné osvěty.

Zcela zřejmou prevencí před plagiátorstvím je zveřejňování kvalifikačních prací. Netroufnu si opisovat, pokud vím, že moje práce je někde zveřejněna. Novela vysokoškolského zákona by zveřejňování měla zaručovat. A jak je to ve skutečnosti? Zveřejňují školy závěrečné práce? Některé ano, některé ne. Ačkoli znění autorského zákona není vůči vysokoškolskému zákonu stoprocentně optimální, je zveřejňování prostřednictvím závěrečných prací na Internetu správné a řešitelné. Aniž bychom se pouštěli do hloubky právního problému, je zcela zřetelné, že existují univerzity, které nemají problém se zveřejňováním závěrečných prací a nemají ani absenci právního oddělení, aby tak činily z holé naivity. Také rozšiřující se technologie a principy Web 2.0 by mohly pomoci účinně pomáhat v boji proti plagiátorství, pokud využívání a otevřenost zdrojů je adresná.

Je možné eliminovat plagiátorství zadáváním stále nových témat pro seminární nebo závěrečné práce? Novost a neopakovatelnost témat přispívá ke kvalitě prací. Mnoho zadání je založeno na měřeních, výpočtech, srovnávání a vyhodnocování čísel, hodnot, ale mnoho zadání je také založeno na srovnání kritických postojů ke konkrétním existujícím tématům (Evropská unie, historické události aj.). Tady nemusí být vždy dostatek prostoru k vynalézavosti.

Je možné považovat za prevenci před plagiátorstvím software, který umí odhalit podobné texty, tj. potenciální plagiáty? Je trochu nezvyklé, když softwarový nástroj určený k odhalení plagiátu až po jeho vzniku, slouží k prevenci, ale je to fakt ověřený zkušeností. Dvouleté pozorování potvrdilo skutečnost, která se předpovídala, a to, že nástroj na odhalování plagiátů přináší (zatím) největší preventivní výsledky v boji proti plagiátorství. Pokud totiž student ví, že jeho práce může být dříve nebo později srovnána tímto systémem, nedovolí si zneužít cizího textu neoprávněným způsobem. Pokud by samozřejmě byly výše jmenované ostatní prostředky dostatečné, plnil by tento nástroj jen funkci detekce plagiátorství, k níž je primárně určen.

Mají exemplární postihy a veřejné odsouzené případy na základě disciplinárních řízení za opisování preventivní účinek? Ano, i zde jde o velmi silnou zbraň v boji proti opisování, protože většina studentů má respekt před případným nedokončením studia vyloučením.

Jaké otázky zde nezazněly?

Na mnoho otázek k plagiátorství, s nimiž je možné být v dnešní době konfrontován, zde nedošlo. Diskutují se například osobní poklesky učitelů, kteří „prý“ navádí k plagiátorství, nebo jsou dokonce sami plagiátory, ale toto lidské selhání není v žádném případě masivním jevem, je naopak zcela ojedinělé. Otázkou také zůstává, zda veřejné mínění nebo média pomáhají v boji proti plagiátům nebo jim škodí. Naše zkušenosti s novináři jsou veskrze pozitivní a souhlasíme s tím, že z globálního pohledu je do velké míry jejich zásluhou, že se problematika plagiátorství řeší a „nezametá pod stůl“. Ale je nutné dodat, že určitě mohou existovat jiné subjektivní zkušenosti v tomto směru. Nedostaly zde prostor právní aspekty plagiátorství a další otázky.

Proč projekt Národní registr VŠKP a systém na odhalování plagiátů?

Častý dotaz novinářů zní: „Proč jste se rozhodli vytvořit program na odhalování plagiátů? Znamená to, že jste se s plagiátorstvím na vaší škole potýkali tak strašně moc, že jste museli něco udělat? Ne. Nás k tomu vedly jiné podněty, které typicky přišly od našich uživatelů, v tomto případě od učitelů. Ale začněme od začátku. Jsme trochu napřed v používání systému pro podporu studia - Informačního systému Masarykovy univerzity (dále IS MU). A nejen pro podporu studia. V 2004 vznikl v IS MU archiv závěrečných prací a podpora odevzdávání elektronických prací byla zakotvena ve Studijním a zkušebním řádu MU. Všechny práce byly zpřístupněny všem uživatelům v IS MU, tj. na Intranetu, což čítalo v té době už přes 40 tisíc uživatelů. I když práce byly přístupné jen interním uživatelům, byla pravděpodobnost šíření elektronické verze díla v Internetu vysoká. Vznikl tak první dotaz na plagiátorství: „Jak tomu zabráníte?“ A brouk se do hlavy zavrtal. Na konci roku 2004 vznikla další nová myšlenka v IS MU – vyvinout kompletní e-learningový systém pro elektronickou podporu výuky. V roce 2005 dostali e-learningové nástroje učitelé k dispozici. Znamenalo to, že by učitelé dávali studentům k dispozici různé digitální materiály, ale i vlastní publikace ke studiu do studijních materiálů. Jenže publikace, které učitelé vytvoří, jsou cenné, nevytváří jich denně a často ani ročně desítky, aby si mohli dovolit dát v plén plagiátorům. Učitelé vědí, že vývoji neuniknou, nechtějí bránit pokroku a znemožnit svým studentům jednodušší přístup ke studijním zdrojům. Na druhé straně úsilí věnované vzniku odborné publikace bylo přece velké. I v této chvíli poptávají učitelé nástroj proti zneužití dokumentů. A tak došlo 16. srpna 2006 k definitivnímu naplnění přání těchto učitelů. Všem uživatelům byl dán nástroj na odhalování plagiátů, resp. přesněji nástroj na vyhledávání podobných dokumentů, v IS MU. Nástroj se velmi rychle dostal do povědomí veřejnosti a médií. Řešení bylo vnímáno velice pozitivně. Mnoho škol nás začalo oslovovat se zájmem o tento softwarový nástroj. Když jsme v roce 2007 převzali za významný počin v oblasti elektronických zdrojů prestižní cenu Inforum za zpřístupněný Archiv závěrečných prací s funkcí odhalování plagiátů, rádi jsme „podlehli“ těmto požadavkům a rozhodli se pustit se do projektu, který by přinesl službu na odhalování plagiátů i ostatním školám. Entuziasmus převážil nad prozíravostí, ale i po roce zkušeností, ne vždy jednoduše získaných díky rozsáhlosti projektu a heterogennosti prostředí, máme pocit, že rozhodnutí bylo správné. Do projektu se zapojilo v rámci rozvojového projektu MŠMT sedmnáct českých veřejných vysokých škol a mimo rámec projektu další soukromé, státní a zahraniční vysoké školy navíc. Z projektu původně národního se tak ve skutečnosti stal projekt mezinárodní. Vznikla tak elektronická databáze vysokoškolských kvalifikačních prací (bakalářských, diplomových, disertačních a rigorózních) na serveru Vysokoškolské kvalifikační práce – http://theses.cz/. V současné době je v systému 22 tisíc závěrečných prací a počet bude narůstat, ať už z důvodu probíhajícího projektu nebo jeho rozvoje v dalších letech. Toto však není počet dokumentů, mezi nimiž se práce porovnávají. Těch je v současné době 1,2 miliónu.

O technologii

Masarykova univerzita, resp. vývojový tým Informačního systému MU, vyvinul vlastní a ojedinělou implementací specifického algoritmu pro vyhledávání podobných souborů. To způsobily poměrně cenné zkušenosti nejen z víceletého provozu, ale především z provozu pro velké množství uživatelů, přes 70 tisíc, a porovnávání v prostředí velkého množství dokumentů (mezi milióny elektronických dokumentů). Systém zpracovává práce vícefázově. Po vložení souboru do systému je tento analyzován a zpracován tak, že je připraven pro vyhledání podobností. Vyhledání nastává ve finální fázi, kdy uživatelé použijí jednu z funkcí pro vyhledání potenciálních plagiátů. Díky více fázím je vyhledání rychlé a proběhne během několika sekund.

Obr.: Systém Theses pro vyhledávání plagiátů http://theses.cz/

Systém je autentizovaným webovým systémem. Vyhledávání podobných souborů nabízí v autentizované části systému Theses.cz. Umožňuje jednak přímé vyhledání, kdy u zvolených konkrétních souborů použijeme volbu s ikonou dvou vajíček „podobné jako vejce vejci“. Funkci používá například učitel, má-li podezření, že konkrétní soubor je plagiátem. Další možnost je určena pro manažery a jde o Globální vyhledání plagiátů. Tato speciální aplikace slouží pro výpis všech nalezených podobností. Příkladem použití je situace, kdy správce periodicky kontroluje nové soubory na plagiáty.

Systém má několik základních služeb. Eviduje popisné údaje o závěrečných prací škol, tzv. metadata, vyhledává fulltextově a tematicky v závěrečných pracích, vyhledává v metadatech, vyhledává potenciální plagiáty dle kritérií (podle procentuální podobnosti textu, mezi všemi univerzitami nebo jen na vybrané fakultě, vložené po určitém datu atp.), umožňuje využít systému jako vlastního archivu závěrečných prací studentů vysoké školy. Každá škola má možnost konfigurace systému – vlastní nastavení dle specifických požadavků školy. Přeje si zpřístupnit práce nebo metadata jen svým uživatelům, zpřístupnit práce veřejnosti; zpřístupnit metadata – záznamy o práci (název, klíčová slova, anotaci, jméno, příjmení studenta aj.) veřejnosti. Samozřejmými aplikacemi jsou aplikace pro správu osob a dat, pro import údajů o pracích a import plných textů (hromadně správci nebo individuálně studenty; strojově automaticky nebo ručně), k dispozici je formát importu dat. Systém obsahuje podporu pro evidenci posudků k závěrečným pracím a informace o umístění práce (např. adresu webu). V systému je integrována antivirová ochrana souborů a důmyslný systém přístupových práv. Systém lze navíc rozšířit na další práce (na jiné internetové adrese) a napojit na vybrané zdroje v Internetu. Dalšími doplňkovými aplikacemi v systému jsou aplikace Vývěska, Diskuse, Úschovna, Web, Záložky, Řízení projektu.

Nutno ještě dodat, že celý projekt je v mnohém dost ojedinělý a průkopnický. Ve světě se systematicky nesbírají závěrečné práce z více škol proto, aby se v nich vyhledávaly plagiáty. Nikdy se nespojilo tolik vysokých škol v podobném projektu. Internetové vyhledávače nemohou nahradit tento systém už proto, že nemají přístup k vysokoškolským pracím (kromě prací z několika škol, které už práce zveřejňují). Systém pracuje přesně, nikoli s heuristikou. Systém zvládá zpracovat velké množství dat s krátkými odezvami.

Plány

Nově se ve spolupráci deseti českými veřejnými vysokými školami pod vedením MU připravuje projekt Odhalování plagiátů v seminárních pracích (Odevzdej.cz - http://odevzdej.cz/). Novým cílem tohoto projektu je nabídnout vysokým školám možnost vyhledávat plagiáty i mezi seminárními pracemi, referáty, esejemi, úlohami, projekty, laboratorními cvičeními, protokoly, zprávami, slohovými cvičeními aj.