Dvanáctileté zkušenosti z provozu systémů na odhalování plagiátů

Jitka Brandejsová, Michal Brandejs, Šimon Suchomel

článek na konferenci EUNIS 2018 ve Špindlerově mlýně (21. 5. 2018)

Abstrakt: V roce 2006 spatřil světlo světa první český antiplagiátorský systém integrovaný do studijního Informačního systému Masarykovy univerzity. O dva roky později byl realizován první centralizovaný rozvojový projekt pod názvem Národní registr vysokoškolských kvalifikačních prací a systém na odhalování plagiátů, na němž se dohodlo 17 veřejných vysokých škol, a vznikl systém pro kontrolu podobností Theses.cz. Protože od té doby uběhlo téměř přesně 10 let, stojí za to zrekapitulovat, jaká cesta byla od roku 2006 zdolána, a připomenout příběh dalších systémů, které v roce 2009 (Odevzdej.cz) a 2011 (Repozitar.cz) následovaly.

Klíčová slova: Antiplagiátorské systémy, informační systémy, software, Internet, plagiátorství, vysokoškolské kvalifikační práce, seminární práce, publikace, Theses.cz, Odevzdej.cz, Repozitar.cz

Úvod

Hned v úvodu je nutné připomenout, že systémy na odhalování plagiátů samy nerozhodují o tom, zda je dílo plagiát nebo ne. Ve specifikaci funkce těchto systémů je „odhalování“ myšleno s určitou nadsázkou a ve skutečnosti jde o systémy schopné nalézt podobnosti textů, které povedou k ověření originality děl. Ve finále má proto vždy poslední slovo odborník, který musí konstatovat, zda práce je či není plagiát, případně zda autor pracoval správně s použitou literaturou a řádně citoval. Zmíněné systémy mu v jeho práci pomohou, rozhodnutí však za něj neudělají.

Theses.cz

V prostředí vysoké školy má pravděpodobně největší význam systém Theses.cz na odhalování plagiátů v kvalifikačních pracích. Kvalita závěrečné práce, kde originalita a původnost myšlenek autora je nezbytnou podmínkou, je v případě studenta předpokladem pro jeho úspěšné absolutorium. I sama škola má zájem na tom, aby úroveň prací obhájených na její půdě byla co nejlepší, protože práce jsou dle zákona o vysokých školách veřejně dostupné a od jejich kvality je odvozována také kvalita vysoké školy.

Odevzdej.cz

Jakkoliv má systém Theses.cz jednoznačnou popularitu mezi vysokými školami, mezi uživateli si ji získal systém Odevzdej.cz, protože je dostupný široké veřejnosti. Využívají ho jednotlivci, školy i firmy. Školám slouží ke kontrole školních děl vznikajících ve výuce. Řada z nich ho má napojený na svůj e-learningový systém a používá ho ke kontrole souborů vložených vyučujícími i studenty v rámci výuky. Školy mohou vkládat a kontrolovat školní díla hromadně, nebo je mohou využívat jednotliví učitelé individuálně, a to tak, že práce vkládají buď oni, nebo studenti. Systém jim nabízí možnost vkládat práce například podle tříd, seminárních skupin či předmětů do odevzdáváren a zpřístupňuje jim také nástroje k jejich hodnocení. Občas dochází i tak trochu ke „zneužívání“ systému. Některé školy, které nechtějí investovat do kontroly školních děl, nařizují svým studentům, aby přinesli „protokol“ o kontrole závěrečné kvalifikační či absolventské práce provedené v systému Odevzdej.cz. Práce, na které je aplikována tato tzv. „kontrola na e-mail“, se však v systému Odevzdej.cz trvale neukládají, databáze prací školy díky tomu nemá z čeho být budována a porovnání dalších prací se provádí pouze vůči pracím z „cizích“ škol, což snižuje kvalitu výsledků analýzy podobností. Kromě toho je nasnadě, že pokud člověk vyrobil plagiát své práce, kterou si individuálně kontroluje v systému Odevzdej.cz, pak vyrobit plagiát protokolu o „nenalezení“ podobnosti je mnohem snazší. Autoři a vkladatelé prací často také zahlcují kontaktní adresu pro nahlášení chyb na Odevzdej.cz stížnostmi, že jim systém nalezl vysoká procenta podobnosti s dalším vlastním dokumentem. Často totiž vloží soubor vícekrát, ať už z důvodu, že ho postupně iterují nebo ve stresu z termínu odevzdání „protokolu“, a jejich zájmem pak paradoxně není, aby systém podobnosti nalezl, ale pokud možno, aby je nenalezl. Informační maily a nápovědu, které popisují možnosti, jak nekontrolovat dokumenty od stejného vkladatele či smazat duplicitně vložený soubor, uživatelé nečtou, a možnosti nevyužijí. A tak ač vkládají svoji práci do systému, který vyhledává podobnosti, chtějí předložit škole potvrzení, že práce ničemu podobná není, a systém „podobnosti nalézt nesmí“. Špatnou pověst mají také portály či osoby vyrábějící seminárky na míru. S tím se bohužel nedá dobře „bojovat“, protože adresu na „freemailových“ serverech si může zřídit kdokoli a kdokoli pak může také posílat práce do Odevzdej.cz anonymně. Na druhé straně existuje řada oprávněných či právních zájmů, kdy je nutné porovnat dva dokumenty a není v silách provozovatele tuto službu zajišťovat ručně.

V poslední době přibývají mezi školami využívajícími systém Odevzdej.cz střední školy. Menší průzkum na vzorku středních škol byl proveden již v roce 2010. Ač zde možnost kontrolovat školní díla vzbudila poměrně velký zájem, převažovaly tady tehdy ještě práce v papírové podobě a krátkého rozsahu 1 až 2 stran. Tato situace se změnila před několika lety s psaním odborných maturitních prací, které mohou mít až 25 stran a odevzdávají se elektronicky, a s použitím technologií v oblasti středoškolské odborné činnosti, kde práce má až 30 stran. V současnosti je i řada pedagogů, které zajímá písemný projev i v běžné výuce, nejčastěji v jazykových předmětech, a ti mají zájem práce kontrolovat v systému Odevzdej.cz.

Repozitar.cz

Nemalé pozornosti se dostává i systému Repozitar.cz. Tento systém kromě toho, že umí kontrolovat originalitu zaměstnaneckých děl, umožňuje také sběr dokumentů, řízenou prezentaci a kontrolu odborných článků, publikací a jiných děl vytvořených zaměstnanci nebo doktorskými studenty. Podporuje zelenou cestu Open Access, která spočívá v autoarchivaci vědeckých výstupů autorem nebo jeho domovskou institucí. Autoři mohou do systému Repozitar.cz vkládat jak záznamy o publikacích, tak plné texty a další soubory (souhlas spoluautorů, licenční smlouvu, podklady a výzkumná data,…). K vloženým dokumentům mohou navíc připojit své požadavky na to, kdo má mít oprávnění k dokumentům přistupovat. Institucí pověřená osoba má v systému nástroje k tomu, aby požadavky na přístupová práva potvrdila nebo v souladu s autorským právem či pravidly a zvyklostmi stanovenými na každé škole upravila. Nezanedbatelnou výhodou systému je, že umí generovat soubor ve formátu XML obsahující data, která se předávají do Informačního systému výzkumu, experimentálního vývoje a inovací (tzv. sběr RIV, zkratka pro Rejstřík informací o výsledcích).

V současné době řada projektů vyžaduje veřejnou prezentaci výsledků, zejména těch, které vznikly z veřejných zdrojů (např. Horizon 2020). I k tomu může sloužit systém Repozitar.cz respektující vnitřní normy každé školy a po technické stránce splňující veškeré parametry moderního repozitáře. Výsledkům zajistí větší viditelnost, zvýší jejich citovanost a tím i prestiž projektu.

Vysoké školy mohou používat Repozitar.cz i pro evidenci, kontrolu podobností nebo zpřístupnění habilitačních prací. Pro tyto práce je Repozitar.cz vhodným řešením, protože škola ne vždy k práci sbírá metadata elektronicky a ne vždy preferuje „jednotné“ zpřístupňování všech děl, jak tomu je u ostatních kvalifikačních prací studentů. Ze zákona o vysokých školách má škola i v případě habilitačních prací povinnost tyto práce zveřejňovat.

Co systémy odlišuje od jiných převážně zahraničních systémů?

Systémy se specializují na vyhledávání v češtině a slovenštině, dokumenty jsou porovnávány také s databází neveřejných prací (dle přání některých škol se jejich závěrečné práce nezveřejňují na Theses.cz). Systémy umožňují širokou škálu nastavení přístupových práv v souladu s českou legislativou, nejen autorským zákonem, ale i zákonem o vysokých školách. V závislosti na tom, jak jsou k dokumentu nastavena přístupová práva, uživatel hledající cílový dokument ho buď „vidí“, nebo naopak „nevidí“, a pomocí speciálního formuláře může kontaktovat školu, do jejíž kompetence nalezený dokument spadá. Je také umožněno odložit zveřejnění prací, jak u závěrečných prací na Theses.cz v případě odůvodněného skrytí práce, tak u publikovaných textů v Repozitar.cz například v souladu s licenční smlouvou s vydavatelem. Systémy podporují vložení formátů převoditelných na holý text a poradí si i s případy, kdy nelze z dokumentu text přímo extrahovat. Práci pak systém převede do textu pomocí integrované funkce OCR. Velkou výhodu pro vyhledávání podobností představuje skutečnost, že systémy jsou navzájem propojeny, a proto se vyhledává mezi dokumenty všech systémů, a kromě toho se vyhledávají podobnosti mezi dokumenty přístupnými na Internetu. Samozřejmostí je fulltextové a katalogové vyhledávání a systémy nabízejí podle svého zaměření řadu dalších služeb.

Co se od roku 2008 změnilo po technické stránce?

Po vzniku systémů Theses.cz a Odevzdej.cz byl v roce 2009 implementován algoritmus na porovnávání vůči dokumentům na Internetu. Byla to „bolestivá“ věc, která tlačila všechny vysoké školy, a řešení bylo proto očekávané a potřebné.

Ví se, že plagiátoři jsou často velmi vynalézaví, a to nutí vývojový tým k neustálé aktivitě, sledování trendů a vývoji dalších kontrolních mechanismů. Triky podvodníků jsou často startovacím momentem pro zdokonalení systému. V minulosti to byl kupříkladu případ, kdy studenti ve snaze obelstít systém zkusili nahradit písmena psaná latinkou znaky jiné abecedy, a tak například všechny samohlásky „a“ nahradili v textu znakem ruské abecedy „а“, který vizuálně vypadá naprosto stejně. Jindy studenti zase zkusili nahradit mezery mezi slovy písmeny v bílé barvě, čímž vytvořili dlouhá nekončící slova nesmyslného významu. V reakci na tyto pokusy byla implementována speciální kontrola, která bezprostředně hlásí podezření na tento podvod.

V roce 2015 byly rozšířeny možnosti vyhledávání a zobrazování nalezených výsledků publikací v systému Repozitar.cz. Uživatelé mohou nově vložit ke svému výsledku do Repozitar.cz tzv. Research data (výzkumná data), což je soubor podkladových primárních dat k výsledkům. K tomuto speciálnímu souboru je opět možné nastavit individuální přístupová práva. Ve stejné době přibyla také podpora formátu přenosu výsledků do OpenAIRE dle potřeb vysoké školy. Školy také nově mohou svým uživatelům nabídnout, aby se přihlásili do systému pomocí služby EduID, čímž odpadá starost o administraci přístupů.

V roce 2016 se vývojový tým soustředil na problematiku dlouhodobého ukládání dat a dlouhodobou archivaci z pohledu zákona č. 499/2004 Sb., o archivnictví a spisové službě a o změně některých zákonů (Zákon o archivnictví a spisové službě), a upravil systém na odhalování plagiátů Theses.cz do podoby digitální spisovny. Školy jej mohou díky těmto úpravám využívat nejen pro kontrolu podobností, ale také kvůli efektivnějšímu řešení problémů spjatých s dlouhodobým ukládáním a archivací závěrečných prací z hlediska Zákona o vysokých školách. Byly vytvořeny mechanismy pro předávání digitálních spisů do Národního digitálního archivu, archivní balíčky podle národního standardu pro dlouhodobé ukládání a následnou archivaci (Submission Information Package – SIP). Tím bylo připraveno prostředí pro elektronické skartační řízení, vč. vyřazení dokumentů z elektronické spisovny (likvidace balíčků SIP) nebo pro výběr archiválií (předání balíčků SIP) do Národního digitálního archivu.

Ve stejném roce se aktivita vývojářů soustředila na vývoj aplikace Evidence uměleckých děl v IS JAMU, která poskytuje Janáčkově akademii múzických umění v Brně možnost vykonávat řízenou správu své umělecké tvorby.

Systém Odevzdej.cz proměnil starý design za nový a moderní s několika vychytávkami pro usnadnění práce. Hlavní výhodou se stal responzivní vzhled na obr. 1 a pohodlné ovládání systému na tabletu či mobilu, který ilustruje obr. 2. Nový design se postupně bude vyvíjet i v ostatních systémech.

Obr. 1: Nový vzhled systému Odevzdej.cz na PC

Obr. 2: Nový vzhled systému Odevzdej.cz na iPadu

Jednou z hlavních výzev pro rok 2018 je téma GDPR (angl. General Data Protection Regulation, čes. Obecné nařízení o ochraně osobních údajů), jehož implementace do těchto systémů právě probíhá.

Na závěr několik statistických informací

Počty kontrolovaných souborů v obou nejfrekventovanějších systémech a celkové počty porovnávaných souborů v jednotlivých letech znázorňují grafy na obr. 3 a obr. 4. Zajímavostí jsou statistiky souborů vkládaných do systému Odevzdej.cz uživateli z řad veřejnosti na kontrolu na e-mail. Když v roce 2012 vložili uživatelé z veřejnosti 32 724 souborů ke kontrole, již v následujícím roce to bylo trojnásobek. Počet 90 až 100 tisíc vložených ročně si dlouhodobě drží svoji stabilitu. Největší špičky jsou zaznamenávány každoročně, a pochopitelně, v březnu až dubnu, kdy činí mezi 13 až 21 tisíci vloženými soubory, protože v tomto období studenti nejvíce odevzdávají své kvalifikační práce na školách.

Obr. 3: Přírůstky kontrolovaných souborů v systémech Odevzdej.cz a Theses.cz v letech 2008 až 2017

Obr. 4: Celkové počty kontrolovaných souborů ve všech systémech v letech 2006 až 2017

Literatura

https://theses.cz/

https://odevzdej.cz/

https://repozitar.cz/

O autorech

Ing. Jitka Brandejsová
Masarykova univerzita, Fakulta informatiky
Botanická 68a, 602 00 Brno, Česká republika
e-mail: jibra@fi.muni.cz

doc. Ing. Michal Brandejs, CSc.
Masarykova univerzita, Fakulta informatiky
Botanická 68a, 602 00 Brno, Česká republika
e-mail: brandejs@fi.muni.cz

RNDr. Šimon Suchomel Ph.D.
Masarykova univerzita, Fakulta informatiky
Botanická 68a, 602 00 Brno, Česká republika
e-mail: suchomel@fi.muni.cz