I C U I II I C L iDNES.cz > Zprávy Kraje I Sport I Kultura Ekonomika I Bydleni Technet Ona Revue Auto = Další Audio Video Tv Foto PC & Mac Software Notebooky Web Věda & Vesmír Vojenství Přelomové osmičky Autoři Jak se odhalují plagiáty? Přeházet slova nestačí, překlad ale stroj ošálí 11. července 2018, aktualizováno 18:07 Nástroje na detekci opsaných pasáží mají nemalý problém. Musí porovnat odevzdanou diplomovou práci s miliony stránek už existujících textů. Co nejrychleji a pokud možno spolehlivě. Podívejte se s námi, proč je hledání plagiátů náročný a zajímavý problém kombinující informatiku, lingvistiku a psychologii. Opsala, nebo neopsala? Zapomněla jenom citaci, nebo úmyslně okopírovala část cizí diplomové práce? Taťána Malá, která byla na necelé dva týdny českou ministryní spravedlnosti, musela na podobné otázky odpovídat poté, co Český rozhlas odhalil, že její magisterská diplomová práce z roku 2011 obsahuje necitované pasáže z cizí diplomky. Později se ukázalo, že i její diplomová práce z roku 2005 obsahuje lasné plagiátorství". Malá sice ze své funkce odstoupila, nadále však trvá na tom, že je na své práce pyšná a o plagiáty nejde. „Kdo z vás psal diplomovou práci, víte, jak to funguje/' uvedla na tiskové konferenci. „Nelze hodnotit práci z roku 2005 dnešními měřítky/' Tehdy podle ní platila jiná pravidla. Později Malá připustila, že možná ne všechno správně odcitovala: „Já jsem vám říkala, že jsem si dělala poznámkový aparát a vykopírovávala jsem si věci do samostatného souboru. A když jsem tu práci zpracovávala, tak jsem možná ten [sporný text] zapomněla odcitovat. To je jediné, co mě napadá. Prostě se mi to stalo, omlouvám se, ale myslím si, že to není důvod k tomu zpochybňovat tu práci jako takovou." Pomineme teď nesmyslné tvrzení, že v roce 2005 platila jiná pravidla' povinnost citovat všechny zdroje ostatně diplomantka stvrdila hned na začátku podpisem u prohlášení o tom, že využila pouze citovanou literaturu. Ve výčtu ovšem neuvedla například diplomovou práci Zity Pavlišové, ze které Malá (tehdy Veličková) opsala - slovo od slova - celé pasáže Kauza odhalila řadu nedorozumění, která zjevně panují ohledně diplomových prací obecně a o plagiátorství zejména. V diskuzích jsme narazili na názory, že když práce prošla obhajobou, musí být v pořádku, nebo že opisování cizích textů do diplomek patří. Rozhodli jsme se proto některé tyto omyly uvést na pravou míru a podívat se pod „kapotu" systémům, které mají podobným plagiátorským pokusům zabránit. Jak lze odhalit plagiát? Oponent i vedoucí jsou na to krátcí Od samého začátku se Malá hájila tím, že diplomovou práci obhájila za jedna (stupeň A) a tudíž neopisovala. Na tiskové konferenci řekla, že kdyby jí vedoucí nebo oponent řekli, že něco cituje špatně, samozřejmě by to přepracovala. Taková argumentace ignoruje realitu. Vedoucí práce nemůže zkontrolovat každou větu a každý odstavec oproti všem existujícím větám a odstavcům, které kdy byly napsány. Jistě, může si všimnout podezřelých vět, pokusit se je vyhledat a studenta případně upozornit, ale není jeho úkolem odhalit plagiát. Ani oponent při čtení práce nemá obvykle šanci rozpoznat, zda náhodou nějaký odstavec není opsaný odjinud. Co je plagiátorství a jak správně citovat? „Za plagiátorství lze považovat úmyslné kopírování cizího textu a jeho vydávání za vlastní, nedbalé nebo nepřesné citování použité literatury, opomenutí citace (byť neúmyslné) některého využitého zdroje," uvádí například Masarykova univerzita v Brně. Ostatní univerzity definují plagiáty podobně. Správně má autor diplomové práce (nebo jakéhokoli jiného akademického textu) vždy uvést co nejpřesněji, odkud pochází informace, se kterou pracuje. Využívá se k tomu systém citací, který je upraven citační normou. Obecné to znamená, že kratší citované pasáže student oddělí uvozovkami a za ně uvede odkaz, u delších pasáží je vhodné odsadit celý citovaný odstavec. Samozřejmě, pokud něco takového objeví, musí to nahlásit a následuje obvykle nějaká forma disciplinárního řízení se studentem, který se plagiátu dopustil. Nicméně člověk nemůže opsanou pasáž spolehlivě odhalit jinak než shodou náhod. Zato počítačový systém je na tom o něco lépe. Ale ne o moc. Jak počítač prohledává stamiliony textových řetězců S tím, jak se zvyšuje dostupnost textů, které může student během několika sekund zkopírovat do své práce, se rozšířil i nešvar opisování a nepřiznaných citací. Zatímco dříve mohl pedagog mít celkem dobrý přehled o tom, ze kterých knih student čerpal, dnes je ruční kontrola plagiátů stěží představitelná. Proto začaly po roce 2000 vznikat systémy, které se specializují na odhalování plagiátů. V Česku jsou to především systémy Masarykovy univerzity: Theses.cz a Odevzdej.cz. K čemu slouží citace? V akademické práci je obvykle žádoucí vycházet z velkého množství již napsaných prací, článků a knih. Aleje potřeba jasně uvést, z kterých. Moderní věda je založená na inkrementálním a systematickém rozšiřování našeho poznání a porozuměni. To znamená, že žádný vědec neobjevuje věci „na zelené louce", ale vychází z toho. co již objevili a sepsali jiní. Jak řekl Isaac Newton: „Jestliže jsem dohlédl dále, bylo to proto, že jsem stál na ramenech obrů." Rozumějme: nemusel od začátku objevovat všechny matematické a fyzikální poučky, mohl je použít, kombinovat a díky tomu rozšířit. Citace ve vědecké práci slouží k jasnému označení zdroje informace, se kterou autor pracuje. Díky tomu: • čtenář ví, kde může hledat více informací • autor ví, z čeho vychází a na čem staví • případné chyby lze dohledat ke zdroji • citovaný autor je oceněn za svůj přínos Na tom, že někdo v diplomové práci vychází z cizích textů, tedy není vůbec nic špatného, naopak, je to žádoucí, je to podstata moderní vědy. Musí ale bezpodmínečně uvést, odkud přesně čerpá. Nejde jen o to, že by si plagiátor šetřil práci. Jde o to, že by se ztratila informace o původu zdroje. Do systému Odevzdej.cz (který nyní používá většina univerzit v ČR) mohou svou práci nahrát i studenti před odevzdáním. Systém hledá, zda v textu nejsou textové řetězce shodné nebo téměř shodné s jinou, již nahranou prací. To není až tak primitivní úkol, jak se zdá. Takový nástroj v podstatě musí diplomovou práci (řekněme sto stran textu) rozsekat na dílčí řetězce (třeba 20 písmen) a tyto řetězce srovnat se stejně dlouhými řetězci v milionech stránek ostatních prací. Jinými slovy, šlo by o porovnání 180 tisíců řetězců z kontrolované práce s miliardami řetězců prací již odevzdaných. Protože je potřeba každý úryvek porovnat s každým, znamená to stovky bilionů (stovky milionů milionů) textových operací. Proto musí autoři takového systému volit různé způsoby, jak hledání optimalizovat (podrobně se tomu věnuje Roman Chvla v článku pro Ikaros! Může například brát jenom celá slova, čímž se počet řetězců sníží. Může také odstranit ze slov diakritiku nebo dokonce samohlásky. Namísto porovnávání řetězce „Opětovným srovnáním došlo k záměně parametrů../1 tak počítač srovnává jen „optvnm srvnnm dsl kzmn prmtr', což je kratší. Existují i další způsoby, jak vyhledávání urychlit. Místo srovnávání textu lze srovnávat jen různé „otisky" textů. Z těch mohou programátoři úmyslně vyřadit některá nedůležitá slova, číslovky nebo zkrátka systém nevytváří otisk každého řetězce. Tím se sice zrychluje vyhledávání, ale stoupá riziko, že nějaká opsaná pasáž systému proklouzne. Ne každá shoda je plagiát Tím však problémy jenom začínají. Akademické práce obsahují velké množství okopírovaných textů, frází a dokonce celých pasáží, a přitom se nejedná o plagiát. Jde právě o citace - jasně označené pasáže textu, které jsou převzaté z již publikovaného zdroje, tento zdroj je pak jednoznačně odkázán. Nástroj, který odhaluje plagiáty, tak musí ověřit, zda je shoda „omluvena" citací, nebo zda je to shoda nepovolená, tedy taková, kde autor původ textu zatajil. Nemluvě o pasážích, které zkrátka patří k akademickému způsobu vyjadřování a vyskytují se tedy ve velkém množství textů. V angličtině jsou to slovní spojení jako „tato práce byla částečně podpořena" nebo je zřejmé, že jde o", případně „může být 7-gram this work was supported in part by can be expressed in lerms of the work was supported in part by the first term on the right hand side it is easy to sec that is operated by the association of universities fc department of physics and astronomy univet the paper is organized as follows in there is one to one correspondence between term on the right hand side of vyjádřeno ve formě". Takovéto fráze samy o sobě samozřejmě nemohou být často se opakující textové řetězce indikátorem toho, že jde o práci opsanou. Systémy proto obvykle hledají více shodných částí, případně shodu neobvykle rozsáhlou, nebo málo používaného řetězce. „Ačkoli podobnosti může počítač vyhodnotit, o tom, zda se jedná či nejedná o plagiát, nemůže nikdy rozhodovat počítačový systém," upozorňují autoři z Masarykovy univerzity. „Finální verdikt musí vynést člověk. Systém se jen snaží pomoci člověku s tímto rozhodnutím a zvýraznit podezřelé pasáže v dokumentu." Lidé dokážou strojovou detekci plagiátů ošálit. Zatím V roce 2005 nebyla zásadně odlišná pravidla pro citace v diplomových pracích. Zásadně se však od té doby proměnilo, jakým způsobem univerzity kontrolují práce. A tím se tedy změnil i přístup studentů. Dalo by se říct, že platila jiná „vnímaná pravidla", protože studenti se nemuseli bát odhalení opisování. Dnes už by kopírování celých pasáží textu, jak to předvedla ve svých dvou diplomových pracích paní Malá, studentovi jen tak neprošlo. Její diplomová práce z roku 2011 íke stažení ve formátu doc) po nahrání do systému Odevzdej.cz nahlásí opsané pasáže. (Na tyto pasáže jako první z médií upozornil 28. června Českv rozhlas, který neuvedl, jakým konkrétním způsobem je odhalil, nezávisle na naší redakci využil stejnou metodu i server Manipulatori.cz. Ještě dříve na podezřelé pasáže v diplomové práci upozornil na svém facebookovém profilu 26. června Libor Nováček, pozn. red.) Opsané pasáže v diplomové práci Systém Odevzdej.cz odhalil v diplomové práci Taťány Malé tyto pasáže opsané z jiných zdrojů. Diplomová práce Tafánv Malé (dříve VeličKovél z roku 2011 ie ke stažení ve formátu .doc na stránkách její univerzity (Panevropská vysoká škola v Bratislavě). Nahráli jsme ji do systému Odevzdej.cz, který ukázal následující shody s existujícími dokumenty: Agaoaa: Z í v f c a i n a p r a e a - l a municí N4MV. T e i l C K C 5^ Jm«noMOOoiu TaaUnaca OOC O. Zmanano: 31.8 2006 JWHVeromu* Grossovi mtormacao orte! JUDt. vaionaaGrossovi: RoorovsM2oaoov**>ost Masarykova unrvcrzrta (2007) - «, *» » o n o s t i r i Agenda: Zavrreína price - la munic? iMja*. leupraca 5 ^ Jméno souboru: &piomovajír»ce*onccna.verie rjoc a Zmanano: 30.3 2006. jijo, Veronika Grossova informace opracl JUDr. veronexa Grossova: FU4roovskaior)povednosi Masarykova uiavanrta (20O6) < 00 Poooonostin S"iyi dallr dokumenty, v nich! se nalia porJoCnoi; • S X s porovnávaným Dokumentem - I loenoa StucUnl materiály. Fakulta . PfedmM: BZ209K.OMODí íaro2011 - •amunicx Imeno souboru: 3 . a . a _ 4 m rmeneno: 4.6 2011. B c Raoka Krausova toznimka: Tento ookoment obsahuje 100 % poooboeno teiru se zkoumaným ookumentem ' C0 Pooobnostin <5% j i loenoa studijní materiály. Fakulta . Předmět MP3I2K. Období podzim 2012 - rs munl cz Imeno souboru: 4_a_a_2.M rmeneno: 15 10 2012. Mgr Maiyai Monnafl >o?namka: Tento dokument obsahuje 100 X podobného taktu se zkoumaným dokumentem ' C0 Podobnosti o í loanda: Smdijnl matenaty. Fakulta . Predme* MP3I2K. Oboobl podzim2012 - rsmunicz Imeno souboru: 4_a_a_2M rmeneno: 15 10 2012. Mgr Bc Michaela Matulova *oznamka: Tento dokument obsahuje 100 X podobného tevru se zkoumaným dokumentem ' Oj Podobnosti rj Výsledek analýzy Odevzdej.cz: práce Taťány Malé (dříve Veličkové) z roku 2011 obsahuje pětiprocentní shodu s diplomovou prací Veroniky Grossové z roku 2006) < 5% Agenda Studům matenaty. Fakulta . '• ' . - . : - • ' MP3I2K. Období podzim 2012 - tamunicz Jméno souboru : > . . . : • Změněno: 15 10 20l2.Mgr OevkjMauser Poznámka: Tento dokument obsahuje 100 X pooobneho teitu se zkoumaným dokumentem i O j Podobnosti n <5% Agenda Súdán! matenaty. Fakulta . PfednvK MP314K. Období pccBm 2012 - la murk cz Jméno souboru i J,Změněno 16 10 2012. Mgr Jana Havlova Poznámka: Tento dokument obsahuje 100 X podobného teitu se zkoumaným dokumentam i O j Podobnosti ry < 5 % Agenda Szudiinimatenily.Fi. - la • *acvo* MP314I OMC0 podzim 2012 - ismumez Jméno souboru 4_e_a_2lat Změněno 16 10 2012. Bc Vtadvnír SokOkk Poznámka: Tento dokument obsahuje 100 X podobného teitu se zkoumaným dokumentem i 00 Podobnosti a <5% Agenda: Studům matana* Fakulta . Wednvet MP3I2K. Období podzim 3011 - la munici Jméno souboru 4_a_a_2orl Změněno 16 10 2012. Mgr Bc TomiS Stta'a Poznámka: Tento ookumenl obsahuje 100 X podobného lénu se zkoumaným dokumentem i 00 Podobnosti fl « 5 % Agenda Shjdum matenaty. Fakulta . Předmět MP314K(jCdobl podzim 2012 - is mum cz Jméno souboru I J . í ' . ' Změněno 17 10 2012. Mgr et Mgr Tereza wouikova Poznámka: Tento dokument obsahuje 100 X podobného te«tu se zkoumaným dokumentem - : ; P.:.:-:: ' Kromě toho obsahuje radu kratších shod s různými dalšími studijními materiály (tyto shody jsou často způsobené citací zákona a není možné považovat je za plagiát) rodiče k nezletilému ditéti ..rodičovská práva a povinnosti", obsahové je ale téměř shoduj s obsahán institutu rodičovská zodpovědnost. Nepatrné rozdíly lze zpozorovat jen napr manžel rod.ee dité. kdy smérodatm ve výslovném dcinonstrativnín práv a povinností, o kterýcl Veličková 2011Rozdílnost práuúch úprav spočívá v institutu \yživoví| kde slovenská právni úprava stanoví \*yživovací povinnost k nezletilému ditéti v minimálnín •iniiosll". co se ovsem oDsa, l ý c e . je téméř shodný s obsahem institutu rodičovská zodpovědnost. Nepatr Inkách, za kterých se podílí se směrodatné je jeho souzni S a m o t n ý m z á v ě r e m lze konstatovat. Grossová 2006 Opsaná (a neodcitovaná) pasáž: nahoře diplomová práce Taťány Malé (dříve Veličkové), dole diplomová práce Veroniky Grossové. Všimněte si gramatické chyby „se podílí se", která je v obou textech totožná, což ukazuje na kopírování textu metodou kopírovat+vložit (na tuto chybu poprvé upozornil ČRo). 6.1. 2 Svěření nezletilého dítěte do výhradní péče jednoho z rodičů Svčření dítěte do výcho\y jednoho z rodičů nemá vliv na rozsah rodičovské zodpovednosti druhého rodiče (na rozdíl od zaliraničních prá\iuch úprav)5 -. Rodič pouze fakticky ne\-ykonává nčkterá práva a povinností \yplývajíci z rodičovské zodpovednosti (např. rozhodování o běžných každodenních záležitostech d í t é t e ) ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ Podle ustanoveni § 26 odst. 4 veta první ZOR: „Při rc na dobu do rozvodu manželství jeho rodičů, popf. na dobu kdy spolu rodiče dítéte prosté nežiji - ať j i ž jsou manželé, ale nehodlají se rozvést, anebo manželé nejsou (§ 50 ZOR), tak na dobu po rozvodu manželství rodičů (§ 25 a násl. ZOR) Jc nezbytné znovu zdůraznit, že svéfeni dítéte do výchovy jednoho zodpovedností druhého rodiče (na l. Rodič pouze fakticky nevykonává rodičovské zodpovednosti (např. itech dítéte). Podle ust. § 26 odst. 4 véla prvni ZOR: ..Pri rozhodováni o svěřeni dítěte do výchovy rodičii soud sleduje především zájJM jeho osobnost, zejména vlohv. schopnosti n vývojově motltosii^^s^zreteleHi Další opsaná (a neodcitovaná) pasáž: nahoře diplomová práce Taťány Malé (dříve Veličkové), dole diplomová práce Veroniky Grossové > Zakvas UKaUB a • U—a y»las» tea »W«.r l h a — • > - > — I i n I t — • Lve— >• . m i t ti i — . . . . - . . i « 1 » U tel • U _ . - — i.iam a e—a— — — I « • a l l a - l a B l a l l l l • B W D k . - . ' Ceuaa - _ I _ I JOT w k v .-a« — . ... »~J r . _ r— aava* I ft.4M.la« " " • " d IPsVsJMs-a. si 4 A - Ka-aa^_ H I I. H l . . ) — . _ tK.aiiae . (kleaukva. „ * • . ! - - — - - . •• • - H " l a t t t a . - . - --k*. I •tUO) • • I aaaaB. . I •atMatttUaVaaW tluft.k U - _ a — _ e M » a - 4 _ b-a a— ial a C „ M U • a— o n . - M . not kenJkat rftŕXAO * iT i a i > i aar ': I r. - . . • . . . s i IrtjKtkJ. r ft.* "•.-41.. i I ._. I- .... - . n . laaau • U 4 i l U i l l a . i l IVafa!•>_..rt-4_M r — i - a . • ! I Ma. I*M W I M l I l a U a U t la-aa a - ~ . a. n i OeaMJftn • i. I i l . l i — i OakvaPa—arral •aaaa»R I a) - • l.i — bfft aj •> IX l l h W a f" ea •» t (.1 ja. Jayaa Toto jsou veškeré prameny, které Taťána Malá (dříve Veličková) uvedla ve své diplomové práci z roku 2011. Diplomová práce Veroniky Grossové není zde (ani jinde) zmíněna ani slovem. Podobných pasáží je v dokumentu více (viz analýza ČRoV Lze tedy bez pochybností říci, že Taťána Malá jednoznačné využila celé pasáže textu z jiné diplomové práce (Grossová, 2006, ke stažení zde), aniž tyto pasáže oddělila uvozovkami čí je jakkoli jinak označila. Nejen to. diplomovou práci Grossové dokonce Malá v celé své práci ani jednou nezmínila. Navíc jsou v obou textech shodné gramatické chyby. Je prakticky vyloučeno, že k něčemu takovému mohlo dojít nedopatřením nebo náhodou, nejjednodušším vysvětlením je úmyslné zkopírování a nepřiznání zdroje - tedy plagiát. Doslovné opisováni už dnes studentům tak snadno neprojde. To ale neznamená, že mají plagiátoři konečnou. Pokud diplomanti chtějí opisovat dnes, samozřejmě si cesty najdou. Jen musí být kreativnější než programátoři, kteří programují nástroje na detekci plagiátů... Míra maskování plagiátu / obtížnost detekce Plagiát Zamaskovaný copy&paste plagiát Parafráze Překlad z cizího jazyka Plagiát myšlenek Porovnáváni řetězců CLPD (detekce n a p i l í jakyky) |'"i Porovnáni otisků textu Detekce plagiátů založená na srovnáni citaci Porovnáni množin slov Vysoká mfra detekce Stylometrie Střední míra detekce Nízká míra detekce Metody odhalování plagiátů a jejich úspěšnost proti různým typům opisování Metoda porovnávání textových řetězců, respektive jejich otisků, bezpečně odhalí pouze zkopírování celých pasáží (tedy ono pověstné Ctrl+C, Ctrl+V). Student by však mohl jen přeházet několik slov nebo nahradit slova nějakými synonymy (maskování plagiátu) a počítačový systém fungující na principu srovnávání textových řetězců by takový plakát nejspíše neodhalil. Programátoři proto vyvinuli metodu, ve které porovnávají slovní zásobu jednotlivých částí dokumentů. Pokud se styl textu (například používaná slovní zásoba, složitost vět a další parametry) zásadně odlišují v rámci dokumentu, nebo naopak podezřele podobají části cizího dokumentu, může takový systém označit shodu. Tato metoda však není spolehlivá, protože je téměř nemožné vyvážit parametry takovým způsobem, aby neoznačovala jako podezřelé pasáže, u kterých to není na místě. I takové detekci se student může vyhnout tím, že přeloží „ukradenou1 část z jiného jazyka. Protože téměř jakákoli věta může být přeložena více než jedním způsobem, je téměř nemožné takové přeložené pasáže zachytit. Alespoň nyní. Do budoucna si ovšem lze představit, že systémy založené například na překladatelských službách typu Google Translate by mohly odhalit i přeložené pasáže. Když autor okopíruje Jen" myšlenku Okopírovat cizí text bez uvedení zdroje je očividný plagiát. Z etického hlediska se stejného prohřešku dopouští i ten, kdo z cizího textu vezme pouze myšlenky, aniž by tento text citoval jako zdroj inspirace. Právě tento jev se snaží odhalit ta!