Novinky a zajímavosti ze světa IS MU

RSS Máte-li zájem, přihlaste se k odběru novinek e-mailem. Novinky můžete odebírat také pomocí RSS nebo si zařaďte blog mezi sledované, pokud jste uživatel IS MU.
This blog is written by
PhotographsFI:Vývojový tým IS MU, Mgr. Eva Zárybnická, 206552
Old posts
Category
Blog owners: FI:Vývojový tým IS MU, Mgr. Eva Zárybnická, 206552
Right to read: anyone on the Internet, a specific group of users: FI:CVT FI
Right to post comments: a specific group of users: FI:CVT FI
« 1 2 3 4 5 6 7 »
8. 4.
2021

Nový algoritmus vyhledávání podobností

Interesting | 11 | 11
Novinky – plagiáty

Masarykova univerzita byla první vysokou školou v České republice, která vytáhla do boje s plagiátory pomocí vlastního software na kontrolu textových podobností. Od roku 2006 kontroluje závěrečné a jiné práce přímo v Informačním systému MU (IS MU) díky vyvinutému algoritmu na odhalování plagiátů. O dva roky později se spojilo několik veřejných vysokých škol a MU vyvinula meziuniverzitní systémy, které tyto školy začaly od roku 2008 využívat. Postupně se prostřednictvím těchto systémů zapojily i další vysoké, vyšší odborné a střední školy. Jedná se o Theses.cz na odhalování plagiátů ve vysokoškolských a absolventských pracích, Odevzdej.cz na kontrolu seminárních, školních a jiných prací a Repozitar.cz pro kontrolu vědeckých publikací. Systémy využívá už více než 80 škol a institucí, mezi něž patří i dvě ministerstva, a výrazně se tak rozšířila i databáze prohledávaných souborů, která čítá více než 50 miliónů položek.

Způsob opisování se od dob spuštění systémů na odhalování plagiátů proměňuje. Studenti už nyní s kontrolou své práce v některém ze systémů počítají a často si práce před odevzdáním sami kontrolují v systému Odevzdej.cz, nedovolí si tak již odevzdat cizí práci nebo doslovně opsat pasáže z odborných publikací. Nově se proto opisování častěji projeví detailním přeformulováním textů, které je stále použitím cizích myšlenek, a tedy plagiátem. Vývojový tým IS MU proto vyvinul nový algoritmus vyhledávání podobností, který lépe odhalí i parafrázované texty a navíc poskytne nové funkce, modernější design a přehlednější způsob zobrazení nalezených podobností.

Obr. 1: Nová verze vyhledávání podobností

Nový algoritmus se soustřeďuje na parafrázované, tedy přeformulované, texty. Algoritmus se nesnaží vyhodnotit velmi krátké společné pasáže textu. Podle našich zkušeností takovéto pasáže bývají obvykle věci jako standardní definice, víceslovné ustálené odborné termíny, citace zákonů a podobně, jejichž přítomnost ještě neznamená, že jde o plagiát. Další jeho vlastností je, že při zobrazení výsledků "přeskakuje" ty z nalezených zdrojů, které z hlediska podobností nepředstavují oproti již zobrazeným žádnou přidanou hodnotu a v seznamu relevantních zdrojových dokumentů by jednou vyznačené podobnosti již jen duplikovaly. I tyto přeskočené zdroje si však lze zobrazit a podrobit kontrole. Nový systém také vyhodnocuje jinak procento podobnosti mezi dokumenty. Může být vyšší, anebo naopak i nižší. Rozhodně se však nedoporučuje, aby se uživatelé tímto procentem řídili. Je to jen číslo a i nález 1 % může znamenat závažné porušení. Opačně ani vysoké procento podobnosti nemusí být známkou plagiátorství.

Nalezené podobnosti se nově zobrazují ihned po kliknutí na Žárovku pod ikonou Vejce vejci (Vyzkoušejte novou verzi). Spočítání podobností probíhá výrazně rychleji než dříve, neboť podobnosti jsou dostupné ihned po vytvoření textové verze souboru. Automaticky jsou ignorovány dokumenty stejného vkladatele (lze ale zvolit i jejich zahrnutí).

Obr. 2: Odkaz na novou verzi

Podobnosti z jednotlivých zdrojových dokumentů jsou nově vyznačeny různými barvami, ne pouze červeným písmem. Ikonka na začátku barevně zvýrazněného textu ukazuje, kolik zdrojů je s tímto textem podobných, a po rozkliknutí je možné vidět, které zdroje to konkrétně jsou. Kliknutím na vybraný zdroj dojde ke zvýraznění podobností právě s tímto zdrojem. Přehled nalezených zdrojových dokumentů se zobrazuje také v pravé boční liště, kde pod ikonkou tří teček nalezne uživatel více informací o vybraném zdroji.

Obr. 3: Zobrazení nalezených podobností

Aby nebyl uživatel zahlcen množstvím zdrojů, které se s porovnávaným dokumentem překrývají ve stejných pasážích s dříve nalezenými dokumenty, jsou tyto tzv. přeskakovány. Pro lepší přehlednost začíná algoritmus přeskakovat dokumenty, pokud počet těchto zdrojů přesáhne desítku. Počet takto přeskočených dokumentů je zobrazen v šedém oválu v pravém panelu s přehledem zdrojů. Po rozkliknutí tohoto čísla si lze dokumenty prohlédnout a zobrazit k nim podobnosti.

Obr. 4: Počet "přeskočených" dokumentů

Nový algoritmus a funkce by mohly vyučujícím a dalším pověřeným osobám, jež práce kontrolují, napovědět, které práce vyvolávají určité podezření. Procento nalezených podobností ale neurčuje, zda je práce plagiátem či nikoliv, každou práci je nutné posoudit individuálně, zkontrolovat správnost citací vždy člověkem, a to odborným pracovníkem v oboru.

Další informace o systému naleznete v Nápovědě a v Průvodci, který je odkazovaný přímo z této aplikace.

V současné době nabízíme uživatelům nejen výsledky nového algoritmu, ale po dobu ověřovacího provozu ponecháváme dočasně i možnost použití původního systému.

Nový algoritmus vyhodnocuje podobné pasáže textu jiným způsobem než původní algoritmus. Je tedy očekávané, že se budou odlišovat jak hranice podobných pasáží, výše zmíněné krátké podobnosti, tak i celková procenta podobnosti dokumentů. V případě že systém vrací jiná data, než byste očekávali, obraťte se jako obvykle s dotazem na adresu theses@fi.muni.cz a popisem toho, jaký dokument porovnáváte, co očekáváte za výsledky, a kde se vaše očekávání liší od toho, co systém vrací.

Věříme, že nový algoritmus pomůže školitelům a dalším uživatelům lépe dohledávat možné zdroje plagiátorství.

Not read yet0 commentspermalink
6. 9.
2019

Zbrusu nová verze meziuniverzitního systému na odhalování plagiátů

Not rated yet.
Novinky – plagiáty

Moderní inovační design, pohodlné ovládání přes mobilní zařízení nebo nabídka zdokonalených služeb.
To jsou ve zkratce hlavní rysy, které nejlépe vystihují novou verzi systému Theses.cz pro odhalování plagiátů napříč závěrečnými pracemi, který vyvíjí Fakulta informatiky Masarykovy univerzity.

Vývojový tým nenechal své příznivce a uživatele z vysokých škol dlouho čekat a v souladu se současnými trendy přináší možnost pohodlnější práce na mobilních zařízeních včetně mnoha dalších vylepšení. Studentům, správcům systému a dalším uživatelům tedy nic nebrání v kontrole nebo nahrání závěrečné práce třeba během čekání na tramvaj nebo cestou do práce. Novým designem se pyšní systém v autentizované i neautentizované verzi.

Hned na úvodní stránce najdou uživatelé vše potřebné – možnost přihlásit se do systému, vylepšené vyhledávání i přehledný souhrn informací o systému včetně jeho rozšíření napříč školami.

Obr. 1: Titulní stránka systému Theses.cz v neautentizované podobě v zobrazení pro stolní počítače a mobilní zařízení

Po přihlášení se do systému dostane uživatel zpřehledněnou nabídku hlavních aplikací, se kterými může pracovat. V základním nastavení je zobrazeno jen několik vybraných aplikačních sekcí ze všech dostupných. Celkový výčet aplikací, včetně Úschovny či Dokumentového serveru, je k dispozici po kliknutí na Více aplikací v pravém dolním rohu.

Obr. 2: Ukázka základního zobrazení agend v Theses

Významnou součástí balíku inovací je také modernizace vyhledávání, které je nyní dostupné v propracovanější verzi. Uživatel si může pohodlně navolit filtry, kterým bude vyhledávání podléhat, a dosáhnout tak přesnějšího výsledku.

Obr. 3: Ukázka možností vyhledávání v Theses

Vývoj pokročil také v oblasti operací dostupných ve Správci souborů. Nahrávat nové, editovat existující či dohledat k vybranému souboru podobné práce nebylo nikdy snazší.

Obr. 4: Ukázka možností práce se souborem na mobilním zařízení

Bez povšimnutí nezůstaly ani ostatní agendy. Proto neváhejte a sami vyhledávání v novém designu na neautentizované stránce Theses vyzkoušejte.

Not read yet0 commentspermalink
14. 4.
2015

Přihlašování službou EduID v repozitáři vědeckých prací

Not rated yet.
Novinky – plagiáty

Repozitář vědeckých prací Repozitar.cz slouží jako meziuniverzitní úložiště zaměstnaneckých děl pro 26 zapojených vysokých škol. Školy jej mohou využívat buď jako primární úložiště pro evidenci publikací s možností zpřístupňování plných textů a k vykazování vědeckých výsledků (RIV). Nebo jej také propojit se svým lokálním repozitářem a zajistit tím větší viditelnost svých výsledků, jejich citovanost a díky systému na odhalování plagiátů podpořit i autorskoprávní ochranu autorů.

Nově mohou školy svým uživatelům umožnit se přihlásit do systému pomocí služby EduID, čímž odpadá starost o administraci přístupů. Přihlášení službou EduID je k dispozici na titulní straně systému (https://repozitar.cz), kde po kliknutí na logo federace EduID a výběru školy zvolí uživatel své přihlašovací jméno a heslo.

Obr. 1: Přihlášení přes EduID.

Více informací o systému Repozitar.cz naleznete v Nápovědě
Repozitar.cz,
Často kladené dotazy.

Not read yet0 commentspermalink
11. 12.
2014

Celkové procento a jiné změny v systémech na odhalování plagiátů

Not rated yet.
Novinky – plagiáty

Informační systém Masarykovy univerzity (IS MU) má integrovaný vlastní speciální algoritmus vyhledávání podobností v textech za účelem odhalování plagiátů. Tato služba umožňuje uživatelům vyhledávat podobnosti k dokumentům uloženým v úložištích IS MU s rozsáhlou databází porovnávaných dokumentů. V ní jsou zahrnuty i dokumenty z více než 40 institucí využívajících meziuniverzitní systémy Theses.cz, Odevzdej.cz či Repozitar.cz. Všechny vložené dokumenty jsou navíc zpracovávány speciálním algoritmem vyhledávání podobností vůči Internetu.

Nejen v IS MU, ale také ve výše uvedených meziuniverzitních systémech pro odhalování plagiátů, připravil Vývojový tým IS MU řadu změn pro usnadnění vyhodnocování nalezených podobností dokumentů:

  • u výpisu nalezených podobností se nově zobrazuje údaj "Celková podobnost", jenž uvádí celkovou podobnost se všemi nalezenými podobnými dokumenty;
  • pro celkovou podobnost lze nově najednou zobrazit i červeně zvýrazněné podobnosti se všemi nalezenými podobnými dokumenty;
  • nově lze zaškrtnutím vybrat libovolnou menší množinu nalezených podobných dokumentů, k nimž se spočítá souhrnné procento podobností nebo si lze k těmto vybraným dokumentům zobrazit červeně zvýrazněné podobnosti;
  • s výše uvedenými změnami (počítáním celkového procenta a možností zobrazení podobností pro vícero souborů) souvisí i změna v PDF protokolu, v němž se na titulní stránce zobrazuje celkové procento podobností a informace ke zkoumanému dokumentu, pokračuje seznam podobných dokumentů (všech nebo jen těch, které si uživatel vybral zaškrtnutím) a následuje text s červeně zvýrazněnými podobnými pasážemi.

Obr. 1: Zobrazení výpisu nalezených podobností.

Více informací naleznete v Nápovědě.

Celkově databáze porovnávaných dokumentů aktuálně obsahuje více než 16 mil. dokumentů (z toho přes 400 000 závěrečných prací).

O možnostech vyhledávání podobností a systémech na odhalování plagiátů jsme již dříve informovali v novinkách Nový design zobrazení výsledků podobností, Tisíce studentů kontrolují práce v systému na odhalení plagiátů nebo Úspěch v prestižní soutěži na odhalování plagiátů.

Not read yet0 commentspermalink
« 1 2 3 4 5 6 7 »