Novinky a zajímavosti ze světa IS MU

RSS Máte-li zájem, přihlaste se k odběru novinek e-mailem. Novinky můžete odebírat také pomocí RSS nebo si zařaďte blog mezi sledované, pokud jste uživatel IS MU.
This blog is written by
PhotographsFI:Vývojový tým IS MU, Mgr. Eva Zárybnická, 206552
Old posts
Category
Blog owners: FI:Vývojový tým IS MU, Mgr. Eva Zárybnická, 206552
Right to read: anyone on the Internet, a specific group of users: FI:CVT FI
Right to post comments: a specific group of users: FI:CVT FI
1 2 3 4 5 6 »
7. 6.
2023

Nový algoritmus vyhledávání podobností získal cenu MUNI Innovation Award 2023

Interesting | 2 | 4
Novinky – plagiáty

Ocenění MUNI Innovation Award 2023 za vývoj algoritmu pro hledání podobností v textových dokumentech za účelem odhalování plagiátů převzal dne 26. 4. 2023 RNDr. Jan Kasprzak, Ph.D. z Vývojového týmu Informačního systému Masarykovy univerzity (IS MU). Cenu MUNI Innovation Award 2023 získaly nejvýznamnější inovační počiny na MU za poslední dva roky.

Obr. 1: Předání ceny (Zdroj: www.muni.cz - tiskové zprávy, Centrum pro transfer technologií MU)

Více informací naleznete v článku Masarykova univerzita ocenila 11 inovačních počinů cenou MUNI Innovation Award.

O vývoji nového algoritmu vyhledávání podobností jsme průběžně informovali v novinkách Novinky v systémech na odhalování plagiátůNový algoritmus vyhledávání podobností.

Not read yet0 commentspermalink
2. 3.
2023

Novinky v systémech na odhalování plagiátů

Informative | 1 | 1
Novinky – plagiáty

V loňském roce Vývojový tým Informačního systému Masarykovy univerzity (IS MU) informoval uživatele o nasazení nového algoritmu vyhledávání podobností v IS MU a také v systémech na odhalování plagiátů Theses.cz, Odevzdej.cz a Repozitar.cz. Více v novince Nový algoritmus vyhledávání podobností. Nový algoritmus se dále vyvíjí, což přináší jak novou verzi algoritmu, tak i nové funkce, vyvinuté na základě potřeb uživatelů.

První změnou je nová verze vyhledávacího algoritmu, která umožňuje určit míru přeformulování nebo shody textu a vyloučit většinu falešně pozitivních nálezů. Nemělo by tak již docházet k nálezům shod, například se seznamy slov staženými z internetu.

Další novinkou je aplikace "Porovnej dva", která umožňuje porovnat dva dokumenty mezi sebou. Tato aplikace graficky zobrazuje korelaci mezi podobnými texty v obou dokumentech v místech, kde byly nalezeny podobnosti, včetně míry podobnosti nalezených pasáží.

Obr. 1: Porovnání dvou dokumentů mezi sebou

Aplikace je funkční, i pokud uživatel nemá přístup ke zdrojovému dokumentu. V tomto případě se zobrazí pouze podobné pasáže, ostatní text je záměrně do určité míry nečitelný, protože dokument není veřejný.

Obr. 2: Zobrazení podobností v případě neveřejného zdrojového dokumentu

Odkaz na aplikaci je dostupný v pravém panelu aplikace pro vyhledání podobností po rozkliknutí tří teček u vybraného dokumentu.

Obr. 3: Odkaz na aplikaci Porovnej dva

Více informací o aplikaci Porovnej jsou dostupné v Nápovědě.

Nově byla zpřístupněna také funkce, která umožní školám, přebírajícím výsledky vyhledávání podobností hromadně do svého studijního systému, přístup k výsledkům podobností bez nutnosti autentizace do systémů Theses.cz či Odevzdej.cz pomocí speciálně vygenerovaného odkazu s tajným klíčem.

Správce může v případě požadavku uživatele použitím jednoznačného identifikátoru požádat o unikátní odkaz, kde se nachází aplikace Zobrazení podobností k příslušnému dokumentu pro pokročilou práci s  nalezenými podobnostmi. Systém předá uživateli neautentizovaný odkaz, pomocí kterého může následně přistoupit k dokumentu, dále s ním pracovat a využívat rozšířené grafické funkcionality systému.

Bližší informace jsou uvedeny v Nápovědě:
https://theses.cz/napoveda/theses/stahovani_podobnosti#theses_plag_noauth

Not read yet0 commentspermalink
20. 9.
2022

Univerzitní repozitář a systém Repozitar.cz v nové podobě

Not rated yet.
Novinky – plagiáty

Vývojový tým Informačního systému Masarykovy univerzity (IS MU) dále pokračuje s převáděním agend do respozivního designu, který je vhodný při práci na mobilních zařízeních. Nyní získala novou, modernější podobu také titulní stránka Univerzitního repozitáře v IS MU a systému Repozitar.cz (http://repozitar.cz/), který poskytuje zapojeným institucím možnost budování vlastního fondu zaměstnaneckých děl.

Na nové titulní stránce uživatelé naleznou jak novou podobu vyhledávání a zobrazování publikačních záznamů, tak lištu s odkazy na další funkce agendy.

Obr. 1: Nová titulní stránka agendy

Vyhledávat lze v plných textech publikací či dotaz upřesnit pomocí dalšího vyhledávacího pole. Vyhledávat lze také pomocí kategorií v pravém panelu, které lze rozbalit či sbalit dle potřeby. Pokud je vybrána některá z možností v kategoriích, je počet zaškrtnutých možností pro přehlednost zobrazen v zeleném kolečku.

Obr. 2: Vyhledávání pomocí kategorií

Přehlednější jsou také informace o publikaci, která je označena štítky o přístupnosti, lze vyhledat podobné záznamy, získat odkaz na publikaci, zobrazit si anotaci či citační záznam, aniž by bylo nutné publikační záznam otevírat.

Obr. 3: Informace o publikačním záznamu

S vybranými záznamy pak lze dále pracovat.

Obr. 4: Možnosti dalších operací s výběrem

V systému Repozitar.cz byl také zveřejněn nový algoritmus vyhledávání podobností, blíže v novince Nový algoritmus vyhledávání podobností.

Univerzitní repozitář je dostupný v autentizované části IS MU → dlaždice Publikace → Repozitář.

O změnách v agendě Publikace jsme vás informovali v novince Změna designu pokročilého vyhledávání publikací.

Not read yet0 commentspermalink
8. 4.
2021

Nový algoritmus vyhledávání podobností

Interesting | 11 | 11
Novinky – plagiáty

Masarykova univerzita byla první vysokou školou v České republice, která vytáhla do boje s plagiátory pomocí vlastního software na kontrolu textových podobností. Od roku 2006 kontroluje závěrečné a jiné práce přímo v Informačním systému MU (IS MU) díky vyvinutému algoritmu na odhalování plagiátů. O dva roky později se spojilo několik veřejných vysokých škol a MU vyvinula meziuniverzitní systémy, které tyto školy začaly od roku 2008 využívat. Postupně se prostřednictvím těchto systémů zapojily i další vysoké, vyšší odborné a střední školy. Jedná se o Theses.cz na odhalování plagiátů ve vysokoškolských a absolventských pracích, Odevzdej.cz na kontrolu seminárních, školních a jiných prací a Repozitar.cz pro kontrolu vědeckých publikací. Systémy využívá už více než 80 škol a institucí, mezi něž patří i dvě ministerstva, a výrazně se tak rozšířila i databáze prohledávaných souborů, která čítá více než 50 miliónů položek.

Způsob opisování se od dob spuštění systémů na odhalování plagiátů proměňuje. Studenti už nyní s kontrolou své práce v některém ze systémů počítají a často si práce před odevzdáním sami kontrolují v systému Odevzdej.cz, nedovolí si tak již odevzdat cizí práci nebo doslovně opsat pasáže z odborných publikací. Nově se proto opisování častěji projeví detailním přeformulováním textů, které je stále použitím cizích myšlenek, a tedy plagiátem. Vývojový tým IS MU proto vyvinul nový algoritmus vyhledávání podobností, který lépe odhalí i parafrázované texty a navíc poskytne nové funkce, modernější design a přehlednější způsob zobrazení nalezených podobností.

Obr. 1: Nová verze vyhledávání podobností

Nový algoritmus se soustřeďuje na parafrázované, tedy přeformulované, texty. Algoritmus se nesnaží vyhodnotit velmi krátké společné pasáže textu. Podle našich zkušeností takovéto pasáže bývají obvykle věci jako standardní definice, víceslovné ustálené odborné termíny, citace zákonů a podobně, jejichž přítomnost ještě neznamená, že jde o plagiát. Další jeho vlastností je, že při zobrazení výsledků "přeskakuje" ty z nalezených zdrojů, které z hlediska podobností nepředstavují oproti již zobrazeným žádnou přidanou hodnotu a v seznamu relevantních zdrojových dokumentů by jednou vyznačené podobnosti již jen duplikovaly. I tyto přeskočené zdroje si však lze zobrazit a podrobit kontrole. Nový systém také vyhodnocuje jinak procento podobnosti mezi dokumenty. Může být vyšší, anebo naopak i nižší. Rozhodně se však nedoporučuje, aby se uživatelé tímto procentem řídili. Je to jen číslo a i nález 1 % může znamenat závažné porušení. Opačně ani vysoké procento podobnosti nemusí být známkou plagiátorství.

Nalezené podobnosti se nově zobrazují ihned po kliknutí na Žárovku pod ikonou Vejce vejci (Vyzkoušejte novou verzi). Spočítání podobností probíhá výrazně rychleji než dříve, neboť podobnosti jsou dostupné ihned po vytvoření textové verze souboru. Automaticky jsou ignorovány dokumenty stejného vkladatele (lze ale zvolit i jejich zahrnutí).

Obr. 2: Odkaz na novou verzi

Podobnosti z jednotlivých zdrojových dokumentů jsou nově vyznačeny různými barvami, ne pouze červeným písmem. Ikonka na začátku barevně zvýrazněného textu ukazuje, kolik zdrojů je s tímto textem podobných, a po rozkliknutí je možné vidět, které zdroje to konkrétně jsou. Kliknutím na vybraný zdroj dojde ke zvýraznění podobností právě s tímto zdrojem. Přehled nalezených zdrojových dokumentů se zobrazuje také v pravé boční liště, kde pod ikonkou tří teček nalezne uživatel více informací o vybraném zdroji.

Obr. 3: Zobrazení nalezených podobností

Aby nebyl uživatel zahlcen množstvím zdrojů, které se s porovnávaným dokumentem překrývají ve stejných pasážích s dříve nalezenými dokumenty, jsou tyto tzv. přeskakovány. Pro lepší přehlednost začíná algoritmus přeskakovat dokumenty, pokud počet těchto zdrojů přesáhne desítku. Počet takto přeskočených dokumentů je zobrazen v šedém oválu v pravém panelu s přehledem zdrojů. Po rozkliknutí tohoto čísla si lze dokumenty prohlédnout a zobrazit k nim podobnosti.

Obr. 4: Počet "přeskočených" dokumentů

Nový algoritmus a funkce by mohly vyučujícím a dalším pověřeným osobám, jež práce kontrolují, napovědět, které práce vyvolávají určité podezření. Procento nalezených podobností ale neurčuje, zda je práce plagiátem či nikoliv, každou práci je nutné posoudit individuálně, zkontrolovat správnost citací vždy člověkem, a to odborným pracovníkem v oboru.

Další informace o systému naleznete v Nápovědě a v Průvodci, který je odkazovaný přímo z této aplikace.

V současné době nabízíme uživatelům nejen výsledky nového algoritmu, ale po dobu ověřovacího provozu ponecháváme dočasně i možnost použití původního systému.

Nový algoritmus vyhodnocuje podobné pasáže textu jiným způsobem než původní algoritmus. Je tedy očekávané, že se budou odlišovat jak hranice podobných pasáží, výše zmíněné krátké podobnosti, tak i celková procenta podobnosti dokumentů. V případě že systém vrací jiná data, než byste očekávali, obraťte se jako obvykle s dotazem na adresu theses@fi.muni.cz a popisem toho, jaký dokument porovnáváte, co očekáváte za výsledky, a kde se vaše očekávání liší od toho, co systém vrací.

Věříme, že nový algoritmus pomůže školitelům a dalším uživatelům lépe dohledávat možné zdroje plagiátorství.

Not read yet0 commentspermalink
1 2 3 4 5 6 »