Inflow.cz 2. 11. 2008 Zpráva ze seminářů Systémy pro zpřístupňování EVŠKP 2008 a Zpřístupňování šedé literatury metadatové formáty plagiátorství šedá literatura vysokoškolské kvalifikační práce zprávy z konferencí Abstrakt: Zpráva přináší informace z Odborných konferencí Systémy pro zpřístupňování eVŠKP a Seminář ke zpřístupňování šedé literatury. Semináře proběhly ve dnech 7. a 8. října v prostorách VUT v Brně. Ve dnech 7. a 8. října 2008 se uskutečnily na půdě VUT v Brně dva odborné semináře. Nesly název - Systémy pro zpřístupňování eVŠKP 2008 a Seminář ke zpřístupňování šedé literatury. Konaly se pod záštitou Vysokého učení technického (VUT), Vysoké školy ekonomické (VŠE), Státní technické knihovny (STK) a Asociace knihoven vysokých škol ČR. Podporu poskytlo rovněž Ministerstvo kultury, a to v rámci svého projektu - Digitální knihovna pro šedou literaturu - funkční model a pilotní realizace. Seminář pro zpřístupňování eVŠKP navázal na předchozí dva ročníky. Letos byl spojen se Seminářem ke zpřístupňování šedé literatury. Spolu tvoří širší tematický celek. Všechny prezentace včetně celých textů přednášek budou zveřejněny na webu. Prezentace z prvního dne, tj. týkající se eVŠKP na stránkách této instituce - http://evskp.cz. Příspěvky z oblasti šedé literatury na webu http://nusl.stk.cz. Systémy pro zpřístupňování eVŠKP 2008 Třetí ročník semináře měl za úkol představit vývoj problematiky eVŠKP, změny ke kterým došlo od konání minulého semináře. Jednotliví přednášející představili projekty na konkrétních vysokých školách v Čechách i v zahraničí. Seminář měl za úkol přednést výsledky práce Odborné komise pro otázky elektronického zpřístupňování vysokoškolských kvalifikačních prací. V úvodu vystoupila PhDr. Iva Horová (AMU), která zároveň s Ing. Janem Machem (VŠE) moderovala celý průběh semináře. Přednášející přednesli celkem dvanáct příspěvků tematicky rozdělených do čtyř bloků: * Národní registr VŠKP, * Zkušenosti ze zahraničí, * Zkušenosti z lokálních prostředí škol, * Plagiátorství. Blok I. - Národní registr VŠKP První blok semináře s názvem Národní registr VŠKP zahájil svým příspěvkem Theses.cz RNDr. Miroslav Křipač, Ph.D. z fakulty informatiky Masarykovy univerzity. Theses. cz je název systému pro zpřístupňování elektronických vysokoškolských kvalifikačních prací (eVŠKP). Systém slouží jako národní registr těchto prací a zároveň umožňuje vyhledávání plagiátů. Projektu se dnes určitým způsobem účastní 17 veřejných vysokých škol. K 1.10. 2008 zde bylo uloženo přes 20 tisíc prací. Přednášející informoval o změnách a pokrocích projektu. Například došlo k změně designu systému. Dále byla přidána nová aplikace, díky níž mohou studenti sami vkládat své práce do systému. To se děje v případech, kdy daná vysoká škola nemá své vlastní lokální úložiště. Mezi další změny patří vývoj nového algoritmu, který by umožňoval flexibilnější vyhledávání. Miroslav Křipač také představil nový formátu pro import dat do systému. Vedle stávajícího theses.cz tak budou data i ve formátu evskp.cz. Nový formát však zatím využívá pouze Vysoká škola ekonomická. Cílem projektu je nejen zpřístupňování prací, ale i odhalení plagiátů dříve než budou práce obhájeny nebo než se to dostane na veřejnost. Již samotná existence systému slouží jako účinná prevence. Plagiáty lze hledat dvojím způsobem. Buď přímo při vkládání práce, nebo zpětně při podezření na opisování. Více informací lze získat na http://theses.cz, http://is.muni.cz/clanky. Příspěvek Metadatový standard EVSKP-MS verze 1.1 pro popis VŠKP a standardy související společně přednesli členové Odborné komise pro otázky elektronického zpřístupňování vysokoškolských kvalifikačních prací PhDr. Eva Bratková (Filozofická fakulta, UK) a Ing. Jan Mach (VŠE). Komise zároveň působí jako garant celé konference. Přednáška navázala na předcházející příspěvek. Byl představen metadatový standard EVSKP-MS verze 1.1, který si klade za cíl stát se národním standardem. Vychází z předchozí nulté verze. Jak bylo zmíněno výše, dosavadním metadatovým formát je theses.cz. Přednášející uvedli východiska, z kterých nový formát čerpá a cíle pro budoucnost. Pokud jde o konkrétní změny, objevily se například některé nové prvky Přibyly atributy jazyka, aby byly záznamy využitelné i na mezinárodní úrovni. Co se týče povinných prvků - jejich počet zůstal téměř stejný. Poté byly popsány jednotlivé metadatové prvky. Došlo také na představení další standardů, pro popis fyzických osob (pers.cz) a pro popis korporací (corp.cz). Konkrétněji o nich ve svém příspěvku hovořila Eva Bratková. Ředitelka knihovny AMU PhDr. Iva Horová představila své zkušenosti v přednášce Netextové práce a standard MS-EVSKP. Zabývá se problémem metadatového popisu netextových dokumentů. Jde například o zvukové, obrazové či multimediální dokumenty. Týká se to především škol, kde se vedle klasické VŠKP odevzdávají i jiné, často rovnocenné, práce - např. film, video, animace. Představila možnosti a problémy takového popisu. Reagovala tak v podstatě na předchozí přednášku. Popis práce v rámci jednoho standardu (např. EVSKP-MS) představuje problém. Práce mají různé názvy (i alternativní názvy), vedoucí i přístupová práva. Iva Horová to dokazovala na konkrétním případě, v němž šlo o klasický text a film. Nyní se hledá řešení co s tím. Zatím se do Národního registru posílají pouze textové práce. V současné době existuje několik návrhů řešení. Jde o to, zda půjde o jeden záznam či více, nebo půjde o kolekce záznamů, popřípadě jak budou záznamy propojovány. Na konci přednášky se Iva Horová obrátila na možné spolupracovníky, kteří se nachází v podobné situaci jako AMU. Blok II. - Zkušenosti ze zahraničí Druhý blok konference s názvem Zkušenosti ze zahraničí obsahoval tři příspěvky. První z nich, nesoucí název Strategie pro zvýšení viditelnosti vědeckých výstupů univerzity, přednesl Ing. Vladimír Karen (Albertina icome Praha s.r.o). Byla představena jedna možnost, jako zpřístupnit výsledky univerzitní činnosti. Jde o projekty UMI (University Microfilms international) Dissertation Publishing a Dissertation Abstracts. Vznik UMI se datuje do 30. letech minulého století. Cílem bylo (a je) uchování informací z vysokoškolských prací pro odbornou veřejnost. Dnes také existuje elektronická verze projektu s názvem ProQuest Dissertation & Theses. Obsahuje přes 2,5 mil. prací od roku 1861, přičemž roční přírůstek činí okolo 80 tisíc prací. V projektu je zapojeno na 700 vysokých škol. Záznamová média se časem měnila. Od mikrofilmů, přes elektronická média (80. léta) až po elektronické plné texty (90.léta). Dnes se práce také mikrofilmují. Protože podle výzkumů takové záznamy vydrží při správném nakládaní velmi dlouho. Tento projekt nabízí i vydavatelské služby. Vladimír Karen popsal, jak je možné nechat si práci vydat, přičemž publikování je poměrně levné. Trvalá identifikace fyzických osob a korporací v prostředí digitálních archivů: aktuální směry řešení v zahraničních systémech zněl název příspěvku PhDr. Evy Bratkové z FF, UK. Zabývala se otázkou trvalé identifikace fyzických osob a korporací. U nás zatím není postup příliš jednotný. Vysoké školy k tomu většinou přistupují samostatně. Nabízí se řešení přes národní agenturu - tato možnost zůstává nadále otevřená. Možná je inspirace v zahraničí, např. u francouzské národní knihovny. Již dříve se objevily pokusy, jak tuto problematiku řešit. Šlo např. o ISADN nebo INSAN. Dalším je projekt mezinárodní identifikace ISPID ISNI, v němž se identifikují „veřejné identity". Měl by být publikován příští rok. Trvalá identifikace fyzických osob a korporací se samozřejmě týká i komerční sféry. Sem patří například Thompson Reuters, Research ID sloužící uživatelům Web of Science. Co se týče identifikátorů v digitálních archivech, byly zmíněny například archivy RePEc (z oblasti ekonomie), EPrints nebo portál NARCIS. VŠKP na švédské University College of Boras přednesla Mgr. Lucie Vyčítalové z Univerzity Pardubice. Autorka příspěvku měla možnost strávit několik dní na výše uvedené univerzitě a publikum seznámila se svými poznatky. Nastínila situaci ve Švédsku co se týče závěrečných prací. Závěrečné práce jsou brány za autorské dílo. Elektronickou verzi pak lez pořídit pouze se souhlasem autora. Používaný metadatový standard je SVEP. Ve Švédsku také mají svůj národní registr závěrečných prací s názvem Uppsatser.se. Téměř ¼ prací je zde psána v angličtině, a proto existuje i anglická verze. Registr neobsahuje plné texty prací, ale pouze metadata s odkazy na lokální repozitáře. Na University of Boras studuje kolem 11 tisíc studentů (na 6 fakultách). Pokud jde o disertace, jsou stejně jako ostatní eVŠKP v elektronické podobě. Tištěné disertace se vydávají jako oficiální publikace. Univerzita od roku 2000 disponuje vlastním digitálním archivem BADA (Boras academic digital archive). Je spravován univerzitní knihovnou. Data vkládají do systému sami autoři (studenti). Koordinace probíhá na fakultní úrovni. Co se týče netextových prací - existuje pilotní studie podpořená Royal Library. Nyní se hledá vhodný standard. Blok III. - Zkušenosti z lokálních prostředí škol S příspěvkem Zpřístupnění eVŠKP a thesis.cz v informačním systému STAG vystoupil Ing. Tomáš Kotouč (Západočeská univerzita). STAG je informačním systémem ZČU. Je využíván i dalšími školami. Systém umožňuje export metadat (nebo i plných textů) závěrečných pracích do registrů či repozitářů jako je theses.cz nebo eVŠKP. Metadata jsou převážně ve formátu XML. Výstupy zajišťuje rozhraní IS/STAG Webservices. Závěrečné práce jsou zadávány studenti. Metadata zadávají prostřednictvím svého portálu (rozhodují o přístupnosti plných textů). Ke stahování metadat poté dochází ručně, nebo existuje možnost automatického stahování. Bc. Irena Baranayová (Ústav výpočetní techniky UK) přispěla s tématem Konverze metadat z formátu Marc21 do Dublin Core v prostředí univerzitního repozitáře. Od roku 2006 Univerzitě Karlově existuje univerzitní repozitář. Využívá se systém DigiTool, nástroj především pro archivaci a zpřístupňování dokumentů od firmy ExLibris. Nejprve šlo o VŠKP, později přibyly i historické listiny, mapy, preprinty, studijní a výukové materiály, technické, výzkumné, grantové či výroční zprávy. Webové stránky projektu jsou http://digitool.cuni.cz. O zpracování a sběr dokumentů se starají knihovny jednotlivých fakult. Do projektu zapojeno 11 fakult. Ke sběru dokumentů dochází několika způsoby. Záleží na fakultách někde je to dobrovolné, jinde povinné (nařízení děkana). Práce se konvertují do formátu PDF. Co se týče odevzdávání dokumentů - jsou dvě tištěné a jedna elektronická verze. Tištěná jde do archivu UK. Zbývající do fakultních knihoven. Zatím není propojení mezi univerzitním repozitářem a informačním systémem. Na tom se nyní pracuje. V repozitáři byla metadata ve formátu MARC 21, který se ale časem projevil jako nevyhovující. Z toho důvodu se převádí do Dublin Core. Snaží se o sjednocení a přizpůsobení formátu EVSKP-MS. Irena Baranayová dále mluvila o konkrétních požadavcích na konverzi. Do záznamu byla přidána některá nová pole (např. v poli 520 přibyl údaj o jazyku). Na konverzi se zatím pouze pracuje. Konečnou podobu by měl projekt získat na konci tohoto roku. V nadcházejícím semestru (léto 2009) by se měla rovněž rozjet synchronizace informačního systému a repozitáře. Přenos VŠKP pomocí protokolu OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) byla další přednáška Ing. Jan Macha (VŠE). OAI-PMH slouží k automatickému získávání (sklízení metadat). Na VŠE je používán na export metadat do Národního registru eVŠKP. Jde o konkrétní příklad automatického přenosu dat z lokálního registru do registru národního. Záznamy jsou přenášeny ve formátech Dublin Core a EVSKP-MS verze 1.1. Jan Mach se dále věnoval vysvětlení základních pojmy jako repozitář nebo harvestr. V tomto případě je tedy harvestrem Národní registr eVŠKP. Představil také unikátní identifikátor s názvem oai.cz:vskp.4367. Blok IV. - Plagiátorství Bc. Martin Stančík (FI, MU) ve svém příspěvku IS.MUNI. CZ a služba pro odhalování plagiátů představil tento informační systém. V letošním roce slaví IS MUNI deset let od svého vzniku. V rámci Masarykovy univerzity existuje již od roku 2004 archiv závěrečných prací. O dva roky později (2006) vznikla služba na vyhledávání plagiátů. Nyní lze práce „kontrolovat" i v jiných systémech. Ke kontrolám dochází hned na několika úrovních. Celouniverzitně probíhají jednou týdně, dále pak v rámci jednotlivých fakult. Fakulty také následně řeší případná provinění. Konečnou kontrolu vždy provádí člověk - referentka, která u podezřelých prací rozhoduje, zda jde o plagiát či nikoliv. Dle současných zkušeností tento systém funguje i do jisté míry preventivně. Studenti o něm vědí a v poslední době se počet odhalených plagiátů snížil. Provádí se i zpětná kontrola. Další informace lze získat na http://is.muni.cz/clanky. Další přednáška se týkala projektu Odevzdej.cz. Přednášejícím byl RNDr. Miroslav Křipač, Ph.D. (fakulta informatiky, MU). Odevzdej.cz by měl být obdobou Národního registru VŠKP s tím rozdílem, že půjde o jiné typy prací. (Například semestrální a seminární práce či domácí úkoly). Zatím o projekt projevilo zájem 10 vysokých škol. V těchto dnech byl projekt odeslán na MŠMT. Zde chtějí získat prostředky na jednotlivá lokální úložiště, vybudování systému apod. Vše je zatím otázkou plánů a předpokladů. Co se týče využití, předpokládá se možnost dvojího ukládání dat. Buď automaticky nebo individuálně. Kontrola by měla probíhat na úrovní odpovědných referentek, ale i samotných pedagogů. Metadata o pracích nebudou zveřejňována, to se týká i plných textů. Petr Bartoň z národohospodářské fakulty Vysoké školy ekonomické ve svém příspěvku - Definice plagiátorství v pojetí VŠE představil nakládání s plagiáty na této škole. Závěrečná přednáška dne se nesla v duchu konkrétních postupů a řešení problému plagiátorství na výše zmíněné fakultě. Podle slov Petra Bartoně byl původně přístup k této problematice poměrně nesystematický. Vznikla tak potřeba určitého jednotného postupu. Přednášející se zmínil o důvodech, které vedou studenty k opisování. Vidí ho v nárůstu důležitosti psané komunikace, ale také v tom, že studenti neumí moc psát na odborné úrovni. Začíná to již nedostatečnou přípravou na středních školách. Konkrétně představil, co je a není bráno za plagiát. Za jednoznačné opisování se považují dvě věty souvislého textu nebo celý přeformulovaný odstavec. Naopak se neřeší opomenutí, například když student do té doby citoval správně. Seminář ke zpřístupňování šedé literatury 2008 Ve středu 8. října pokračovala konference, tentokrát se zaměřením na problematiku šedé literatury. Přednášející přednesli příspěvky z knihovnického i soukromého sektoru. Během dopoledne účastníci semináře vyslechli celkem šest přenášek. První přednášející byla Petra Pejšová ze Státní technické knihovny (STK). Příspěvek s názvem "Projekt NUŠL" se týkal Národního úložiště šedé literatury. Jde o projekt, který řeší STK ve spolupráci s VŠE. Snahou je vybudovat na národní úrovni jednotné rozraní pro přístup k šedé literatuře (tj. dokumentům, které nejsou publikovány obvyklou cestou, nebo nejsou publikovány vůbec). V současnosti je tento projekt podporován Ministerstvem kultury v rámci projektu "Digitální knihovna pro šedou literaturu - funkční model a pilotní realizace", který je plánován na rozmezí let 2008 - 2011. Petra Pejšová mluvila také o dotazníkové šetření, které proběhlo na stránkách STK od října 2007 do května 2008. Mělo za úkol získat informace o současném stavu zpracování, zpřístupnění šedé literatury u nás. Zároveň bylo zjišťováno, kdo (jaké knihovny, školy či jiné organizace) by se chtěly projektu účastnit. Na dotazník odpovědělo 61% respondentů. Z nich většina souhlasila s jednotným přístupem k šedé literatuře. A ještě víc jich projevilo ochotu spolupracovat. Byly také zmíněny další projekty na území ČR a jejich vymezení vůči NUŠL. Například eVŠKP bude tvořit jeden ze zdrojů projektu. Prakticky také byly představeny stránky projektu - http://nusl.stk.cz. Zde je také možno najít další informace. Dále jsme byli seznámeni s tím, co se letos udělalo. Například bylo koupeno datové úložiště. Také se pracuje na definici metadatového formátu. Měl by být co nejjednodušší s minimem povinných polí a měl by podporovat Dublin Core. Dále se ještě uvažuje o možnostech identifikátorů. Výhledově se pracuje na specifikaci software, výběru a specifikaci persistentních identifikátorů či na podkladech pro licenční smlouvy. Dále se budou oslovovat další možní spolupracovníci projektu. Začne se u těch, kteří se k tomu vyjádřili kladně v dotazníku. V příspěvku Martiny Pfeiferové z STK Grey Literature ve světě jsme získali přehled o zahraničních (převážně evropských) projektech zabývajících se šedou literaturou. Zmíněny byly především nizozemské projekty. Například Dare program (Digital Academic REpositories) či NARCIS (http://www.narcis.info/index/tab/darenet/ ). V dubnu letošního roku byly oba sloučeni pod hlavičkou NARCIS. Zástupcem z Německa byl SOWIPORT (http://www.sowiport.de/home/ueberblick.html). Z mezinárodních projektů je to Open Doar (The Directory of Open Access Repositories, http://www.opendoar.org/index.html ), ROAR (Registry of Open Access Repositories, http://roar.eprints.org/), DOAJ (Directory of Open Access Journals, http://www.doaj.org) či DRIVER (Digital Repository Infrastructure Vision for European Research, http://www.driver-repository.eu/ ) a DRIVER II. V úvodu Martina Pfeiferová uvedla základní terminologii. „Dokumenty, které nejsou publikovány obvyklým způsobem a nejsou proto dostupné na běžném knižním trhu (např. diplomové a dizertační práce, výzkumné zprávy, interní dokumenty, oficiální publikace atd.). Pro vyhledávání a distribuci šedé literatury existující specializované informační systémy (např. databáze SIGLE)".[1] Dále nás krátce seznámila s činností mezinárodní organizace greynet, zabývající se šedou literaturou. Greynet vydává časopis Greyjournal a také každoročně pořádá konference zkracují svůj název na GL. Příští, v pořadí desátá konference, se uskuteční letos na podzim v Amsterodamu. Svůj příspěvek zde přednesou Martina Pfeiferová a Petra Pejšová. Budou zde informovat o stavu projektu NUŠL. Pokud jde o výzkum v oblasti šedé literatury, je zaměřen na oblast humanitních věd. hledají se také nové typy dokumentů nebo centralizace vyhledávání šedé literatury na národní i mezinárodní úrovni. Další téma semináře znělo „PDF a ISO standardy pro dlouhodobé archivování". Autorem byl RNDr. Vladimír Střálka, zástupce firmy Adobe Systéme s.r.o. Pan Střálka stručně promluvil o formátu PDF, o důvodech vzniku a poté se dostal k současné situaci. Představil možnosti využití PDF formátu dnes i do budoucnosti. Formát PDF je velmi rozšíření díky své schopnosti přesně zachovat obsah dokumentů, přičemž nezáleží v jakém formátu (programu) byly původně vytvořeny. Jde o produkt firmy Adobe systems. Jeho historie je již poměrně dlouhá. Dnes nabízí široké spektrum využití. Co se týče dlouhodobého archivování dokumentů nabízí firma standard PDF/A, který je k tomu přímo určený. Týká se pouze textových dokumentů. Standardy se často mění, prochází vývojem. Pan Střálka ale poukazoval na to, že PDF/A by se měnit neměl. A proto může být dlouhodobým východiskem. Přednáška byla ozvláštněna konkrétními ukázkami možností PDF. Mohli jsme vidět co všechno lze převést do PDF formátu. Nemluvíme pouze o textových dokumentech. Jde o animace, mapy či soubory z AutoCadu. Příspěvek Mgr. Petra Nováka (ÚISK - Ústav informačních studií a knihovnictví,FF UK ) nesl název Standardizace otevřených archivů: popis a výměna agregovaných webových zdrojů prostřednictvím OAI-ORE (Open Archive Initiative Object reuse and exchange). OAI- ORE je dalším z projektů Iniciativy pro otevřené archivy. Snaží se o opětovné využití informací v repozitářích. Repozitář by tak neměl být „konečnou stanicí" a dokumenty v něm mají být využitelné znovu, jinde. Účastníci konference byly seznámeni se základní terminologií i principy projektu. Bylo zmíněno jeho možné využití v informačních systémech a repozitářích. Zajímavé informace přinesl Lukáš Gruber z Národní knihovny se svou přednáškou Creative Commons a šedá literatura. Účastníci konference získali základní náhled do iniciativy Creative Commons. Jde o volnou (otevřenou) licenci pro elektronické dokumenty. Dosud neexistuje v české verzi, ale již se chystá projekt. Licence byla vytvořena v roce 2002 společností Creative Commons. V dnešní době je hojně užívána, protože je určena pro mnoho typů dokumentů. Ideou je že sám autor (poskytovatel licence) určuje rozsah práv a povinností v nakládání s dílem. Takže stojí někde díly chráněnými autorským zákonem a volnými díly. Existuje celkem 6 licenčních prvků a jejich kombinací vzniká celkem 6 typů licencí. Liší se povinnostmi. Přesto existuje několik společných prvků. Například dílo lze šířit (několika způsoby), musí být vždy označeno autorem, licence jsou neodvolatelné a nevýhradní. Tato přednáška se setkala s velkým ohlasem. Padla i myšlenka, že by toto téma vystačilo na samostatnou konferenci či seminář. Ladislav Cubr z Národní knihovny přednesl příspěvek nesoucí název Stav implementace perzistentních identifikátorů v NK ČR a výhled do budoucnosti. Na začátku Ladislav Cubr krátce pohovořil obecně o persistentních identifikátorech (dále jen PID). Krátce promluvil o jejich historii, cílech a situaci v Národní knihovně ČR. Národní knihovna plánuje využití identifikátoru URN:NBN. Tento identifikátor slouží pouze národním knihovnám a je určen pro dokumenty, které nejsou označeny jiným PID (např. ISBN). Dále se přednášející věnoval vysvětlení pojmu resolver a jeho fungování. Jde o do češtiny těžko přeložitelný termín. Ladislav Cubr použil slova - lokalizátor či vyhledávač. Má za úkol přidělovat PID a celkově spravovat systém PID. Byly zmíněny i další světové implementace tohoto PID. Například ve Skandinávii, Německu, Maďarsku či v Itálii. A právě italský projekt byl sloužit jako předobraz české verze (implementace). Vše zatím existuje pouze v testovací verzi. Závěr Konference se nesla na velmi profesionální úrovni. Ukázala, že je problematika elektronických kvalifikačních prací a jejich zveřejňování (a obecně šedé literatury) velmi aktuální. Přinesla nejen možnost seznámit účastníky konference s výsledky své činnosti, ale také navazování kontaktů pro budoucí vzájemnou podporu a společný postup. Otázka konání dalších ročníků zůstává otevřená. A nejen to. Některé příspěvky se setkaly s velkým ohlasem. A padl nápad, že by mohly být příště obsahem samostatné konference. ________________________________ [1] Definice z TDKIV. Dostupné na:< http://sigma.nkp>. Zdroj: