Link: OLE-Object-Data Masarykova univerzita Filozofická fakulta Ústav české literatury a knihovnictví Kabinet knihovnictví Bakalářská diplomová práce 2006 Michala Sošková Masarykova univerzita Filozofická fakulta Ústav české literatury a knihovnictví Kabinet knihovnictví Informační studia a knihovnictví Michala Sošková Analýza a vyhodnocení činností uživatelů souborného on-line katalogu Masarykovy univerzity bakalářská diplomová práce Vedoucí práce: Dr. Ing. Zdeněk Kadlec 2006 Bibliografický záznam: SOŠKOVÁ, M.: Analýza a vyhodnocení činností uživatelů souborného on-line katalogu Masarykovy univerzity. Brno: Masarykova univerzita, Filozofická fakulta, Ústav české literatury a knihovnictví, Kabinet knihovnictví, 2006. 58 s. Vedoucí diplomové práce Dr. Ing. Zdeněk Kadlec. Anotace: Diplomová práce "Analýza a vyhodnocení činností uživatelů on-line katalogu Ústřední knihovny MU v Brně" se zabývá významem získávání znalostí z databází v organizacích, konkrétně pak v knihovnách. Zpracováním dat ze svých databází získá organizace další zdroj informací o svých uživatelích, o situaci na trhu a také o sobě samotné. Odnož metody získávání znalostí z databází -- bibliomining -- implementuje postupy klasického získávání znalostí do oblasti knihoven. Cílem práce je prokázat přínos získávání znalostí z databází při zpracování dat na příkladu souborného on-line katalogu MU v Brně a určit vhodnou metodu pro získání znalostí z datového souboru. Součástí práce je také ukázka analýzy dat pocházejících z výše zmíněného on-line katalogu, vyhodnocení výsledků a určení závěrů, které mohou být prospěšné pro správce katalogu, vedení knihovny a v konečném důsledku pro samotné čtenáře. Annotation: There is relatively new discipline named ''Knowledge Discovery from Databases'', which is able to get useful information from a huge number of data. And there is no reason why don't use this method in libraries. On the contrary librarianship as a branch, which has a mission to order information should actively participate in the development of this method. The main goal of this thesis is to process the data from Union Catalogue of Masaryk University in Brno. Following that analyssis I have made out the suitable method for gaining the knowledge from data file, I have evaluated the results and established the conclusion from them, suggested the suitable solution. Klíčová slova: bibliomining, databáze, data mining, dobývání znalostí z databází, knihovnictví, OPAC, on-line katalog, souborný katalog, typické činnosti, vyhledávání Keywords bibliomining, database, data mining, knowledge discovery from databases, library science, OPAC, on-line catalogue, searching, retriaval, typical actions, union catalogue Prohlašuji, že jsem bakalářskou diplomovou práci vypracovala samostatně s využitím uvedených pramenů a literatury. Současně dávám svolení k tomu, aby tato diplomová práce byla umístěna v Ústřední knihovně FF MU a používána ke studijním účelům. ............................................................................. Zde bych chtěla poděkovat vedoucímu práce Dr. Ing. Zdeňku Kadlecovi za všestrannou pomoc a cenné rady, bez nichž by tato práce nemohla vzniknout. Obsah Úvod. 8 1 Teoretická část 10 1.1 Získávání znalostí z databází a data mining. 10 1.1.1 Pojem data mining a knowledge discovery from databases. 10 1.1.2 Historie KDD.. 11 1.1.3 Situace v České republice. 12 1.1.4 Fáze KDD.. 13 1.1.5 Úprava dat do podoby datových skladů. 15 1.1.6 Využití KDD.. 16 1.2 Automatizované knihovní systémy a OPAC jako jejich součást 18 1.2.1 Automatizované knihovnické systémy. 18 1.2.2 OPAC.. 20 1.2.3 Funkce knihovnického katalogu. 20 1.2.4 Katalogizační záznam.. 21 1.2.5 Způsoby vyhledávání v OPAC.. 22 1.2.6 Trendy ve vývoji OPAC.. 23 1.3 Aplikace KDD v knihovnictví a bibliomining. 25 1.3.1 Automatizovaný knihovnický systém jako objekt KDD.. 25 1.3.2 Bibliomining. 25 1.3.3 Přínos bibliominingu. 28 2 Praktická část 29 2.1 Základní pojmy. 29 2.2 Vzorek analyzovaných dat 29 2.3 Použitá metoda. 29 2.4 Postup prací 30 2.5 Prezentace výsledků analýzy. 36 2.5.1 Charakteristika období z hlediska četností 36 2.5.2 Vyhledávací návyky uživatelů. 40 2.5.3 Typické činnosti 42 2.6 Znalosti vyplývající z výsledků analýzy. 47 Závěr. 51 Použitá literatura. 52 Seznamy obrázků, tabulek a grafů. 55 Seznam příloh. 56 Úvod Každá organizace, využívající ke své činnosti některý z druhů informačního systému, uchovává ve svých databázích obrovské množství dat. Tato data se sice ukládají kvůli zajištění bezpečnosti, ale obvykle se dále nezpracovávají. Přesto však mohou mít velkou vypovídací hodnotu a mohou vedoucímu managementu organizace přinést mnoho nových poznatků o chodu firmy. V posledních letech se zatím povětšinou v ekonomické sféře objevuje snaha tato data vyhodnotit a využít je jako dalšího zdroje pro získávání informací o zákaznících, situaci na trhu i samotné organizaci. Stejně tak knihovny Masarykovy univerzity uchovávají data z elektronického knihovnického systému Aleph. Tato data obsahují cenné informace o přístupech čtenářů, o jejich činnostech, o způsobu vyhledávání v katalogu a také o tom, které služby knihovnického katalogu jsou využívány a v jakém množství. Postupu získávání použitelných informací z velkých souborů dat se věnuje nová disciplína získávání znalostí z databází - knowledge discovery from databases (dále jen KDD) a není důvod, proč jejich metod nevyužít i v oblasti knihovnictví. Naopak si myslím, že knihovnictví, jakožto obor mající ve svém poslání práci s informacemi, by se měl aktivně podílet na rozvoji této metody. V první části své práce se věnuji základnímu výkladu problematiky KDD a ve stručnosti uvádím její největší přínosy. Třetí část pojednává o nově vzniklé odnoži KDD označované jako bibliomining, která se poměrně nedávno začala formovat v USA. Bibliomining používá klasické metody KDD v oblasti knihoven, ať už jde o knihovny klasické tak digitální. Klade si za cíl získat nový pohled na čtenáře odhalením zákonitostí opakujících se v souboru dat a poznáním typických vzorů chování čtenářů. Cílem mé práce je prokázat přínos získávání znalostí z databází při zpracování dat na příkladu souborného on-line katalogu MU v Brně a určení vhodné metody pro získání znalostí z datového souboru. Součástí práce je také ukázka analýzy dat pocházejících z výše zmíněného on-line katalogu, vyhodnocení výsledků a určení závěrů, které mohou být prospěšné pro správce katalogu, vedení knihovny a v konečném důsledku pro samotné čtenáře. Není mým záměrem vytvořit vyčerpávající analýzu celého souborného katalogu, ale spíše určit, jak by se mohla provádět a demonstrovat její přínos. Výsledkem analýzy a následného získávání znalostí by vedle charakteristiky období z hlediska četností mělo být zjištění, jaké jsou typické činnosti uživatelů katalogu, jaká je mezi nimi posloupnost. Poté chci výsledky analyzovat a určit, zda je katalog nastaven podle požadavků uživatelů. Tedy stanovit nejpoužívanější funkce a zda jsou snadno přístupné či naopak, zda zde existují funkce, o kterých uživatelé nevědí. Jelikož budu zpracovávat záznamy pocházející z knihovního on-line katalogu, je součástí práce také kapitola o on-line katalozích, která je věnována definici funkcí knihovního katalogu a budoucím trendům v jejich vývoji. Součástí kapitoly o on-line katalozích je krátký úvod do způsobu vyhledávání v informačních zdrojích. 1 Teoretická část 1.1 Získávání znalostí z databází a data mining In the data is the knowledge. In the knowledge is the power.[1] 1.1.1 Pojem data mining a knowledge discovery from databases Termín data mining není dosud pevně definován a debaty na téma, které postupy data mining charakterizují, nejsou zdaleka u konce. Data mining (dále jen DM) znamená v doslovném překladu dolování, vytěžování dat. Většina autorů se shoduje na tom, že jde o postup, při kterém ze surových dat, která máme k dispozici ve formě databáze, relačních tabulek datového skladu, získáváme pomocí statistických a logických metod znalosti, které může management organizace využít ke strategickému rozhodování. Rozpory mezi autory však můžeme nalézt v názorech, zda je data mining samostatná metoda, nebo spíše pouze jedna z fázi širšího procesu a to získávání znalostí z databází (knowledge discovery in databases, dále jen KDD). V odborné literatuře se tyto dva pojmy velmi často považují za synonyma. Podle 1. mezinárodní konference o KDD, konané v Montrealu v roce 1995,[2] se ve své práci budu držet doporučeného pojmu knowledge discovery in databases a data miningu jako jeho součásti. KDD může být někdy mylně považováno za prosté uplatňování statistických metod. U KDD je však jako samotná aplikace statistických metod stejně důležitá příprava dat do využitelné podoby. Aby zpracovaná data měla patřičnou vypovídací hodnotu, je nutné vytřídit nepotřebnou hlušinu, která by mohla zkreslovat výsledek analýzy. Následuje aplikace statistických metod a metod strojového učení, které ze souboru dat odhalí skryté zákonitosti. Po získání výsledků statistických výpočtů přichází podle mého názoru jedna z nejdůležitějších a nejnáročnějších fází KDD a to fáze interpretace výsledků. V této fázi porovnáváme výsledky různých metod, které byly v průběhu analýzy využívány a snažíme se mezi nimi nalézt vztahy, překvapivé souvislosti a zákonitosti. Důležité je zde slovo překvapivé, protože většinou ani samotný zadavatel analýzy netuší, zda se z dat podaří získat použitelné znalosti. A zde je snad nejvýraznější rozdíl mezi statistickou analýzou a KDD, statistická analýza se snaží potvrdit nebo vyvrátit předem přesně definovanou hypotézu, KDD často pouze mlhavě předpokládá jisté souvislosti. 1.1.2 Historie KDD První náznaky KDD můžeme sledovat již v 60. letech 20. století, kdy docházelo k masivnějšímu rozvoji výpočetní techniky a vyvstala potřeba získávat užitečné údaje z uložených dat. V této době byly k tomuto účelu využívány zejména regresní analýzy a první metody rozhodovacích stromů. Masivnější rozvoj přišel současně s vyvíjením expertních databázových systémů, nových statistických metod a umělé inteligence na přelomu 70. a 80. let 20. století, kdy díky zvýšení výkonu a velikosti paměti počítačů mohly být systematicky využívány metody DM.[3] V této době se však hovoří spíše o vytěžování dat (tedy data miningu), odvozování znalostí (data extraction), odkrývání informací, získávání znalostí, information discovery, information harvesting, data archeology, data pattern processing[4] a tyto pojmy mají spíše hanlivý význam, protože nebylo ještě možné zajistit spolehlivost jejich výsledků. Navíc šlo spíše o vyhledávání korelací ve velkých datových souborech.[5] První impulsy přicházely jako obvykle z Ameriky a zde se také roku 1989 na Mezinárodní konferenci o umělé inteligenci IJCAI´89 ustanovil pojem Knowledge Discovery from Databases.[6] V tomtéž roce na prvním workshopu o KDD byla zdůrazněna potřeba získávat z databází využitelné znalosti.[7] Avšak až teprve v devadesátých letech po objevu nových statistických metod můžeme o data miningu (nyní KDD) hovořit jako o samostatném a rovnocenném oboru aplikované vědy. Podle Fayyada, jednoho z největších odborníků na KDD a data mining, je současná definice KDD následující: "KDD je proces netriviálního objevování implicitních, dopředu neznámých a potenciálně použitelných znalostí v datech." [8] Z vědeckých pracovišť se KDD rychle přemístilo do komerční sféry, zejména pro jeho využitelnost v rozhodovacím procesu, a následně vznikly dvě největší firmy, produkující software pro KDD, a s nimi dva nejznámější softwarové produkty: aplikace Enterprise Miner od firmy SAS a Clementine od SPSS. Jako zástupce nekomerčních softwarů lze jmenovat aplikace Weka a Orange.[9] 1.1.3 Situace v České republice V současnosti existuje i v České republice několik producentů softwaru pro KDD, který se dnes v literatuře často označuje termínem systémy pro podporu rozhodování (DSS -- decision support systems). Za všechny lze jmenovat firmu Adastra, vyvíjející software pro podporu strategického rozhodování v podniku nebo pro odhalení bankovních podvodů.[10] Dalším projektem je LISp-Miner[11] vyvíjený na VŠE v Praze (podrobněji viz kapitola 1.1.6 Využití KDD). Problematikou vytěžování znalostí se intenzivně zabývá i česká vědecká společnost. V roce 2006 se na Univerzitě Hradce Králové konal již 5. ročník česko-slovenské konference Znalosti zaměřené na teoretické a praktické aspekty získávání, zpracování a využívání znalostí.[12] 1.1.4 Fáze KDD Docent Berka,[13] ve své publikaci Dobývání znalostí z databází, taktéž považuje data mining pouze za jednu z etap mnohem širší metody dobývání znalostí. Etapy při dobývání znalostí rozčleňuje podle manažerského pohledu, jenž je zaměřen na řešení konkrétního problému, následujícími body: 1. vytvoření týmu řešitelů; 2. specifikace problému; 3. získání všech dostupných dat; 4. výběr metody analýzy dat; 5. předzpracování dat do formy potřebné pro aplikaci metod; 6. data mining -- aplikace analytických metod; 7. interpretace výsledků metod. 1. Vytvoření týmu řešitelů Členem řešitelského týmu by měl být odborník na oblast, v níž se problém vyskytuje, dále expert na zpracování dat a odborník na oblast datových zdrojů a nakonec odborník na metody KDD. Při zpracování náročnějších problémů je možné, aby jednotliví odborníci měli k dispozici týmy spolupracovníků. 2. Specifikace problému Problém musí být vyjádřen s ohledem k daným okolnostem a musí zohledňovat metody KDD. 3. Získání všech dostupných dat Během získávání dat nelze počítat s tím, že použijeme k analýze všechna data, která máme k dispozici. Je tedy také nutné posoudit všechna data a zvážit, která mohou být pro analýzu užitečná. Pro utvoření celkového obrazu o daném případu by měla být brána v úvahu i data externí, to znamená data přímo související s danou problematikou. Ty sice spíše popisují prostředí, kde se analyzované jevy odehrávají (nebo odehrávaly), ale mají na ně někdy i klíčový vliv. Jedná se zejména o údaje o období (datum, roční období, akademické období), dále informace o výplatních termínech, počasí, reklamách v médiích nebo politických událostech. 4. Výběr metody analýzy dat Při výběru metody analýzy dat se nemusíme omezovat pouze na jednu metodu, je naopak vhodnější různé metody kombinovat a hledat nejlepší možnou kombinaci. Klasický způsob získávání znalostí z dat spočívá v ruční analýze a interpretaci.[14] Mezi často používané typy metod patří např. klasifikační metody, různé klasické metody explorační analýzy dat, metody pro získávání asociačních pravidel, rozhodovací stromy, genetické algoritmy, bayesovské sítě, neuronové sítě, hrubé množiny a také metody vizualizace. Tím však výčet končit nemusí, neustále totiž dochází k vývoji metod nových. 5. Předzpracování dat do formy potřebné pro aplikaci metod V následné fázi předzpracování dat se hrubá data, která máme k dispozici, upraví dle požadavků předem určených metod. Zde dochází k odstraňování odlehlých hodnost a doplnění chybějících, čištění a formátování. Fáze přípravy dat je považována za téměř nejklíčovější a také časově nejnáročnější. Pokud nejsou data zpracovaná správně, mohou znehodnotit celou následnou analýzu. Pokud nemáme data k dispozici ve formě datového skladu, je možné a v praxi běžné upravit je v této fázi. Podrobněji viz následující kapitola. 6. Data mining -- aplikace analytických metod V této fázi se konečně z upravených dat získávají pro nás tolik důležité souvislosti a vzory. Při uplatňování analytických metod je třeba přesně dodržovat danou metodiku a průběžně provádět kontrolu. Každý výpočet by měl být aplikován několikrát, aby se minimalizovala pravděpodobnost omylu. Přestože jde o fázi, která má největší viditelné výsledky, bývá často méně časově náročná než předcházející upravování dat.[15] 7. Interpretace výsledků metod Výsledky analýz bývají zpravidla určeny pro odborníky na jinou oblast, než je analytické zpracování dat. Je třeba upravit je do podoby srozumitelné zadavateli analýzy a to ve formě reportů, tabulek, grafů a konkrétních odpovědí. Úkolem zadavatele je na dané výsledky přiměřeně reagovat. 1.1.5 Úprava dat do podoby datových skladů Jelikož v organizaci bývají data často rozptýlena do více různých zdrojů, není možné je zpracovat okamžitě bez jakékoliv úpravy. Tyto zdroje totiž často pracují s různými formáty, jednotlivé informace se opakují nebo se tu vyskytují nepotřebná data. Je tedy třeba upravit soubor dat pro další práci. Jelikož je úprava dat obecně považována za jednu z nejdůležitějších fází dolování dat, budu se jí v následujících řádcích věnovat podrobněji. Primární databáze v současnosti fungují na principu OLTP (on-line transaction processing), neboli okamžité zpracování transakcí. Bývají někdy označovány jako operační databáze, jelikož na jejich úrovni dochází ke zpracování, evidenci a archivaci dat pocházejících z běžného provozu organizace. Jedná se klasicky o zúčtování denních tržeb, bankovních operací, v knihovně může jít o zpracování výpůjčních požadavků a nebo provoz katalogu. Jelikož s daty ze systému OLTP není možné pracovat přímo, pravidelně a automaticky se podle předem daného protokolu čistí a ukládají do datového skladu.[16] Datový sklad lze chápat jako úložný prostor, který funguje nad běžnými provozními aplikacemi. Agreguje v sobě data z několika primárních zdrojů, které spolu nemusejí být kompatibilní a nebylo by je tedy možné zpracovávat společně. Tato data se přeformátují do stejného formátu, dále se vyfiltrují opakující se a nežádoucí údaje, jako jsou například osobní údaje o uživatelích a přebytečné technické parametry a uloží se na medium. Datový sklad je určen pouze pro čtení dat během analýzy, je to jakási nadstavba, do níž se po úpravě již dále nezasahuje, vyjma pravidelných aktualizací. 1.1.6 Využití KDD Aplikace metod vytěžování znalostí přináší genetikům nové možnosti při zkoumání DNA a mapování lidského genomu.[17] Klimatologům může pomoci zjistit, zda dochází ke globálnímu oteplování a jaké jsou jeho příčiny. Ve zdravotnictví se pracuje na metodách, které umožní dříve zpozorovat příznaky chorob a zahájit včasnou léčbu. Jde například o výše zmíněný LISp-Miner vyvíjený pro určení pacientů s rizikem hypertenze, u kterých je vhodné provést důkladnější vyšetření.[18] Velmi často se metod KDD využívá v bankovnictví. Klasický je příklad klasifikace klientů na rizikové a naopak bonitní, podle předem daných kritérií (žena -- muž, zaměstnaný -- nezaměstnaný, vysoký -- nízký příjem, pravidelné -- nepravidelné platby). Také při zvyšování bezpečnosti kreditních karet se využívá postupů KDD, kdy jsou monitorovány činnosti jednotlivých uživatelů a každé "vybočení z normálu" banka ověřuje u svého klienta.[19] Obdobný postup se nyní využívá také v boji proti praní "špinavých peněz". Ideální oblastí pro aplikaci KDD je prostředí internetu, s jeho obrovskou datovou kapacitou. Na tomto poli nyní běží mnoho projektů snažících se zvýšit kvalitu vyhledávání na internetu. Pro tuto oblast se vyčlenily specifické odnože Data Miningu, jako je Web Mining, Web Content Mining, Web Usage Mining a částečně také metoda ontologie. Velkou roli KDD hraje v současné přeměně internetu na sémantický web.[20] Dalším příkladem je projekt, který hledá vazby mezi termíny z uživatelem navštívených stránek a podle těchto vazeb vygeneruje klíčová slova, která upřesní následný uživatelův dotaz.[21] Metoda click-stream využívá algoritmů, které z historie navštívených stránek přímo dokáží předpovědět následnou webovou stránku a nebo alespoň typ vhodné stránky, případně určí typické postupy uživatelů na webu.[22] Tím však nejsou všechny možnosti využití KDD vyčerpány, existuje mnoho způsobů, jak využít svoje data k rozvoji firmy. Může jít o určování segmentu na trhu k cílenému oslovení s nabídkou produktů, předpovídání vývoje kurzů akcií, analýza důvodů poruch automobilů.[23] Tím však výčet zdaleka nekončí a podle mého názoru oblastí využívajících metody KDD bude v budoucnu stále přibývat. V oblasti knihovnictví můžeme sledovat projekt OCLC pracující na vytvoření mechanismů, které by dokázaly na základě již zapůjčené literatury doporučit další vhodné publikace.[24] Dalším možnostem využití KDD v oblasti knihovnictví se více věnuji ve 3. kapitole. 1.2 Automatizované knihovní systémy a OPAC jako jejich součást 1.2.1 Automatizované knihovnické systémy Přechod z ruční práce na automatizaci knihovnických činností je obecně považován za jeden z mezníků současného knihovnictví. Tento krok zásadním způsobem změnil způsob práce jak uvnitř knihoven, tak jejího fungování navenek. Zpočátku se jednalo pouze o automatizaci základních knihovnických činností, jako je akvizice, katalogizace nebo práce s výpůjčkami.[25] V současnosti však lze říci, že automatizovaný knihovnický systém tvoří určitou centrální nervovou soustavu knihovny, a většina knihovnických činností je s ním velmi úzce spjata. Automatizovaný knihovnický systém se zpravidla skládá z několika modulů, které mohou být na sobě víceméně nezávislé. V případě jednoho z nejrozšířenějších automatizovaných knihovnických systému Aleph se jedná o tyto moduly (následující výčet vychází z manuálu pro systém Aleph[26]): Vyhledávací modul ˙ OPAC (veřejně přístupný on-line katalog), ˙ CCL, ˙ přístupové soubory: autority, indexy, slova, ˙ prohlížení katalogu, ˙ vyhledávání v katalogu, ˙ zobrazení záznamů o knihovních jednotkách, ˙ propojení s modulem Výpůjčky při zadání požadavku na výpůjčku, ˙ prodlužování výpůjček, ˙ rezervace dokumentů, ˙ nápověda, ˙ provádění rešerší v jiných knihovnách v dostupné síti. Katalogizace ˙ tvorba a opravy záznamů dokumentů, ˙ kopírování a správa záznamů dokumentů, ˙ vyhledávání a správa autorit. Správa údajů o knihovních jednotkách ˙ registrace knihovních jednotek podle dílčích knihoven, ˙ evidence exemplářů knihovních jednotek. Správa souborů autorit ˙ modifikace selekčního hesla, ˙ odkazy, poznámky, ˙ globální změny autorit. Výpůjční systém ˙ výpůjční systém, vracení a rezervace, ˙ správa čárových kódů, ˙ správa pokut a poplatků. Evidence a správa seriálů ˙ registrace a evidence došlých čísel, ˙ vazba. Akvizice ˙ objednávky, rozpočty, faktury, měnové kurzy, ˙ dodavatelé. Systém dále obsahuje moduly pro obsluhu knihovny zahrnující správu dat, údržbu a zálohování systému, rozhraní PC. 1.2.2 OPAC Katalog byl součástí knihovny již od samého vzniku knihoven. Z počátku existoval pouze v mysli knihovníka, později ve formě knižního katalogu, dále lístkového katalogu. Zatím poslední fází vývoje knihovního katalogu je Open Public Access Catalogue (dále jen OPAC), který plynule vzešel z lístkového katalogu během 80. let 20. století.[27] Příčinou, proč k této převratné změně mohlo dojít, bezesporu byly -- kromě samotného rozvoje výpočetní techniky -- postupné zavádění standardů při vytváření bibliografických záznamů. Zejména k ní přispělo širší přijetí standardizačních formátů MARC a katalogizačních pravidel AACR2. Původně OPAC umožňoval přístup k fondu pouze v rámci knihovny, ale s nástupem nového prostředí Word Wide Webu, se jeho možnosti posunuly mnohem dále. Dnes je možné prohledávat přes jedno rozhraní fondy několika knihoven současně, a to právě díky bibliografickým standardům. Velkou zásluhu na propojování knihovních fondů má vznik nového protokolu Z39.50. Technickým souvislostem protokolu Z39.50 se kvůli omezenému rozsahu své práce nebudu hlouběji věnovat, v krátkosti však lze říci, že umožňuje propojení více systémů pracujících na různých platformách. 1.2.3 Funkce knihovnického katalogu V roce 2003 se ve Frankfurtu konalo první z řady setkání expertů IFLA (International Federation of Library Associations), zde byly zformulovány jak původní vyhledávací a lokační funkce katalogu, tak specifické funkce pro on-line katalogy takto: 1. Vyhledávací funkce: Uživatel by měl pomocí katalogu být schopen získat bibliografické zdroje jako výsledek vyhledávání podle atributů nebo relací těchto zdrojů. 2. Identifikační funkce: Uživatel by se měl pomocí katalogu přesvědčit, že entita v záznamu popsaná odpovídá entitě, kterou hledá, nebo rozlišit mezi dvěma čí více entitami s podobnými charakteristikami. 3. Výběrová funkce: On-line katalog by měl uživatelům usnadnit výběr materiálů, které odpovídají jejich potřebám co do obsahu a fyzického formátu (a obdobně umožnit odmítnutí materiálů, které jejich potřebám nevyhovují). 4. Zpřístupňovací funkce: Katalog by měl umožnit přístup k popisovaným zdrojům (např. prostřednictvím koupě, výpůjčky nebo v případě elektronických zdrojů prostřednictvím on-line připojení ke vzdálenému zdroji). 5. Navigační funkce: On-line katalog by měl podporovat navigaci v databázi pomocí logického uspořádání bibliografických informací a prezentace jasných metod přechodu mezi souvisejícími záznamy.[28] Protože katalog je především veřejná služba, musí splňovat požadavky jak minimálně informačně gramotných uživatelů tak informačních specialistů. 1.2.4 Katalogizační záznam Vyhledávání v OPAC velmi závisí na způsobu zpracovaní katalogizačního záznamu. Katalogizační záznam můžeme definovat jako krátký bibliografický popis jednotky fondu, který je obohacen o řízené deskriptory, může jít o např. předmětová hesla nebo klíčová slova, a o značku číselného třídění, u nás zpravidla vychází z MDT.[29] Přesné náležitosti a rozsah záznamu si podle svých potřeb určuje knihovna sama, avšak formát záznamů musí být jednotný. V současnosti knihovny vycházejí ze standardů MARC a AACR2, jenž určuje přesnou stavbu katalogizačního záznamu. Katalogizační záznam musí pro správné fungování katalogu splňovat tato základní kriteria: ˙ přesně popsat a identifikovat dokument; ˙ umožnit jeho co možná nejsnadnější vyhledání podle požadavků uživatele; ˙ lokalizovat vyhledaný dokument. 1.2.5 Způsoby vyhledávání v OPAC Podle encyklopedie Dekker[30] můžeme definovat dva základní způsoby vyhledávání v on-line katalozích: 1. uživatel zná konkrétní slovo z názvu nebo jména autora a vyhledává tedy podle klíčových slov, 2. uživatel hledá dokumenty podle určitého tématu nebo předmětu a to pomocí předmětových hesel. Hranice mezi těmito dvěma způsoby jsou často velmi rozostřené a jednotlivé metody se mohou vzájemně prolínat. Vyhledávání, které začalo jako orientované na přesné fráze, může skončit jako předmětové a naopak. Předmětové vyhledávání sice předpokládá vyšší úroveň uživatelovy informační gramotnosti, ale dokáže plně využít předností řízených databází, kde jsou jednotlivé termíny mezi sebou provázány vztahy nadřazenosti a podřazenosti. Oproti tomu vyhledávání pomocí klíčových slov může cíleněji postihnout soubor úplných dokumentů. Bohužel mezi běžnými uživateli převládá způsob vyhledávání podle klíčových slov. Hlavním důvodem je pravděpodobně to, že uživatelé jsou zvyklí na vyhledávání v prostředí internetu, kde při správném použití metoda fulltextového vyhledávání pomocí klíčových slov vrací poměrně kvalitní výsledky. Bohužel často neznají způsoby indexace dokumentů v knihovnách pomocí předmětových hesel a jiných metod řízené indexace a ochuzují se o možnost relevantnějšího vyhledávání.[31] 1.2.6 Trendy ve vývoji OPAC V současnosti probíhají snahy maximálně odbourávat bariéry dělící uživatele od přirozeného vyhledávání v neomezených souborech dat. Pracuje se na projektech, které mají za cíl vytvořit co největší souborný katalog, jenž by agregoval data z ostatních katalogů a podle výsledků vyhledávání odkázal uživatele na přesné místo výskytu dokumentu. V tomto směru můžeme sledovat projekty OCLC s pokusem vytvořit určitý světový katalog WorldCat a projekt Open WorldCat Pilot, který by měl z mimoknihovních webů odkazovat do materiálů samotných knihoven.[32] Dalším zajímavým počinem je projekt RLG - "RedLightGreen". "Tento projekt se snaží nabídnout bohaté a spolehlivé knihovní informace, jež jsou jedinečné ve webovském prostředí, a dodat je způsobem, který bude vyhovovat webovsky orientovaným uživatelům."[33] Zaměřuje se především na vysokoškolské studenty a toto jsou jeho cíle: ˙ umožnit uživatelům prohledávat s použitím běžných slov současně fondy mnoha knihoven; ˙ nacházet prostřednictvím vazeb, které tradičnější on-line katalogy nenabízejí, díla relevantní k jejich zájmům; ˙ vybírat nejrozšířenější či nejautoritativnější práce, určit, zda je hledaný dokument na regále ve vlastní vysokoškolské knihovně (nebo kde se dá koupit); ˙ získat citaci díla ve tvaru připraveném pro zkopírování do dokumentu v kterémkoliv z obecně rozšířených formátů.[34] Za vstřícný krok směrem k uživateli lze požadovat postupné přibližování k standardům webových stránek a upouštění od formy formuláře v klasickém katalogu. Vzhledem k tomu, že většina rešeršních požadavků stále probíhá v neknihovní sféře, snaží se dnešní knihovníci této oblasti přiblížit, aniž by přitom ztratili své největší přednosti, jako je důvěryhodnost a stálost fondů. Proto někteří knihovníci chtějí rozšířit funkce katalogu, přiblížit ho ke klasickým vyhledávacím nástrojům používaných na internetu a nebo přetvořit katalog tak, aby fungoval jako portál k internetu. Tento katalog by měl shromažďovat a zpřístupňovat dokumenty bez ohledu na jejich formu.[35] OPAC blízké budoucnosti by měl poskytovat informační služby i na dálku a to tak, že v sobě bude mít implementovány mechanismy umožňující e-obchodování, neboli poskytování informačních služeb prostřednictvím internetu.[36] 1.3 Aplikace KDD v knihovnictví a bibliomining 1.3.1 Automatizovaný knihovnický systém jako objekt KDD Automatizovaný knihovnický systém funguje jako klasická databáze, jejíž součástí je také modul, který zálohuje provedené operace. Také tady se shromažďuje obrovské množství údajů o návštěvách čtenářů, provedených výpůjčkách, vyhledávaných publikacích, rezervacích a mnoha dalších operacích. Při jejich správném vyhodnocení mohou poskytnout velmi užitečné informace, jež vedení může využít ke zlepšení chodu knihovny. Není tedy důvod, proč by nebylo možné uplatnit metody KDD i v oblasti knihovnictví. Jediným důvodem, proč tak neučinit, pak mohou být pouze omezené finanční prostředky knihoven a nebo nedostatek kvalifikovaného personálu. Novinkou implementující KDD do knihovnického prostředí je v současnosti bibliomining, kterému se v následujících řádcích budu věnovat podrobněji. Text volně vychází z prací jednoho ze zakladatelů bibliominingu Scotta Nicholsona.[37] 1.3.2 Bibliomining Pojem bibliomining použili v roce 2003 jako první Američané Nicholson a Stanton v diskusi o data miningu prováděném v knihovnách. Nicholson - profesorský asistent na americké universitě v Syracuse, škola informačních studií - se zabývá problematikou využívání dat z databází knihoven, ať už jde o knihovny klasické, tak digitální. Při vyhledávání literatury v této oblasti vyhledávací nástroje často odkazují na knihovny data miningu ve smyslu programových knihoven. Proto Stanton a Nicholson vytvořili pojem bibliomining, který tyto oblasti dostatečně odlišuje. Bibliomining je poměrně novou disciplínou, která není v akademickém světě ještě dostatečně prodiskutována. V české literatuře v současnosti neexistují žádné zdroje, které by se touto problematikou zabývaly, ale předpokládám, že v budoucnu s postupným nárůstem významu statistických a analytických metod i ve veřejném sektoru, bude bibliominingu přikládán stále větší význam a to jak v zahraničí, tak i u nás. Bibliomining stejně jako klasický data mining představuje aplikaci statistických metod a vyhledávání zákonitostí v rozsáhlých databázích. Avšak v případě bibliominingu data souvisejí se systémy knihoven a usnadňují rozhodování managementu knihoven. Zde se tedy setkáváme s pojetím data miningu jako samostatné metody, v podstatě jde však jen o terminologickou odlišnost, postup je stejný jako u klasického knowledge discovery in databases. Podle Nicholsona bibliomining zahrnuje následující fáze (v podstatě jsou shodné, jako u klasického KDD): 1. Určení problému; 2. Identifikace datových zdrojů; 3. Uspořádání dat do datového skladu; 4. Výběr vhodných analytických prostředků, odvození souvislostí v databázovém vzorku a vytvoření zprávy pro řídící management organizace; 5. Analýza výsledků a uvedení do praxe. 1. Určení problému Problém, který je třeba řešit, může vycházet buď ze specifických požadavků knihovny nebo může být obecným předpokladem pro usnadnění rozhodování managementu. Specifickým požadavkem může být určení trendů v oblasti výpůjček, zda jsou nějaké souvislosti mezi prodlužováním výpůjček a např. pozdějším vracením. Jako obecný požadavek Nicholson uvádí, určení jak se liší typy uživatelů používající elektronická periodika. 2. Identifikace datových zdrojů Při určování vhodných zdrojů je možné v praxi narazit na problém, kdy interní knihovní data mohou být považována za citlivé údaje, a proto je knihovny neshromažďují, případně je po určité době skartují. Je otázkou, zda je tento postup správný, protože zpracováním těchto údajů může knihovna cíleněji orientovat své služby a může být připravena na určité události, které se v knihovně třebaže nepozorovaně opakují. Datové zdroje knihovny Nicholson rozděluje na: interní -- to jsou ta data, která má knihovna k dispozici ve své vlastním systému (databáze uživatelů, data o přístupech ke katalogu, o službách atd.); externí -- tato data nemá knihovna přímo ve svém systému, ale je možné je určitým způsobem získat či odvodit. Jsou to například informace o demografickém rozložení uživatelů na základě jejich IP adres, poštovních adres atd. 3. Uspořádání dat do datového skladu Projektování datového skladu Postupy při vytváření datového skladu musí zajistit ochranu osobních údajů uživatelů knihovny. Proto jsou veškerá data očištěna od údajů, které by mohly vést k identifikaci jednotlivých uživatelů a jsou ponechána jen ta, která umožňují hledání obecnějších zákonitostí určitých skupin a vzorů. Užitečná data se uloží do datových skladů, ostatní se skartují. Podle Nicholsona není možné tyto osobní údaje vkládat do datových skladů, protože by to znamenalo jejich cílenou archivaci a zpracování, což ani v České republice zákon na ochranu osobních údajů nepovoluje. Poté, co je vytvořen datový sklad, je možné výchozí informace, jak využitelné tak dále nepoužitelné, odstranit ze stávající databáze a uvolnit tím učinit zadost zákonu na ochranu osobních údajů. Z datového skladu by následně nemělo být možné obnovit původní údaje o uživatelích. Budování datového skladu Samotné vybudovaní datového skladu je jedna z nejnáročnějších fází dolování dat, může být dokonce náročnější než samotná aplikace statistických a data miningových metod. Nicholson jej vidí jako nikdy nekončící proces, podle nových výsledků je nutné určit nové parametry pro přiřazení důležitosti využitelných dat. Přesnost těchto parametrů je pro úspěšnou analýzu maximálně důležitá, protože chyba v této fázi ovlivní výsledky celé následné analýzy. Nicholson tedy radí, aby knihovníci zprvu určovali úzce specifikované otázky, které by prověřily správnost výběru dat do datového skladu a odhalily případné chyby v algoritmech. Teprve po odstranění všech nesrovnalostí je možné, postoupit tato data k rozboru. 4. Výběr vhodných analytických prostředků a odvození souvislostí ve vzorku a vytvoření zprávy pro řídící management organizace K budoucí analýze mohou být vybrány klasické statistické metody, pokročilé metody KDD však mohou vidět dále, než klasické metody. Mohou najít zákonitosti v souboru uživatelů, díky kterým mohou knihovníci lépe chápat své čtenáře. Také v oblasti knihovnictví je možné použít klasické data miningové programy SAS a SPSS, ale ty jsou na finanční možnosti knihoven pořád velmi drahé. Další možností je použít softwaru Weka, který je sice levnější, ale není natolik uživatelsky přívětivý. 5. Analýza výsledků a uvedení do praxe Je třeba nejprve ověřit platnost vypracovaných modelů a statistických zpráv na nových datech. U ověřování výsledků by měli být přítomni knihovníci obeznámení se zkoumanou situací a ti by měli určit, zda jsou tyto modely reálné. Pokud knihovník dojde k závěru, že tomu tak není, je nutné začít zase od začátku. Pokud lze říci, že přijaté závěry jsou obecně platné, předávají se do rukou řídících pracovníků knihovny, které na jejich základě mohou přijmout opatření vedoucích v ideálním případě ke zlepšení chodu knihovny.[38] 1.3.3 Přínos bibliominingu Tak jako v případě klasického KDD je hlavním cílem bibliominingu určování závislostí ve vzorku dat a hledání vztahů mezi nimi. Pokud se podaří tyto nové souvislosti naleznout, může knihovna flexibilně reagovat na potřeby svých čtenářů, ať už nabídkou nových služeb, zlepšením stávajících či poučením personálu. 2 Praktická část 2.1 Základní pojmy Uživatel -- v této práci je za uživatele považován každý, kdo v daném období vstoupil na webovou stránku aleph.muni.cz a pracoval s aplikací souborného on-line katalogu Masarykovy univerzity, ať už byl přihlášen, nebo vystupoval v pozici hosta. Akce -- přechod z jedné stránky katalogu na jinou za účelem provedení činnosti, lze také charakterizovat jako jedno "kliknutí" v systému. Přístup -- souhrn všech akcí připadající na jednoho uživatele od okamžiku přihlášení až po jeho odhlášení nebo zavření aplikace. Činnost - logický postup prací uživatele s katalogem. 2.2 Vzorek analyzovaných dat Data, zpracovaná v této práci, pocházejí z webové aplikace modulu OPAC automatizovaného knihovnického systému Aleph 500 verze 14 a obsahují údaje popisující činnosti uživatelů souborného katalogu Masarykovy univerzity, sdružujícího fakultní knihovny univerzity, za období od 23. června 2005 do 27. října 2005. Určená data byla v dané době k dispozici a vycházela z aktuální situace. Soubor obsahoval přibližně 2,8 milionů záznamů, o přístupech uživatelů a všech činnostech, které se na webových stránkách on-line katalogu v daném období uskutečnily. Přičemž jeden záznam odpovídá jedné provedené akci neboli kliknutí v aplikaci. 2.3 Použitá metoda Při zpracování dat jsem volně vycházela z postupu navrženého Scottem Nicholsonem pro bibliominig. Ten ustanovuje obecný postup získávání znalostí z databází v oblasti knihovnictví.^[39] Jelikož jde o poměrně univerzální postup, rozhodla jsem se ho po určitých úpravách uplatnit i ve své práci. Více o postupu bibliominingu viz kapitola 1.3. 2.4 Postup prací 1. Porozumění problematice; 2. Stanovení cílů; 3. Zajištění technických prostředků; 4. Porozumění datům a uspořádání dat; 5. Výběr analytických prostředků; 6. Analýza dat a získání výsledků; 7. Příprava výsledků k prezentaci. 1. Porozumění problematice Z počátku jsem se snažila maximálně zorientovat v oblasti KDD, on-line katalogů a použití SQL jazyka. Stanovila jsem předběžný postup prací a určila technické a softwarové prostředky potřebné k provedení analýzy. 2. Stanovení cílů analýzy Cílem analýzy je potvrzení přínosu získávání znalostí z databáze on-line katalogu, určení metody analýzy dat on-line katalogu a získání konkrétních znalostí z dat, která jsem měla k dispozici. Analýza by měla napomoci vedení knihovny i přímým pracovníkům lépe poznat chování uživatelů v prostředí knihovního katalogu. Prioritou této analýzy je vytipování typických cest uživatele aplikací, protože právě to může ukázat, jakým způsobem čtenáři přemýšlejí a zda je stávající aplikace nastavena efektivně a pro uživatele přirozeně. Konkrétní cíle analýzy lze definovat následujícími body: o určení typických činností uživatelů; o vyhodnocení rozhraní katalogu podle typických činností; o charakteristika daného období z hlediska četností; o základní zmapování vyhledávacích návyků uživatelů; Jelikož v průběhu práce univerzita přešla na novější verzi knihovnického systému, zařadila jsem do cílů analýzy i následující bod: ˙ zda nová verze 16 Alephu 500 odstranila nedostatky verze předchozí. 3. Zajištění technických prostředků K provedení analýzy jsem použila MySQL server verzi 4.1.8^[40] a rozhraní MySQL serveru, které bylo vytvořené vedoucím mé práce Dr. Kadlecem. Toto rozhraní fungovalo pod službou APACHE serveru verze 2.0.^[41] V případě MySQL a APACHE serverů jsem použila volně dostupné verze. 4. Porozumění datům a uspořádání dat Jak již bylo uvedeno výše, data pocházejí ze souborného katalogu Masarykovy univerzity používající automatizovaný knihovnický systém Aleph 500. Katalog sdružuje všechny fakultní knihovny a data pocházejí z období od 23. června 2005 do 27. října 2005. Data byla upravena pro potřeby analýzy a neobsahovala osobní údaje čtenářů. Jediným identifikačním údajem je IP adresa počítače, ze kterého uživatel přistupoval. Záznamy pocházely z textového souboru označovaného jako log webserveru, ve kterém se uchovávají pro archivní účely univerzity. V této formě by však nebylo možné s nimi dále pracovat. Data použitá k analýze jsem proto obdržela ve formě MySQL databáze obsahující přibližně 2,8 milionů záznamů logu webserveru. Jednotlivé akce uživatelů jsou zastoupeny řetězci obsahujícími v sobě jak identifikační údaje přístupu, tak údaje o webové stránce, s níž uživatel právě pracoval. Pro názornost uvádím příklad záznamu, kde je zakódována informace o IP adrese, ze které se uživatel připojil, času připojení, formule "GET" uvádí metodu http protokolu, F představuje adresář, v němž je aplikace uložena, řetězec znaků identifikuje každý přístup i jednotlivá kliknutí. Za otazníkem se nacházejí údaje o konkrétních vlastnostech webové stránky, na které se zrovna uživatel nacházel. V tomto případě se jedná o stránku s přihlašovacími údaji. Čísla za uvozovkami uvádějí kód výsledku dotazu. 147.251.2.34 - - [23/Jun/2005:08:59:41 +0200] "GET /F/XF57J9TRYRFCR2KGF5AUU2GEFDXQENNXGKD2IXXPUFMIHHM1QB-00002?func=login&func_option=login-session HTTP/1.1" 200 13241 Databáze obsahovala tabulku, v níž byly záznamy rozděleny do následujících sloupců: ˙ pořadové číslo řádku; ˙ datum a čas, kdy se akce uskutečnila; ˙ IP adresa počítače, odkud byl uživatel přistupoval; ˙ jedinečný identifikátor přístupu umožňující rozlišit k sobě náležející akce; ˙ údaje o provedených činnostech. V tabulce č. 1 uvádím příklad jednoho přístupu. Ze záznamů lze vyčíst, že uživatel, který byl zaregistrován na IP adrese 193.165.222.1, se dne 23. června 2005 v 09:00:44 přihlásil do on-line katalogu, prodloužil výpůjční lhůtu své výpůjčky, přešel na záložku vyhledávání, z ní vybral pokročilé vyhledávání. V bázi knihovny filozofické fakulty zadal klíčové slovo "autismus" a určil vyhledávání podle všech polí. Nakonec se podíval na výsledek svého dotazu, který zobrazil 40 záznamů. +----------------------------------------------------------------------------------------------------------+ |time |ip |sid |func |func_ext |par | |----------+-------------+-------------------------+--------------+--------------+-------------------------| |2005-06-23| |C6U2HBEA866JSR6B7FTKG3S4B| | | | |09:00:44 |193.165.222.1| |file |file-find-b |file_name=find-b | | | |TJKTD39D3YLQ9QGSNHGTD8QKB| | | | |----------+-------------+-------------------------+--------------+--------------+-------------------------| |2005-06-23| |C6U2HBEA866JSR6B7FTKG3S4B| | | | |09:00:45 |193.165.222.1| |login |login |func_option=login-session| | | |TJKTD39D3YLQ9QGSNHGTD8QKB| | | | |----------+-------------+-------------------------+--------------+--------------+-------------------------| |2005-06-23| |C6U2HBEA866JSR6B7FTKG3S4B| | | | |09:01:07 |193.165.222.1| |bor-info |bor-info |NULL | | | |TJKTD39D3YLQ9QGSNHGTD8QKB| | | | |----------+-------------+-------------------------+--------------+--------------+-------------------------| |2005-06-23| |C6U2HBEA866JSR6B7FTKG3S4B| | | | |09:01:08 |193.165.222.1| |bor-loan |bor-loan |NULL | | | |TJKTD39D3YLQ9QGSNHGTD8QKB| | | | |----------+-------------+-------------------------+--------------+--------------+-------------------------| | | | | | |doc_number=000071223 | |2005-06-23| |C6U2HBEA866JSR6B7FTKG3S4B| | | | |09:01:14 |193.165.222.1| |BOR-LOAN-EXP |BOR-LOAN-EXP |&item_sequence=000010 | | | |TJKTD39D3YLQ9QGSNHGTD8QKB| | | | | | | | | |&index=0001 | |----------+-------------+-------------------------+--------------+--------------+-------------------------| |2005-06-23| |C6U2HBEA866JSR6B7FTKG3S4B| | |doc_number=000071223 | |09:01:15 |193.165.222.1| |BOR-LOAN-RENEW|BOR-LOAN-RENEW| | | | |TJKTD39D3YLQ9QGSNHGTD8QKB| | |&item_sequence=000010 | |----------+-------------+-------------------------+--------------+--------------+-------------------------| |2005-06-23| |C6U2HBEA866JSR6B7FTKG3S4B| | | | |09:01:22 |193.165.222.1| |bor-loan |bor-loan |NULL | | | |TJKTD39D3YLQ9QGSNHGTD8QKB| | | | |----------+-------------+-------------------------+--------------+--------------+-------------------------| |2005-06-23| |C6U2HBEA866JSR6B7FTKG3S4B| | | | |09:01:41 |193.165.222.1| |file |file-find-b |file_name=find-b | | | |TJKTD39D3YLQ9QGSNHGTD8QKB| | | | |----------+-------------+-------------------------+--------------+--------------+-------------------------| |2005-06-23| |C6U2HBEA866JSR6B7FTKG3S4B| | | | |09:01:44 |193.165.222.1| |file |file-find-d |file_name=find-d | | | |TJKTD39D3YLQ9QGSNHGTD8QKB| | | | |----------+-------------+-------------------------+--------------+--------------+-------------------------| | | | | | |find_code=WRD | | | | | | | | | | | | | |&request=autismus | | | | | | | | | | | | | |&find_code=WRD | | | | | | | | | | | | | |&request=&find_code | | | | | | | | | | | | | |=WRD | | | | | | | | | | | | | |&request=&filter_code_4= | | | | | | | | |2005-06-23| |C6U2HBEA866JSR6B7FTKG3S4B| | |WLC&filter_request_4=FF | |09:01:51 |193.165.222.1| |find-d |find-d | | | | |TJKTD39D3YLQ9QGSNHGTD8QKB| | |&filter_code_2=WYR | | | | | | | | | | | | | |&filter_request_2= | | | | | | | | | | | | | |&filter_code_3=SGN | | | | | | | | | | | | | |&filter_request_3= | | | | | | | | | | | | | |&filter_code_1=WLN | | | | | | | | | | | | | |&filter_request_1=&x | | | | | | | | | | | | | |=0&y=0 | |----------+-------------+-------------------------+--------------+--------------+-------------------------| |2005-06-23| |C6U2HBEA866JSR6B7FTKG3S4B| | |action_view.x= | |09:01:53 |193.165.222.1| |history-action|history-action| | | | |TJKTD39D3YLQ9QGSNHGTD8QKB| | |&set_number=000040 | +----------------------------------------------------------------------------------------------------------+ Tabulka č. 1: Příklad přístupu V průběhu analýzy docházelo k průběžné modifikaci datové skladby podle aktuální potřeby. Fáze přípravy dat mohu označit za časově nejnáročnější, jelikož se v datech objevovalo mnoho nesrovnalostí a v průběhu prací neustále vyvstávaly nové potřeby na podobu tabulek i přímo skladby dat v nich umístěných. Během zpracování dat vyšlo najevo, že se v souboru vyskytuje vysoký počet nesmyslných přístupů. Přístupy vycházely pouze z omezeného počtu IP adres a podle konkrétních akcí bylo zřejmé, že nebyly provedeny uživateli, ale vyhledávacími stroji, snažícími se opakovaně připojit pouze na jednu stránku. Těchto zbytečných záznamů byla přibližně jedna třetina a po jejich odstranění se snížil počet relevantních záznamů přibližně na 2 miliony. Počty uskutečněných akcí v aplikaci v uvedeném období +--------------------------------------------------------------------------------------------+ | Původní data | Upravená data | |----------------------------------------------+---------------------------------------------| | 2.807.039 | 2.082.115 | +--------------------------------------------------------------------------------------------+ Tabulka č. 2: Počty uskutečněných akcí za celé období 5. Výběr analytických prostředků K analýze dat jsem určila dotazovací jazyk SQL, který umožňuje jak klasické deskriptivní charakteristiky, tak i pokládání složitějších dotazů, které byly použity pro určení typických činností uživatelů. 6. Analýza dat a získání výsledků Během provádění analýzy jsem z upravených dat pomocí SQL jazyka získávala užitečné údaje, které následně sloužily k určení konkrétních znalostí. Jednalo se o deskriptivní charakteristiky, jako je určování četností a středních hodnot, ale také určování závislostí a typických postupů. 7. Příprava výsledků k prezentaci Výsledky jsou prezentovány ve formě tabulek, grafů a odpovědí prostřednictvím této diplomové práce a budou v následující kapitole orientovány na různé subjekty knihovny: Vedení knihovny Vedení knihovny by mělo být informováno o všech výsledcích, aby na ně mohlo přiměřeně reagovat. Výsledky by mohly pomoci, lépe zhodnotit stávající situaci, a pokud se objeví nedostatky, navrhnout možná řešení. Například může srovnat informace o nejvyšším zájmu o služby on-line katalogu s fyzickými návštěvami knihovny. Pro management knihovny může být zajímavé zjištění, které služby se používají a naopak, zda nevynakládá prostředky na služby, které nejsou využívány. Správce knihovnického systému Pro správce systému jsou určeny informace o využitelnosti systému, díky nimž může sledovat, zda technické kapacity odpovídají potřebám. Příklady typických činností uživatelů pak mohou pomoci nastavit rozhraní on-line katalogu podle potřeb čtenářů. Samozřejmě správce nemůže nastavit systém úplně libovolně, záleží jakou volnost umožňují knihovnám návrháři knihovnických systémů. Katalogizační oddělení Základní zmapování vyhledávacích návyků uživatelů může ukázat katalogizátorům, které způsoby vyhledávání jsou nejpoužívanější. Podle mého názoru by nejčastěji používané funkce měly být nejvíce propracovány. Akviziční oddělení Podle zadaných klíčových slov lze zjistit, o které knihy je největší zájem. Akviziční oddělení pak může ověřit, zda jsou tyto požadavky v souladu s její akviziční politikou a případně tuto politiku přehodnotit. Vývojáři aplikace on-line katalogu Vývojáři aplikace on-line katalogu by měli přímo vycházet z návyků uživatelů a podle nich navrhovat uživatelské rozhraní aplikace. Určení typických cest uživatelů aplikace může ukázat, zda je toto rozhraní nastaveno v souladu s nimi. 2.5 Prezentace výsledků analýzy 2.5.1 Charakteristika období z hlediska četností Vzorek dat v sobě zahrnoval činnosti uskutečněné v období od 23. června 2005 do 27. října 2005, což umožňuje ukázat, kdy začíná narůstat zájem o služby knihoven a jak dlouho trvá "klidné období" knihoven. Využitelnost katalogu Z grafu číslo 1 je zřejmé, že zájem o služby knihovnického katalogu upadá přesně se skončením zkouškového období na univerzitě, během prázdnin se počet pohybuje kolem 2 -- 3 tisíců operací za den. Zájem se začíná zvedat zase se začátkem akademického roku, kdy se počet denních operací pohybuje kolem 30-ti tisíc. V grafu č. 1 je vidět, že zájem se nezvedá pomalu a postupně, ale takřka nárazově již během prvních dvou týdnů. Textové pole: konec zk. obd. 1. 7. Textové pole: začátek výuky 19. 9. Graf 1: Počet akcí v tisících uskutečněných během období v závislosti na průběhu akademického roku Pro zajímavost uvádím graf srovnávající zájem o on-line katalog v závislosti na dni v týdnu. Graf č. 2 obsahuje všechny provedené akce seskupené podle dne v týdnu, v němž byly uskutečněny. Podle očekávání je o služby knihoven největší zájem začátkem týdne, poté počty provedených operací rapidně klesají. Graf 2: Počty uskutečněných akcí v závislosti na dni v týdnu Následující graf č. 3 ukazuje využitelnost knihovního katalogu v závislosti na denní době. Křivka obsahuje všechny akce, které se v daném období uskutečnily, seskupené podle hodiny, v níž byly provedeny. Nárazově přibývá počet akcí kolem desáté hodiny, největší počet operací probíhá mezi 11. a 15. hodinou, nadále je možné sledovat postupné snižování počtu operací. Graf č. 3: Počet uskutečněných akcí v závislosti na denní době Průměrná doba používání aplikace Průměrná doba strávená uživateli v aplikaci může říci hodně o tom, zda uživatelé používají katalog efektivně, zda rychle dokáží najít, to co je zajímá, či naopak musejí dlouho hledat, než se dostanou k cíli. K výpočtu průměrné doby jsem odstranila velmi dlouho trvající přístupy, které byly většinou důsledkem toho, že uživatelé měli založenou určitou stránku katalogu ve svých oblíbených položkách internetu, a proto se při každém přihlášení v systému objevilo identifikační číslo, pod kterým vystupovali při své poslední práci. Tuto dobu jsem stanovila na tři hodiny, protože předpokládám, že běžný uživatel nepracuje s katalogem po dobu delší, než je tato. Dále jsem nebrala v potaz přístupy, u nichž doba v aplikaci trvala kratší dobu než 20 sekund, čímž se odstranily záznamy uživatelů, kteří v systému neprovedli žádné činnosti, což znamená, že se do systému dostali omylem či v něm neuměli pracovat a okamžitě skončili s prací. +------------------------------------------------------+ | Aritmetický průměr | Medián | |---------------------------+--------------------------| | 7 minut 30 vteřin | 2 minuty 8 vteřin | +------------------------------------------------------+ Tabulka č. 3: Průměrná doba strávená uživateli v aplikaci Z tabulky č. 3 je zřejmé, že průměrná doba, kterou uživatelé tráví používáním katalogu, činí 7 minut 30 vteřin, což je podle mého názoru přiměřená doba pro složitější vyhledávání, ale poměrně vysoká, pokud prezentuje dobu průměrnou. Jak však lze interpretovat výsledek mediánu, nejvíce uživatelů tráví v aplikaci přibližně 2 minuty, což je čas potřebný pouze k získání základních informací o účtu uživatele a zadání přesného dotazu a prohlédnutí výsledku. Z těchto výsledků vyvozuji, že většina uživatelů poměrně přesně ví, co od aplikace chce a dokáže se rychle dostat k požadovaným výsledkům, nebo naopak, pokud požadovaný výsledek nedostane rychle, končí s prací v aplikaci. Nejpoužívanější knihovní báze[42] Graf č. 4 vyjadřuje, ve kterých bázích uživatelé nejčastěji prohlížejí vyhledané jednotky. Nejčastěji se knihovní jednotky, se kterými uživatelé pracují, nacházejí v bázi knihovny filozofické fakulty a fakulty sociálních studií. Oproti tomu nejméně pracují s jednotkami v bázi knihovny fakulty sportovních studií, což je však pochopitelné vzhledem k jejich nízkému počtu. Zajímavé je srovnání tohoto výsledku s výběrem báze ihned při zahájení vyhledávání nebo při následném určení katalogu knihovny v tabulce č. 4. Zde se totiž ukazuje, že sami uživatelé vybírají nejčastěji bázi ekonomicko-správní fakulty, dále pedagogické fakulty a fakulty sociálních studií, báze filozofické fakulty je až na 4. místě. Odpovědí může být více, pokud však srovnáme počty jednotek v tabulce č. 5 nacházejících se v různých bázích, jeví se jako nejpravděpodobnější, že jednotky z báze filozofické fakulty vyhovují i studentům jiných fakult. Graf č. 4: Nejpoužívanější knihovní báze z hlediska knihovních jednotek +------------------------------------------------------------------------------------+ |Činnost | Praf | FF | FI | ESF | FSPS | FSS | PED |PRIF | LF | |-------------------+-------+-------+------+-------+------+-------+------+-----+-----| |Výběr katalogu | 3130| 5672| 761| 8382| 628| 6518| 7593| 1023| 908| |-------------------+-------+-------+------+-------+------+-------+------+-----+-----| |Práce s jednotkami | 37820| 79668| 2864| 37195| 1847| 53894| 33906| 4513| 3563| +------------------------------------------------------------------------------------+ Tabulka č. 4: Srovnání činností práce s jednotkami a výběrem katalogu podle jednotlivých fakult +------------------------------------------+ | |Knihovních| Odhadovaný | | Fakulta MU | | počet | | | jednotek | záznamů | |------------------+----------+------------| |Ekonomicko-správní| 43.200| 38.000| |------------------+----------+------------| |Filosofická | 721.300| 185.000| |------------------+----------+------------| |Informatiky | 13.700| 12.100| |------------------+----------+------------| |Lékařská | 138.000| 44.000| |------------------+----------+------------| |Pedagogická | 141.000| 89.000| |------------------+----------+------------| |Právnická | 132.000| 82.000| |------------------+----------+------------| |Přírodovědecká | 340.400| 106.500| |------------------+----------+------------| |Sociálních studií | 37.200| 32.900| |------------------+----------+------------| |Sportovních studií| 7.400| ?| |------------------+----------+------------| |Celkem | 1.574.200| 589500| +------------------------------------------+ Tabulka č. 5: Počty knih v jednotlivých bázích a odhadovaný počet záznamů v jejich katalogu[43] 2.5.2 Vyhledávací návyky uživatelů Z rozboru vyhledávacích dotazů kladených uživateli vyplývá, že nejčastěji používají k vyhledávání první formulář, který se objeví na obrazovce. Jedná se o formulář základního vyhledávání, kde je přednastaveno vyhledávání pomocí klíčových slov podle všech polí. Jako druhé nejčastější pole pro vyhledávání se používají slova z názvových údajů, třetí jsou slova z údajů o autorech ostatní pole se používají jen výjimečně (viz tabulka č. 6). +-----------------------------------------+ | Počet operací | Pole pro vyhledávání | |---------------+-------------------------| | 202104 | všechna pole | |---------------+-------------------------| | 25936 |slova z názvových údajů | |---------------+-------------------------| | 24830 |slova z údajů o autorech | |---------------+-------------------------| | 2885 | věcné téma | |---------------+-------------------------| | 1450 | ISBN | |---------------+-------------------------| | 851 | čárový kód | |---------------+-------------------------| | 486 | systémové číslo | |---------------+-------------------------| | 213 | ISSN | |---------------+-------------------------| | 67 | MDT | +-----------------------------------------+ Tabulka č. 6: Četnost výběru pole pro vyhledávání Jak bylo zmíněno výše, v případě samotného vyhledávacího formuláře, je nejčastěji podle očekávání používán již přednastavený formulář základního vyhledávání. Na druhém místě je formulář pokročilého vyhledávání s prakticky stejným počtem jako vyhledávání z více polí. Oproti tomu formulář pro vyhledávání pomocí CCL není příliš využíván (viz tabulka č. 7). +-----------------------------------------+ | Počet operací | Vyhledávací formulář | |---------------+-------------------------| | 280397 | základní vyhledávání | |---------------+-------------------------| | 15691 | pokročilé vyhledávání | |---------------+-------------------------| | 15324 | vyhledávání z více polí | |---------------+-------------------------| | 179 | vyhledávání pomocí CCL | +-----------------------------------------+ Tabulka č. 7: Četnosti výběrů vyhledávacích formulářů V případě konkrétních klíčových slov používaných uživateli, můžeme zde najít poměrně velké množství stejných dotazů, jež charakterizují, o které publikace případně obor je největší zájem. V tabulce č. 8 vidíme, že nejčastější klíčové slovo používané v katalogu je "psychologie". Zajímavé je, že mezi prvními dvaceti klíčovými slovy se objevila také vazba "diplomová práce", která v základním vyhledávání podle všech polí vrátí téměř 28 tisíc záznamů. +-----------------------------------------+ | Č. | Klíčové slovo | Počet | |-----+-----------------------+-----------| | 1. |Psychologie | 612 | |-----+-----------------------+-----------| | 2. |Finan | 421 | |-----+-----------------------+-----------| | 3. |Giddens | 358 | |-----+-----------------------+-----------| | 4. |keller | 342 | |-----+-----------------------+-----------| | 5. |Sociální psychologie | 338 | |-----+-----------------------+-----------| | 6. |sociologie | 320 | |-----+-----------------------+-----------| | 7. |Management | 282 | |-----+-----------------------+-----------| | 8. |nauka o podniku | 282 | |-----+-----------------------+-----------| | 9. |Mikroekonomie | 271 | |-----+-----------------------+-----------| | 10. |teorie práva | 249 | |-----+-----------------------+-----------| | 11. |disman | 247 | |-----+-----------------------+-----------| | 12. |Pr | 241 | |-----+-----------------------+-----------| | 13. |nakonečný | 237 | |-----+-----------------------+-----------| | 14. |Weber | 225 | |-----+-----------------------+-----------| | 15. |fuchs | 217 | |-----+-----------------------+-----------| | 16. |Průcha | 215 | |-----+-----------------------+-----------| | 17. |mareš | 206 | |-----+-----------------------+-----------| | 18. |Spr | 206 | |-----+-----------------------+-----------| | 19. |diplomová práce | 205 | |-----+-----------------------+-----------| | 20. |mills | 199 | +-----------------------------------------+ Tabulka č. 8: Nejpočetnější klíčová slova 2.5.3 Typické činnosti Stanovení typických činností může velkou měrou přispět k lepšímu poznání čtenářů a jejich informačních potřeb. Pokud knihovna bude znát své čtenáře a jejich potřeby, může efektivněji zacílit svoje služby, orientovat se na ty nejvíce žádané a zjistit důvody, proč o jiné není zájem. Odvození typických činností uživatelů záviselo na určení obvyklých cest uživatelů aplikací. Příklad cesty aplikací může být následující: úvodní obrazovka s výběrem báze knihovny, přihlášení uživatele, výběr záložky čtenář, výběr odkazu na výpůjčky, prodloužení výpůjček, odhlášení. V systému bylo možné provést 104 různých akcí, z jednotlivých akcí lze přecházet na jiné, čímž se počet kombinací zvýšil natolik, že z nich nebylo možné vyvodit konkrétní cesty. Proto jsem všechny akce rozdělila do šestnácti skupin podle činností, kterých se akce týkaly (viz tabulka č. 9). Jelikož základní menu (viz obr. č. 1) poměrně dobře odlišovalo různé činnosti, brala jsem jej při vytváření škály za výchozí. Obr. č. 1: Základní menu v rozhraní on-line katalogu po přihlášení[44] +----------------------------------------------------------------------+ | Zkratka | Význam | |---------------+------------------------------------------------------| | login |přihlašování | |---------------+------------------------------------------------------| | bor |práce s informacemi o čtenáři a výpůjčkách | |---------------+------------------------------------------------------| |file-base-list |práce s katalogy | |---------------+------------------------------------------------------| | option-show |upřesnění vlastního nastavení | |---------------+------------------------------------------------------| | file-feedback |zadaní připomínky | |---------------+------------------------------------------------------| | help |práce s nápovědou a nejčastějšími otázkami | |---------------+------------------------------------------------------| | file-news |práce s novinkami | |---------------+------------------------------------------------------| | scan |prohledávání rejstříků | |---------------+------------------------------------------------------| | find |vyhledávání | |---------------+------------------------------------------------------| | item |práce s informacemi o knihovní jednotce | |---------------+------------------------------------------------------| | hold |podání požadavku na výpůjčku | |---------------+------------------------------------------------------| | short |práce se záznamy ve vyhledávání, dotazech a výsledcích| |---------------+------------------------------------------------------| | history |prohlížení předchozích dotazů | |---------------+------------------------------------------------------| | vysl |prohlížení předchozích výsledků | |---------------+------------------------------------------------------| | basket |práce se schránkou | |---------------+------------------------------------------------------| | logout |odhlašování | +----------------------------------------------------------------------+ Tabulka č. 9: Seskupení akcí podle činností uživatelů Následovalo sdružení po sobě jdoucích akcí v rámci jednoho přístupu do dvojic, později z nich byly odvozeny trojice, čtveřice až po kombinaci osmi po sobě jdoucích akcí. Aby byly zachovány dvojice a bylo možné určit začátek a konec přístupu, byla dodatečně ke každému přístupu přiřazena úvodní a závěrečná akce (první a poslední řádek v tabulce č. 10). Bylo odstraněno opakování stále stejných dvojic, například z několikanásobného listování seznamem výsledků vyhledávání zbyl jenom jeden záznam. +---------------------------------------------------------------------------------------------------------+ |akey |time |ip |sid |func |func_ext |par | |----------+----------+---------------+-------------------------+-------------+-------------+-------------| | |2005-06-29| |1153PKCD6D65FN7IQ8MKHXGNJ| | | | |0003108499|10:54:07 |193.165.212.178| |session-start|session-start|NULL | | | | |S61GU2BPRBQ29CG6UDRANTNSS| | | | |----------+----------+---------------+-------------------------+-------------+-------------+-------------| | |2005-06-29| |1153PKCD6D65FN7IQ8MKHXGNJ| | |file_name= | |0000114413|10:54:08 |193.165.212.178| |file |file-find-b | | | | | |S61GU2BPRBQ29CG6UDRANTNSS| | |find-b | |----------+----------+---------------+-------------------------+-------------+-------------+-------------| | |2005-06-29| |1153PKCD6D65FN7IQ8MKHXGNJ| | |func_option= | |0000114417|10:54:13 |193.165.212.178| |login |login | | | | | |S61GU2BPRBQ29CG6UDRANTNSS| | |login-session| |----------+----------+---------------+-------------------------+-------------+-------------+-------------| | |2005-06-29| |1153PKCD6D65FN7IQ8MKHXGNJ| | | | |0000114433|10:54:49 |193.165.212.178| |bor-info |bor-info |NULL | | | | |S61GU2BPRBQ29CG6UDRANTNSS| | | | |----------+----------+---------------+-------------------------+-------------+-------------+-------------| | |2005-06-29| |1153PKCD6D65FN7IQ8MKHXGNJ| | | | |0000114434|10:54:51 |193.165.212.178| |bor-loan |bor-loan |NULL | | | | |S61GU2BPRBQ29CG6UDRANTNSS| | | | |----------+----------+---------------+-------------------------+-------------+-------------+-------------| | |2005-06-29| |1153PKCD6D65FN7IQ8MKHXGNJ| | | | |0000114436|10:54:55 |193.165.212.178| |bor-info |bor-info |NULL | | | | |S61GU2BPRBQ29CG6UDRANTNSS| | | | |----------+----------+---------------+-------------------------+-------------+-------------+-------------| | |2005-06-29| |1153PKCD6D65FN7IQ8MKHXGNJ| | | | |0002994309|10:54:56 |193.165.212.178| |session-end |session-end |NULL | | | | |S61GU2BPRBQ29CG6UDRANTNSS| | | | +---------------------------------------------------------------------------------------------------------+ Tabulka č. 10: Příklad přístupu -- upravený V tabulce č. 11 lze předchozí přístup vidět zřetězen do dvojic a již seskupen podle činností. +----------------------------------------------------------------------------+ |sid |func1 |func2 | |--------------------------------------------------+-------------+-----------| |1153PKCD6D65FN7IQ8MKHXGNJS61GU2BPRBQ29CG6UDRANTNSS|session-start|find | |--------------------------------------------------+-------------+-----------| |1153PKCD6D65FN7IQ8MKHXGNJS61GU2BPRBQ29CG6UDRANTNSS|find |login | |--------------------------------------------------+-------------+-----------| |1153PKCD6D65FN7IQ8MKHXGNJS61GU2BPRBQ29CG6UDRANTNSS|login |bor | |--------------------------------------------------+-------------+-----------| |1153PKCD6D65FN7IQ8MKHXGNJS61GU2BPRBQ29CG6UDRANTNSS|bor |session-end| +----------------------------------------------------------------------------+ Tabulka č. 11: Dvojice Po přiřazení jednotlivých akcí do skupin, zřetězení do kombinace pěti po sobě jdoucích akcí a spočítání četností jednotlivých kombinací v řádku cnt, vznikla další tabulka. Z jejího prvního řádku v tabulce č. 12 je možné vyčíst, že stejné přístupy jako výše uvedený se ve vzorku objevují 5257krát z celkového počtu 110.976 akcí začínajících session-start a končících session-end. V určování počítám jen s akcemi uvozenými začínající a konečnou formulí, aby nebyly brány v potaz chybné záznamy. +------------------------------------------------------------------------------------+ |func1 |func2 |func3 |func4 |func5 |cnt | |------------------+----------+----------+------------------+---------------+--------| |session-start |find |login |bor |session-end |5257 | |------------------+----------+----------+------------------+---------------+--------| |session-start |find |login |file-base-list |session-end |19 | +------------------------------------------------------------------------------------+ Tabulka č. 12: Kombinace pěti po sobě jdoucích akcí s počtem opakování Po seřazení všech kombinací podle četností bylo možné vytvořit diagram (viz příloha č. 1), vyjadřující typické cesty uživatelů aplikací. Nejčastější cesty jsou zvýrazněny, zpětné šipky vyjadřují cyklus, kdy následuje pouze střídání dvojice (např. vyhledávání a prohlížení informací o jednotkách, find -- item, find -- item). Z diagramu vyplývá, že nejčastější posloupnost akcí je vyhledávání a práce s informacemi o jednotkách. Dále následuje přihlášení a práce s informacemi o výpůjčkách zakončené většinou pouze zavřením aplikace. Je však zajímavé, že i odhlašování ze systému provádějí uživatelé velmi často, přestože nikde v aplikaci není uvedeno upozornění, aby tak v rámci vyšší bezpečnosti činili. Ve větším měřítku už následují pouze kombinace vyhledávání, práce se seznamem vyhledaných záznamů a práce s informacemi o jednotkách. Konkrétní počty ke každé kombinaci jsou k dispozici v příloze č. 3, celkový počet přístupů činí 110.976, diagram znázorňuje 62 958 přístupů. Tabulka č. 13 obsahuje ukázku tabulky, v níž byly vyselektovány nejčastějších cesty, ale v tomto případě nejsou seskupené podle činností. Seznam je řazen sestupně podle četnosti kombinace v souboru (sloupec "cnt"). Akce jsou v rámci jednoho přístupu zřetězeny do jednoho řádku. Vícečetné akce jsou odstraněny, je tedy možné říci, že uživatel vyhledával a prohlížel jednotky, ale nezáleží na tom, kolikrát tyto akce provedl. Celkový počet cnt je 110.976, což odpovídá počtu přístupů v daném období. Celkový počet všech provedených kombinací je 21.004, tabulka č. 13 obsahuje prvních deset záznamů. +-----------------------------------------------------------------------------------------------------+ |funcs |cnt | |------------------------------------------------------------------------------------------------+----| |file-find-b,find-b,item-global,session-end,session-start |7593| |------------------------------------------------------------------------------------------------+----| |file-find-b,find-b,session-end,session-start |4667| |------------------------------------------------------------------------------------------------+----| |file-find-b,find-b,item-global,session-end,session-start,short-action-next |3625| |------------------------------------------------------------------------------------------------+----| |file-find-b,login,session-end,session-start |2436| |------------------------------------------------------------------------------------------------+----| |file-find-b,find-b,item-global,item-global-exp,session-end,session-start |1795| |------------------------------------------------------------------------------------------------+----| |bor-info,bor-loan,file-find-b,login,session-end,session-start |1444| |------------------------------------------------------------------------------------------------+----| |file-find-b,find-b,session-end,session-start,short-action-next |1431| |------------------------------------------------------------------------------------------------+----| |file-find-b,find-b,item-global,session-end,session-start,short-action-next,short-action-previous|1093| |------------------------------------------------------------------------------------------------+----| |file-base-list,file-find-b,find-b,item-global,session-end,session-start |1041| |------------------------------------------------------------------------------------------------+----| |file-find-b,find-acc,item-global,scan,scan-list,session-end,session-start |1004| +-----------------------------------------------------------------------------------------------------+ Tabulka č. 13: Prvních deset nejčastějších cest aplikací (neseskupeno) Z diagramu v příloze č. 1, z počtů akcí provedených v rámci jednotlivých cest (viz příloha č. 2) a z konkrétních cest v tabulce č. 13, lze vyvodit, že typické činnosti uživatelů knihovnického on-line katalogu jsou následující: Uživatel se nepřihlašuje, ale volí způsob vystupování v aplikaci jako "host", zadá vyhledávací dotaz do přednastaveného formuláře základní vyhledávání podle všech slov, podívá se na informaci o umístění jednotky (tlačítko Jednotky/půjčeno) ze seznamu vyhledaných záznamů a zavře aplikaci nebo pokračuje zadáním dalších dotazů. Z celkových počtů těchto přístupů vyplývá, že publikace, která uživatele zajímá, se většinou nachází na první stránce seznamu výsledků vyhledávání. Jedná se nejčastější činnost prováděnou v aplikaci a přes 7,5 tisíce přístupů probíhalo uvedeným způsobem. Druhou nejčastější nalezenou posloupností činností je zadání dotazu (případně několika dotazů) a hned po zobrazení seznamu výsledků, ukončení práce, nikoli však zobrazení podrobností o jednotce. Na základě tohoto zjištění lze říci, že pokud se záznam nenachází na první stránce, uživatelé sice zadávají další zpřesňující dotazy, ale ve větší míře spíše vyhledávání končí a opouštějí aplikaci. Tuto myšlenku potvrzuje i rozbor třetí nejčastější cesty, kdy uživatelé listují seznamem výsledků, prohlížejí podrobnosti o jednotkách a končí aplikaci. Ve vzorku lze sledovat postupně se snižující počty přístupů, pokud uživatel musí listovat ve více stránkách. Tomuto zjištění odpovídá výpočet průměrné doby strávené uživateli v aplikaci. Čím více musí uživatel listovat, tím dříve končí svoji práci s katalogem. Čtvrtá nejčastější cesta vypovídá o tom, že přibližně 2,5 tisíce přístupů bylo spojeno s problémy s přihlašováním. Může to být důsledek nepřehledné vstupní obrazovky, na které nebylo na první pohled patrné, že je nutné vybrat bázi knihovny (fakultu), ale spíše bych tento jev vysvětlila potížemi při zadávání hesla uživatele. Velmi typická je činnost, která vede přes přihlášení do záložky čtenář, poskytující informace o stavu čtenářova účtu. Uživatelé následně nejčastěji přechází k informacím o výpůjčkách, takřka o polovinu méně k požadavkům na výpůjčku, ostatní funkce v nabídce čtenář uživatelé prakticky nepoužívají. Z analýzy vyplývá, že po vyhledávání a práci s výsledky vyhledávání, je práce se čtenářským účtem druhá nejčastější činnost. Z tabulky v příloze č. 2 je patrné, že pokud se uživatelé přihlašují dodatečně, z téměř 90ti % přecházejí k informacím o svých výpůjčkách. V prvních deseti nejčastějších činností je také přechod do vyhledávání přes výběr báze katalogu. Takřka stejně četné je prohlížení rejstříku. Pokud se však podíváme na procento z celkového počtu provedených operací, představuje výběr bází katalogu prostřednictvím záložky Katalogy a stejně tak výběr Rejstříku zhruba 2 %, což považuji za zanedbatelné množství. 2.6 Znalosti vyplývající z výsledků analýzy Vyvozování znalostí z výsledků analýzy by mělo být vždy úkolem zkušeného knihovníka, jen on totiž dokáže správně posoudit danou situaci a určit, co může být pro knihovnu přínosné. Knihovník by následně měl prokonzultovat své závěry s odborníky, aby nalezl vhodný způsob řešení situace. Z výše uvedených výsledků jsem vyvodila závěry, které jsem rozdělila podle toho, komu mohou být přínosné. Vývojáři aplikace on-line katalogu Z analýzy vyhledávacích návyků uživatelů se ukazuje, že uživatelé nejvíce využívají funkce, které jsou dostupné na první stránce, samozřejmě je velmi pravděpodobné, že tyto funkce jsou tam právě proto, že jsou nejpoužívanější, ale tím se síla první strany jenom umocňuje. První straně by tedy měla být věnována maximální pozornost, podle mého názoru totiž může vývojář významně určovat, co budou čtenáři používat nejčastěji. V případě on-line katalogu MU verze 14 se na první straně nacházel přihlašovací formulář, kde se čtenář mohl přihlásit nebo mohl začít pracovat s katalogem v pozici hosta. Toto řešení se mi nezdá moc šťastné, jelikož většina uživatelů v katalogu pouze vyhledává a přihlašuje se až dodatečně, pokud si nalezenou knihu chce objednat. Počet čtenářů, které zajímá stav jejich čtenářského konta, je mnohem nižší než těch, kteří sem přišli vyhledávat. Nová verze toto již bere v potaz a úvodní stránku lze nastavit na vystupování v pozici host a přímo z ní je možné vyhledávat. Podle samotných vyhledávacích návyků uživatelů vyplývá, že i v základním vyhledávání je několik funkcí, které nejsou využívány. Myslím si, že základní vyhledávání by mělo být co nejjednodušší, a mělo by obsahovat opravdu často využívané funkce, ale přesto by nemělo úplně zavírat cestu náročnějším uživatelům. Proto oceňuji přidání pokročilejších funkcí do formuláře základního vyhledávání v nové verzi katalogu. Oproti tomu nevidím důvod, proč je v zde vyhledávání pomocí CCL na stejné úrovni jako pokročilé vyhledávání a vyhledávání z více polí, ačkoli není takřka vůbec používáno. Navrhovala bych méně používané funkce zahrnout do pokročilého vyhledávání, čímž by se uvolnil prostor v nabídce vyhledávacích služeb. Jak vyplývá z typických činností uživatelů, nejvíce činností opravdu souvisí s vyhledáváním v bázích knihoven, proto bych práce na vývoji katalogu orientovala na co nejsnadnější vyhledávání a práci s jednotkami. Druhou nejtypičtější činností je práce s účtem uživatele, tedy kontrola výpůjční lhůty, prodlužování výpůjček, kontrola podaných požadavků na výpůjčku. Jak bylo uvedeno výše, pokud se uživatelé přihlašují dodatečně přes odkaz Přihlášení, nejčastěji následuje přechod do informací o čtenáři. Jedna možnost, jak usnadnit čtenáři cestu aplikací, je spojit tyto dvě cesty v jednu a po dodatečném přihlášení do aplikace ukázat čtenáři přímo informace o jeho účtu. Druhá možnost vychází ze zjištění, že z informací o účtu čtenáře nejvíce zajímají informace o výpůjčkách a požadavcích na výpůjčky. Jistě by bylo možné přidat tyto informace do obrazovky následující po přihlášení uživatele. Rozhodně bych však tyto dva údaje v sekci Čtenář více zviditelnila, případně posunula odkaz na požadavky na výpůjčky před méně používanou historii výpůjček. Vedení knihovny Vedení knihovny může poměrně účinně pracovat s četnostmi přístupů čtenářů a porovnávat ji s fyzickými návštěvami v knihovně a podle výsledků plánovat omezení provozu, dovolenou zaměstnanců, kurzy atd. Například se ukázalo, že největší zájem o služby on-line katalogu bývá mezi jedenáctou a patnáctou hodinou, v této době by tedy měly kapacity knihoven fungovat naplno, což v zásadě odpovídá současné situaci. Doba strávená uživateli prací v aplikaci v porovnání s fyzickými návštěvami čtenářů může vedení knihovny napovědět, jak určit počty počítačů určených pro práci s katalogem. Z rozboru četnosti přístupů do katalogu je zřejmé, že o služby knihoven je zájem i přes období letních prázdnin, i když se jedná o podstatně nižší čísla než v průběhu akademického roku. Přesto však tyto počty nejsou zanedbatelné a knihovny by měly tuto potřebu brát v úvahu. Vzhledem ke zjištění, že uživatelé nejvíce pracují s jednotkami nacházejícími se ve fondu filozofické fakulty, přestože nejčastěji vybírají knihovny ekonomicko-správní fakulty, pedagogické fakulty a fakulty sociálních studií, bych navrhovala ověřit, zda fondy v těchto knihovnách jsou dostačující a zda vyhovují potřebám svých studentů. Katalogizační oddělení Jelikož uživatele nejvíce zajímají vyhledané záznamy nacházející se na prvních stranách seznamu výsledků, měla by s tímto závěrem korespondovat také práce katalogizátorů. Katalogizace by měla být prováděna tak, aby byly vyhledávány opravdu relevantní záznamy, důraz by měl být kladen na přesnost vyhledávání, třebaže tím může klesnout jeho úplnost. Nejrelevantnější záznamy by se měly objevovat na předních místech seznamu vyhledaných záznamů. Další věcí, jež by měli katalogizační pracovníci brát v úvahu, je masové používání vyhledávání pomocí klíčových slov, a proto by přiřazování klíčových slov jednotlivým jednotkám mělo probíhat maximálně obezřetně. Oproti tomu takřka opomíjené vyhledávání pomocí předmětových hesel určitě může výrazně přispět ke kvalitnějšímu vyhledávání. Vzhledem k propracovanosti hierarchie předmětových hesel, je určitě škoda, že není více využíváno a zde vidím velký prostor ke vzdělávání uživatelů knihovny. Akviziční oddělení Z analýzy používaných dotazů a klíčových slov vyplývá, že největší zájem je o jednotky zabývající se psychologií, ekonomií, sociologií, pedagogikou, což poměrně přesně koresponduje s grafem č. 4, znázorňujícím nejpoužívanější knihovní báze. Akviziční oddělení může podrobnou analýzou zadaných dotazů získat další cenný zdroj informací ke stanovení akviziční politiky. Při podrobnější analýze by se dalo dokonce vyvodit, jaký obor je nejžádanější a v kombinaci s výběrem fakulty by bylo možné určit, o co mají zájem studenti jednotlivých fakult. Dále by mělo následovat ověření, zda jsou tyto jednotky k dispozici a pokud ano, v jakém množství. Těchto informací by se mohlo využít jako dalšího argumentu v boji o přidělování prostředků knihovny na nákup nových publikací. Správce on-line katalogu Vzhledem ke zjištění, že téměř jedna třetina operací, jež byly v systému uskutečněny, byla provedena stroji, navrhovala bych zamezit přístupům těmto strojům, aby nebyl systém zbytečně zatěžován. Správce katalogu by se měl řídit četnostmi přístupů v průběhu období a podle něj naplánovat práce na systému vyžadující vyšší zatížení serveru, nebo dokonce dočasné odstavení z provozu. Závěr V průběhu celého procesu získávání znalostí z databází nelze předem odhadnout budoucí výsledky ani zda budou v praxi využitelné. Vše záleží na konkrétní úpravě dat a jelikož nejde o pouhé statistické výpočty, také na samotné osobě zpracovatele. Analýza dat souborného katalogu však potvrdila, že pomocí uplatnění metod získávání znalostí z databází, lze z těchto dat získat užitečné informace, které mohou ovlivnit rozhodování vedení knihoven. Použití těchto metod ve větším měřítku je sice časově velmi náročné, ale platí to pouze v první fázi vymezování postupů. Poté co je stanoven konkrétní postup prací, je možné veškeré činnosti zautomatizovat a provádět vedle samotné činnosti katalogu. Následně lze už pouze kontrolovat dané výsledky a porovnávat je s výsledky z předchozích období, protože pouze tak mohou mít opravdovou vypovídací hodnotu. Analýza potvrdila přínos aplikace metod KDD na on-line katalog. Podařilo se mi charakterizovat dané období a určit typické činnosti uživatelů katalogu. Porovnání se současným rozhraním katalogu ukázalo, že rozhraní katalogu je nastaveno v souladu s typickými činnostmi, i když by mohlo být ještě efektivnější. Jak bylo uvedeno v úvodu, nebylo mým cílem vykonat kompletní analýzu souborného katalogu, ale poukázat na přínos KDD a bibliominingu v prostřední knihoven. V komerční sféře je postupů KDD využíváno ve značném množství a myslím si, že je pouze otázkou času a financí, kdy bude získávání znalostí z databází prováděno i v takových organizacích, jako jsou knihovny. Jelikož knihovna je veřejnou a vědeckou institucí, mělo by být jedním z jejích primárních cílů vycházet vstříc potřebám uživatelů a podílet se na vývoji nových metod zpracování dat a získávání znalostí. A stejně tak jako komerční instituce má zájem na tom, aby neztrácela své zákazníky, tak i knihovna má zájem udržovat si své čtenáře a získávat nové. Proto si myslím, že je důležité, aby knihovna neustále zjišťovala, jaké jsou potřeby jejich uživatelů a nezůstávala stát na jednom místě. A právě v tom jí KDD, nebo právě bibliomining může velkou měrou pomoci. Použitá literatura ALEPH. Příručka pro uživatele systému. Verze 3.2_6. Praha: Národní knihovna České republiky, 1998. ISBN 80-7050-287-8. BERKA, P.: Dobývání znalostí z dat o hypertenzi. [online]. Praha: EuroMISE Centrum -- Kardio, VŠE, [2001]. 30. 05. 2003. [cit. 2006-04-03]. Dostupný z World Wide Web: http://euromise.vse.cz/kdd/index.php?page=kdd#LM-krok4. BERKA, P: Dobývání znalostí z databází. 1.vyd. Praha: Academia, 2003. 366 s. ISBN: 80-200-1062-9. BUTTERFIELD , K.: Online Public Access Catalogs. Dekker encyklopedias.[online]. 2003. [cit. 2006-04-03]. Dostupný z World Wide Web: http://www.dekker.com/sdek/section?content=a713532000&scope=doc&fmt=.html. BYRUM, J. D. Jr.: On-line katalogy a knihovní portály v současném informačním prostředí . Knihovna plus: Knihovnická revue. [online]. 2005. č. 1. [cit. 2006-04-03]. Dostupný z World Wide Web: http://knihovna.nkp.cz/knihovna51/519byrum.htm. ISSN ISSN 1801-594. Data mining. [online]. 2001. Wikipedie. [2001]. [cit. 2006-04-01]. Dostupný z World Wide Web: http://cs.wikipedia.org/wiki/Data_mining. Data mining: jak z vašich dat vytěžit maximum. Sborník k seminářům. Praha, Bratislava podzim 2002. Praha: StatSoft, 2002. 112 s. ISBN: 80-238-9408-0. Data Mining Research Area: Overview: Making Data Work Harder. [online]. Dublin: OCLC, 2005. 2006-01-18. [cit. 2006-04-19]. Dostupný z WWW: http://www.oclc.org/research/projects/mining/default.htm. DOVRTĚL, M.: Data mining a jeho použití v komerční praxi. [online]. Praha: Komix s. r. o., [1992]. [cit. 2006-04-03]. Zip. Dostupný z Worl Wide Web: http://www.komix.cz/home/komix_cz/podpora/ke_stazeni/prezentace.aspx#MD_1999. FAYYAD, Usama M.: Data Mining and Knowledge Discovery. An International Journal. [online]. [1996]. vol. 1. is. 1 [cit. 2006-04-03]. Dostupný z World Wide Web: http://research.microsoft.com/research/datamine/vol1-1/editorial3.htm. Hernandez, Michael J., Viescas John L.: Myslíme v jazyku SQL: tvorba dotazů. [přeložil Karel Voráček]. 1. vyd.. Praha: Grada, 2004. 378 s. ISBN: 80-247-0899-X. Informace o knihovnách Masarykovy univerzity v Brně. [online]. Brno: Masarykova univerzita, 2005. [cit. 2006-04-21]. Dostupný z WWW: http://library.muni.cz/uvod.html. Jelínek, J.: Využití vazeb mezi termy pro podporu uživatele WWW. In Znalosti 2005. Ostrava: VŠB -- FEI, 2005. ISBN 80-248-0755-6. s. 218. -- 255. Knowledge Discovery Associates. [online]. Lexington: Knowledge Discovery Associates. [cit. 2006-04-03]. Dostupný z World Wide Web: http://www.knowledge-discovery.com/. Konference Znalosti 2006. [online]. Hradec Králové: UHK, 2006. [cit. 2006-04-03]. Dostupný z World Wide Web: http://fim.uhk.cz/znalosti/index.php?p=main. KREJČÍ, J.: Automatizované získávání znalostí z dat. [online]. Praha: Komix s. r. o., [1992]. [cit. 2006-04-03]. Zip. Dostupný z Worl Wide Web: http://www.komix.cz/home/komix_cz/podpora/ke_stazeni/prezentace.aspx#MD_1999. Lacko, L.: Databáze: datové sklady, OLAP a dolování dat s příklady v Microsoft SQL Serveru a Oracle. 1. vyd. Brno: Computer Press, 2003. 486 s. ISBN: 80-7226-969-0. Laš, V., Kočka, T. a Berka, P.: Learning rules to predict next page in a click-stream. In Znalosti 2005. Ostrava: VŠB -- FEI, 2005. ISBN 80-248-0755-6. s. 258. -- 265. Mařík, V., Štěpánková, O., Lažanský, J. a kol: Umělá inteligence (4). 1. vyd. Praha: Academia, 2003. 476 s. ISBN 20-200-1044-0. MIKA, J. Vliv zavádění automatizovaných knihovnických systémů na organizaci a provoz knihovny. Národní knihovna: Knihovnická revue. [online]. 2000, roč. 11. č. 1 [cit. 2006-04-03], s. 6-14. Dostupný z World Wide Web: http://knihovna.nkp.cz/Nkkr0001/0001006.html. ISSN 1214-0678. Nicholson, S.: The Bibliomining Process: Data Warehousing and Data Mining for Library Decision-Making. [online]. [Syracuse (USA)]. [University School of Information Studies], 2003. květen 2005. [cit. 1. dubna 2006]. Dostupný z World Wide Web: http://bibliomining.com/nicholson/biblioprocess.htm. Open WorldCat Program. [online]. Dublin: OCLC, 2004. 2006-02-20. [cit. 2006-04-19]. Dostupný z WWW: http://www.oclc.org/worldcat/open/default.htm. PACOVSKÝ, J., VAVRUŠKA, J: Praní špinavých peněz a informační technologie. Bankovnictví. [online]. 2004 [cit. 2006-04-03]. Dostupný z World Wide Web: http://bankovnictvi.ihned.cz/toISO-8859-2/1-10053440-14896100-900000_d-ee. ISSN 1213-7693. Parr Rud, O.: Data minig, 1. vyd. Praha: Computer Press, 2001. 328 s. ISBN 80-7226-577-6. POO, D. C. C., KHOO , C. S. G.: Online Catalog Subject Searching. Dekker encyklopedias. [online]. 2003. [cit. 2006-04-03]. Dostupný z World Wide Web: http://www.dekker.com/sdek/section?content=a713531961&scope=doc&fmt=.html. Souborný katalog MU: Základní vyhledávání. [online]. Brno: Masarykova univerzita, [cit. 2005-01-05]. Dostupný z WWW: http://www.aleph.muni.cz. VANĚK, A.: Aplikace metod elektronického obchodování v knihovnách. Národní knihovna: Knihovnická revue. 2004. Roč. 15. Č. 4. ISSN 0862-7487. VLASÁK, R.: Informační dálnice a knihovny. 2. vyd. Praha: Svaz knihovníků a informačních pracovníků ČR, 1996. 116 s. ISBN 80-85851-05-9. ZEMAN, D.: Aplikace procesu dolováni dat v biologii - genetice [online]. Brno: VUT, [2005]. [cit. 2006-04-03]. Dostupný z World Wide Web: http://www.fit.vutbr.cz/study/courses/VPD/public/0405VPD-Zeman.pdf. Seznamy obrázků, tabulek a grafů Seznam obrázků Obr. č. 1: Základní menu v rozhraní on-line katalogu po přihlášení Seznam tabulek Tabulka č. 1: Příklad přístupu Tabulka č. 2: Počty uskutečněných akcí za celé období Tabulka č. 3: Průměrná doba strávená uživateli v aplikaci Tabulka č. 4: Srovnání činností práce s jednotkami a výběrem katalogu podle jednotlivých fakult Tabulka č. 5: Počty knih v jednotlivých bázích a odhadovaný počet záznamů v jejich katalogu Tabulka č. 6: Četnost výběru pole pro vyhledávání Tabulka č. 7: Četnosti výběrů vyhledávacích formulářů Tabulka č. 8: Nejpočetnější klíčová slova Tabulka č. 9: Seskupení akcí podle činností uživatelů Tabulka č. 10: Příklad přístupu -- upravený Tabulka č. 11: Dvojice Tabulka č. 12: Kombinace pěti po sobě jdoucích akcí s počtem opakování Tabulka č. 13: Prvních deset nejčastějších cest aplikací (neseskupeno) Seznam grafů Graf 3: Počet akcí v tisících uskutečněných během období v závislosti na průběhu akademického roku Graf 4: Počty uskutečněných akcí v závislosti na dni v týdnu Graf č. 3: Počet uskutečněných akcí v závislosti na denní době Graf č. 4: Nejpoužívanější knihovní báze z hlediska knihovních jednotek Seznam příloh Příloha č. 1: Nejčastější cesty aplikací (diagram) Příloha č. 2: Počty akcí provedených v rámci jednotlivých cest (tabulka) Příloha č. 1: Nejčastější cesty aplikací (diagram) Func1 Func2 Počet find item 8854 find login 2355 find short 1568 scan short 773 bor find 712 logout find 686 find history 536 find logout 524 bor logout 476 login bor 356 find scan 326 find file-base-list 270 login find 178 find help 138 find login bor 5257 find short item 1572 find item find 1553 bor find item 982 find item logout 846 find history item 557 find file-base-list find 448 find short find 445 find history short 307 find login find 303 find item short 287 login bor logout 274 bor find short 237 find history find 224 find logout find 195 find short logout 175 find item login 169 find login logout 168 bor logout find 159 find scan find 145 find login bor logout 3603 find item find item 1418 find scan find item 802 find file-base-list find item 607 find item short item 384 find login find item 356 find short item short 311 find item logout find 299 find short item logout 290 find short find item 245 find short item find 220 login bor logout find 211 bor find short item 205 find short find short 164 find history short item 156 find item find short 154 bor find item find 137 bor find item hold 113 bor scan find item 110 bor find item logout 105 find item find item find 361 find short item short item 277 find login find item hold 197 find login bor find item 175 find short item find item 156 find item find short item 152 find item find item logout 124 bor find item find item 120 find item short item short 116 find login find item logout 114 find short find short item 106 find item find item find item 363 find item login find item hold 157 find short item short item short 122 find file-base-list find item find item 118 find item short item short item 111 find login bor find item logout 96 find file-base-list find scan find item 94 find login find item hold logout 86 Příloha č. 2: Počty akcí provedených v rámci jednotlivých cest (tabulka) ------------------------------- [1] Knowledge Discovery Associates. [online]. Lexington: Knowledge Discovery Associates, [cit. 2006-04-03]. Dostupný z World Wide Web: http://www.knowledge-discovery.com/. [2] DOVRTĚL, M.: Data mining a jeho použití v komerční praxi. [online]. Praha: Komix s. r. o., [1992]. [cit. 2006-04-03]. Zip. Dostupný z World Wide Web: http://www.komix.cz/home/komix_cz/podpora/ke_stazeni/prezentace.aspx#MD_1999. [3] Data mining. [online]. 2001. Wikipedie. [2001]. [cit. 2006-04-01]. Dostupný z World Wide Web: http://cs.wikipedia.org/wiki/Data_mining. [4] KREJČÍ, J.: Automatizované získávání znalostí z dat. [online]. Praha: Komix s. r. o., [1992]. [cit. 2006-04-03]. Zip. Dostupný z Worl Wide Web: http://www.komix.cz/home/komix_cz/podpora/ke_stazeni/prezentace.aspx#MD_1999. [5] Data mining. [online]. 2001. Wikipedie. [2001]. [cit. 2006-04-01]. Dostupný z World Wide Web: http://cs.wikipedia.org/wiki/Data_mining. [6] BERKA, P.: Dobývání znalostí z databází. 1.vyd. Praha: Academia, 2003. 366 s. ISBN: 80-200-1062-9. a Parr Rud, O: Data minig, 1. vyd. Praha: Computer Press, 2001. 328 s. ISBN 80-7226-577-6. [7] KREJČÍ, J: Automatizované získávání znalostí z dat. [online]. Praha: Komix s. r. o., [1992]. [cit. 2006-04-03]. Zip. Dostupný z Worl Wide Web: http://www.komix.cz/home/komix_cz/podpora/ke_stazeni/prezentace.aspx#MD_1999. [8] FAYYAD, Usama M.: Data Mining and Knowledge Discovery. An International Journal. [online]. [1996]. vol. 1. is. 1. [cit. 2006-04-03]. Dostupný z World Wide Web: http://research.microsoft.com/research/datamine/vol1-1/editorial3.htm. [9] BERKA, P.: Dobývání znalostí z databází. 1.vyd. Praha: Academia, 2003. 366 s. ISBN: 80-200-1062-9. [10] PACOVSKÝ, J., VAVRUŠKA, J.: Praní špinavých peněz a informační technologie. Bankovnictví. [online]. 2004. [cit. 2006-04-03]. Dostupný z World Wide Web: http://bankovnictvi.ihned.cz/toISO-8859-2/1-10053440-14896100-900000_d-ee. ISSN 1213-7693. [11] BERKA, P.: Dobývání znalostí z dat o hypertenzi. [online]. Praha: EuroMISE Centrum -- Kardio, VŠE, [2001]. 30. 05. 2003. [cit. 2006-04-03]. Dostupný z World Wide Web: http://euromise.vse.cz/kdd/index.php?page=kdd#LM-krok4. [12] Konference Znalosti 2006. [online]. Hradec Králové: UHK, 2006. [cit. 2006-04-03]. Dostupný z World Wide Web: http://fim.uhk.cz/znalosti/index.php?p=main. [13] BERKA, P.: Dobývání znalostí z databází. 1.vyd. Praha: Academia, 2003. 366 s. ISBN: 80-200-1062-9. [14] KREJČÍ, J.: Automatizované získávání znalostí z dat. [online]. Praha: Komix s. r. o., [1992]. [cit. 2006-04-03]. Zip. Dostupný z Worl Wide Web: http://www.komix.cz/home/komix_cz/podpora/ke_stazeni/prezentace.aspx#MD_1999. [15] Konkrétní postupy DM viz BERKA, P.: Dobývání znalostí z databází. 1.vyd. Praha: Academia, 2003. 366 s. ISBN: 80-200-1062-9. [16] Mařík, V., Štěpánková, O., Lažanský, J. a kol: Umělá inteligence (4). 1. vyd. Praha: Academia, 2003. 476 s. ISBN 20-200-1044-0. [17] ZEMAN, D.: Aplikace procesu dolováni dat v biologii -- genetice. [online]. Brno: VUT, [2005]. [cit. 2006-04-03]. Dostupný z World Wide Web: http://www.fit.vutbr.cz/study/courses/VPD/public/0405VPD-Zeman.pdf. [18] BERKA, P.: Dobývání znalostí z dat o hypertenzi. [online]. Praha : EuroMISE Centrum -- Kardio, VŠE, [2001]. 30. 05. 2003. [cit. 2006-04-03]. Dostupný z World Wide Web: http://euromise.vse.cz/kdd/index.php?page=kdd#LM-krok4. [19] BERKA, P.: Dobývání znalostí z databází. 1.vyd. Praha: Academia, 2003. 366 s. ISBN: 80-200-1062-9. [20] Jelínek, J.: Využití vazeb mezi termy pro podporu uživatele WWW. In Znalosti 2005. Ostrava: VŠB -- FEI, 2005. ISBN 80-248-0755-6. s. 218. -- 255. [21] Jelínek, J.: Využití vazeb mezi termy pro podporu uživatele WWW. In Znalosti 2005. Ostrava: VŠB -- FEI, 2005. ISBN 80-248-0755-6. s. 218. -- 255. [22] Laš, V., Kočka, T. a Berka, P.: Learning rules to predict next page in a click-stream. In Znalosti 2005. Ostrava: VŠB -- FEI, 2005. ISBN 80-248-0755-6. s. 258. -- 265. [23] Parr Rud, O: Data minig, 1. vyd. Praha: Computer Press, 2001. 328 s. ISBN 80-7226-577-6. [24] Data Mining Research Area: Overview: Making Data Work Harder. [online]. Dublin: OCLC, 2005 , 2006-01-18. [cit. 2006-04-19]. Dostupný z WWW: http://www.oclc.org/research/projects/mining/default.htm. [25] MIKA, J.: Vliv zavádění automatizovaných knihovnických systémů na organizaci a provoz knihovny. Národní knihovna: Knihovnická revue. [online]. 2000, roč. 11. č. 1. [cit. 2006-04-03]. s. 6-14. Dostupný z World Wide Web: http://knihovna.nkp.cz/Nkkr0001/0001006.html. ISSN 1214-0678. [26] ALEPH. Příručka pro uživatele systému. Verze 3.2_6. Praha: Národní knihovna České republiky, 1998. ISBN 80-7050-287-8. [27] BUTTERFIELD, K.: Online Public Access Catalogs. Dekker encyklopedias. [online]. 2003. [cit. 2006-04-03]. Dostupný z World Wide Web: http://www.dekker.com/sdek/section?content=a713532000&scope=doc&fmt=.html. [28] BYRUM, J. D. Jr.: On-line katalogy a knihovní portály v současném informačním prostředí . Knihovna plus: Knihovnická revue. [online]. 2005, č. 1. [cit. 2006-04-03]. Dostupný z World Wide Web: http://knihovna.nkp.cz/knihovna51/519byrum.htm. ISSN ISSN 1801-594. [29] POO, D. C. C., KHOO , C. S. G.: Online Catalog Subject Searching. Dekker encyklopedias. [online]. 2003. [cit. 2006-04-03]. Dostupný z World Wide Web: http://www.dekker.com/sdek/section?content=a713531961&scope=doc&fmt=.html. [30] POO, D. C. C., KHOO , C. S. G.: Online Catalog Subject Searching. Dekker encyklopedias. [online]. 2003. [cit. 2006-04-03]. Dostupný z World Wide Web: http://www.dekker.com/sdek/section?content=a713531961&scope=doc&fmt=.html. [31] Tamtéž. [32] Open WorldCat Program. [online]. Dublin: OCLC, 2004. 2006-02-20. [cit. 2006-04-19]. Dostupný z WWW: http://www.oclc.org/worldcat/open/default.htm. [33] BYRUM, J. D. Jr.: On-line katalogy a knihovní portály v současném informačním prostředí . Knihovna plus: Knihovnická revue. [online]. 2005. č. 1. [cit. 2006-04-03]. Dostupný z World Wide Web: http://knihovna.nkp.cz/knihovna51/519byrum.htm. ISSN ISSN 1801-594. [34] Tamtéž. [35] BYRUM, J. D. Jr.: On-line katalogy a knihovní portály v současném informačním prostředí . Knihovna plus: Knihovnická revue. [online]. 2005. č. 1. [cit. 2006-04-03]. Dostupný z World Wide Web: http://knihovna.nkp.cz/knihovna51/519byrum.htm. ISSN ISSN 1801-594. [36] VANĚK, A.: Aplikace metod elektronického obchodování v knihovnách. Národní knihovna: Knihovnická revue. 2004. Roč. 15. Č. 4. ISSN 0862-7487. [37] Nicholson, S.: The Bibliomining Process: Data Warehousing and Data Mining for Library Decision-Making. [online]. [Syracuse (USA)]. [University School of Information Studies], 2003. květen 2005. [cit. 1. dubna 2006]. Dostupný z World Wide Web: http://bibliomining.com/nicholson/biblioprocess.htm [38] Nicholson, S.: The Bibliomining Process: Data Warehousing and Data Mining for Library Decision-Making. [online]. [Syracuse (USA)]. [University School of Information Studies], 2003. květen 2005. [cit. 1. dubna 2006]. Dostupný z World Wide Web: http://bibliomining.com/nicholson/biblioprocess.htm [39] Nicholson, S: The Bibliomining Process: Data Warehousing and Data Mining for Library Decision-Making. [online]. [Syracuse USA)]. [University School of Information Studies], 2003. květen 2005. [cit. 1. dubna 2006]. Dostupný z World Wide Web: http://bibliomining.com/nicholson/biblioprocess.htm. [40] Staženo z adresy: http://downloads.mysql.com/archives.php?p=mysql-4.1&v=4.1.8. Verze pro Microsoft Windows (zip). [41] Staženo z adresy: http://httpd.apache.org/download.cgi. [42] Báze charakterizuje fond určité knihovny, který je obsažen v katalogu. [43] Informace o knihovnách Masarykovy univerzity v Brně. [online]. Brno: Masarykova univerzita, 2002. [cit. 2006-04-21]. Dostupný z WWW: http://library.muni.cz/uvod.html. [44] Souborný katalog MU: Základní vyhledávání. [online]. Brno: Masarykova univerzita, [cit. 2005-01-05]. Dostupný z WWW: http://www.aleph.muni.cz.