Selekční jazyky (2) Úvod do problematiky Přednáška č. 2 (denní) – 16.3.2007 Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví jarní semestr 2006/2007 Josef Schwarz schwarzjv@seznam.cz Kvalita a konzistence indexace Kvalita indexace w LAN03, kap. Quality of Indexing w kvalitní indexace – taková indexace, která zajistí (ne)vyhledání dokumentu v rámci konkrétního informačního systému w jde o relativní hodnotu w účel a zaměření informačního systému w potřeby a požadavky uživatelů w nelze hodnotit kvantitativními metodami w faktory ovlivňující kvalitu indexace Konzistence indexace w LAN03, Consistency of Indexing w míra shody dvou nebo více SOD w typy konzistence w mezi indexátory (interindexer consistency) n shoda indexace mezi dvěma nebo více indexátory w indexátora (intraindexer consistency) n konzistence indexace jednoho indexátora w konzistence z hlediska hloubky indexace w konzistence pořádacích znaků vyjadřujících hlavní témata w konzistence pořádacích znaků vyjadřujících vedlejší témata Konzistence indexace (pokr.) w Výpočet I. n dvojice indexátorů - tzv. konzistenční pár (consistency pair) C = a / b kde: n a = počet pořádacích znaků, které shodně zvolili oba indexátoři n b = celkový počet přidělených jedinečných pořádacích znaků Konzistence indexace (pokr.) Konzistence indexace (pokr.) w Výpočet II. n více než dva indexátoři C = průměr konzistenčních párů Konzistence indexace (pokr.) Kvalita vs konzistence indexace w vztah kvality a konzistence není bezprostřední n konzistentní indexace neznamená kvalitní indexaci n kvalitní indexace zahrnuje i konzistentní indexaci n konzistence indexace zlepšuje efektivitu vyhledávání n z hlediska správy databáze je konzistence kvalitou Faktory ovlivňující indexaci w indexátor w obj.: zkušenost a znalost SJ, znalost oboru, porozumění textu, systematické myšlení, racionální čtení w subj.: soustř., pečlivost, nálada, únava, motivace w SJ w kvalita řízeného slovníku w indexační pravidla w dokument/text w obor, struktura, délka, styl, žánr, pomocný aparát, jazyk w pracovní podmínky w prac. doba, produktivita práce, prac. prostředí, technické prostředky Kontrola a hodnocení indexace w v procesu indexace w indexační pravidla w srovnání s obsahem databáze n automatické procedury: TODESCHINI, C., FARRELL, M.P. An expert system for quality control in bibliographic databases. Journal of the American Society for Information Science, 1989, roč. 40, č. 1, s. 1-11. w supervize n správnost a úplnost obsahové analýzy n věcná i formální správnost přiřazených pořádacích znaků n indexační chyby w indexační experimenty w při vyhledávání w relevance vyhledávání w úplnost (recall) a přesnost (precision) Relevance vyhledávání w úplnost (recall) R n počet vyhledaných relevantních dokumentů / počet všech relevantních dokumentů w přesnost (precision) P n počet vyhledaných relevantních dokumentů / počet všech vyhledaných dokumentů w poměr mezi úplností a přesností ] Indexační chyby w data: kontrola indexace UK-ETF 1998-99 n viz případová studie w nejčastější typy chyb n opominutí hledisek (18,6%) n nesprávné stanovení významu nebo rozsahu deskriptoru (12,3%) n chybějící jednotlivé deskriptory (11,5%) w typy chyb podle ovlivnění úplnost a přesnost vyhledávání n komplexní chyby snižující úplnost (23,4%) n dílčí chyby snižující úplnost (22,1%) n dílčí chyby snižující úplnost i přesnost (14,9%) Indexační chyby (pokr.) w typy chyb podle fáze indexace n obsahová analýza (18,1%) w zdroj chyb: indexátor n identifikace pojmů (42,3%) w zdroj chyb: indexační pravidla, indexátor w nejčastěji: opominutí hledisek n výběr deskriptorů z tezauru (20,8%) w zdroj chyb: indexátor, indexační pravidla, řízený slovník ] Indexační experimenty w srovnávání různých typů selekčních jazyků w indexace vzorku dokumentů w porovnání formou rešeršních dotazů w konzistence indexátorů w experimentální přístup w dva nebo více indexátorů w vzorek dokumentů w indexace w interpretace výsledků w (případová studie) ] Využití hodnocení indexace w indexátor w zpětná vazba w hodnocení práce w SJ n řízený slovník w úprava lexika n. struktury w úprava poznámek o rozsahu n indexační pravidla w formulace w úprava w dokumenty w reindexace