Selekční jazyky Současné trendy Přednáška č. 2 (10.3.2006) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví jaro 2005/2006 Josef Schwarz, informační konzultant http://schwarz.webpark.cz Dnešní témata w Automatická indexace w Modely vyhledávání AI - vstup (přehl.studie) w dostupnost plného textu, popř. abstraktu w automatická/intelektuální indexace n AI-výhody: odstranění subjektivity n AI-výhody: velký objem dokumentů n AI-nevýhody: stroj nerozumí textu w Morfologie, syntaxe w Sémantika n Intratextová (Slova/výrazy, věty, odstavce, text) n Intertextová (různé texty) n Extratextová (realita) AI - vstup (pokr.) n AI-problémy: w Pojmy nejsou vyjádřeny explicitně w Nepřímé odkazy na jiné části textu nebo texty w Text obsahuje nevýznamová slova w Jazykové problémy: synonymie, homonymie w Význam slov se mění v čase nebo mezi jednotlivými dokumenty w Různé tvary slov (míra závisí na jazyce) AI -- vstup (pokr.) w typy automatické indexace w extrakce (extraction indexing) -- slovní indexace (SI) n klíčová slova z textu: n lexikální analýza (identifikace slov a sousloví) n odstranění nevýznamových slov n lematizace n (vážení) n (komparace s řízeným slovníkem) w přiřazování (assignment indexing) -- pojmová indexace (PI) n práce s plným textem n pokročilé statistické a matematickolingvistické metody (pravděpodobnostní modely) n řízený slovník -- simulace intelektuálního procesu SI -- lexikální analýza w Číslice n Odborné texty ("§ 12"), odborné termíny ("MARC21") w Určení hranice slova n Mezera n Tečka (zkratky), spojovník (knihovnicko-informační systém) n Další interpunkční znaménka w Velká/malá písmena SI -- lexikální analýza (pokr.) w Sousloví n Sémanticky nosnější než jednotlivá slova n Dvě základní metody w Statistická identifikace sousloví w Syntaktická identifikace sousloví n Normalizace sousloví w Slovník w Vypuštění pomocných slovních druhů a zanedbání pořadí složek w Syntaktická analýza s použitím kmene (kořene) SI -- nevýznamová slova w Odstranění nevýznamových slov n 20-30 % běžného textu n Spojky, předložky a další pomocné složky w Sousloví s předložkovou vazbou (knihovny pro nevidomé) n Slova bez rozlišovací funkce w Řešení n Negativní slovník (slovník nevýznamových slov, slovník stop-slov, stop-slovník) n Odstranění lexikální analýzou a vážením SI -- nevýznamová slova (pokr.) w Tvorba stop-slovníku n Druhy slov (spojky, předložky, částice apod.) n Podle frekvence slova v textu n Krátká slova w Anti-negativní slovník SI -- lemmatizace w Metody n Algoritmické (gramatická pravidla) w Generování afixů n Slovníkově orientované w Slovník kmenů nebo kořenů a dalších morfologických informací w Slovník afixů (sufixů a prefixů) n Statistické w Letter successor variety stemmer (varieta po sobě následujících písmen) n Nové dokumenty v db n Nerozliší inflexní a derivační afixy w Program: lemmatizátor (stemmer) SI -- lemmatizace (pokr.) w Příklady převodů slovních druhů n Mužský životný/ženský tvar substantiva (autor, autorka), přivlastňovací přídavné jméno (autorčin, autorův) `a mužský tvar subst., 1. pád, singulár (autor) n Adj.: stupňované tvary (nejkonkrétnější), odvozená substantiva s konc. --ost (konkrétnost), negace (nekonkrétní), příslovce (konkrétně) `a zákl. tvar. adj. (konkrétní) n Slovesa: časování, příč. č. a trp., slovesné jméno podstatné, opakované sloveso `a infinitiv (dělat) SI -- lemmatizace (pokr.) w Lemmatizace se provádí: n Při indexaci w Malý index w Nutnost ručních zásahů n Při zpracování dotazu w inverzní lemmatizace (derivace) w Zvýšení relevance SI - vážení w Různá důležitost slov pro obsah dok. w Selektivní síla indexačního termínu (výrazu) w Kritéria vážení: n Výraz (slovní druh) n Text (délka, počet různých termínů) n Vztah výrazu a textu w Frekvence výrazu v textu w Umístění výrazu ve specifické části textu (název, abstrakt, první a poslední pasáže apod.) -- zohlednění koeficientem při vážení n Vztah termínu a celé db w Frekvence výrazu v db n Vybrané váhové funkce PI - vstup w Simulace intelektuálního procesu w Základ: n Výsledky SI n Plný text w Předpoklad: n Strukturovaný řízený slovník w Tezarus, sémantická síť, znalostní báze PI - postup w Postup PI: n Identifikace výrazu n Srovnání výrazu s relevantními profily pojmů z řízeného slovníku n Určení indexačních termínů w Problémy: n Shoda dokument/ŘS nemusí být určující pro obsah n Netriviální vyjádření pojmu v textu n Implicitní reprezentace pojmu v textu AI - hodnocení w praktické aspekty w plné texty w vyšší účinnost ve srovnání s intelektuální indexací w vyšší náklady -- vyšší kvalita w oborový IS w systémy w univerzální systém neexistuje w funkční systémy n specifická oblast n často pracují pouze s abstrakty n kombinace automatické a intelektuální indexace w příklady systémů w ČR: (MOZAIKA), (SEMAN), KPS PČR (Parlamentní knihovna), LEGSYS w NASA MAI Tool (text1, text2) Modely vyhledávání w booleovský model w vektorový model w latentní sémantické indexování (latent semantic indexing) w Literatura: w Rauch, J. Metody zpracování informací II. Ukládání a vyhledávání. Praha : VŠE, 1996. w Pokorný, J., Snášel. V., Húsek, D. Dokumentografické informační systémy. Praha : Karolinum, 1998. w BAEZA-YATES, R., RIBEIRO-NETO, B. Modern information retrieval. New York : Addison-Wesley, 1999. Booleovský model w teoretické základy: 50. léta 20. století w logické operátory w AND, OR, NOT, XOR n souborný katalog AND CASLIN n souborný katalog OR CASLIN n souborný katalog NOT CASLIN n souborný katalog XOR CASLIN w rozšiřování (zkracování) výrazu w pravostranné (katalog*), levostranné (*log), vnitřní rozšíření (ka*g) w rozšíření o více znaků (*), jeden znak (?) w proximitní operátory w věta, odstavec, určitý počet slov (zaleží/nezáleží na pořadí) Booleovský model w výhody n jasná formalizace n jednoduchost n rychlost vyhledávání w limitující faktory n úplnost, přesnost w použití klíčových slov w principiální možnosti logických spojek n "ostrost" -- relevantní n. nerelevantní (nikoliv částečně relevantní) n operátor ACCRUE -- systém TOPIC w experiment STAIRS (1985) n právní texty, 40 000 dokumentů n 51 požadavků, požadovaná úplnost: 75% n dosažená úplnost: 20% (přesnost 80%) Booleovský model w rozšíření b. modelu n vážení výrazů w v dokumentu w v dotazu n rozšíření pomocí fuzzy logiky w pravdivostní hodnota z intervalu <0,1> - stupeň příslušnosti k fuzzy množině n geometrické rozšíření w dokument jako bod v prostoru w počet rozměrů prostoru = počet klíčových slov v dok. Fuzzy množina Geometrické rozšíření Srovnání bool. mod. a rozš. Vektorový model w Stupeň podobnosti mezi dotazem a dokumentem w vektor dotazu, vektor dokumentu w kosinová míra w váhy w Výhody w vyhledává i částečně relevantní dokumenty w řazení dokumentů podle relevance (stupně podobnosti) w modifikace dotazu na základě vyhledaných relevantních dokumentů Vektorový model w Nevýhody n není jasná interpretace vah výrazů v dotazu n vzorce pro měření podobnosti nejsou teoreticky zdůvodněné n koeficient podobnosti nemá jasný význam n nelze užít konjunkci a disjunkci Vektorový model Latentní sémantické indexování w hlavní charakteristika w statisticko-matematické metody w velký objem databáze w základem matice dokument-výraz (klíčové slovo) `a singulární dekompozice matice `a redukce původní matice w relativně nová metoda (1988), účinnost se testuje w Výhody: w pojmové vyhledávání (KS, která nebyla zadána) w řazení dle relevance w metoda nezávislá na jazyce w příklad