Selekční jazyky
                                          Současné trendy


Přednáška č. 2 (10.3.2006)

Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a
knihovnictví

jaro 2005/2006


Josef Schwarz, informační konzultant

http://schwarz.webpark.cz

                                           Dnešní témata

w   Automatická indexace

w   Modely vyhledávání


                                     AI - vstup (přehl.studie)

w   dostupnost plného textu, popř. abstraktu

w   automatická/intelektuální indexace

  n    AI-výhody: odstranění subjektivity

  n    AI-výhody: velký objem dokumentů

  n    AI-nevýhody: stroj nerozumí textu

    w  Morfologie, syntaxe

    w  Sémantika

      n   Intratextová (Slova/výrazy, věty, odstavce, text)

      n   Intertextová (různé texty)

      n   Extratextová (realita)

  
                                         AI - vstup (pokr.)

  n    AI-problémy:

    w  Pojmy nejsou vyjádřeny explicitně

    w  Nepřímé odkazy na jiné části textu nebo texty

    w  Text obsahuje nevýznamová slova

    w  Jazykové problémy: synonymie, homonymie

    w  Význam slov se mění v čase nebo mezi jednotlivými dokumenty

    w  Různé tvary slov (míra závisí na jazyce)

  
                                         AI -- vstup (pokr.)

w   typy automatické indexace

    w  extrakce (extraction indexing) -- slovní indexace (SI)

      n   klíčová slova z textu:

        n    lexikální analýza (identifikace slov a sousloví)

        n    odstranění nevýznamových slov

        n    lematizace

        n    (vážení)

        n    (komparace s řízeným slovníkem)

    w  přiřazování (assignment indexing) -- pojmová indexace (PI)

      n   práce s plným textem

        n    pokročilé statistické a matematickolingvistické metody (pravděpodobnostní modely)

        n    řízený slovník -- simulace intelektuálního procesu


                                       SI -- lexikální analýza

w   Číslice

  n    Odborné texty ("§ 12"), odborné termíny ("MARC21")

w   Určení hranice slova

  n    Mezera

  n    Tečka (zkratky), spojovník (knihovnicko-informační systém)

  n    Další interpunkční znaménka

w   Velká/malá písmena

                                   SI -- lexikální analýza (pokr.)

w   Sousloví

  n    Sémanticky nosnější než jednotlivá slova

  n    Dvě základní metody

    w  Statistická identifikace sousloví

    w  Syntaktická identifikace sousloví

  n    Normalizace sousloví

    w  Slovník

    w  Vypuštění pomocných slovních druhů a zanedbání pořadí složek

    w  Syntaktická analýza s použitím kmene (kořene)

                                       SI -- nevýznamová slova

w   Odstranění nevýznamových slov

  n    20-30 % běžného textu

  n    Spojky, předložky a další pomocné složky

    w  Sousloví s předložkovou vazbou (knihovny pro nevidomé)

  n    Slova bez rozlišovací funkce

w   Řešení

  n    Negativní slovník (slovník nevýznamových slov, slovník stop-slov, stop-slovník)

  n    Odstranění lexikální analýzou a vážením

  
                                   SI -- nevýznamová slova (pokr.)

w   Tvorba stop-slovníku

  n    Druhy slov (spojky, předložky, částice apod.)

  n    Podle frekvence slova v textu

  n    Krátká slova

    w  Anti-negativní slovník

                                          SI -- lemmatizace

w    Metody

  n     Algoritmické (gramatická pravidla)

    w   Generování afixů

  n     Slovníkově orientované

    w   Slovník kmenů nebo kořenů a dalších morfologických informací

    w   Slovník afixů (sufixů a prefixů)

  n     Statistické

    w   Letter successor variety stemmer (varieta po sobě následujících písmen)

      n    Nové dokumenty v db

      n    Nerozliší inflexní a derivační afixy

w    Program: lemmatizátor (stemmer)

                                      SI -- lemmatizace (pokr.)

w   Příklady převodů slovních druhů

  n    Mužský životný/ženský tvar substantiva (autor, autorka), přivlastňovací přídavné jméno
  (autorčin, autorův) `a mužský tvar subst., 1. pád, singulár (autor)

  n    Adj.: stupňované tvary (nejkonkrétnější), odvozená substantiva s konc. --ost (konkrétnost),
  negace (nekonkrétní), příslovce (konkrétně) `a zákl. tvar. adj. (konkrétní)

  n    Slovesa: časování, příč. č. a trp., slovesné jméno podstatné, opakované sloveso `a infinitiv
  (dělat)

                                      SI -- lemmatizace (pokr.)

w   Lemmatizace se provádí:

  n    Při indexaci

    w  Malý index

    w  Nutnost ručních zásahů

  n    Při zpracování dotazu

    w  inverzní lemmatizace (derivace)

    w  Zvýšení relevance

    
                                            SI - vážení

w   Různá důležitost slov pro obsah dok.

w   Selektivní síla indexačního termínu (výrazu)

w   Kritéria vážení:

  n    Výraz (slovní druh)

  n    Text (délka, počet různých termínů)

  n    Vztah výrazu a textu

    w  Frekvence výrazu v textu

    w  Umístění výrazu ve specifické části textu (název, abstrakt, první a poslední pasáže apod.) --
    zohlednění koeficientem při vážení

  n    Vztah termínu a celé db

    w  Frekvence výrazu v db

  n    Vybrané váhové funkce

    
                                             PI - vstup

w   Simulace intelektuálního procesu

w   Základ:

  n    Výsledky SI

  n    Plný text

w   Předpoklad:

  n    Strukturovaný řízený slovník

    w  Tezarus, sémantická síť, znalostní báze

                                            PI - postup

w   Postup PI:

  n    Identifikace výrazu

  n    Srovnání výrazu s relevantními profily pojmů z řízeného slovníku

  n    Určení indexačních termínů

w   Problémy:

  n    Shoda dokument/ŘS nemusí být určující pro obsah

  n    Netriviální vyjádření pojmu v textu

  n    Implicitní reprezentace pojmu v textu

  
                                           AI - hodnocení

w   praktické aspekty

    w  plné texty

    w  vyšší účinnost ve srovnání s intelektuální indexací

    w  vyšší náklady -- vyšší kvalita

    w  oborový IS

w   systémy

    w  univerzální systém neexistuje

    w  funkční systémy

      n   specifická oblast

      n   často pracují pouze s abstrakty

      n   kombinace automatické a intelektuální indexace

w   příklady systémů

    w  ČR: (MOZAIKA), (SEMAN), KPS PČR (Parlamentní knihovna), LEGSYS

    w  NASA MAI Tool (text1, text2)

                                         Modely vyhledávání

w   booleovský model

w   vektorový model

w   latentní sémantické indexování (latent semantic indexing)


w   Literatura:

    w   Rauch, J. Metody zpracování informací II. Ukládání a vyhledávání. Praha : VŠE, 1996.

    w   Pokorný, J., Snášel. V., Húsek, D. Dokumentografické informační systémy. Praha : Karolinum,
    1998.

    w   BAEZA-YATES, R., RIBEIRO-NETO, B. Modern information retrieval. New York : Addison-Wesley,
    1999.

    
                                          Booleovský model

w   teoretické základy: 50. léta 20. století

w   logické operátory

    w  AND, OR, NOT, XOR

      n   souborný katalog AND CASLIN

      n   souborný katalog OR CASLIN

      n   souborný katalog NOT CASLIN

      n   souborný katalog XOR CASLIN

w   rozšiřování (zkracování) výrazu

    w  pravostranné (katalog*), levostranné (*log), vnitřní rozšíření (ka*g)

    w  rozšíření o více znaků (*), jeden znak (?)

w   proximitní operátory

    w  věta, odstavec, určitý počet slov (zaleží/nezáleží na pořadí)


                                          Booleovský model

w   výhody

  n    jasná formalizace

  n    jednoduchost

  n    rychlost vyhledávání

w   limitující faktory

  n    úplnost, přesnost

    w  použití klíčových slov

    w  principiální možnosti logických spojek

      n   "ostrost" -- relevantní n. nerelevantní (nikoliv částečně relevantní)

      n   operátor ACCRUE -- systém TOPIC

    w  experiment STAIRS (1985)

      n   právní texty, 40 000 dokumentů

      n   51 požadavků, požadovaná úplnost: 75%

      n   dosažená úplnost: 20% (přesnost 80%)

                                          Booleovský model

w   rozšíření b. modelu

  n    vážení výrazů

    w  v dokumentu

    w  v dotazu

  n    rozšíření pomocí fuzzy logiky

    w  pravdivostní hodnota z intervalu <0,1> - stupeň příslušnosti k fuzzy množině

  n    geometrické rozšíření

    w  dokument jako bod v prostoru

    w  počet rozměrů prostoru = počet klíčových slov v dok.

                                           Fuzzy množina

                                       Geometrické rozšíření

                                    Srovnání bool. mod. a rozš.

                                          Vektorový model

w   Stupeň podobnosti mezi dotazem a dokumentem

    w  vektor dotazu, vektor dokumentu

    w  kosinová míra

    w  váhy

w   Výhody

    w  vyhledává i částečně relevantní dokumenty

    w  řazení dokumentů podle relevance (stupně podobnosti)

    w  modifikace dotazu na základě vyhledaných relevantních dokumentů

                                          Vektorový model

w   Nevýhody

  n    není jasná interpretace vah výrazů v dotazu

  n    vzorce pro měření podobnosti nejsou teoreticky zdůvodněné

  n    koeficient podobnosti nemá jasný význam

  n    nelze užít konjunkci a disjunkci

                                          Vektorový model

                                   Latentní sémantické indexování

w   hlavní charakteristika

    w  statisticko-matematické metody

    w  velký objem databáze

    w  základem matice dokument-výraz (klíčové slovo) `a singulární dekompozice matice `a redukce
    původní matice

    w  relativně nová metoda (1988), účinnost se testuje

w   Výhody:

    w  pojmové vyhledávání (KS, která nebyla zadána)

    w  řazení dle relevance

    w  metoda nezávislá na jazyce

w   příklad