Česká lexikální databáze typu WordNet

                                  (v rámci projektu EuroWordNet-2)

    Karel Pala, Pavel Ševeeek

   1.   Úvod -- motivace

       Standardní způsobem organizace lexikálního materiálu ve slovnících je abecední řazení
   (lexikografické uspořádání). Hledání v abecedně řazených slovnících hledání je pomalé, i když
  počítače nyní umožňují prohlížení zrychlit. Je však zjevně neefektivní užívat počítačů jen jako
 "obracečů" stránek a má smysl hledat vhodnější způsoby organizace slovníku. Položme si otázku, zda
        v tomto ohledu existuje cesta vedoucí ke zlepšení dosavadních standardních slovníků?

   Příklady ukazují, že třeba u lexikální jednotky strom s významem rostlina najdeme následující
  definici: dřevina s kmenem, který se nahoře větví v korunu: listnaté, jehličnaté, ovocné... (SSČ,
 1994, s.419). Jako u většiny definic ve standardních slovnících je i zde použito základní schéma:
 genus proximum plus rozlišující příznaky popisující specifické rysy stromu (a obvykle mající formu
 vztažné věty). Z pohledu běžného uživatele v definici nic nechybí, ale nicméně nezmiňuje se o tom,
 že stromy mají kořeny, skládají se z buněk nebo že jsou to živé organismy. Informaci tohoto druhu
ale můžeme najít u nadřazeného výrazu rostlina. Dále, definice výrazu strom  neobsahuje informaci o
 jiných podobných typech rostlin, tedy o třeba o keřích. Každý uživatel slovníku dobře ví, že najít
 ve standardním slovníku informace o lexikálních jednotkách stejného typu je časově velmi náročné.
   V podobné situaci je uživatel standardního slovníku, když se chce něco dovědět o jednotlivých
 druzích stromů, tj. které z nich jsou jehličnany -- smrk, jedle, borovice, které z nich listnáče --
 buk, dub, javor, jasan, lípa, a které jsou třeba ovocné apod. Tyto informace ve slovnících obvykle
   jsou, ale vydolovat je by se mohl pokoušet jen opravdu velmi zarputilý uživatel. Prototypické
  definice ukazují vždy směrem nahoru k nadřazeným pojmům, ale nikdy do strany k výrazům stejného
    typu, sourozencům (coordinates) nebo směrem dolů k hyponymům. Každý z nás zná spoustu věcí o
   stromech, které by lexikografové nezačlenili do definice: víme, že stromy mají kůru, rostou ze
    semen,  poskytují stín a chrání před větrem, rostou volně v lesích, jejich dřevo slouží jako
 stavební materiál nebo palivo, energii pro svůj růst získávají fotosyntézou. Lexikografové uvádějí
 v definicích jen důležité distinkce, pouze připomínají uživateli něco, o čem se předpokládá, že to
 už zná, a nenabízejí mu souhrn encyklopedických znalostí. Poznamenejme tedy závěrem, že velká část
 těchto chybějících informací má spíše strukturní než faktuální povahu a že konvenční slovníky ani
 tak nestrádají nedostatkem informací, problémem je hlavně jejich organizace, která díky abecednímu
      uspořádání hesel odděluje od sebe spolehlivě věci, které by bylo užitečné mít pohromadě.

     V poslední době se věnuje značná pozornost lexikální sémantice s cílem vytvořit lexikální
   zdroje, které by se popisovaly významy lexikálních jednotek a jejich vztahy formálně 
   (algoritmicky) a díky tomu umožňovaly i systematické využívání v oblasti počítačového
   zpracování přirozeného jazyka (NLP).V jednom směru začaly vznikat tzv.strojově čitelné
   slovníky (Machine Readable Dictionaries) a práce na nich ukázaly, že dosavadní standardní
   slovníky trpí mnoha nekonzistencemi, z nichž uveďme aspoň jednu typickou: užití odlišných
   hyperonym v definicích tam, kde by bylo vhodné pracovat jen s jedním.  Např. v SSČ (1994)
   nacházíme rozdílné definice u hesel stůl: ábytku tvořený vodorovnou deskou ..., židle: lehce
   přenosný kus nábytku (s opěradlem)..., křeslo: pohodlné sedadlo s opěradly...), ačkoliv je zjevné,
   že křeslo je také kusem nábytku.

   Poznamenejme, že pro češtinu žádný strojově čitelný slovník fakticky nemáme: současná
   elektronická verze SSČ na CD ROM (Leda, 1998) neprošla žádnými úpravami, které by vedly ke
   zkonzistentnění způsobu popisu významů lexikálních jednotek a k formalizovanější organizaci
   struktury hesel, ani není vybavena lepšími technikami vyhledávání, takže představuje právě jen
   pouhý počítačový "obraceč stránek".

   Dalším směrem, který se v poslední době prosazuje, je budování počítačových lexikálních
   databází či vytváření elektronických verzí již existujících thesaurů -- zejména Rogetova,
   (Chapmanova revidovaná verze,1977), dále vznik sémantických sítí WordNet (Miller et al., 1993)
   a EuroWordNet (Vossen et al.,1999) a systémů jako CyC (Lenat and Guha, 1990), ACQUILEX
   (Briscoe, 1991) a COMLEX (Grishman, Macleod, Myers,1994).

   
   2.   Lexikální databáze jako sémantická síť -- WordNet

   V dalším se budeme věnovat prvním dvěma zmíněným výše, tj. lexikálním databázím: WordNetu,
   který již dospěl do verze 1.6 a je dílem G.A.Millera a jeho skupiny z Princetonu (viz též  ftp
   server clarity.princeton.edu), a EuroWordNetu, jenž vznikl v Evropě. Za zmínku stojí, že G. A.
   Miller byl zpočátku blízkým spolupracovníkem N. Chomského a podílel se s ním na dvou
   fundamentálních kapitolách v příručce Handbook of Mathematical Psychology, (Introduction to
   Formal Description of Natural Language, Finitary Models of Language Users) publikované
   v r.1967 (Chomsky, Miller, 1967). Zatímco Chomsky se více méně stále přidržuje svých názorů na
   primárnost syntaktické roviny v popisu jazyka, G. A. Miller obrátil plně svou pozornost
   k lexikální sémantice a jako psycholog a psycholingvista se pokusil o přístup, který
   charakterizuje jako psycholexikologii. V jejím rámci usiluje spolu s Johnsonem-Lairdem
   (Miller, Johnson-Laird, 1976) o poznání toho, jak je organizována naše lexikální paměť, na
   jakých principech jsou budovány naše mentální slovníky. Počátek psycholexikologie je spojen se
   studiem slovních asociací, s pokusy o modelování mentálního slovníku, výchozí myšlenkou bylo
   organizovat slovník konceptuálně spíše než abecedně.Tento výzkum ho přivedl k pokusu vytvořit
   právě WordNet.

   
   2. 1 Psycholingvistické předpoklady

   Většina psycholingvistů se shoduje v tom, že anglická obecná substantiva jsou v sémantické
   paměti organizována hierarchicky, ale není definitivně jasné, zda generické informace se dědí 
   nebo jsou jen redundantně uloženy. Quillian (1968) -- byl první, kdo to formuloval explicitně.
   Experimentální asociační testy Collinse a Quilliana (1969) vycházely z předpokladu, že reakční
   časy mohou vypovídat o počtu hierarchických rovin oddělujících dva významy. Pokusy ukázaly, že
   reakční čas  při odpovědi PRAVDA na podnět "A canary can sing." je kratší než při odpovědi
   PRAVDA na podnět "A canary can fly." Reakční doba na podnět "A canary has skin." je ještě
   delší. Interpretace je taková, že "can sing" je v sémantické paměti uloženo jako příznak
   "canary", "can fly" jako příznak "bird" a "has skin" jako příznak "animal". Kdyby všechny tři
   rysy byly uloženy jako příznaky "canary", měly by všechny být akceptovány stejně rychle.
   Reakční časy nejsou stejné, protože "can fly" a "has skin" se patrně zpracovávají jako
   nadřazené, což trvá déle. Collins a Quillian z toho vyvodili závěr, že generická informace
   není uložena redundantně, ale zpracovává se, když je to potřeba.

   Psychologická evidence, že znalost významů substantiv je v sémantické paměti organizována
   hierarchicky, se opírá rovněž o další poznatek, že lidé velmi snadno zpracovávají anaforické
   výrazy a komparativní konstrukce. Lze říci: že (a) nadřazená substantiva mohou sloužit jako
   anaforické výrazy odkazující zpět ke svým hyponymům. Pak v konstrukci

   (k1) Vlastnil pušku, ale z té zbraně se nikdy nevystřelilo.

   se zbraň bezprostředně chápe jako anaforický výraz s antecedentem puška.

   Dále: (b) nadřazené výrazy a jejich hyponyma se nedají dost dobře srovnávat (Bever, Rosenbaum,
   1970). Konstrukce

   (k2a) Puška je bezpečnější než zbraň.,

   případně

   (k2b) Zbraň je bezpečnější než puška.

   nejsou, jak lze vidět, sémanticky docela v pořádku.

   
   2.2  Struktura WordNetu

   WordNet čili slovní síť je slovník podle autorů založený na psycholingvistických principech.
   Např. ve verzi 1.5 obsahuje téměř 120 000 hesel -- z toho cca 67 000 jednoduchých slovních
   tvarů a kolem 53 000 kolokací. To dává přes 91 000 slovních významů či synonymických řad
   (synsets). Nejvýraznější  rozdíl mezi WordNetem a standardními slovníky je mj. v tom, že
   WordNet člení slovník do pěti kategorií: substantiva, verba, adjektiva, adverbia a funkční
   slova (synsémantika). Fakticky jsou synsémantika ponechána stranou, to se opírá o pozorované
   řečové projevy afatických pacientů, z nichž vyplývá, že funkční slova jsou s velkou
   pravděpodobností uložena odděleně od ostatní slovní zásoby a tvoří součást syntaktické složky
   jazyka.

      Uvedené členění se opírá o asociační experimenty, které ukazují, že když informanti měli
   reagovat prvním slovem, které je napadlo, na předložená slova patřící k různým slovním druhům,
   reakce vypadaly následovně: na substantiva -- substantivem : 79 %

                                                                 na adjektiva -- adjektivem : 65 %

                                                                   na slovesa -- slovesem : 43 %.

   Dále se WordNet liší od standardních slovníků  v tom, že jednotlivé slovní druhy jsou v něm
   organizovány rozdílně -- přihlíží se důsledně k jejich odlišné sémantické povaze:

   -substantiva jsou ve WordNetu (modelu lexikální paměti) organizována jako tématické

   hierarchie,

   -slovesa jsou organizována na základě různých vztahů vyplývání (entailment),

   -adjektiva a adverbia jsou organizována jako n-dimenzionální hyperprostory (množiny n-tic).

   Každá z těchto struktur reflektuje různý způsob organizování lexikální zkušenosti -- pokusy
   nakládat jediný organizační princip na všechny syntaktické kategorie by znamenaly chybnou
   reprezentaci  psychologické komplexnosti lexikální znalosti.

      Výrazným rysem WordNetu je též pokus organizovat lexikální informace v termínech slovních
   významů, a nikoli slovních tvarů. V tomto ohledu se WordNet blíží více thesaurům než
   standardním slovníkům (viz např. Roget`s International Thesaurus, 1977).

      Výchozím bodem pro lexikální sémantiku ve WordNetu je zobrazení mezi formami a významy,
   jinak řečeno, mezi lexikalizovanými koncepty a formami, které je vyjadřují. Vychází se
   z předpokladu, že různým syntaktickým kategoriím slov (slovním druhům) odpovídají různé druhy
   zobrazení. Přiřazení forem a významů je víceznačné, tj. některým formám odpovídá více různých
   významů a některé významy mohou být vyjádřeny několika různými formami. Polysémii a synonymii
   lze pak chápat jako komplementární aspekty tohoto zobrazení, posluchač nebo čtenář
   rozpoznávající nějakou formu se musí vyrovnat s její polysémií, mluvčí nebo pisatel usilující
   o vyjádření významu se musí rozhodovat mezi synonymy.

   Lexikální paměť lze tedy chápat jako organizovanou stromově (což umožňuje vyhnout se
   cirkularitám a smyčkám), kde základním vztahem ve stromové struktuře je transitivní a
   antisymetrický významový vztah ISA (is a kind of, je druhu) nebo jinými slovy vztah
   hypero/hyponymie vedoucí od specifického ke generickému, tj. vztah generalizace, k němuž
   opakem je vztah specializace. Substantiva mají obvykle jedno hyperonymum a řadu hyponym, která
   se ve standardních slovnících zpravidla neuvádějí. Proto je vhodné navrhnout lexikální
   databázi tak, že v ní jsou zakódovány oba vztahy, jak vztah generalizace, tak i vztah
   specializace. Výsledkem pak je lexikální databáze typu WordNet, která se vyznačuje
   hierarchickou strukturou a umožňuje prohledávání shora dolů i zdola nahoru stejnou rychlostí.
   Uvedený princip je dobře znám v oblasti informačních technologií, kde se mluví o systémech
   s dědičností (Touretzky, 1986).

   
2.2.1 Sémantické vztahy ve WordNetu

         Jak jsme už naznačili, ve WordNetu se pracuje s následujícími sémantickými vztahy:

  - hyponymie/hyperonymie, který je  chápán jako vztah významové  podřazenosti a/nebo nadřazenosti
 (ISA-vztah). Je tranzitivní a antisymetrický a generuje hierarchickou (stromovou) reprezentaci pro
                                            substantiva.

   - synonymie -- je ve WordNetu nejzávažnějším vztahem: nevysvětluje sice, co  jednotlivé významy
   jsou, ale vyznačuje, že existují a liší se od sebe. V podstatě je tu synonymie chápána v duchu
   Leibnizovy definice založené na pojmu substituovatelnosti, ale oslabené o vztažení ke
   kontextu. Výrazy spojené vztahem synonymie se seskupují do synonymických řad (synsets), které
   jsou základním organizačním prvkem sémantické sítě.Vztah synonymie si také vynucuje oddělení
   jednotlivých slovních druhů ve WordNetu, protože lexikální jednotky patřící k různým
   syntaktickým kategoriím nelze volně substituovat. To je v souladu s psycholingvistickou
   evidencí, která ukazuje, že jednotlivé slovní druhy jsou v sémantické paměti organizovány
   nezávisle.

   - antonymie -- je zdánlivě jednoduchý symetrický vztah, který, jak se ukazuje, není snadné
   přesně charakterizovat díky jeho poměrně značné  komplexnosti, i když uživatelé jazyka s ním
   potíží nemívají. Je centrálním organizujícím vztahem pro adjektiva a adverbia.

   - meronymie/holonymie, jenž lze charakterizovat jako vztah část -- celek. Je v zásadě
   tranzitivní a antisymetrický a rovněž vede k budování hierarchických struktur.

   
   2.2.2 Hyponymie/hyperonymie -- substantiva a lexikální dědičný systém

   Popis významu substantivních synsetů (celkem 60 000) je ve WordNetu (obvykle) založen na
   nadřazeném výrazu (termu) doplněném o rozlišující příznaky. Vztah hypero/hyponymie generuje
   hierarchickou sémantickou strukturu (má formálně podobu grafu-stromu), v níž synsety
   (synonymické řady) jsou propojeny ohodnocenými ukazateli (pointry). Hierarchie mají omezenou
   hloubku, zřídka přesahují 12 úrovní. Rozlišující příznaky jsou zavedeny tak, že tvoří
   lexikální systém s děděním, tj. systém, v němž každé slovo dědí všechny rozlišující příznaky
   všech svých nadřazených výrazů. Pracuje se také s antonymií, ale ta se u substantiv nepokládá
   se fundamentální organizační princip. V původní verzi se rozlišovalo 25 tematických souborů a
   každý z nich byl spojen s jednou primitivní sémantickou složkou. Těchto 25 hlavních hyperonym
   ve WN 1.5 pak fungovalo jako generické koncepty, z nichž vycházejí jednotlivé hierarchie
   (sémantická pole). Díky tomu, že všechny příznaky, které charakterizují jednotlivé počátky, se
   dědí na všechna hyponyma, lze jednotlivé začátky hierarchicky strukturovaných sémantických
   polí pokládat za primitivní sémantické příznakyvšech slov v daném poli. To je dobře vidět v
   Tab.1, která obsahuje zmíněných 25 původních počátků -- většina substantiv ve WordNetu 1.5
   spadá právě pod ně. Zajímavé je, že uvedená sémantická pole jsou celkem mělká, zřídka hlubší
   než 10 úrovní, lidské výrobky jako dopravní prostředky mívají kolem 7-8 úrovní, např.: sedan --
   vůz -- motorové vozidlo -- kolové vozidlo -- dopravní prostředek -- lidský výtvor -- věc. Lidské
   hierarchie mívají kolem 3-4 úrovní.

   
   Tab.1 Vrcholová hyperonyma ve WordNetu 1.5

   act, action, activity (činnost, aktivita)             natural object (fyzický objekt)

   animal, fauna (zvíře, fauna)                             natural phenomenon (přírodní jev)

   artefakt (výtvor, výrobek)                                person, human being (osoba, lidská
   bytost)

   attribute, property (atribut, vlastnost)            plant, flora (rostlina, flora) 

   body, corpus (tělo, těleso)                                possession (vlastnictví)

   cognition, knowledge (znalost, poznání)       process (proces)

   communication (komunikace, sdělování)      quantity, amount (kvantita, množství)

   event, happenning (událost)                            relation (vztah)

   feeling, emotion (pocit, emoce)                       shape (podoba, tvar)

   food (potrava, jídlo)                                          state, condition (stav)

   group, collection (skupina, soubor)                substance (substance, látka )

   location, place (umístění, místo)                     time (čas)

   motive (motiv)

   
   Těchto 25 počátků odpovídá potom v EuroWordNetu položkám tvořícím vrcholovou ontologii, jichž
   je však o něco více -- 63 (viz níže).

   
2.2.1.2 Adjektiva -- atributy a modifikace

   Celkem je ve WordNetu cca 16 000 adjektivních synsetů, které se člení na dvě rozsáhlé třídy:
   deskriptivní a relační. První připisují (obvykle) svým řídicím substantivům hodnoty
   bipolárních atributů a jsou tedy organizována v termínech binárních opozic antonymních (velký:
   malý) a podobných  významů (synonym).

   K relačním adjektivům patří adjektiva jako prezidentský, nukleární, zubní, mají tedy vztah
   k určitému substantivu nebo jsou s ním nějak spojena, nerozlišují škály a neodkazují
   k vlastnosti svého řídicího substantiva, nemají přímá antonyma a nelze je stupňovat. Ve
   WordNetu je jich kolem 1700.

   Samostatně stojí malá a uzavřená skupina referenčně modifikujících adjektiv jako předchozínebo
   údajný. Samostatnou skupinu představují také adjektiva označující barvy.


2.2.1.3 Slovesa

Ve WordNetu je nyní něco přes 11 000 slovesných synsetů. Díky své významové flexibilitě se slovesa
obecně vyznačují vyšší polysémií -- např. Collinsův slovník (1990) uvádí u substantiv 1,74 významu na
substativum, u sloves to činí v průměru 2,11. Sémanticky se slovesa podstatně liší od ostatních
slovních druhů svou predikátově argumentovou strukturou a vazbami na své aktanty, proto nejsou
organizována na základě vztahu hypero/hyponymie, nýbrž na základě vztahu ývání (prodávat : platit) a
jeho modifikací: troponymie (chrápat : spát)  a kauzálních vztahů (dát : mít). Rozlišuje se 15 
hlavních slovesných významových tříd (Levin, 1989), konkrétně slovesa tělesných funkcí, změny,
poznání, komunikace, soutěžení, spotřeby, kontaktu, tvoření, emocí, pohybu, vnímání, vlastnění,
sociální interakce a slovesa označující počasí.

   
   3.   Lexikální databáze EuroWordNet-1 a 2

   WordNet 1.5 vytvořený G. A. Millerem a jeho skupinou pokrývá dostatečně (americkou) angličtinu
   a díky svým vlastnostem se stal impulsem pro podobné aktivity v Evropě. V r.1997 se skupina
   lexikografů kolem P. Vossena z university v Amsterdamu rozhodla začít budovat sítě slov pro
   tři vybrané západoevropské jazyky, a to v rámci projektu EuroWordNet-1. Na ten pak v r.1998
   navázal EuroWordNet-2, do něhož byly zahrnuty další čtyři jazyky, z toho dva východoevropské.

   
   3.1 EuroWordNet 1 -- angličtina, holandština, italština, španělština

   Projekt EuroWordNet (dále EWN) jako celek vychází z princetonského WordNetu 1.5 a jeho hlavním
   cílem bylo nejprve rozšířit budování sítě slov na tři evropské jazyky, tj. holandštinu,
   italštinu a španělštinu, a posléze na další čtyři -- němčinu, francouzštinu, češtinu a
   estonštinu. Nově budované slovní sítě rovněž obsahují informace o substantivech, slovesech,
   adjektivech a adverbiích a opírají se o pojem synonymické řady (synsetu). Připomeňme, že každý
   synset zahrnuje jeden nebo více významů slov, které lze pokládat za významově totožné nebo
   blízké, spolu s glosou definující daný význam. Jako příklad uveďme synset pro lexikální
   jednotku soubor:

   soubor:2, datový soubor:1 -- (množina záznamů vztahujících se k sobě a ukládaných pohromadě)

   Synset je tedy tvoo/en posloupností soubor:2, datový soubor:1, tj. soubor ve významu 2 je

   synonymní s výrazem  datový soubor ve významu 1.

   Synsety mohou vstupovat do po/edem definovaných sémantických vztahu (0 nebo více), jako jsou 
   hyponymie, hyperonymie, meronymie a holonymie a další. Daný synset muže mít u sebe uveden
   vztah ke svým:

   antonymům  (dobrý : zlý)

   hyperonymům (auto : dopravní prosto/edek)

   hyponymům (pták : kanárek)

   meronymům (dveře : záme)

   holonymům (ruka : t`ilo)

   sourozencům (pes : vlk : kojot : hyena)

   vyplývajícím výrazům (kupovat : platit)

   kauzacím (rozbít : rozpadnout se)

   
   V rámci projektu EuroWordNet se tedy nejprve budovala lexikální databáze EWN-1, která vedle
   WordNetu 1.5 (tj.angličtiny) zahrnovala i holandský, španělský a italský wordnet. Proti
   WordNetu 1.5 byly provedeny n`ikteré  úpravy a zm`iny, které spoeívají v zavedení:

   ˙vrcholové ontologie (top ontology -- TO), která je chápána jako hierarchie jazykově
   nezávislých konceptů a odráží význačné sémantické distinkce, např. předmět a substance,
   dynamický a statický. Zahrnuje celkem 63 základních sémantických komponent vybraných
   s přihlédnutím k různým sémantickým teoriím a paradigmatům. Výchozí rámcovou představu o
   konstruktech ve vrcholové ontologii poskytuje Tab.1 výše.

   ˙množiny základních konceptů (base concepts -- BC) tvořené 1000 základními koncepty, které jsou
   vybrány na základě obecně sdíleného sémantického rámce, jímž je vrcholová ontologie. Základní
   koncepty reprezentují sdílená jádra jednotlivých sítí slov, na druhé straně se také od sebe
   liší v závislosti na povaze jednotlivých začleněných jazyků. Představují nejdůležitější
   významy převažující v jednotlivých lokálních wordnetech a tvoří jádro multilinguální 
   databáze. Proto jsoutaké propojeny prostřednictvím vrcholové ontologie navržené speciálně
   k tomuto účelu.Aby se dosáhlo maximální shody, wordnety se budují shora dolů tak, že se začíná
   právě množinou  základních konceptů zvolených na základě společného sémantického rámce.

   ˙jazykově nezávislého souboru indexů (interlingual index -- ILI),který představuje hlavní novum
   ve vztahu k výchozímu WordNetu 1.5. ILItvoří nestrukturovaný seznam významů, kde každý
   ILI-záznam se skládá ze synsetu a glosy a specifikuje význam a odkaz ke svému zdroji. Mezi
   jednotlivými ILI-záznamy jako takovými se neudržují žádné vztahy. Budování úplné jazykově
   neutrální ontologie se pokládá za příliš komplexní a časově náročné vzhledem k časovým
   omezením projektu. Hlavní výhodou tohoto designu je, že jazykově specifické vztahy a vztah
   ekvivalence se nemusí uvažovat z hlediska více-víceznačného zobrazení mezi jednotlivými jazyky
   vstupujícími do databáze EuroWordNet.

   ˙vztahů ekvivalence (EQ-relations) -- ty  jsou zavedeny mezi ILI a  jednotlivými sítěmi slov a
   umožňují vztahovat k sobě a porovnávat jednotlivé wordnety. Pomocí vhodných nástrojů (viz níže
   o Polarisu) lze pak automaticky vytvářet projekce z jedné sítě slov do druhé.

   
   3. 2 EuroWordNet-2 -- francouzština, němčina, čeština, estonština

   V návaznosti na EWN-1 hlavními cíli projektu EuroWordNet-2 (Vossen et al, 1998) jsou:

   ˙Definice obecné množiny základních konceptů (BC) pro všechny jazyky EWN-1 a EWN-2: je to
   soubor významů, jež hrají klíčovou roli v jednotlivých wordnetech. Stanovený rozsah = 1000
   synsetů, z toho je 700 substantivních a 300 verbálních.

   ˙Zachycení vnitřně jazykových vztahů (ILR) a vztahů ekvivalence v rámci základních konceptů
   (BC) pro němčinu, francouzštinu, estonštinu a češtinu. Výsledkem budou jádra wordnetů, každé v
   rozsahu 7500 synsetů, z toho je 5 000 substantivních a 2 500 synsetů. Adjektiva a adverbia
   zatím zůstávají stranou, ale s jejich zpracováním se počítá.

   ˙Průběžná aktualizace jazykově nezávislého souboru indexů (ILI) o další významy, které je
   potřeba doplnit pro potřeby toho kterého jazyka a které nebyly v původním Wordnetu 1.5
   obsaženy. Tím se dosáhne i lepší shody mezi jednotlivými sítěmi slov.

   ˙Integrace jednotlivých wordnetů do společné databáze EuroWordNet 2, jejich porovnání a
   ověření vzájemné kompatibility.

   Můžeme tedy shrnout hlavní body, v nichž se EWN odlišuje od Wordnetu 1.5. Jsou to:

   a) multilingualita  databáze EuroWordNet 2 -- je jí dosaženo tím, že se rozlišuje mezi jazykově
   specifickými moduly a odděleným jazykově nezávislým modulem (ILI). Každý z jazykových modulů
   reprezentuje jedinečný jazykově specifický systém vnitřních jazykových vztahů mezi synsety.
   Každý synset rovněž obsahuje vztah ekvivalence  k synsetu v jazykově nezávislém souboru indexů
   (ILI). ILI-synset  neboli ILI-záznam je částí jazykově nezávislého modulu a může být označen
   jako patřící do nějaké domény nebo mající vztah k nějakému jazykově nezávislému vrcholovému
   konceptu. Vrcholové koncepty reprezentují fundamentální sémantické distinkce jako např.
   předmět : substance nebo životnost : neživotnost a další. Synsety tvořící ILI jsou převážně
   odvozeny z WordNetu 1.5, ale budou rozšířeny použitím speciálního aktualizačního programu
   v případě, že specifické významy z jiných jazyků nejsou ve WordNetu 1.5 přítomny a vyžadují
   to. Konečný ILI tak bude nadmnožinou všech konceptů vyskytujících se v různých  wordnetech.
   Skrze ILI  lze mít přístup k  dalším wordnetům tak, abychom našli synsety napojené na stejné
   synsety a verifikovali způsob, jak se k sobě vzájemně vztahují. Bylo navrženo speciální
   multilinguální rozhraní, které umožní srovnávat vztahy ekvivalence a struktury sémantických
   polí napříč  jednotlivými wordnety.

   
   b)Dalším rozdílem je to, že u lexikální databáze EuroWordNet-2 se již počítá se systematickým
   využitím v oblasti strojového  zpracování informací (Information Retrieval), konkrétně
   s multilinguálními aplikacemi pro internetové prohlížeče a pro lexikální zdroje použitelné
   v systémech strojového překladu nové generace.Dále se počítá s dosažením maximální
   kompatibility vzhledem k různým zdrojům a současně i s tím, že ve wordnetech se zachovají
   vztahy specifické pro jednotlivé jazyky.

   
   Obr.1 Architektura databáze EuroWordNet 2

                                                                                      
   Na obr. 1, který ukazuje základní strukturu databáze EUWN 2, lze vidět vrcholový koncept
   Motion (pohyb), který je v tomto případě bezprostředně napojen na ILI-záznam drive (řídit) a
   díky tomu se nepřímo vztahuje také na všechny jazykově specifické koncepty spojené s tímto
   ILI-záznamem. Prostřednictvím vnitřně jazykových vztahů lze daný vrcholový koncept dále dědit
   na všechny další napojené jazykově specifické koncepty. Tak lze budovat jednotlivé wordnety na
   základě společného rámce, v němž se lexikalizace seskupené kolem daných základních konceptů
   mohou od jazyka k jazyku lišit.Ve schématu se také objevuje doménová  hierarchie, která
   obsahuje znalostní struktury, jež seskupují významy v termínech témat nebo scénářů, např. sem
   patří silniční doprava, vzdušná doprava, sporty, nemocnice, restaurace apod., v rámci EWN-1,2
   však zatím není implementována;

   
   4.   Budování české slovní sítě -- českého WordNetu, dosavadní výsledky

   Zatím je k dispozici český WordNet v rozsahu cca 8000 synsetů  (asi 1200 slovesných, zbytek --
   6 800  substantivních. Při jeho vytváření bylo použito následujících zdrojů:

   a) Výkladový slovník češt,  což je pracovní název postupně budované lexikální databáze
   češtiny, která má dnes přibližně 55 000 hesel a 65 000 významů. Od např. SSČ se podstatně liší
   v tom, že je systematicky budována jako důsledně formalizovaná textová databáze (na principech
   podobných SGML) a s důrazem na maximální vnitřní konzistenci.

   b) Lingea Lexicon 2.0 angličtina (Lingea s.r.o, 1998), což je oboustranný elektronický  A-Č a
   Č-A slovník, který v současné podobě obsahuje ve směru Č-A asi 54 000 hesel a 58 000 významů a
   ve směru A-Č zhruba 78 000 hesel a 102 400 významů. Toto dílo mimo jiné zahrnuje i automatické
   morfologické slovníky angličtiny i češtiny a jádro programu LEMMA (Ševeček, 1996), díky nimž
   rozpoznává libovolné české i anglické tvary slov.

   c)Slovník českých synonym, (Pala,.Všianský, 1994), obsahující v aktuální verzi přibližně  20
   000 hesel  a 15 000 synonymických řad (synsetů), jichž bude po potřebných úpravách použito pro
   synsety začleněné do české sítě slov. Existuje v elektronické verzi a rovněž funguje s
   automatickou lemmatizací.

   
   Pomocnými lexikálními zdroji jsou dále:

   i)Seznam českých kolokacíobsahující nyní asi 18 000 položek, byl získán z textového korpusu
   ESO (viz níže), který je budován a udržován na Fakultě informatiky MU. Seznam kolokací byl
   získán statistickými technikami -- výpočtem parametru vzájemné informace (Pala, Rychlý, 1998),
   a je dále tříděn podle četností a dalších syntaktických kritérií -- slovosledu a slovních
   druhů. Seznam kolokací bude v blízké budoucnosti doplněn a rozšířen, jakmile budou spočítány
   parametry vzájemné informace (MI score) i pro aktuální verzi Českého národního korpusu.

   ii) Gramaticky i strukturálně značkovaný korpus DESAM (Pala, Rychlý, Smrž, 1998), který

        vznikl na Fakultě informatiky Masarykovy university v průběhu posledních dvou let jako

       součást Českého národního korpusu. Jeho rozsah je něco přes 1 mil. českých slovních tvarů.

   iii)Textový korpus ESO budovaný na Fakultě informatiky v průběhu r. 1998 z novinových

         publicistických textů (1996-98), jeho aktuální rozsah činí 61 mil. českých slovních
   tvarů,

         jedna jeho verze je lemmatizována.

   
    5. Nástroje

   Je zjevné, že popisovanou síť slov lze sotva budovat manuálně, má-li vzniknout v rozumném
   časovém úseku a s přijatelnými náklady. Při sestavování české sítě se tedy  neobejdeme bez
   použití počítačů a vhodného softwaru, který se vyvíjí v průběhu budování databáze. Při
   vytváření českého wordnetu se nyní používají následující programové nástroje:

   1) Polaris -- specializovaný program založený na technologii FLAIM firmy Novell. Je uzpůsoben
   pro potřeby projektu EuroWordnet 2, umožňuje jednotným způsobem prohlížet současně sítě slov
   všech zúčastněných jazyků. Zobrazuje ve formě stromu hyperonyma i hyponyma zvoleného synsetu,
   v případě hyponym lze zobrazit buď nejbližší následníky, nebo tranzitivně všechna hyponyma.
   Také je možno provádět projekci vybrané množiny synsetů do jiného jazyka a tak konfrontovat
   zastoupení jednotlivých sémantických polí v různých jazycích. Program dále umožňuje importovat
   synsety z přesně definovaného textového formátu, případně exportovat zvolené části databáze do
   textové podoby.

   2) EWN-tools je sada konverzních programů a filtrů umožňující dávkového zpracování dat českého
   wordnetu. V zásadě umožňují následující:

   a)konverzi mezi externím textovým formátem programu Polaris a vlastním textovým (databázovým)
   formátem umožňující efektivnější dávkovou i editační práci s daty,

   d)automatické doplnění možných českých ekvivaletů k vybraným synsetům Wordnetu 1.5,

   g)automatické doplnění vztahů ekvivalence v těch případech, kdy uvedený literál anglického
   slova (resp. anglických slov) toto určuje jednoznačně,

   i)automatické doplňování ILI-indexů podle symbolického označení vztahu ekvivalence libovolným
   prvkem synsetu,

   k)automatické vytváření synsetů českého wordnetu na základě shodnosti ILI-indexů,

   m)třídění synsetů podle slovních druhů a některých dalších gramatických kategorií a opětovné
   slučování a zatřiďování hesel a synsetů.

   3) Lingea Lexicon -- program pro efektivní prohlížení anglicko-českého a česko-anglického
   slovníku firmy Lingea byl doplněn o možnost zobrazování hesel slovníku Wordnet 1.5 včetně
   všech vnitřně jazykových vztahů, zvláště pak hyperonym a hyponym. Dále umožňuje stejným
   způsobem prohlížet i český slovník synonym uvedený výše. Lexicon spolu s programem Polaris
   tvoří základní pomůcky pro interaktivní rozšiřování a zpřesňování databáze české sítě slov.

   4) Lemmatizátor -- nezbytnou pomůckou při práci je i český a anglický lemmatizátor s názvem
   LEMMA (Ševeček, 1996). Ten byl použit a používá se např. při zjišťování vhodných kandidátů pro
   české základní koncepty, pro značkování korpusu ESO (viz výše), ze kterého se získávají
   frekvenční informace o zastoupení jednotlivých hesel v současné češtině nebo informace pro
   výpočet pravděpodobnosti souvýskytu určitých hesel, tj. parametru tzv. vzájemné informace
   (Pala, Rychlý, 1998). Pomocí obrácené funkce lemmatizátoru, tj. generování tvarů, lze rovněž
   zrekonstruovat základní podobu potenciálních českých kolokací.

   
   6. Závěry

   Integrace národních wordnetů vznikajících v rámci EuroWordNetu-1,2 zajistí maximální
   kompatibilitu mezi wordnety  jednotlivých jazyků a umožní opravdovou multilingualitu
   připojením dalších zdrojů do sdílené databáze EuroWordNet. Rozšíření také posílí roli
   technologie EuroWordNetu a jeho datových formátůjako de facto standardu pro reprezentaci
   lexikálně sémantických dat v rámci evropské informační společnosti. Takový standard  nejen
   umožní budoucí inkorporaci dalších jazyků, ale také poskytne jedinečné rozhraní pro lexikálně
   sémantická data softwarovým vývojářům v informačním průmyslu. V delším časovém úseku se
   wordnety pravděpodobně mohou stát páteří jakýchkoli sémantických databází a v blízké
   budoucnosti otevřou dveře celé řadě nových aplikací a služeb v Evropě na mezinárodní i
   transkulturní úrovni. Rozsah lexikální databáze je takový, aby byla kompatibilní se slovníky
   Parole (Parole, 1998). V kombinaci s těmito slovníky bude poskytovat základ pro budování
   kvalitních jazykových technologií pro hlavní evropské jazyky včetně uvedených
   východoevropských.

   Celkově vzato, rozšíření EWN-2 lze tak částečně chápat jako integrační a standardizační úlohu,
   která zvětšuje rozsah a impakt EWN-1 a buduje cestu k vytvoření  sémantických zdrojů pro země
   chystající se vstoupit do EU.

   Český příspěvek k EuroWordNetu je lingvisticky významný v tom, že začleňuje do uvedeného
   výzkumného paradigmatu první slovanský jazyk se všemi jeho typologickými odlišnostmi a dává
   možnost systematického porovnání lexikálních zdrojů češtiny s hlavními představiteli
   románských a germánských jazyků. Navíc tento projekt poskytuje příležitost srovnávat slovní
   zásobu češtiny i s estonštinou, jež je představitelem typologicky odlišné skupiny ugrofinských
   jazyků. Zkušenosti získané při budování české sítě slov už teď ukazují, které jevy v češtině
   nemají v ostatních jazycích přímou obdobu a způsobují při začleňování českého wordnetu do
   celkového rámce jisté komplikace: pochopitelně k nim patří na prvním místě slovesné vidy,
   deminutiva, augmentativa a také odvozeniny vznikající přechylováním a dvojitou prefixací u
   sloves, tj. jevy, pro které v konfrontovaných západoevrops kých jazycích nenacházíme
   odpovídající (pravidelné) lexikalizace.

   Účast na projektu EuroWordNet-1,2 je rovněž vhodnou příležitostí pro konfrontaci
   metodologických postupů využívaných v komputační lexikografii a počítačové lingvistice u nás a
   na západoevropských pracovištích. S uspokojením lze konstatovat, že v dané oblasti nejsme
   nikterak pozadu, naopak, např. naše postupy používané při zpracování morfologie jsou díky
   syntetické povaze češtiny propracovány důkladněji a úplněji.

   
   Poznámka:

   Budování české lexikální databáze typu WordNet je začleněno do projektu Evropské Unie
   EuroWordNet-2 (LE4-8328) a je také podporováno v rámci národního výzkumného projektu VS97028
   (Laboratoř zpracování přirozeného jazyka na Fakultě informatiky MU).

   
   Résumé: Czech Lexical Database of the WordNet Type

   The presented paper deals with the electronic lexical resources in the form of semantic nets
   suitable for natural language processing applications. It consists of the two parts: in the
   first one the basic issues of the WordNet approach to building the lexical resources are
   presented, and the main principles of psycholexicology are outlined following G. A. Miller`s
   (1993) conception, on which the structure and organization of WordNet 1.5 is based.

   In the second part of the paper we concentrate on the extension of  this research and describe
   EuroWordNet-1,2,  a multilingual lexical database (and also EU research project of the same
   name) involving 8 European languages, particularly (apart from English) Dutch, Spanish,
   Italian, German, French, Czech and Estonian. The techniques of building Czech WordNet are
   demonstrated together with the main resources and tools. In the end the results are given: the
   first version of Czech WordNet being developed and implemented under EuroWordNet database
   Polaris contains now slightly more than 8000 synsets, i.e. approximately 6800 noun synsets and
   1200 verbal ones.

    
Bibliografie

1.Bever, T.G.: Rosenbaum, P. S., Some Lexical Structures and Their Empirical Validity, in Jacobs and
       Rosenbaum (eds.), Readings in  English Transformational Grammar, Waltham, Mass,  1970.

 2.Briscoe, E.: Lexical Issues in Natural Language Processing, in Klein and Veltman (eds.), Natural
      Language and Speech, Proceedings of the Symposium on Natural Language and Speech, 39-68,
                                   Springer-Verlag, Berlin, 1991.

   3.Collins, A. M., Quillian, M. R.: Retrieval Time from Semantic Memory, Journal of Verbal
   Behavior and Verbal Learning 8, 1969, 240-247.

   4.Chomsky, N., Miller, G. A.: Handbook of Mathematical Psychology, kap. 11, 12, 13, 1967.

   5.Grishman R., Macleod, C., Myers, A.: COMLEX syntax: Building a Computational Lexicon,
   Proceedings of Coling'94, 1994.

   6.Ide, N., and Véronis, J.: 1998 Introduction to the Special Issue on Word Sense
   Disambiguation: The State of Art, Computational Linguistics, March 98, vol. 24, No.1

   7. Lenat, D. B., Guha, R. V.: Building Large Knowledge-based Systems, Addison Wesley,1990.

   8.Levin, B.: Towards a Lexical Organization of English Verbs, Ms., Evanston: Northwestern
   University, 1989.

   9.Miller G. A. et al.: Five Papers on WN, 1990, revised version, August 1993.

   10.New Oxford Dictionary of English (NODE), Oxford University Press, Oxford, 1998

   11.Pala, K., Rychlý, P.: Mutual Information in Corpus ESO, Proceedings of TSD'98, Brno, 1998,
   s.49-53

   12.Pala, K., Rychlý, P., Smrž, P.: Annotated corpus for Czech -- DESAM, Proceedings of
   Sofsem'97, Springer Verlag, 1997.

   14.Pala, K., Všianský, J.: Slovník českých synonym, NLN, Praha 1994.

   15.PAROLE, projekt EU orientovaný na budování jednotných lexikálních zdrojů pro hlavní
   evropské jazyky, Pisa, Sheffield, Amsterdam,1998.

   16.Quillian, M., R.: Semantic Memory, in Minsky (eds.) Semantic Information Processing,
   Cambridge, Mass., MIT Press, 1968.

   17.Roget`s International Thesaurus, 4^th ed. by R. L. Chapman, New York, Harper and Row, 1977.

   19.Slovník spisovné češtiny, Academia, 2.vyd. 1994, 3. vyd. CD ROM, Leda 1998.

   22.Ševeček, P.: LEMMA, morfologický analyzátor a lemmatizátor pro češtinu, program v jazyce C,
   Brno 1995-6.

   24.Lingea Lexicon 2.0 angličtina,  Lingea s.r.o., Brno 1998.

   25.Touretzky, D.S.: The Mathematics of  Inheritance Systems, Los Altos, Calif.,1986.

   26.Vossen, P. et al.: EuroWordNet-2: Extending EuroWordNet with Other Languages, Telematics
   Programme, Technical Report No 1, 1998

   27.P. Vossen et al.: Introduction to EuroWordNet, v tisku 1999.

   
   Karel Pala

   Katedra informačních technologií

   Fakulta informatiky Masarykovy university

   Botanická 68a

   602 00 Brno

   pala@fi.muni.cz

   
   Pavel Ševeček

   Lingea, s.r.o

   Husova 8a