Fakulta informatiky Masarykovy university
Počítačové zpracování přirozeného
jazyka
I.K., Karel Pala
Brno, září 2000
Obsah
0.1 Předmluva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
0.2 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
0.2.1 Roviny analýzy jazyka . . . . . . . . . . . . . . . . . . . . . . . . 8
0.2.2 Reprezentace a porozumění . . . . . . . . . . . . . . . . . . . . . 10
0.3 Data pro zpracování přirozeného jazyka – korpusy . . . . . . . . . . . . . 15
0.3.1 Jak se budují korpusy? . . . . . . . . . . . . . . . . . . . . . . . . 16
0.3.2 Typy korpusů a standardizace . . . . . . . . . . . . . . . . . . . . 17
0.3.3 Budování korpusu – sběr dat . . . . . . . . . . . . . . . . . . . . . 18
0.3.4 Vnitřní struktura korpusu . . . . . . . . . . . . . . . . . . . . . . 19
0.3.5 Korpusové nástroje . . . . . . . . . . . . . . . . . . . . . . . . . . 20
0.3.6 Značkování (anotování) korpusů . . . . . . . . . . . . . . . . . . . 21
0.3.7 Značkování pro češtinu – lemma, ajka . . . . . . . . . . . . . . 22
0.3.8 Morfologické (gramatické) značkování . . . . . . . . . . . . . . . . 22
0.3.9 Syntaktické značkování . . . . . . . . . . . . . . . . . . . . . . . . 23
0.3.10 Situace v češtině . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
0.3.11 Struktura ČNK . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
0.4 Reprezentace morfologických struktur (pro češtinu) . . . . . . . . . . . . 25
0.4.1 Přehled notace pro českou morfologii a syntax . . . . . . . . . . . 27
0.4.2 Algoritmický popis (české) morfologie . . . . . . . . . . . . . . . . 32
0.5 Reprezentace syntaktických struktur – gramatiky . . . . . . . . . . . . . 34
0.5.1 Gramatiky pro popis PJ . . . . . . . . . . . . . . . . . . . . . . . 34
0.5.2 Gramatika jako reprezentace znalosti . . . . . . . . . . . . . . . . 35
0.5.3 Formální gramatiky . . . . . . . . . . . . . . . . . . . . . . . . . . 36
0.5.4 Typy gramatik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1
0.5.5 Několik slov o PROLOGu . . . . . . . . . . . . . . . . . . . . . . 42
0.5.6 Gramatiky v PROLOGU . . . . . . . . . . . . . . . . . . . . . . . 42
0.5.7 Nekontextové gramatiky a DC gramatiky . . . . . . . . . . . . . . 42
0.5.8 Valenční rámce a jejich začlenění do formálních gramatik . . . . . 44
0.5.9 Vztah mezi slovesnými významy a valencemi . . . . . . . . . . . . 49
0.5.10 Desambiguace – metody . . . . . . . . . . . . . . . . . . . . . . . 56
0.6 Reprezentace významu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
0.6.1 Lexikální význam – slova a slovní spojení . . . . . . . . . . . . . . 56
0.6.2 Významy slov a slovníky . . . . . . . . . . . . . . . . . . . . . . . 62
0.6.3 Lexikální databáze . . . . . . . . . . . . . . . . . . . . . . . . . . 63
0.6.4 WordNet a sémantické sítě . . . . . . . . . . . . . . . . . . . . . . 63
0.6.5 Lexikální databáze EuroWordNet-1 a 2 . . . . . . . . . . . . . . . 68
0.6.6 Budování české slovní sítě – českého WordNetu, dosavadní výsledky 71
0.6.7 Nástroje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
0.7 Sémantické reprezentace vět PJ . . . . . . . . . . . . . . . . . . . . . . . 74
0.7.1 Formální aparát pro SR – charakteristika TIL . . . . . . . . . . . 75
0.7.2 Formální aparát – TIL a teorie typů . . . . . . . . . . . . . . . . 78
0.7.3 Sémantická analýza výrazů PJ . . . . . . . . . . . . . . . . . . . . 78
0.7.4 Nástin algoritmu sémantické analýzy . . . . . . . . . . . . . . . . 80
0.7.5 Poznámky k sémantické roli jmenných skupin . . . . . . . . . . . 83
0.7.6 Referenční role funkční perspektivy větné . . . . . . . . . . . . . . 85
0.8 Pragmatická rovina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
0.8.1 Interní pragmatika . . . . . . . . . . . . . . . . . . . . . . . . . . 88
0.8.2 Externí pragmatika . . . . . . . . . . . . . . . . . . . . . . . . . . 89
0.9 Dialogové systémy, inference . . . . . . . . . . . . . . . . . . . . . . . . . 91
0.9.1 Analýza promluvy, promluvové objekty . . . . . . . . . . . . . . . 91
0.9.2 Anafora, anaforické vztahy . . . . . . . . . . . . . . . . . . . . . . 91
0.9.3 Odkazovací výrazy, rozpoznávání antecedentů . . . . . . . . . . . 91
0.9.4 Historie promluvy a promluvový zásobník . . . . . . . . . . . . . 91
0.9.5 Segmenty v promluvě . . . . . . . . . . . . . . . . . . . . . . . . . 91
0.10 Závěr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
2
0.1 Předmluva
Předkládaná práce představuje pokus shrnout výzkumy v oblasti počítačového zpracování
češtiny, které probíhaly od počátku 70. let na katedře českého jazyka FF UJEP
v Brně, pokračovaly v Ústavu českého jazyka FF MU v průběhu osmdesátých (počínaje
již 1978, viz Machová, Havel, Pala, 1978) a na počátku let devadesátých. Od r. 1995 se
výzkum přesunul na Fakultu informatiky a v současnosti se soustřeďuje v Laboratoři
zpracování přirozeného jazyka, která vznikla na Fakultě informatiky v r. 1997. I když
jsme se této problematice věnovali systematicky již dříve: první naše experimenty s automatickou
syntaktickou analýzou češtiny se uskutečnily v r. 1977 v OVC VUT na počítači
TESLA 200 a poté ve spolupráci s ÚVT UJEP na minipočítači PDP 11. K zásadnímu
obratu ovšem došlo až v r. 1988, kdy se po překonání tehdy četných a zcela nesmyslných
administrativních překážek podařilo na katedru českého jazyka FF UJEP získat osobní
počítač COMMODORE PC 40 AT. Byl to dokonce první osobní počítač na celé tehdejší
FF UJEP MU, a teprve díky jeho instalování jsme v našich výzkumech mohli přejít
od teoretických popisů jazyka k jejich ověřování a tedy i k získávání výsledků praktické
povahy a materiálově většího rozsahu.
V experimentech na osobním počítači jsme využili zkušeností získaných předtím
na minipočítači PDP 11 v ÚVT UJEP a svou pozornost jsme zaměřili na popis české
syntaxe s využitím prologu a aparátu dc gramatik, i když naše předchozí experimenty
na minipočítači PDP 11 se opíraly o programový systém wander (Benešovský, Šmídek,
1984). Téměř souběžně se pak začaly práce v oblasti morfologie (Osolsobě, 1988), jejichž
výsledkem byl integrovaný morfologicko-syntaktický analyzátor klara, který po
programátorské stránce realizoval S. Franc (Pala, Osolsobě, Franc, 1987). To však byl teprve
začátek ÍEHĚuŘĚEÍ„ – v r. 1988 se nám podařilo získat elektronickou verzi glosáře
Slovníku spisovného jazyka českého (SSJČ, 1960) pořízenou brněnskými křížovkáři a
čítající cca 192 000 položek. Teprve tato data umožnila navrhnout a vytvořit relativně
úplný algoritmický popis české morfologie obsahující v současnosti téměř 1200 ohýbacích
vzorů pro substantiva, adjektiva a zájmena, číslovky, slovesa i neohebné slovní druhy
(Osolsobě, 1990, 1995, Ševeček, 1995, Sedláček, 1999).
Algoritmický popis české morfologie se pak stal východiskem a podkladem pro
řadu konkrétních programových produktů: automatického korektoru (Franc, dipl. práce,
1990), prvního morfologického analyzátoru xantipa, na něj navazujícího a vylepšeného
morfologického slovníku, analyzátoru, generátoru a také lemmatizátoru lemma (Ševeček,
1992, 1995) a postupně připravovaného syntaktického analyzátoru (Pala, 1992). Práce na
dobudování morfologické analýzy pokračovaly a vedly k vytvoření nového morfologického
analyzátoru a lemmatizátoru ajka (Sedláček, 1999), v němž je proti programu lemma
odstraněna řada chyb ve vzorech a který díky své otevřenější koncepci umožňuje v sobě
postupně integrovat řadu pravidelných slovotvorných procesů a také vazby na lexikální
informace. Nyní je tedy na FI MU pro češtinu k dispozici kvalitní morfologický modul
(vedle komerčně orientovaného programu Lemma, jehož autorem je P. Ševeček, viz výše,
3
a morfologického analyzátoru vytvořeného J. Hajičem, viz Hajič 2000), který se využívá
několika způsoby: jako lemmatizátor, morfologický značkovač, a zejména jako první stupeň
syntakticko-sémantického analyzátoru (Horák, Smrž, 2000, Hadacz, 2000, Žáčková,
2000). S jeho pozdějším využitím se také počítá v syntéze řeči, konkrétně v systému
demosthenes a jemu podobných systémech pro převod textu na řeč (TTS) (Kopeček,
Kopeček, Pala 2000). Morfologický modul ajka obsahuje nyní cca 150 000 českých
kmenů a 1200 vzorů a je dále doplňován z korpusových zdrojů.
Je tedy vcelku přirozené, že materiálově i implementačně zatím nejlépe zpracovaná
část jazykového systému češtiny zahrnuje především rovinu morfologickou, zatímco
podobné zvládnutí roviny syntaktické si ještě vyžádá nemalého úsilí a dalších empirických
pozorování, která v současném výzkumu dosud chybí, např. tu máme na mysli
širší a systematické zpracování valence českých sloves adjektiv, substantiv včetně dalších
okruhů otázek. V tomto bodě se však situace výrazně mění k lepšímu: nedávno jsme
dokončili výchozí valenční slovník českých sloves, který po doplnění čítá téměř 15 000
položek (Pala, Ševeček, 1996).
Vedle toho je tu i příznivá okolnost, že díky rozběhnuvším se pracím na Českém
národním korpusu (ČNK, buduje se v Ústavu českého národního korpusu na FF UK)
je již k dispozici základní část Českého národního korpusu, čítající v současnosti cca
200 mil. českých slovních tvarů. Dalším pozitivním faktem je, že i na Fakultě informatiky
vzniklo od r. 1996 několik českých korpusů – jsou zde instalovány korpusy DESAM
(plně gramaticky značkovaný a čítající 1 mil. slovních tvarů), korpus ESO v rozsahu 160
mil. slovních tvarů a korpus FIT obsahující texty z oblasti informačních technologií. Díky
této skutečnosti se podmínky pro práci s jazykovým materiálem podstatně a příznivě
mění: potřebná zkoumání mohou být spolehlivější a hlavně dostáváme možnost zjišťovat
fakta, která bychom při ručním zpracování nikdy získat nemohli. Důležité je i to,
že práce na korpusu a zejména na jeho značkování (tagging) jsou spojeny s budováním
programových nástrojů, které se v určitém ohledu překrývají s dosavadním základním
výzkumem v oblasti morfologie a syntaxe, směřují však k jedinému cíli.
U roviny sémantické jde především o nalezení co nejexpresívnějšího formálního
(logického) aparátu, který by mohl sloužit jako spolehlivý nositel sémantických reprezentací
vět přirozeného jazyka (češtiny). Opírajíce se o dřívější společné práce s P. Maternou
a A. Svobodou, dáváme přednost aparátu transparentní intenzionální logiky (til, Tichý,
1989), ovšem právě zde stojí před námi ještě značná práce empirická. Její hlavní část
podle našeho přesvědčení spočívá ve vytvoření vhodného sémantického slovníku, který
bude moci vhodně integrovat slovníkové informace morfologické a syntaktické s logickými
(o logických typech) a využívat jich v algoritmu pro budování sémantických reprezentací
(českých) vět (Hadacz, 1998, Horák, 1998). V této souvislosti můžeme již nyní počítat
s českou elektronickou lexikální databází typu WordNet (Pala, Ševeček, 1999), jež je
budována na synonymických řadách a systematicky zachycuje významové vztahy mezi
lexikálními jednotkami, konkrétně vztahy synonymie, antonymie, hyponymie, hyperonymie,
meronymie, holonymie a další.
4
V této souvislosti bych rád vyjádřil dík K. Osolsobě, S. Francovi a P. Ševečkovi
za obětavou spolupráci, která nakonec vedla do značné míry k úplnému zpracování
velkého množství empirických dat. Jde o nesčetné a nepočítané hodiny strávené před
obrazovkou, bez nichž by nebylo možno uvedených výsledků dosáhnout. Za práci na
budování korpusů instalovaných nyní na Fakultě informatiky MU je potřeba poděkovat
P. Rychlému, P. Smržovi, M. Veberovi, A. Horákovi a E. Žáčkové a R. Sedláčkovi z Laboratoře
zpracování přirozeného jazyka na FI MU. Za četné připomínky k práci vděčím
též prof. dr. P. Maternovi, chyby a nepřesné formulace jsou moje.
Děkuji také dřívějším pracovníkům Ústavu výpočetní techniky Masarykovy univerzity
dr. M. Benešovskému, CSc., dr. M. Šmídkovi, CSc. a dr. J. Gerbrichovi za pomoc
při zvládání systému wander (Benešovský, Šmídek, 1984) a operačního systému počítače
PDP 11, dále pak doc. L. Matyskovi a D. Tomanovi za přispění při práci s prologem
a v neposlední řadě také doc. dr. V. Račanskému, řediteli ÚVT MU, za podporu
v oblasti technického vybavení i oblastech jiných.
V neposlední řadě bych rád konstatoval, že za řadu východisek a konkrétních podnětů
vděčím prof. dr. P. Sgallovi, DrSc. jako svému původnímu školiteli1
. Za podstatná
pokládám společná metodologická východiska a zejména pak potřebu nespokojovat se
s obraznými, ne zcela určitými, a tedy ne plně kontrolovatelnými formulacemi, pracovat
s pojmy deﬁnovanými na základě operativních (testovatelných) kritérií a uváděnými do
jasných, explicitně formulovaných vzájemných vztahů a konečně nezůstávat u popisu
jednotlivých skupin jevů, ale snažit se o zobecnění (Sgall et al, 1985).
Vývoj v oblasti počítačového zpracování přirozeného jazyka se v poslední době
zrychluje: při vzniku tohoto textu v r.1993 jsme ještě prakticky neuvažovali o možnosti
bezprostředního propojení počítačového zpracování českých textů s podobným počítačovým
zpracováním mluveného jazyka, tj. se syntézou a rozpoznáváním mluvené češtiny.
Díky příznivému vývoji na Fakultě informatiky, na které začal od r.1996 pracovat
doc.Ivan Kopeček orientující se na syntézu a rozpoznávání mluvené češtiny, lze nyní
navázat na sebe oba dříve samostatné směry výzkumu a prezentovat je již jako zřetelně
integrující se celek. I když kapitoly ... jsou převážně věnovány ... a kapitoly ..., může
čtenář v kap. ... najít popis vzájemných vazeb a souvislostí.
0.2 Úvod
Předmětem naší pozornosti je počítačové zpracování přirozeného jazyka (dále PJ).
Uveďme několik dobrých důvodů, pro které si PJ zaslouží pozornost:
1
V této souvislosti je třeba uvést, že když jsem v r. 1971-72 dokončoval svou kandidátskou práci, byl
mým řádným školitelem prof. dr. P. Sgall. V rámci právě začínající normalizace mi tehdy byl jako školitel
odňat a místo něho mi byl přidělen doc. dr. J. Popela – i když nemám k dispozici detailní podklady, není
obtížné dovodit, že se tak nepochybně stalo z iniciativy tehdejšího kompetentního proděkana (děkana)
pro vědu na FF UK a možná i její vědecké rady
5
• jazykové chování představuje jeden z fundamentálních aspektů lidského chování,
• PJ je podstatnou složkou našeho života jako nástroj komunikace,
• jazykové texty slouží jako nosiče pro předávání znalostí z generace na generaci.
Cílem našeho úsilí v této souvislosti je popisovat strukturu přirozeného jazyka tak,
abychom na tomto popisu mohli budovat formální (počítačové) modely jazyka, které
by vedly k počítačovým programům schopným řešit jednotlivé úlohy zahrnující porozumění
přirozenému jazyku. Na konci naší snahy jsou tedy realistické modely takových
činností, jako jsou psaní, čtení, mluvení, poslouchání a vedení dialogu a další.
Přirozený jazyk se studuje a zkoumá v řadě disciplin, mezi něž patří:
• lingvistika – má své vlastní metody a člení se dále na tradiční, klasickou a na metodologicky
pokročilejší: strukturní či formální (algebraickou, generativní) opírající se
postupy z oblasti teorie formálních gramatik a jazyků (Chomsky, 1956). Zkoumá
vlastní strukturu jazyka, např. prvky, z nichž se skládají slova, dále, jak se slova
kombinují do vět, proč některé věty mají určitý význam a jiné nikoli,
• psychologie, resp.psycholingvistika – studuje procesy jazykové produkce a porozumění
experimentálními technikami, jak lidé rozpoznávají jednotlivé větné konstrukce
a jak reagují na významy vět,
• ﬁlosoﬁe a logika – zkoumá, jak slova mohou něco označovat a jak pomocí jazykových
výrazů lze identiﬁkovat objekty v universu promluvy. Zajímá se též o to, co jsou
víry, přesvědčení a komunikační intence a jak se tyto kognitivní schopnosti vztahují
k jazyku,
• počítačová lingvistika – klade si za cíl budovat komputační teorii jazyka, na rozdíl
od klasické lingvistiky se opírá o pojmy algoritmus, datová struktura a další
– vycházející z počítačové vědy (Computer Science). V počítačové lingvistice se
systematicky usiluje o využití poznatků, získaných v jiných oblastech výzkumu,
mj. v oblasti AI.
• uvedené samostatné discipliny lze také zkombinovat do jednoho většího celku a
mluvit pak o kognitivní vědě. Na některých výzkumných pracovištích (nejčastěji
v USA) se můžeme setkat s tímto přístupem.
Je tu přinejmenším dvojí motivace budovat počítačové modely jazyka:
6
• výzkumná, vědecká, úsilí o lepší pochopení toho, jak funguje přirozený jazyk a
jazyková komunikace. Klasické přístupy na to již nestačí, protože ve své tradiční
podobě pracují jen s omezenými daty, která lze ještě zpracovat ručně. Proto se
nyní pracuje s textovými korpusy obsahujícími stovky miliónů jednotek (obvykle
slov). Vznikají programy, které mohou fungovat i jako modely jazykového chování.
• technologická, praktická – počítačové techniky zpracování přirozeného jazyka mohou
na druhé straně přinést další revoluci v použití počítačů. V tomto ohledu
vzniká nová disciplina – jazykové inženýrství (language engineering), která představuje
kombinaci lingvistiky a počítačové vědy a zaměřuje se hlavně na tvorbu
programového vybavení pro zpracování PJ.
• potřeba dvoucestné komunikace mezi člověkem a počítačem. Dosavadní komunikační
schéma mezi člověkem a strojem je jednocestné a nepřipouští zatím komunikaci
lidského typu. Komunikačně bohatší rozhraní v PJ umožní přístup ke složitým
počítačovým systémům i neprogramátorům. Systémy s PJ rozhraním by měly být
pružnější a inteligentnější než ty dosavadní. Nemusí to nutně být přesné modely
lidského uživatele jazyka, hlavním požadavkem ovšem je, aby rozumně fungovaly
i pro počítačové nespecialisty. Úspěch v tomto bodě bude mít i rozsáhlé komerční
důsledky.
V tomto textu se budeme pohybovat na půli cesty mezi oběma uvedenými možnostmi.
Vycházíme přitom z toho, že PJ je natolik složitý, že ad hoc přístupy neopírající se o
dobře speciﬁkované teorie nemají naději na dlouhodobý a systematický úspěch. Často
se však nevyhneme kompromisním řešením, protože naše skutečné znalosti o PJ nejsou
vždy na takové úrovni, aby už teď dovolovaly spolehlivě budovat kognitivně přesné a
adekvátní modely PJ.
Představu o dané problematice si lze poměrně dobře udělat, když se podíváme
na jednotlivé aplikace v oblasti PJ, které se postupně objevují na softwarovém trhu.
Celkem zřetelně se vydělují dvě skupiny:
1. programy pro zpracování textů v PJ – sem patří
– jazyková podpora na úrovni textových procesorů, tj. korektory překlepů (spell
checkers), gramatické korektory (grammar checkers), dělicí programy,
– vyhledávací (fulltextové) programy založené na lemmatizaci (tj. morfologické
analýze),
– programy pro strojový překlad z jednoho jazyka do druhého, obvykle jen pro
určité typy textů a experimentální povahy, kvalita překladu nebývá vysoká,
– prohlížecí programy (browsers) využívající jednoduché morfologické analýzy a
klíčových slov, prohlížení e-mailu, dokumentů na WWW.
2. dialogově orientované aplikace, např. dotazovací systémy pro přístup k datovým
bázím, automatizované systémy pro komunikaci (i hlasovou, telefonem) s klienty
7
v bankách nebo knihovnách,
– informační systémy na nádražích a letištích,
– hlasové ovládání počítačů – operační systémy typu Merlin apod., systémy
převádějící text na mluvenou řeč (Text-to-Speech Systems, TTS), u nás
např. Demosthenes (Kopeček, 1999) a též AUDIS (Kopeček, 1998), dále sem patří
systémy pro rozpoznávání mluvené řeči (Automatic Speech Recognition Systems,
ASRS) s aplikacemi v podobě diktovacích systémů typu Via Voice (IBM) či
Dragon (ﬁrma Lernout & Hauspie),
– expertní systémy různého typu, např. diagnostické systémy pro lékaře (Mycin),
automechaniky aj., databázové systémy s rozhraním umožňujícím klást dotazy
v PJ,
3. atraktivní oblastí pro textově orientované systémy je porozumění příběhům (story
understanding). Do tohoto okruhu patří systémy, které dovedou porozumět novinovým
článkům a vytvářet z nich souhrny a abstrakty. V USA se každoročně koná
testování těchto systémů ve formě soutěže (www.).
Poznámka
Je důležité rozlišit problematiku strojového rozpoznávání řeči (speech recognition) a
porozumění PJ. Systém pro rozpoznávání řeči nemusí ještě zahrnovat skutečné porozumění
přirozenému jazyku. Např. hlasově ovládané počítače, které se nyní objevují na
trhu, nezahrnují porozumění PJ v obecném (lidském) smyslu. Rozpoznávaná slova fungují
jen jako příkazy (signály) pro provedení příslušné operace, ale nejde o porozumění
ve smyslu typické dvoucestné komunikace mezi lidmi. To dovedou do jisté míry systémy
pro porozumění PJ, které by pak mohly mít jako vstup právě výstup z rozpoznávače
řeči.
0.2.1 Roviny analýzy jazyka
Systémy pro zpracování PJ se neobejdou bez potřebných znalostí o vlastní struktuře
jazyka, musí v nich být zabudovány znalosti o tom:
• – co jsou slova,
• – jak se slova kombinují do vět,
• – co slova označují, jaké jsou jejich významy,
• – jak se význam věty skládá z významů slov.
To však ještě nestačí – inteligentní jazykové chování uživatele jazyka – člověka (dále
UJ) se opírá o obecnou (encyklopedickou) znalost světa a jeho inferenční schopnosti a
8
také o znalost komunikační situace a komunikačního kontextu a pravidel, podle nichž se
komunikační procesy řídí.
I když to, co jsme právě uvedli, vypadá na první pohled celkem jednoduše a samozřejmě,
skutečnost je podstatně komplikovanější. Znalosti relevantní pro počítačové zpracování
přirozeného jazyka (dále ZPJ) mají komplikovanou hierarchickou povahu, proto je obvyklé
mluvit v této souvislosti o jednotlivých rovinách popisu, tj. o rovině:
1. fonetické a fonologické – postihuje vztahy mezi zvuky a dalšími jednotkami
(např. slabikami), z nichž se slova tvoří. Rozlišují se tu fonémy, což jsou nejmenší
jednotky jazyka schopné rozlišit význam (např. m a t ve slovech máme a máte nebo
m a n v tomu a tonu. Tyto a další znalosti jsou podstatné pro systémy založené
na rozpoznávání mluvené řeči,
2. morfologické – týká se toho, jak se slova skládají ze základnějších jednotek nazývaných
morfémy. Jsou to nejmenší jednotky jazyka, které mohou nést význam. To
lze demonstrovat na příkladech segmentace výrazů jako nej-ne-u-věř-i-t-eln-ějšího,
uč-e-n-í, v nichž rozlišujeme kořeny, kmeny, kmenotvorné přípony, preﬁxy, suﬁxy,
koncovky. Ve ﬂektivních jazycích, jako je čeština, jsou morfologické vztahy bohatě
rozvinuty – vyznačují se komplikovanou deklinací (skloňováním) a konjugací (časováním).
Ohýbání slov je potřeba algoritmicky popsat a na tomto základě vytvořit
vhodné analyzátory a generátory tvarů.
3. syntaktické – vysvětluje, jak lze spojovat slova tak, aby z nich vznikaly gramaticky
správné věty, z jakých prvků, složek se skládají věty a jaké mezi nimi existují
vztahy a jak lze tyto vztahy formálně reprezentovat. Na základě těchto znalostí
je pak možno budovat syntaktické analyzátory a generátory, což jsou v konečné
fázi počítačové programy, které na vstupu přijímají věty přirozeného jazyka a na
výstupu poskytují jejich reprezentace nejčastěji v podobě stromových struktur
(grafů-stromů).
4. sémantické – popisuje, co jazykové výrazy (slova a jejich spojení, kolokace) znamenají
a jak se jejich významy kombinují tak, aby tvořily smysluplné (sémanticky
dobře utvořené) věty. V tomto bodě uvažujeme významy vět nezávisle na kontextu.
I zde celkově usilujeme o vytvoření sémantických analyzátorů, tj. v konečném
úhrnu programů, které vstupním větám přirozeného jazyka budou přiřazovat jejich
sémantické reprezentace mající podobu symbolického formálního zápisu, např. to
mohou být formule v predikátovém kalkulu 1.řádu nebo lépe formule lambda kalkulu,
jestliže se rozhodneme použít transparentní intenzionální logiky (TIL, Tichý,
1989, Materna, 1999).
5. pragmatické – tj., jak se vět užívá v různých komunikačních situacích (sdělení, rozkaz,
otázka, přání, slib, prohlášení – deklarace nezávislosti) a jak užití vět ovlivňuje
interpretaci jejich významu.
9
6. kontextové, promluvové – zachycují, jak bezprostředně předcházející věty ovlivňují
sémantickou interpretaci vět následujících, např. v promluvě Naši si koupili dům a
auto. To vedlo k velkým nepříjemnostem.
7. patří sem i znalosti o světě, které zahrnují obecné encyklopedické znalosti, jimiž
uživatel jazyka musí disponovat, aby byl schopen vést normální komunikaci. Ve
skutečnosti jde o složitý komplex znalostí, k nimž se řadí též znalosti o komunikačních
záměrech, plánech a vírách ostatních uživatelů jazyka a v neposlední řadě
i znalosti a soubory inferenčních pravidel označované jako zásady zdravého rozumu
(common sense).
8. Vyčlenit je potřeba i jazykové metaznalosti, které propojují znalosti o světě se znalostí
daného přirozeného jazyka.
Uvedený výčet se jeví jako základní rámec znalostí potřebných pro zpracování
PJ: algoritmy pro ZPJ, které si činí nárok na jistou míru obecnosti, musí zahrnovat
kombinace znalostí současně z několika rovin, takže míra jejich složitosti je pak vysoká.
Pro další výklad se přidržíme naznačeného rámce.
0.2.2 Reprezentace a porozumění
Klíčová složka porozumění spočívá podle našeho názoru ve vybudování reprezentace významu
vět a textů. K tomu je však třeba deﬁnovat, co je to reprezentace významu.
První – přirozenou – možností, která se nabízí, je: věty samy by mohly sloužit
jako reprezentace svého významu. Proti tomu stojí argument, že slova, jazykové výrazy
jsou víceznačné, mají více významů (smyslů), viz např. výrazy jako kopu, je, červená a
také výrazy jako hlava, strana, stát, dostat, mít aj. Tato víceznačnost velmi komplikuje
možnost vyvozovat formálně vhodné inference, bez nichž se model porozumění neobejde.
Pro UJ – lidi nepředstavuje zjednoznačňování, desambiguace jazykových výrazů
obtížný problém, děláme ji automaticky, podvědomě. Lidští UJ obvykle neuvažují zvlášť
každý jednotlivý význam, když rozumí větám, když je chápou. Algoritmický popis porozumění,
program na něm založený to však dělat musí, musí být explicitní.
Tato úvaha vede k závěru, že pro reprezentaci významu potřebujeme jiné prostředky
než přirozený jazyk. Co se tedy nabízí? Dosavadní výzkumy se shodují v tom,
že vhodným nástrojem pro reprezentaci významu má být nějaký formální (matematický,
logický) jazyk, tj. symbolický jazyk, jehož základními prvky jsou atomické symboly a na
jehož výrazy lze aplikovat princip kompozicionality, který říká, že význam věty, jazykového
výrazu lze přirozeným způsobem složit z jeho složek.
Existuje obecná shoda v tom, že vhodný jazyk pro sémantickou reprezentaci vět
a výrazů přirozeného jazyka by měl mít následující vlastnosti:
10
1. reprezentace významu musí být přesná a jednoznačná, tj. pro každý samostatný
význam musí také existovat samostatná reprezentace, tedy samostatná formule,
ev. term či podformule.
2. reprezentace by měla zachycovat intuitivní strukturu vět (výrazů) přirozeného jazyka.
Věty podobné svou strukturou by měly být reprezentovány strukturně podobnými
reprezentacemi.
3. významy dvou vět, které jsou vzájemnými parafrázemi, tj. mezi nimiž existuje vztah
synonymie (antonymie), by také měly být k sobě vztaženy prostřednictvím svých
reprezentací.
4. reprezentace významu by měla být pokud možno nezávislá na daném přirozeném
jazyce.
Na tomto místě je třeba zdůraznit, že pro jednotlivé výše uvedené úrovně je díky
jejich odlišnosti počítat s různými reprezentacemi, jinými slovy, každá rovina má svou
vlastní reprezentaci, tj. svou vlastní formální notaci pro zachycení příslušné reprezentace.
Rozumný NLP systém musí být schopen tyto reprezentace propojit a navázat na sebe
v jednom složitém formálním systému.
V dalším se pokusíme naznačit, jak formálními prostředky reprezentovat:
• morfologické struktury: jsou konstituovány slovy a jejich součástmi – morfémy,
nejmenšími jednotkami jazyka, které jsou schopny nést význam. U systémů pro
porozumění potřebujeme rozpoznat morfémovou strukturu slov(a) nebo, což je prakticky
totéž, provádět morfologickou analýzu slov ve vstupním textu, ev. jejich syntézu,
tj. generovat všechny přípustné slovní tvary. Lze to dobře ilustrovat na českém
tvaru jako nej-ne-po-chop-i-t-eln-ějš-ího: rozpoznání (segmentace) jeho morfémové
struktury spočívá v identiﬁkování kořene, který obvykle deﬁnujeme jako morfém
nesoucí lexikální význam, a dalších morfémů – preﬁxů a suﬁxů, které obvykle nesou
významy gramatické – tvarotvorné, slovotvorné nebo některé modiﬁkující významy
lexikální, např. -eln- – ”ten, který je možno...”. V jazyce, jako je čeština, je kombinatorika
morfémů do značné míry pravidelná, a proto i systematicky popsatelná
souborem formálních pravidel, která z gramatik známe jako vzory, a to vzory deklinační
postihující ohýbání substantiv, konjugační popisující ohýbání sloves a ostatní
– zachycující třídy neohebných slov – i pro ně se vyplatí zavést jejich vlastní vzory.
Hledáme-li formální prostředky, které umožňují vhodně (i z hlediska implementačního)
reprezentovat morfémové struktury českých slov, ukazuje se, že k tomuto
účelu mohou dobře složit některé typy konečných automatů a trie struktury – tohoto
přístupu je použito v morfologickém analyzátoru a lemmatizátoru pro češtinu
lemma (Ševeček, 1995) a zejména v morfologickém programu ajka podrobně popsaném
v práci (Sedláček, 1999). Detailněji se této problematice budeme věnovat
níže.
11
• syntaktické struktury (vět): postihují vztahy mezi prvky (slovy), z nichž se věty či
rozsáhlejší jazykové výrazy skládají. Jinak řečeno, pomocí syntaktických struktur
reprezentujeme stavbu vět a jazykových výrazů, zachycujeme jimi, jak se jednoduché
(atomické) větné složky (obvykle slova) seskupují do větších celků, jak jedny
větné složky modiﬁkují druhé, vyznačují, které výrazy jsou ve větě nejzávažnější –
gramaticky i významově. Mějme např. věty
(1) Honza prodal ten počítač Petrovi.
(2) Počítač byl prodán Petrovi (Honzou).
(3) Počítač se prodal (někdo někomu).
Tyto věty sdílejí určité strukturní i významové (sémantické) vlastnosti, které by
měly být v reprezentaci zachyceny. V obou větách jde sémanticky o činnost prodávání,
přesto se však v jistém podstatném ohledu od sebe liší.
Když se podíváme na věty jako
(3) Honza dal knihu.
(4) Eva jsou v kuchyni.,
je zřejmé, že jsou určitým způsobem neúplné, deviantní. Můžeme o nich říci, že
nejsou gramaticky správné. I toto je potřeba v reprezentacích syntaktických struktur
vhodným způsobem zachytit.
Pak jsou tu případy jako
(5) Hutě železa vyrábějí málo.
či
(6) Kritika poslanců vedla k rozpadu koalice.
Je vidět, že každá z těchto uvedených vět dává dvě různá čtení, která bychom
chtěli vhodným způsobem reprezentovat, tj. zachytit je v našich zamýšlených syntaktických
reprezentacích. Nejčastěji se k tomuto účelu užívá stromových struktur,
resp. grafů-stromů (frázových ukazatelů, strukturních popisů opírajících se o formalismus
nekontextových gramatik), které reprezentují větné struktury v termínech
jejich složek. Pro věty (1) a (2) můžeme mít reprezentace jako (1a) a (2a). Existuje
také možnost pracovat se závislostními grafy – té zde nevyužíváme (viz. např.
Hajičová, PDTB Grafy mohou vypadat následovně:
(1a)
(2a)
• významy slov a významy vět – reprezentace významu: syntaktické reprezentace neodrážejí
přímo význam vět, zachycují ale vztahy, které jsou klíčové pro rozpoznání
jejich plného významu. V příkladech jako (5) a (6) potřebujeme rozlišit různá čtení
nezávisle na kontextu a potřebujeme to udělat vhodnými formálními prostředky
tak, aby jednotlivá čtení byla explicitně rozlišitelná.
To lze udělat třeba tak, že najdeme způsob, jak reprezentovat sémantické vztahy
mezi slovesem a jeho doplněními nebo jinými slovy, významové vztahy mezi predikátem
a jeho argumenty (např. np, pp, adg, s). Věty (1) a (2) pak můžeme zkusit
reprezentovat např. takto:
12
(1b) prod(ag, obj, adr),
kde ag interpretujeme jako agens, činitel (ten, kdo něco dělá), obj jako objekt, který
se prodává (co je činností zasaženo, co z ní vzniká), a adr jako adresát, ten, komu
je určen objekt
nebo (1c) prod(kdo, co, komu),
kde použité zájmenné výrazy lze interpretovat prakticky stejně jako výše. Tento
způsob zachycuje, o co nám jde, totiž že věty (1) a (2) se neliší významově, ale
jen povrchově, jiným uspořádáním syntaktických vztahů, jejich jinou perspektivou.
Budeme-li chtít věty (1) a (2) reprezentovat jako znalost vyjadřující, že nějaký konkrétní
počítač změnil majitele, můžeme odpovídající fakt reprezentovat ještě jinak:
(1d) prod(h3, poč13, p5),
kde prod lze interpretovat jako logický predikát označující vztah prodávání a h3,
poč13, p5 jeho odpovídající argumenty, v tomto případě individuální konstanty
referující k příslušným objektům v universu promluvy. Chápeme-li (1d) jako logický
predikát, pak to znamená, že jsme se rozhodli význam vět (1) a (2) , ale
i dalších reprezentovat pomocí aparátu PK1, který má některé výhody a řadu
nevýhod, o nichž se zmíníme později. Mezi jeho výhody patří:
– je dobře formálně propracován a deﬁnován,
– existuje řada zkušeností s jeho použitím, viz např. SHRDLU (Winograd,
1974), LUNAR (Woods, 1976), KRL (), CYCORP (1995),
– existuje pro něj počítačová implementace ve formě programovacího jazyka
PROLOG (vyvinutého mimochodem pro potřeby NLP, Colmerauer 1979.).
• plnou reprezentaci významu vět je možno spolehlivě získat jen s přihlédnutím ke
znalostem o světě, jež jsou dnes v systémech pro porozumění PJ zachycovány pomocí
speciální reprezentace znalostí. Jde o notační systémy podobné reprezentaci
významu uvedené výše, tj. systémy založené na PK1 nebo na transparentní intenzionální
logice (systému TIL, Tichý 1989, Materna 2000, Hadacz 2000, Hadacz,
Horák, 2000). V dosavadních výzkumech lze pozorovat poměrně striktní oddělování
reprezentace významu od reprezentace znalostí, které plyne z potřeby provádět
nad reprezentací znalosti potřebné inference umožňující odvozovat z jedněch
fakt jiná. Je však vidět, že reprezentace znalostí v dosavadních podobách postrádá
propracovanou návaznost na to, čemu se obvykle říká encyklopedické znalosti a také
na é metaznalosti, jež zahrnují speciální znalosti o jazyce, jednotlivých jazykových
výrazech a jejich kolokabilitě. Zejména dosavadní elektronické slovníky jsou budovány
příliš úzce a nebere se v nich zřetel na těsné souvislosti mezi jazykovými a
encyklopedickými znalostmi.
Typická struktura NLP systému – obr. a komentář. Vstupní věty jsou nejprve
podrobeny lexikální analýze využívající slovníku, který obsahuje znalosti o významech
slov, pak morfologické a syntaktické analýze opírající se o množinu pravidel deﬁnujících
13
přípustné syntaktické struktury – tedy o gramatiku: to vše v modulu, který se obvykle nazývá
parser (analyzátor). Získané syntaktické reprezentace jsou pak sémanticky interpretovány
a výsledkem jsou sémantické reprezentace – zde, jak patrno, v PK1. V poslední
době se však místo sekvenční strategie analýzy preferují postupy paralelní (rule-to-rule),
kdy každému syntaktickému pravidlu v gramatice odpovídá příslušné pravidlo sémantické,
které se provádí pokud možno souběžně. Tím se značně redukuje počet možných
interpretací a také to pravděpodobně lépe odpovídá povaze lidského porozumění větám
PJ.
Máme-li věty:
(7) Návštěvy příbuzných jsou únavné.
a
(8) Návštěvy muzeí jsou únavné.,
vidíme, že jejich odpovídající syntaktické struktury jsou syntakticky víceznačné, obě
varianty jsou platné, ovšem k rozhodnutí, kterou z nich vybrat, je nutná znalost kontextu
(kdo koho navštěvuje, a také kdo koho může navštěvovat, což je de facto znalost o
světě). Právě proto je u věty (8) možná jen jedna sémantická interpretace (muzea mohou
sotva někoho navštěvovat). Při použití sekvenční strategie se u věty (8) nevyhneme
pokusu o dvojí sémantickou interpretaci, zatímco při souběžné aplikaci syntaktického a
sémantického pravidla a přihlédnutí k encyklopedickým znalostem by už k vybudování
druhé syntaktické struktury nemělo dojít, zjištěná možnost sémantické anomálie by měla
další pokusy eliminovat. V tomto příkladě se vyhneme jedné zcela chybné sémantické
interpretaci, ovšem u reálných aplikací se setkáváme s větami připouštějícími řádově
více než několik desítek syntaktických struktur, z nichž většina pak vede k sémanticky
nekorektním interpretacím.
Povšimněme si ve schématu modulu označenému jako kontextová interpretace (analýza
promluvy). Je to proces, který zahrnuje přinejmenším následující procedury:
– identiﬁkaci objektů označovaných jmennými skupinami (ten nový počítač), zájmeny
(ty, on, tu, teď) a na ni navazující referenčních a koreferenčních vztahů,
– temporální zařazení informace nesené danou větou ve vztahu k okamžiku promluvy,
– identiﬁkaci postoje mluvčího, např. zda ve větě Je tady chladno. jde o konstatování
faktu nebo rozkaz (žádost),
– inference potřebné k náležité interpretaci věty v rámci dané aplikační oblasti – na základě
znalosti předchozího kontextu (předcházejících vět) a dané aplikační oblasti (třeba
počítače a politika), viz věty jako Programátor zavedl nový operační systém. a Vláda
sociálních demokratů zavedla nové daně.
14
0.3 Data pro zpracování přirozeného jazyka – kor-
pusy
Jazyková data mají empirickou povahu, a proto je zjevné, že úspěšnost popisu přirozeného
jazyka je do značné míry závislá na tom, jaký máme přístup k datům a v jaké
podobě jsou nám jazyková data k dispozici. Protože většina jazykových dat má podobu
textů (psaných nebo písemně zachycených (transkribovaných) mluvených), je možnost
mít je pohromadě v elektronické podobě klíčová pro další rozvoj lingvistiky a zpracování
přirozeného jazyka vůbec. Korpusová lingvistika v současnosti představuje novou větev
lingvistiky, v níž se pracuje s korpusy uloženými v počítačích. To přirozeně znamená,
že se v mnoha aspektech překrývá s počítačovou lingvistikou, z níž čerpá řadu postupů
a technik. Výsledky získané těmito postupy brzy výrazně ovlivní nejen samu lingvistiku,
v níž si jistě vynutí vznik nových, úplnějších a empiricky adekvátnějších gramatik
(v knižní podobě), ale i počítačové zpracování přirozeného jazyka jako celek – už dnes
se na základě korpusových dat budují nové a přesnější elektronické slovníky a robustní
počítačové gramatiky. Korpusy jsou dnes v jazykovém inženýrství východiskem pro realistický
základní výzkum ve formě relativně blízké přírodním vědám.
Není těžké vidět, že symbióza korpusové lingvistiky s počítačovou má i jasné
metodologické důsledky: lingvista dnes může dělat věci, které byly dříve nepředstavitelné
ať už pro svou časovou náročnost a pracnost (viz např. jednoduchý úkol setřídit manuálně
třeba 250 tisíc slovníkových hesel) nebo skutečnou složitost (např. nalezení všech výskytů
předložky na spolu se substantivem v akuzativu v textech o rozsahu 100 mil. slovních
tvarů – spojení jako na stůl, na týden). Jedním z důsledků je i to, že lze systematičtějí
využívat statistických a pravděpodobnostních přístupů, které by se bez počítačů na velké
soubory nedaly aplikovat.
Korpusy nejsou určeny jen pro lingvisty – přirozený jazyk je prostředkem komunikace
pro všechny: proto jejich budování není jen záležitostí lingvistů a jazykových
inženýrů. V našich podmínkách lze konstatovat, že pochopení tohoto prostého faktu se
pozitivně projevilo tím, že díky přispění GA ČR se v rámci komplexního grantového
projektu K214 (Čeština ve věku počítačů začal budovat Český národní korpus čítající
aktuálně cca 200 mil. českých slovních tvarů. Vedle toho byl v rámci projektu VS97028
(Program 250 – podpora výzkumu na VŠ, MŠMT ČR) na FI MU vybudován další samostatný
obecný korpus ESO, který v současnosti čítá cca 160 mil. českých slovních
tvarů. V tomto ohledu jde o jasně interdisciplinární záležitosti, neboť korpusová data
jsou použitelná pro odborníky v řadě disciplin:
• sociology a sociolingvisty,
• psychology,
• odborníky v oblasti masové komunikace a médií (reklama),
15
• lexikografy a lingvisty, překladatele (strojový překlad),
• výzkumné pracovníky v oblasti umělé inteligence (porozumění přirozenému jazyku,
reprezentace znalostí, robotika aj.),
• tvůrce učebnic a tzv. referenčních příruček (gramatiky, slovníky)
V současnosti se korpusem rozumí rozsáhlý vnitřně strukturovaný a ucelený soubor
textů daného jazyka elektronicky uložený a zpracovávaný. Dnes vytvářené korpusy jsou
organizovány se zřetelem ke zvolenému cíli (pro potřeby lexikografů, sociologů, komunikačních
odborníků) a vycházejí z následujících teoretických předpokladů:
1. jazyková data jsou v korpusu uložena ve své přirozené textové podobě, proto je lze
všestranně a opakovaně zkoumat a vyvozovat z nich příslušné teoretické generali-
zace,
2. velký rozsah dat v korpusu minimalizuje nebezpečí, že by mohlo dojít – třeba i
náhodou – k převaze okrajových jevů nad základními a typickými,
3. velký rozsah dat v korpusu je podmínkou dostatečné reprezentativnosti, což
např. při budování slovníků vůbec nemusí být jednoduchá záležitost:
Lze to ukázat na vztazích mezi pojmy: token (výskyt), typ a lemma. Token chápeme
jako výskyt slovního tvaru v korpusu, typ – slovní tvar jako takový a lemma je základní
tvar pro nějakou skupinu tvarů (např. nominativ u substantiv nebo inﬁnitiv u sloves).
Uveďme proporce těchto entit v BNC pro psaný jazyk:
tokens: 90 miliónů (v BNC je 10 mil. tvarů z mluveného jazyka)
typy: 524 060
– z toho typů s četností 1 je: 258 575
– 2% typů pokrývá 90% výskytů (tokens)
lemmata: proporce typ : lemma, např. v SOD (Students Oxford Dictionary), činí
pro angličtinu 2,5 : 1. Z uvedených údajů lze odvodit, že např. pro slovník, který by
měl mít rozsah cca 250 tis. heslových slov, poskytuje BNC se svými 100 mil. slovních
tvarů reprezentativní materiál jen pro cca 100 tis. heslových slov (de facto lemmat).
0.3.1 Jak se budují korpusy?
Zdrojem korpusových dat je jak jazyk psaný, tak i mluvený, u dosavadních korpusů to bývá
zhusta v poměru 9:1, protože záznam mluveného jazyka (magnetofonová nahrávka) a
jeho převod (manuální přepis) do počítačově čitelné podoby je zatím velmi nákladný (až
15krát dražší než u psaných textů). Situace se může zlepšit až s komerčními aplikacemi
pro zpracování mluvené řeči.
Z psaných textů se data získávají prakticky třemi způsoby:
16
• konverzí ze sázecích disket a pásek, které lze získat od většiny nakladatelství vydávajících
noviny, časopisy a knihy,
• užitím technik OCR, jejíž úspěšnost je do značné míry závislá na kvalitě použitého
scanneru a programového vybavení a na typograﬁcké složitosti textu – typech a
velikostech písem,
• klasickým manuálním opisováním textů do počítače.
Ve všech případech je nutná kontrola, opravy chyb, ev. konverze mezi použitými a typicky
odlišnými kódy. Výsledek se zpravidla ukládá do mezinárodního ASCII formátu – ovšem
v případě češtiny je třeba mít k dispozici vhodné konverzní programy, protože čeština je
kódována řadou způsobů: (v kódech MJK, PCL2, IL2 a 1250 ve Windows).
V neposlední řadě se při tvorbě korpusů tvůrci musí vyrovnávat i s právními
aspekty objevujícími se při získávání dat. Týká se to copyrightu a autorských práv a jejich
uvolnění ze strany autora či vydavatele. Jednodušší bývá situace v případě nekomerčního
využití, jinak je potřeba uzavírat vhodné typy smluv přesně stanovujících podmínky
šíření korpusových dat a produktů, které na jejich základě vznikly. U mluvených záznamů
je často potřeba zajistit zachování anonymity mluvčích.
0.3.2 Typy korpusů a standardizace
Textové soubory volně uložené v počítači ještě netvoří korpus. Obvykle se setkáváme
s následujícími typy uložení jazykových dat:
• elektronické archivy – volné kolekce celkově různorodých textů. Klasickým příkladem
je Oxford Text Archive – OTA, který představuje rozsáhlou sbírku různých,
většinou literárních textů, v různých formátech a různých jazycích: v OTA najdeme
asi tisícovku literárních textů v 25 jazycích a různých formátech,
• vlastní korpusy tvořící relativně úplné celky, i tak ovšem značně různorodé a lišící
se v řadě parametrů,
• podle jazyků – dnes už jen málo jazyků v Evropě nemá svůj korpus, v r. 1990
existovaly korpusy pro:
– angličtinu: . . . . . . . . . . . . . . . . . . . . . . . . . .220 000 000 slovních tvarů (a 20 korpusů)
– francouzštinu: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 000 000 slovních tvarů
– němčinu: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27 500 000 slovních tvarů
– holandštinu: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 000 000 slovních tvarů
– italštinu: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .30 000 000 slovních tvarů
– srbochorvatštinu: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 000 000 slovních tvarů
– korpusy dvoujazyčné, paralelní: anglicko-francouzské, -italské, -dánské
17
– korpusy obecné a speciﬁcké, velké obecné korpusy obsahují subkorpusy jazyka
psaného, mluveného, nářečí, synchronní – diachronní aj.
S rostoucím počtem korpusů vzniká potřeba jejich standardizace a vícenásobného
a sdíleného použití (jedna z důležitých podmínek v rámci EU). S tímto cílem vznikla Text
Encoding Initiative – TEI sponzorovaná EU a americkou vládou: vydala již doporučení pro
společný výměnný formát, zásady kódování, znakové sady a navrhla společný kódovací
– značkovací metajazyk, jímž je Standard Generalized Markup Language – SGML, určitě
známý některým uživatelům TeXu a od r. 1986 uznávaný jako mezinárodní standard
(ISO 8879). Značný důraz se klade na polyfunkčnost a polyteoretičnost notace (nezávislost
na dílčích teoriích), aby se v budoucnu nemusely dělat nákladné úpravy a změny.
Nejnověji se začíná pracovat s jazykem XML (citát), který vychází ze SGML.
0.3.3 Budování korpusu – sběr dat
Na příkladu BNC naznačíme jen zhruba základní vlastnosti, které je třeba uvážit při budování
korpusu. Nebudeme se pouštět do podrobností, chceme poskytnout jen základní
představu. Korpus typu BNC může vypadat zhruba takto:
• je to výběrový korpus, tj. skládá se z vzorků ne delších než 40 000 slov, které jsou
vybrány v následujících proporcích:
1. přírodní vědy a čistá věda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5%
2. aplikované vědy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5%
3. sociální vědy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15%
4. politická publicistika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15%
5. publicistika obchodní a ﬁnanční . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10%
6. publicistika umělecká (rock & pop, divadlo,...) . . . . . . . . . . . . . . . . . . . . . . . . 10%
7. publicistika náboženská a ﬁlosoﬁcká . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5%
8. publicistika zábavná (sport, zahrádkáři, ...) . . . . . . . . . . . . . . . . . . . . . . . . . . . 15%
Podíl těchto textů se pohybuje v rozmezí 70-80%, podíl uměleckých textů činí
20-30%.
Další rozlišení se týká toho, zda vzorky pocházejí z knih, deníků, časopisů, dopisů
apod.:
1. knihy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55-65%
2. periodika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20-30%
3. brožury, letáčky, příručky, reklamy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5-10%
18
4. dopisy, memoranda, zprávy, eseje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5-10%
5. mluvené texty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7-10%
• je synchronní, tedy obsahuje výhradně texty ne starší než např. od r. 1987, a vždy
se uvádí datum, kdy byl text publikován poprvé,
• je obecný čili není speciﬁcky orientován na nějakou konkrétní oblast nebo žánr a
zahrnuje vzorky od všech věkových skupin, viz výše,
• je jednojazyčný – obsahuje jen vzorky pocházející od anglických (českých,...) mluv-
čích.
• jsou zavedeny klasiﬁkační rysy, které nesledují vyhraněné proporce a jsou orientovány
na pozdější využití korpusu (lze podle nich třídit a vyhledávat v celém
korpusu):
1. identiﬁkátor vzorku
2. rozsah vzorku (počet slov), začátek a konec vzorku
3. rozsah textu příslušného typu (počet slov)
4. kompozice textu (hladký, složený, sbírka)
5. standardní bibliograﬁcký odkaz
6. datum vzniku
7. předmětná oblast
8. úroveň složitosti textu
9. autorství (individuální, společné, institucionální, neznámé)
10. pohlaví autora
11. věková skupina autora
12. etnická skupina autora
13. autorovo bydliště
14. věk cílové skupiny (na kterou je text orientován)
0.3.4 Vnitřní struktura korpusu
Vnitřní struktura korpusu
1) atributy poziční
2) atributy strukturní (hranice vět, odstavců)
19
slovo lemma gr.značky sém.značky
ženu hnát/žena k5/k1gFnSc1 HUM+FEM/POHYB
ovce ovce k1gFnPc4 ANIM
na na k7c4 DIRECT
pastvu pastva k1gFnSc4 LOC
0.3.5 Korpusové nástroje
Problematika korpusových nástrojů je rozsáhlá a představuje pole, na kterém se setkávají
požadavky uživatelů (hlavně lingvistů a lexikografů) s přístupy programátorů.
Výsledkem je konkrétní programové vybavení umožňující získávat z korpusů
”
poklady“,
které jsou v nich skryty.
Základem jsou obvykle konkordanční programy (např.MicroOCP), které třídí a počítají
objekty nalezené v korpusu, což jsou v syrovém korpusu slovní tvary, interpunkce,
případně další znaky (vyznačující třeba hranice vět, odstavců aj.) – ty jsou typicky součástí
SGML. Pokud není do korpusu nějak zavedena další informace, konkordanční program
nemůže rozlišit určité víceznačnosti (homonymie), např. v češtině mezi tvary ženu
(ak.sg. substantiva žena) a ženu (1.os.sg.prés. slovesa hnát), nemluvě již o tom, že tvar
hnát může být také tvarem substantiva mužského rodu. Proto ke korpusovým nástrojům
patří i programy, které představují svého druhu gramatické analyzátory: orientují
se na morfologii, syntax a v poslední době i na sémantiku. V současné teminologii se
obvykle mluví o značkování (tagging) a o značkovacích programech (taggers) různé úrovně.
Níže uvedené taggery obvykle pracují tak, že se snaží každému slovu v korpusu přiřadit
jeho gramatickou značku, tj. jeho slovní druh včetně relevantních gramatických kategorií.
Programy uvedené dále buď s těmito analyzátory spolupracují, nebo je přímo obsahují
jako svou součást, nicméně pro přehlednost se o nich dále zmiňujeme zvlášť. Korpusové
manažery Jako vhodný příklad může posloužit korpusový procesor cqp (Corpus Query
Processor), který se vyznačuje následujícími rysy (viz níže):
• vlastní procesor cqp (Christ, Schulze, 1995), implementován v jazyce C, užívá
X-Windows, na platformě OS Solaris a Linux,
• uživatelsky přítulnější rozhraní fungující jako nadstavba nad cqp: xkwic a gcqp
(Rychlý, Skoupý, 1998),
• zadávání vyhledávacích dotazů funguje na bázi regulárních výrazů,
• výstup: konkordanční seznamy, výskyty slov v kontextech,
• lze vyhledávat kolokace (slovní spojení),
• lze získávat základní frekvenční údaje ke slovům a kolokacím,
20
• lze počítat další statistické parametry jako MI a T-score,
• u značkovaného korpusu lze vyhledávat podle gramatických kategorií a lemmat a
také podle strukturních značek.
1. program: korpusový procesor cqp – vytvořen v IMS na universitě ve Stuttgartu,
napsán v jazyce C, běží na Sunech (OS Solaris) a pod Linuxem v X-Windows,
patří k němu i jeho nadstavba xkwic. cqp a xkwic umožňují v korpusu vyhledávat:
– výskyty jednotlivých slov spolu s kontexty, v nichž se vyskytují, např. ovšem –
výsledkem je konkordanční seznam
– kolokace, např.ten, který a také konkordanční seznam
– základní frekvenční údaje ke slovu
– dotazy na vyhledání se zadávají pomocí regulárních výrazů, např. požadavek na
vyhledání slova následkem se zadá: ...
– podle tzv. pozičních a strukturních atributů: tj. podle slov, lemmat a gramatických
kategorií, a pak i podle struktury textu – vět, odstavců apod. – ukázky práce s cqp
a xkwic formou jednoduchých cvičení, vyhledání konkrétních slov a kolokací a
využití k dalšímu výzkumu
0.3.6 Značkování (anotování) korpusů
Gramatické značkování (anotování
Co to je značkování:!!! Věnujme nyní pozornost značkování. Pro příklad vezměme systém,
který provádí v korpusu značkování (tagging) slov. Lingvista nejprve navrhne soubor
gramatických značek – symbolů reprezentujících slovní druhy, pak souběžně následuje
vytvoření slovníku kmenů (slovních základů) a na něj navazující morfologický analyzátor,
který na základě segmentace každému výskytu slova v korpusu přiřadí symbol (značku)
jeho slovního druhu – což je postup vhodný pro většinu evropských jazyků včetně češtiny.
Předpokládaná úspěšnost takového značkování je do 90 %, chyby, jichž se program
dopustil, jsou analyzovány a na základě této analýzy je doplněn slovník kmenů a modiﬁkován
analyzátor. Pak lze přikročit k dalším testům a v případě vyšší míry úspěšnosti
i k další analýze korpusu. Pro angličtinu se dnes převážně užívá pravděpodobnostního
přístupu, pro jazyky typu češtiny se jako vhodnější jeví morfologické analyzátory (viz
dále).
Zmínili jsme se už o gramatickém značkování (tagging) – přiřazení (symbolů) značek
slovních druhů každému výskytu slova v korpusu. Výsledkem je tedy anotovaný korpus,
tj. ne již čistý (surový) korpus, ale jeho verze opatřená gramatickými informacemi
jistého druhu.
Takto anotovaný korpus se stává odrazovým můstkem pro další výzkum: pomocí
konkordančního programu v něm můžeme vyhledávat gramatické abstrakce, jako
21
např. výskyty pasíva (seznamy tvarů jako dělán, prodán, vyroben), vidu (aspektu) (seznam
všech dokonavých sloves s předponou vy-), různé posloupnosti slovních druhů aj.
Anotovaný korpus poskytuje též výchozí statistická data pro pravděpodobnostní zpracování
jazyka. Ke značkovaným korpusům patří Brown Corpus, Lancaster- Oslo-Bergen
Corpus (LOB) a Spoken English Corpus, který obsahuje fonetické a fonémické značko-
vání.
0.3.7 Značkování pro češtinu – lemma, ajka
Situace v češtině je jiná než např. v angličtině a podobných jazycích, kde tagger může
být jeden program (CLAWS). U nás je potřeba značkování rozložit do dvou fází:
• zpracování morfologickým analyzátorem – morfologická analýza
• desambiguace – manuální, program DESAMB, (ukázat)
– na bázi partial parsingu – DES
– statistické techniky (Pary) – techniky strojového učení (Popelinský, Nepil, Žáčková,
2000).
0.3.8 Morfologické (gramatické) značkování
V jazycích, jako je čeština, představuje morfologická analýza samostatný a komplikovaný
problém, který se řeší budováním samostatných morfologických analyzátorů (lemmatizátorů)
– pro češtinu v současnosti existují tři: lemma (Ševeček, Osolsobě, 1995-96)
a Hajičův (Hajič, 2000, viz WWW-stránky na MFF UK). Nejnověji se v LZPJ na FI
MU pracuje s morfologickým analyzátorem a lemmatizátorem ajka, jehož autorem je
R. Sedláček (Sedláček, DP, 1999).
1. popis ajky a její činnosti: ukázat interaktivní i dávkové použití Příklad standardního
výstupu z programu ajka (včetně víceznačných tagů):
Václav <l>Václav <c>k1gMnSc1
Havel <l>Havel <c>k1gMnSc1
přišel <l>přijít <c>k5eApMnStMmPaP,k5eApInStMmPaP
naopak <l>naopak <c>k6xMeA
s <l>s <c>k7c7
vlastním <l>vlastní <c>k2eAgMnSc67d1,k2eAgXnPc3d1,k2eAgUnSc67d1
<l>vlastnit <c>k5eAp1nStPmIaI
volebním <l>volební <c>k2eAgMnSc67d1,k2eAgXnPc3d1,k2eAgUnSc67d1
programem <l>program <c>k1gInSc7
,
22
který <l>který <c>k3xQgMnSc15,k3xQgInSc145
nikomu <l>nikdo <c>k3xNnSc3
neubližuje <l>ubližovat <c>k5eNpMnStPmTaI,k5eNp3nStPmIaI
.
2. morfologická analýza pro češtinu – její principy
3. soubor značek – jeho popis
4. úspěšnost ajky, typy chyb
5. problém víceznačnosti a desambiguace
Cvičení 1): desambiguace v rozsahu 2-3000 slovních tvarů
Cvičení 2): oprava vybraného souboru s chybami v rozsahu...
0.3.9 Syntaktické značkování
Značkování na úrovni vyšší než slovnědruhové, tj. na rovině syntaktické, lze najít
např. v London-Lund Corpusu (Svartvik, 1990). Vznikly již syntakticky analyzované
subkorpusy známé jako stromové banky (treebanks), byly však vytvořeny jen z podčástí
korpusů. I tak jde o texty v rozsahu několika miliónů slov a o práci, která např. v UCREL
zabrala kolem 5 let. Nedávný výzkum na LOB Corpusu však vedl k technice zjednodušené
syntaktické analýzy známé jako skeletonová analýza, kterou lidští operátoři mohou
provádět poměrně rychle (Leech and Garside, 1991). Pražský závislostní korpus byl celý
vytvořen manuálně.
Stromové banky (treebanks)
Jsou to textové soubory tvořené větami, u nichž je vyznačena syntaktická struktura,
např. ve tvaru syntaktického (složkového) stromu (ohodnoceného uzávorkování).
(1) Věděl jsem, že přijde a že mi dá pusu.
(1a) (Věděl jsem, (že (přijde)) a (že (mi (dá pusu)))).
Způsob analýzy je dán nějakou předem danou gramatikou, nějakým schématem analýzy,
které je návodem, jak analyzovat věty. Musí jít o schéma, které se postupně a
inkrementálně doplňuje o případy, které se předtím nevyskytly. Proces je kontinuálně
inkrementální a sotva kdy budeme moci tvrdit, že jsme dospěli k úplné gramatice daného
jazyka.
Je-li však stromová banka vytvořena, lze z ní automaticky odvodit frázovou gramatiku,
v níž minimální podstromy interpretujeme jako nekontextová pravidla. Taková
gramatika je zárodkem probabilistické frázové gramatiky, protože jednotlivá pravidla se
ve výchozím korpusu vyskytují s určitými četnostmi, které lze považovat za první aproximaci
pravděpodobností, s nimiž se taková pravidla mohou vyskytovat v budoucím textu
podobného typu.
23
Pražský závislostní stromový korpus Pro češtinu je nyní k dispozici pražský závislostní
stromový korpus (Prague Dependency Tree Bank), vybudovaný skupinou prof. Hajičové
na MFF UK a čítající cca 100 000 vět.
0.3.10 Situace v češtině
Závěrem uveďme základní informace o tom, jak vypadá situace pro češtinu. Na podzim
roku 1994 byl na FF UK založen Ústav českého národního korpusu, v němž se nyní buduje
Český národní korpus – ČNK. Ke konci roku 1995 byl již k dispozici jeho základ, v němž
bylo uloženo cca 30 000 000 slovních tvarů, a na konci r. 1996 již ČNK obsahoval téměř
100 mil. českých slovních tvarů. V r.1999 to už bylo cca 140 mil. a ke konci r.2000 lze
počítat s 200 mil. slovních tvarů. Vedle ÚČNK se na této práci podílejí další pracoviště
na UK, a to Ústav teoretické a komputační lingvistiky FF UK (ÚTKL), Ústav formální
a aplikované lingvistiky MFF UK (ÚFAL), dále Ústav pro jazyk český AV ČR (ÚJČ) a
v neposlední řadě i Ústav českého jazyka FF MU a Katedra informačních technologií na
Fakultě informatiky MU. Na posledně jmenovaném pracovišti vznikla v r.1997 Laboratoř
zpracování přirozeného jazyka (LZPJ), která paralelně buduje a udržuje korpusy českých
textů, konkrétně korpus ESO, který v současnosti čítá kolem 160 mil. slovních tvarů, a
dále plně gramaticky značkovaný korpus DESAM v rozsahu něco přes 1 mil. slovních
tvarů. Tento korpus na rozdíl od pražských experimentů se stochastickým značkovačem
J. Hajiče byl vytvořen převážně manuálně, ovšem míra úspěšnosti značkování v něm
nyní dosahuje kolem 98
0.3.11 Struktura ČNK
Popis, přístup Korpusy na FI MU, přístup k nim: PUBL, FIT, DESAM
V květnu 96 byl GA ČR schválen komplexní grantový projekt Čeština ve věku počítačů
ve výši cca 30 mil. Kč a s dobou trvání 6 let. Nositelkou grantu je prof. E. Hajičová
z Ústavu formální a aplikované lingvistiky MFF UK a jeho hlavním cílem je:
1. dobudovat Český národní korpus tak, aby ke konci r. 2000 obsahoval cca 200
mil. českých slovních tvarů a byl přístupný pro lingvistickou i ostatní odbornou
veřejnost (prostřednictvím Cesnetu a Internetu).
2. gramaticky (slovní druhy a gramatické kategorie) označkovat cca 10 mil. slovních
tvarů v rámci ČNK.
3. vytvořit základ stromové banky pro češtinu – min. v rozsahu 1 mil. slovních tvarů
(Pražský závislostní korpus, PDTB).
4. vytvořit soubor potřebných korpusových nástrojů, tj.programové vybavení zahr-
nující:
24
– manažery
– značkovače – gramatické, syntaktické, sémantické
– desambiguátory
– třídicí, konkordanční a konverzní programy.
5. přenést SSJČ na počítačová média (skenováním).
6. rozpracovat přípravu elektronické lexikální datové báze pro češtinu, která se stane
východiskem pro budování nového velkého slovníku češtiny (primárně elektronic-
kého).
Struktura textů ukládaných do korpusu se vyznačuje analyzátorem SGML. Pro
gramatické značkování je v LZPJ k dispozici analyzátor a lemmatizátor (tagger) ajka
vytvořený v LZPJ na FI MU (Sedláček, Veber, 1999), který je dnes schopen pracovat se
150 000 českých kmenů a dovede každému rozpoznanému slovnímu tvaru přiřadit jeho
slovní druh(y) a odpovídající gramatické kategorie. Na rozdíl od pravděpodobnostně
orientovaných analyzátorů pro angličtinu je ajka založena na úplné pravidlové morfologické
analýze češtiny, proti které je podobná analýza angličtiny spíše dětskou hračkou.
Podobné lemmatizující programy existují i pro slovenštinu a ruštinu a dále pro angličtinu,
němčinu a francouzštinu (Osolsobě, Ševeček, 1995).
Vedle již uvedených důvodů korpusy potřebujeme i s ohledem na náš budoucí
vstup do EU: i když jednacím jazykem je zde do značné míry angličtina, překládání
mezi jazyky uvnitř EU je nevyhnutelné. Vznikají proto paralelní korpusy využívané při
budování systémů strojového překladu a tvorbě vícejazyčných a dnes už primárně elektronických
slovníků. Už delší dobu je jasné, že EU počítá s Polskem, Maďarskem a
Českou republikou jako prvními východoevropskými členy EU – odráží se to např. v
tom, že se uskutečnily některé společné slovníkové projekty, jako např. CEGLEX (Central
European Generic Lexicon) zahrnující primárně polštinu, maďarštinu a češtinu a
také EuroWordNet 2, jenž vedle šesti západoevropských jazyků obsahoval i češtinu a
estonštinu. Český WordNet byl v rámci EuroWordNetu 2 budován právě v LZPJ na
půdě FI MU.
0.4 Reprezentace morfologických struktur (pro češ-
tinu)
Morfologie zahrnuje tři oblasti, o nichž je potřeba se zmínit:
• formální morfologii, vlastní tvarosloví – zahrnující ﬂexi, tj. tvoření slovních tvarů
ohýbáním, sem patří deklinace, skloňování: substantiv, adjektiv, zájmen a číslovek,
konjugace, časování: sloves, stupňování: adjektiv a adverbií,
25
• derivační morfologii, tedy tvoření slov – popisuje odvozování (derivování) nových
slov z jiných, obvykle považovaných za základní:
den → denní (substantivum – adjektivum)
učit → učení (sloveso – substantivum, tzv. deverbativum)
vypracovat → vypracovaný (sloveso – deadjektivum)
myslet → vymyslet, rozmyslet (sloveso – sloveso)
rychlý → rychle (adjektivum – adverbium)
rychlý → rychlost (adjektivum – substantivum)
student → studentka (subst. – subst.: přechylování)
dům – domek – domeček (subst. – subst.: tvoření deminutiv)
bába – babizna (subst. – subst.: tvoření augmentativ).
Slovotvorba představuje v rámci morfologie samostatnou subdisciplinu a její algoritmický
popis je zatím zvládnut jen v základních obrysech. Jednou z prvních
věcí potřebných v tomto ohledu pro češtinu je vytvoření tzv. derivačního slovníku,
tj. slovníku, jehož základními položkami jsou kořeny českých slov plus morfémy,
které se s kořeny mohou kombinovat. Předpokládaný počet slovních kořenů není
příliš velký, odhadem lze říci, že by se v češtině měl pohybovat kolem 10 000
položek.
• významosloví – jinak řečeno teorie slovních druhů. Už zběžný pohled na libovolný
text ukazuje, že se v něm vyskytují typy slov seskupující se podle svých vlastností
do jednotlivých tříd. Slova v textu či textech lze podle určitých kritérií klasiﬁkovat
a získat jednotlivé třídy slov, tedy v obvyklé terminologii slovní druhy. Tato
klasiﬁkace není triviální a opírá se o kombinaci tří základních kritérií:
1. o formu slova, tj. o způsob jeho ﬂexe, ohýbání, tak dostáváme členění na slova
ohebná a neohebná,
2. o význam slova, podle tohoto kritéria substantiva primárně označují bytosti,
různé konkrétní i abstraktní objekty, procesy, události; slovesa mají pak převážně
význam relační, tj. označují vztahy, vlastnosti (jednomístné vztahy),
stavy, děje a činnosti; adjektiva nejčastěji označují vlastnosti objektů označovaných
substantivy a adverbia lze významově charakterizovat jako vlastnosti
vlastností nebo vlastnosti dějů či činností. Samostatným slovním druhem jsou
z hlediska významu číslovky, které fungují jako kvantiﬁkátory. Významově
prázdnou třídu slov představují zájmena, představující svého druhu proměnné,
ale právě díky této své vlastnosti je tento slovní druh překvapivě kompaktní.
Nemáme ovšem zatím k dispozici seznamy, které by obsahovaly slova klasiﬁkovaná
podle svého významu, roztroušeně lze údaje tohoto druhu najít ve
slovnících. Pořízení těchto seznamů je jedním z úkolů korpusové lingvistiky a
počítačové lexikograﬁe.
3. o syntaktickou funkci slova, tj. o to, jak slovo funguje ve větě, jakou její složkou
může být. Obecně to lze říci tak, že některá slova fungují ve větě jako řídicí
26
(slovesa a substantiva), jiná jako modiﬁkující (adjektiva, adverbia) a jednu
skupinu tvoří slova, která můžeme nejlépe charakterizovat pomocná, funkční,
syntaktická – sem typicky patří předložky a spojky. Samostatným slovním druhem
jsou po syntaktické stránce částice, partikule, které mají nejčastěji povahu
celovětných nebo členských modiﬁkátorů a při budování algoritmického popisu
větné stavby jsou s nimi značné potíže.
Celá klasiﬁkace slovních druhů, s níž budeme nadále pracovat, se opírá o to, co najdeme
ve standardních gramatikách (např. MČ II) a obsahuje obvyklých deset slovních druhů
plus provizorně zkratky jako samostatnou třídu slov (podrobnější analýza zkratek naznačuje,
že většinou mají substantivní povahu a svou vnitřní strukturou představují i
dosti složité jmenné skupiny). Ve skutečnosti, jak lze vidět z níže uvedené formální reprezentace
zachycující výše zmíněnou klasiﬁkaci, zavádíme ještě uvnitř některých slovních
druhů jemnější rozklady, subklasiﬁkace: to platí např. o zájmenech, číslovkách, adverbiích
a slovesech, ale i o substantivech a třeba spojkách a částicích. Celkově však toto
členění nelze pokládat za konečné, a to jak pokud jde o slovní druhy samotné, tak i jejich
subklasiﬁkace. Příkladem mohou být podstatná jména, uvnitř nichž v každém případě
dále potřebujeme rozlišit vlastní jména a příjmení, geograﬁcké názvy a názvy institucí
a další – to však v níže uvedené klasiﬁkaci ještě není začleněno.
0.4.1 Přehled notace pro českou morfologii a syntax
Notace je ve shodě se současnými gramatikami a teoretickými hledisky, která se v nich
uplatňují (MČ II, Grepl, Karlík, 199?, Jelínek et al., 1995). Je vybudována tak, že
jednotlivé gramatické kategorie jsou zavedeny jako atributy, které nabývají možných
hodnot. Základními atributy jsou pak slovní druhy, nabývající podle daného slovního
druhu hodnot 0-9 (viz níže) a hodnoty X (zkratky). Následuje výčet slovních druhů
včetně podtříd a jejich standardních gramatických kategorií. Celkově má notace otevřený
charakter, tj. lze ji podle potřeby doplňovat a rozšiřovat a zachovat přitom kompatibilitu
s předchozím stavem. Současné úpravy představují především zavedení dalších zjemnění
a subklasiﬁkací.
Přehled gramatických značek pro:
a) slovní druhy,
b) jejich odpovídající gramatické kategorie:
Princip konstrukce značky je dán následující konvencí: atributy jsou značeny
malými písmeny, hodnoty atributů velkými písmeny nebo číslicemi.
Značky tedy nejsou atomické objekty, mají svou pravidelnou strukturu,
jíž se dále využívá např.v syntaktické analýze.
k1, "subs", substantivum, podstatné jméno: rod=gM -mužský živ.,
27
gI=mužs.než., gF=ženský, gN=střední
číslo=nS=singulár, nP=plurál
pád=c1,2,3,4,5,6,7
k2, "adj", adjektivum, přídavné jméno, rod u přivlastňovacích=h,
adjektiva rozlišují stejné kategorie jako substantiva, tj.rod=g,
číslo=n a pád=c, navíc pak klad=eA, zápor=eN a stupeň d1=pozitiv,
d2=komparativ, d3=superlativ
k3, "pron", pronomen, zájmena se dále člení na osobní=P, ukazovací=D,
přivlastňovací -- posesivní=O,
vztažná -- relativní=R, tázací=Q,
neurčitá=U, zvratná, reflexivní=X,
zájmena rozlišují stejné kategorie jako substantiva, tj.g,n,c,
ovšem některá z~nich, především osobní, jsou bezrodá
k4, "num", numeralia, číslovky, rozpadají se dále na základní=O,
řadové=C, násobné=M, podílné=D,
jinak číslovky nesou stejné kategorie jako substantiva, tj.g,n,c
k5, "verb", verbum, sloveso, nese kategorie: klad=eA, zápor=eN,
osoba=p1,2,3 (první, druhá, třetí),
číslo=nS=singulár, nP=plurál,
čas=tP=přítomný, tM=minulý, tF=budoucí
způsob=mI=indikativ, mR=imperativ, mC=kondicionál
vid=aP=dokonavý, perfektivní aI=nedokonavý, imperf.
k6, "adv", adverbium, příslovce, člení se na adv.způsobu=M, času=T,
místa=L, modální=D, příčiny=C,
typické kategorie: klad=eA, zápor=aN, stupeň=d1, d2, d3
k7, "prep", prepozice, předložka, rozlišuje pád=c2,3,4,6,7
k8, "conj", konjunkce, spojka, člení se na souřadicí=C a
podřadicí=S
k9, "part", partikule, částice, zatím se člení na pravděpodobnostní=P,
28
rematizační=R, měrové=Q
k0 "intr", interjekce, citoslovce
kX "abbr", zkratky, zkratková slova
Doplňující přehled gramatických kategorií rozlišovaných standardně v češtině:
numerus=číslo=n - "sg"=S,jednotné, "pl"=P,množné
genus=rod (jmenný) "mask anim"=Mn mužs.životný, maskulinum
"mas inan"=In mužs.neživotný,
"fem"=F ženský, femininum
"neu"=N střední, neutrum
U= mužs.než.nebo střední, mužs.živ., neživ.
Y=všechny rody "mask.anim+mask.inan+fem+neu"
kazus=pád=c, "1234567" (1=nominativ, 2=genitiv, 3=dativ, 4=akuzativ,
5=vokativ, 6=lokál, 7=instrumentál)
pers=osoba=p, "1.os=1","2.os=2","3.os=3",
stupňování u adjektiv a adverbií=d "1.st-pozitiv", "2.st-komparativ",
"3.st-superlativ"
slovesný způsob, modus=m "indik"=I, indikativ (oznamovací způsob)
"imper"=R, imperativ (rozkazovací způs.)
"kondic"=C, podmiňovací způsob
příčestí, "participium"=part": minulé=M, trpné (mezera)
přechodník, transgresiv=trsg - "prech"=T
čas, temp=t "preteritum"- minulý=M, "prézens"-přítomný=P,
"futurum"-budoucí=F
vid slovesný, aspekt=a "perf"=P, perfektivní, dokonavý
"imperf"=I, imperfektivní, nedokonavý
klad a negace=e, A=kladné - bez ne, ~ s ne
adverbia= "jak"- způsobu=M, "kde"- místa=L, "kdy" -času=T,
"mod"- modální=D, "proč" - příčiny=C, "kolik"=míry=Q
pády u předložek, prep = { "", "2", "3", "4", "6", "7", "4,6", "4,7" };
spojky - conj = "sour"-souřadicí, koordinační=C, "podr" podřadicí,
subordinační=S
částice - je připravena subklasifikace rozlišující podle funkce
částice = k9xQ - měrové
= k9xK - kontaktové
= k9xR - rematizátory (omezovací)
= k9xN - navazovací
Typické příklady rozvinuté a zkrácené notace:
29
k1: tvar "počítač" k: 1 sl.druh: substantivum
g: I rod: muž.neživotný
n: S číslo: singulár
c: 1,4 pád: první nebo čtvrtý
výsledné značky (tags): k1gInSc1, k1gInSc4
k2: tvar adjektiva "rychlý" k: 2 sl.druh: adjektivum
e: A klad (zápor N)
g: M,I rod mužs.živ., muž.neživ.
c: 1,4 pád - nom. nebo akuzativ
d1: stupeň první - pozitiv
výsledné značky: k2eAgMnSc1d1, k1eAgMnSc4d1, k1eAgInSc1d1,k1eAgInSc4d1,
pozn.: adjektiva se shodují se svým řídicím substantivem, u něhož
stojí a od něho přebírají tzv.shodové kategorie, tj. g,n,c
k3: tvar osobního zájmena "ty" k: 3 sl.druh: zájmeno, osobní=P
g: nevyjadřuje, tzv.bezrodé
n: S číslo: singulár
c: 1 pád: první, nominativ
výsledná značka: k3xPnSc1
tvar "ty" je však homonymní s tvarem ukazovacího zájmena, jemuž
odpovídá značka k: 3 sl.druh: zájmeno ukazovací
g: M,I rod.mužs.živ.,než.,F žens.,N st
n: P číslo: plurál
c: 1,4 pád (homonymie)
výsledné značky: k3xDgMnPc4, k3xDgInPc1, k3xDgFnPc1, k3xDgNnPc1,
k3xDgInPc4, k3xDgFnPc4, k3xDgNnPc4
pozn.: ukazovací, demonstrativní zájmena se shodují se svým řídicím
substantivem, u něhož stojí a od něho přebírají tzv.shodové
kategorie, tj. g,n,c
k4: tvar číslovky "tři" k: 4 slovní druh: číslovka
30
x: C základní, kardinální
g: X všechny rody
n: P číslo: plurál
c: 1,4,5 pád (homonymie)
výsledná značka: k4xCgXnPc145
k5 tvar slovesa "mluvíš" k: 5 slovní druh: sloveso
e: A kladný tvar
p: 2 osoba: druhá
n: S číslo: singulár
t: P čas: přítomný
m: I způsob: indikativ, oznamovací
a: I vid: imperfektivní, nedokonavý
výsledná značka: k5eAp2nStPmIaI
značky pro tvar "mluvil": k5eApMnStMmPaI, k5eApInStMmPaI
k6 tvar adverbia "dobře" k: 6 adverbium, příslovce
značka k6xMeAd1 x: M způsobu, modi
e: A kladné
d: 1 pozitiv, první stupeň
k6xTeA "dnes" k: 6 adverbium, příslovce
x: T času, tempori
e: A kladné
k6xLeA "tady" k: 6 adverbium, příslovce
x: L místa, loci
e: A kladné
k7 předložka "na" k: 7 předložka, prepozice
c: 4,6 pád
k8 spojka "že" k: 8 spojka, konjunkce
x: S podřadicí, subordinační
31
k9 částice "asi" k: 9 částice, partikule
x: P vyjadřuje pravděpodobnost
kX zkratka "DOS", "NATO" k: X zkratka, zkratkové slovo
0.4.2 Algoritmický popis (české) morfologie
Algoritmický popis českého tvarosloví, jak jsme už naznačili, zahrnuje deklinaci, konjugaci
a stupňování a některé pravidelné derivační (slovotvorné) procesy.
K jeho vytvoření musíme najít způsob, jak formulovat formální pravidla popisující ohýbání
slov – ta jsou základem, a jak je potom implementovat. Základní myšlenka spočívá
v použití ohýbacích vzorů, jak je známe ze školy, ovšem pro algoritmický popis je nezbytné
základní soubor vzorů rozšířit a zjemnit jejich klasiﬁkaci. V klasických mluvnicích se to
řeší uvedením výjimek – v algoritmickém popisu se jim můžeme vyhnout, jestliže zavedeme
dostatečný počet podvzorů zachycujících příslušné hláskové změny, např. vlk –
vlci, doktor – doktoři, medvídek – medvídka – medvídci, pes – psa, dívka – dívce, den –
dne apod. (podrobně viz Osolsobě, 1994).
Vlastní segmentace pak probíhá zhruba tak, že nejprve se hledají preﬁxy nej- a
ne-, pak ev.i další – vy, roz, po, na. V případě úspěchu se činí pokus najít kmen, pokud
je ovšem neúspěšný, odtrhávají se koncovky od konce slova, dokud se kmen nenajde ve
slovníku. Díky uložení kmenů a možných pokračování v podobě konečného automatu a
struktur trie je hledání velmi rychlé, neboť jeden kmen je společný pro řadu suﬁxů a
intersegmentů.
Na naznačeném algoritmu je založen:
• program Lemma (Ševeček, 1995) a nověji také ajka (Sedláček, 1999), které oba
rozpoznávají slovní tvary nebo je generují, vstupnímu slovnímu tvaru přiřadí jeho
odpovídající gramatické kategorie, tj. slovní druh, pád, číslo, jm. rod (u substantiv,
adjektiv, zájmen a číslovek), osobu, čas, číslo, způsob, sl. rod, vid (u sloves) a další
u dalších slovních druhů,
• jeho výchozími datovými strukturami jsou vzory (asi 830), kmeny (cca 164 tis.),
intersegmenty (cca 460) a koncovkové množiny (počet koncovek cca 127), preﬁxy
(cca 140).
Schéma vytvořené pro Lemma je v současnosti úspěšně využito pro více jazyků,
konkrétně – češtinu, slovenštinu, ruštinu, angličtinu, němčinu, francouzštinu. Základní
údaje pro jednotlivé jazyky – počty vzorů, kmenů, velikost slovníku kmenů, jsou
uvedeny v tabulce 1:
32
Czech Slovak Russian English German French
================================================================
vzory (pocet) 830 488 1150 65 335 325
----------------------------------------------------------------
kmeny (tis.) 165 120 ~120 120 130 37
----------------------------------------------------------------
vel.slov.(KB) 660 524 ~600 386 665 156
----------------------------------------------------------------
rez.c1 (KB) 25 14 - 10 - 8
----------------------------------------------------------------
rez.c2 (KB) 7 4 - 35 - 55
----------------------------------------------------------------
Tabulka 2 uvádí početní zastoupení slovních druhů v českém slovníku kmenů a
počty vzorů u každého slovního druhu.
cz vzory
============================= ============================
substantiva 76 400 (1 500 - ista) 376
------------------------------------------------------------
slovesa 36 200 180
------------------------------------------------------------
adjektiva 43 800 90
------------------------------------------------------------
adverbia 1 300 5
------------------------------------------------------------
pronomina 137 45 num 32
-------------------------------------------------------------
prepozice 93 spojky 81 partikule 81
===================================================================
– příklad tvaru s–e–š—–i–t—–e–m, ev. nej–ne-u-věř-i-t-eln-ějš-ímu, tedy:
1. krok: preﬁxy, ne-, nej-, u-,
2. krok: prohledávání kmenů, vyčlenění intersegmentů a pak koncovek, uplatnění vzorů
a koncovkových množin.
Jednotlivých modiﬁkací morfologického programu Lemma se užívá např v následujích
konkrétních softwarových produktech jako samostatného modulu:
v textových procesorech: – T602, Wintext 3.1, WP 5.1, 6.0, Windows 95 (MS Word v.7 a
MS Oﬃce), Pragotext, MAT, unixové: Wonder Word a Edit, Ami Pro (jen thesaurus).
Funkce:
– korekce překlepů
– nabídka možných tvarů (s ohledem na typy překlepů a chyb)
33
– nabídka synonym a antonym (thesaurus)
– dělení slov – to však dělá samostatný dělicí program
v sázecích systémech:
– Corell, Quark, TeX: zde se nejvíce se využívá dělení slov
ve fulltextových aplikacích využívajících lemmatizace, tj. přiřazení základního tvaru k
libovolnému vstupnímu – viz též níže vyhledávání informací – sem patří systémy jako
topic (ﬁrma verity, např. hledání ve fulltextové db. právních dokumentů
OCR systémy
v překladových programech a překladových elektronických slovnících příkladem za všechny
je oboustranný anglicko-český a německo-český slovník Lingea Lexicon 2 (Ševeček, 1998).
0.5 Reprezentace syntaktických struktur – grama-
tiky
0.5.1 Gramatiky pro popis PJ
Struktura syntaktického analyzátoru pro daný jazyk je v jistém smyslu popisem tohoto
jazyka, ovšem takový popis nebývá obvykle pro lidi příliš transparentní. Často je závislý
na konkrétní implementaci a implementace, i když jsou psány v některém z hlavních
programovacích jazyků, se mohou od sebe podstatně lišit.
To byl jeden z hlavních důvodů, který vedl badatele k tomu, že se postupně
odvraceli od procedurálních deﬁnic sémantiky programovacích jazyků a svou pozornost
obrátili k popisům deklarativním. Podobné úvahy jsou na místě i u programů pro nlp:
to, co potřebujeme, je jak syntakticky, tak i sémanticky spolehlivý popis zpracovávaného
přirozeného jazyka (nebo jeho aproximace), máme-li získat rozumnou představu o tom,
jak se daný systém bude chovat v rozdílných podmínkách.
Jazyk lze chápat jako množinu, členství v níž lze přesně speciﬁkovat konečným
souborem pravidel. Množina složených jazykových výrazů není v PJ konečná, takže nelze
podat jejich plný výčet. Pokud je v současnosti známo, žádný PJ není konečným jazykem.
Okruh konstrukcí, které činí PJ jako čeština nekonečným, je dosti velký. Např. spojka
a připouští v češtině spojení neomezeného počtu vět a podobně tak i vztažné věty
mohou obsahovat slovesné skupiny, které mohou obsahovat jmenné skupiny, které mohou
obsahovat vztažné věty, které mohou obsahovat slovesné skupiny, které ...
To, co potřebujeme, jsou tedy formální (tj. matematické) systémy, které umožňují
deﬁnovat členství v nekonečné množině jazykových výrazů a každému členu této množiny
přiřadit jeho strukturní popis, a to prostřednictvím konečného souboru pravidel.
Gramatikami tedy budeme rozumět formální systémy, které vedle právě zmíněného
kritéria splňují ještě tři další:
34
1. gramatiky jsou vyjádřeny v deklarativním formalismu obsahujícím pouze informaci
o tom, které objekty se spolu kombinují a jaké jsou vlastnosti výsledného
objektu, tj. tento formalismus neobsahuje žádnou vnější procedurální informaci o
tom, jak dát tyto objekty k sobě (taková informace je např. implicitně obsažena
v tzv. přechodových sítích).
2. gramatiky v prezentovaném pojetí transparentně spojují každý přípustný řetězec
(výraz jazyka) s jeho implicitním strukturním popisem bez nutnosti uvádět explicitní
informace pro budování struktur (jak to vyžadují např. atn).
3. gramatiky přímo speciﬁkují pořadí prvků v řetězu a tudíž se v nich nečiní pokusy
rekonstruovat nějaký hypotetický podkladový slovosled.
0.5.2 Gramatika jako reprezentace znalosti
Gramatiky, jak se jimi budeme dále zabývat, jsou deklarativní a z největší části jsou
založeny na dekompozici syntaktických kategorií (zhruba slovní druhy) na složky známé
jako rysy. Takto pojaté gramatiky podporují kompozicionální přístup k významu, v jehož
rámci každý dobře utvořený výraz jazyka má svůj vlastní význam, a to význam složený
z významů podvýrazů, které jej tvoří. To je kontext, v němž syntaktická struktura vtisknutá
výrazu je klíčovým prvkem pro určení jeho významu.
Z hlediska zpj lze zkoumání gramatik pokládat za součást výzkumů v oblasti
reprezentace znalosti. Na gramatiku můžeme pohlížet jako na prostředek pro reprezentování
jistých znalostí o jazyce, a to natolik explicitně a formálně, že tyto znalosti mohou
být dostupné stroji.
V této souvislosti je však třeba zodpovědět několik podstatných otázek:
1. jaký formální systém je pro daný jazyk nejvhodnější, tj. jaký typ jazyka máme před
sebou?
2. jaký notační systém zvolit? – toto rozhodování je závislé na přihlédnutí ke kritériím
přirozenosti popisu jazyka, matematické síly zvoleného aparátu a výpočetní efek-
tivity.
– Požadavek přirozenosti vede lingvisty k tomu, aby popis byl formulován přehledně
a srozumitelně, byl snadno modiﬁkovatelný a vyjadřoval relevantní genera-
lizace.
– Poměrně nevelké notační modiﬁkace mohou na jedné straně výrazně omezit třídu
vyjádřitelných gramatik a na druhé straně mohou naopak vést k radikálnímu zvýšení
potenciální matematické mohutnosti charakterizovaného systému.
– Formalismus gramatik vytvářený teoretickými lingvisty je obvykle předmětem
pozornosti jen pro další teoretické lingvisty. Gramatické formalismy pro počítače
musí být podobně jako programovací jazyky srozumitelné jak pro lidi, tak i pro
35
stroje a navíc zvládnutelné v realistickém čase. Problémy, které vznikají při navrhování
gramatických formalismů, jsou vskutku shodné s otázkami, které se objevují
při návrzích deklarativních počítačových jazyků pro reprezentaci znalostí.
3. jak deskriptivně adekvátní má daný popis být? – např. jde-li nám o popis naprosto
přesný či jen přibližně adekvátní.
Formalismy, k nimž obrátíme svou pozornost v dalším výkladu, budou reprezentovat
v podstatě nekontextové frázové gramatiky a budou to gramatiky vymezených klauzulí
(dcg) a případně i formalismus patr (Gazdar, Mellish, 1989).
Všechny druhy gramatik užívaných v počítačové lingvistice využívají v té či oné
podobě:
• reprezentaci syntaktických kategorií nebo
”
slovních druhů“
• datové typy pro slova (slovní formy, tj. slovník)
• datové typy pro syntaktická (morfologická) pravidla
• datové typy pro syntaktické struktury.
Celou gramatiku lze pak chápat jako užití konkrétních datových typů složených z prvních
tří jednotek. Analyzátor je algoritmus, který bere gramatiku spolu s předloženým řetězem
a snaží se vrátit jednu nebo více instancí datového typu syntaktické struktury. Úplný
gramatický formalismus tedy poskytuje notaci pro speciﬁkování syntaktických kategorií,
slovníkových hesel, gramatických pravidel (ev. i více typů) a syntaktických struktur.
0.5.3 Formální gramatiky
Soubor formálních pravidel, která umožňují generovat nebo rozpoznávat české věty a
současně jim přiřazovat popisy jejich struktury, nazveme formální gramatikou (přesná
deﬁnice následuje v dalším oddíle).
Vrátíme se nyní k větě
(v-1) Ta jeho druhá žena vášnivě miluje rychlá auta.
Ukázali jsme už, že tato věta se skládá z větných členů, jimiž jsou podmět a přísudek
nebo, jinými slovy, lze ji rozčlenit na část podmětovou a část přísudkovou. Jestliže pro
větu užijeme označení S, pro podmět Np1 a pro přísudek Vp, pak tvrzení, že
”
větu (v-1)
lze rozložit na podmět a přísudek“, můžeme zapsat jako pravidlo:
(p-1) S → Np1 Vp,
Čtenář si právem může klást otázku, proč jsme nepoužili označení pomocí jiných symbolů,
např. V pro větu, Po pro podmět a Přís pro přísudek a tedy i pravidla
(p-1a) V → Po Přís,
které by rovněž bylo správným zápisem našeho tvrzení.
36
Je pravda, že neterminální symboly lze volit různě, musí však být splněna jedna podmínka:
vztahy mezi prvky věty musí být formulovány tak, aby výsledný popis adekvátně
postihoval strukturu věty a byl ve shodě s naší lingvistickou intuicí.
V oddíle (Použitá symbolika) deﬁnujeme symboliku, která vychází z konvencí zavedených
v současných gramatikách češtiny, a opíráme se přitom především o mezinárodní
(latinskou) gramatickou terminologii.
Deﬁnice gramatik
Od intuitivního vymezení gramatiky g1 uvedeného výše přejdeme nyní k formální deﬁnici,
kterou lze najít v literatuře, viz např. práci Češka a Rábová (1985), ale i Chomsky
(1966).
Vedle formální deﬁnice pojmu gramatiky si připomeneme i klasiﬁkaci gramatik. Je
důležité uvědomit si, že tento přístup je neutrální vzhledem ke kterémukoli přirozenému
jazyku, což znamená, že je také bezprostředně aplikovatelný nejen na češtinu, ale i třeba
němčinu, angličtinu nebo francouzštinu a ruštinu a další. Lingvisticky orientovaný výklad
uvedené problematiky je v klasické podobě podán u Chomského (1966), což je práce,
kterou by si měl přečíst každý adept počítačové lingvistiky. Čtenáři, který se chce dovědět
více o formální teorii jazyků a gramatik a vztazích k teorii automatů, doporučujeme
věnovat pozornost např. práci Novotného (1988) a také kapitolám Chomského a Millera
z knihy Handbook of Mathematical Psychology (Chomsky, Miller, 1965).
Gramatika v tomto chápání představuje formální prostředek, pomocí něhož můžeme
vymezit jak konečné, tak nekonečné jazyky, přičemž gramatika sama je konečná.
Nejprve uvedeme potřebné výchozí pojmy: Prvním z nich je abeceda, jíž rozumíme neprázdnou
množinu prvků – symbolů abecedy. Jako příklad lze uvést třeba latinskou
abecedu čítající 52 symbolů (velká i malá písmena) nebo českou abecedu, která celkem
obsahuje 82 symbolů.
Dalším je řetězec (ev. slovo). Řetězcem nad danou abecedou rozumíme nějakou posloupnost
symbolů abecedy. Posloupnost, která neobsahuje žádný symbol, nazveme prázdným
řetězcem a budeme ji značit e.
Přesněji řečeno, řetězec nad abecedou T deﬁnujeme takto:
1. prázdný řetězec e je řetězec nad abecedou T,
2. je-li x řetězec nad T a a ∈ T, pak xa je řetězec nad T,
3. y je řetězec nad T tehdy a jen tehdy, lze-li y získat aplikací pravidel (1) a (2).
Máme-li řetězce x a y a připojíme-li y za x, vznikne řetězec xy. Této operaci říkáme
zřetězení (konkatenace).
37
Je dána abeceda T. Pak T∗
je množina všech řetězců nad abecedou T včetně prázdného
řetězce a T+
je množina všech řetězců nad T kromě prázdného řetězce e, tj. T∗
=
T+
∪ {e}. Množinu L, pro niž platí L ⊆ T∗
(případně L ⊆ T+
, pokud e = L), nazýváme
jazykem nad abecedou T. Jazykem tedy může být libovolná podmnožina řetězců nad
danou abecedou.
Budeme pracovat se dvěma disjunktními abecedami (množinami) symbolů:
1. abecedou N (množiny) neterminálních symbolů, které v popisu jazyka interpretujeme
jako syntaktické kategorie,
2. abecedou T (množiny) terminálních symbolů, jež interpretujeme (nejčastěji) jako
slova daného jazyka,
3. sjednocení obou abeced N a T, tj. N ∪ T, nazýváme slovníkem gramatiky.
V dalším výkladu budeme pro zápis terminálních a neterminálních symbolů a z nich
tvořených řetězců užívat následující konvence, jíž jsme se ostatně přidržovali již výše:
1. a, b, c, d, ... – označují terminální symboly
2. A, B, C, D, ... – označují neterminální symboly
3. U, V, ..., Z – označují terminální nebo neterminální symboly
4. α, β, ..., ω – označují řetězce terminálních a neterminálních symbolů
5. u, v, ..., z – označují řetězce pouze terminálních symbolů
Nyní jsme připraveni deﬁnovat formální gramatiku G1.
Gramatika G1 je uspořádaná čtveřice
g1 = {N, T, P, S},
• kde N je konečná množina neterminálních symbolů, které interpretujeme jako syntaktické
kategorie,
• T je množina terminálních symbolů, jež interpretujeme jako konkrétní české slovní
tvary, a platí, že N ∩ T = ∅,
• P je konečná podmnožina kartézského součinu (N ∪ T)∗
N (N ∪ T)∗
x (N ∪ T)∗
,
• S ∈ N je tzv. vyznačený počáteční symbol gramatiky G,
38
• prvek (α, β) množiny P nazýváme přepisovacím pravidlem a budeme jej zapisovat
ve tvaru α → β. Řetězec α nazýváme levou stranou pravidla, řetězec β pravou
stranou přepisovacího pravidla.
Jádrem gramatiky tedy je konečná množina přepisovacích pravidel. Každé pravidlo má
tvar uspořádané dvojice (α, β) řetězců a stanovuje možné nahrazení řetězce α řetězcem
β. Řetězec α obsahuje alespoň jeden neterminální symbol, řetězec β je prvek sjednocení
(N ∪ T∗
).
Nechť λ a µ jsou řetězce z (N ∪ T)∗
. Pak mezi nimi platí relace
G
=⇒, která se nazývá
přímá derivace, jestliže řetězce λ a µ můžeme zapsat ve tvaru
λ = γαδ
µ = γβδ,
kde γ a δ jsou libovolné řetězce z (N ∪ T)∗
a α → β je nějaké přepisovací pravidlo.
Dojdeme-li v posloupnosti přímých derivací k řetězci, který obsahuje pouze terminální
symboly, pak již nelze aplikovat žádné přepisovací pravidlo a proces generování končí.
Z této skutečnosti, která plyne z deﬁnice pravidla, je odvozen název množiny T jako
množiny terminálních symbolů.
Jestliže existuje posloupnost přímých derivací νi−1 =⇒ νi, i = 1, ..., n, n > 1
taková, že platí: λ = ν0 =⇒ ν1 =⇒ ... =⇒ νn−1 =⇒ ν = µ, nazýváme ji derivace a
značíme ji
+
=⇒. Tuto posloupnost nazýváme derivací délky n.
Jestliže v gramatice G platí pro řetězce λ a µ relace λ
+
=⇒ µ nebo identita λ = µ, pak
píšeme λ
∗
=⇒ µ. Relace
∗
=⇒ je tranzitivním a reﬂexívním uzávěrem relace přímé derivace.
39
Důležitým prostředkem pro graﬁcké vyjádření struktury věty (její derivace) je graf-strom,
který se nazývá derivační nebo syntaktický strom věty. Přesněji řečeno, strom je orientovaný
acyklický graf s následujícími vlastnostmi:
1. existuje jediný uzel, tzv. kořen stromu, do něhož nevstupuje žádná hrana,
2. do všech ostatních uzlů vstupuje právě jedna hrana,
3. uzly, z nich žádná hrana nevystupuje, se nazývají koncové (terminální) nebo také
listy,
4. při kreslení se zachovává konvence, že kořen je nejvýše a všechny hrany jsou orientovány
směrem dolů,
5. uspořádání hran zachovává slovoslednou relaci, tj. pořadí slov ve větě (zleva do-
prava).
Je-li G gramatika, pak řetězec α ∈ (N∪T)∗
se nazývá větná forma právě tehdy, když platí
S
∗
=⇒ α, tj. řetězec α je generovatelný z počátečního symbolu S. Větná forma, která
obsahuje pouze terminální symboly, se nazývá věta. Jazyk L(G) generovaný gramatikou
G je deﬁnován množinou všech vět:
L(G) = {w|S
∗
=⇒ w ∧ w ∈ T∗
}.
Množinu vět generovaných gramatikou nazýváme jazyk a dále rozlišujeme slabou generativní
kapacitu gramatiky, jíž je jazyk L(G) (množina všech vět generovaných gramatikou
G), který je gramatika G schopna generovat, a silnou generativní kapacitu – což
je množina syntaktických stromů (strukturních popisů) přiřazovaných větám jazyka L
generovaného gramatikou G.
0.5.4 Typy gramatik
Gramatiky lze klasiﬁkovat do typů podle tvaru přepisovacích pravidel. Je obvyklé vymezovat
čtyři typy gramatik, které se nazývají typ 0, typ 1, typ 2 a typ 3.
Typ 0
Gramatika typu 0 obsahuje pravidla v nejobecnějším tvaru, kdy platí
α → β, α ∈ (N ∪ T)∗
N (N ∪ T)∗
, β ∈ (N ∪ T)∗
.
Protože se neklade žádné omezení na tvar pravidel a povoluje se přepisovat řetězce na
řetězce, mluvíme také o neomezených přepisovacích systémech.
40
Typ 1
Gramatika typu 1 obsahuje pravidla tvaru
αAβ → αγβ, A ∈ N, α, β ∈ (N ∪ T)∗
, γ ∈ (N ∪ T)+
nebo S → e.
Gramatiky typu 1 se také nazývají gramatikami kontextovými, protože v kontextových
pravidlech lze neterminální symbol A nahradit řetězcem γ pouze tehdy, je-li jeho pravým
kontextem řetězec β a levým kontextem řetězec α.
Kontextové gramatiky neobsahují pravidla tvaru αAβ → αβ, a tedy nepřipouštějí, aby
neterminální symbol byl nahrazen prázdným řetězcem. Jinými slovy, při generování věty
nemůže dojít ke zkracování generovaných řetězců.
Typ 2
Gramatika typu 2 obsahuje pravidla tvaru
A → γ, A ∈ N, γ ∈ (N ∪ T)∗
.
Nazýváme je také gramatikami nekontextovými, protože nahrazení neterminálního symbolu
A na levé straně pravidla řetězcem γ lze provést bez ohledu na jakékoli okolí, v němž
by se neterminální symbol A mohl vyskytovat.
Pro popis syntaktické stavby přirozených jazyků jsou nejzajímavější právě nekontextové
gramatiky. Gramatika g1 popsaná výše je příkladem nekontextové gramatiky pro
češtinu. Podobně gramatiky vymezených klauzulí v prologu, o nichž bude řeč níže,
vycházejí z formalismu nekontextových gramatik.
Typ 3
Gramatika typu 3 je tvořena pravidly ve tvaru
A → xB nebo A → x; A, B ∈ N, x ∈ T∗
.
Protože jediný možný neterminální symbol na pravé straně pravidla stojí zcela vpravo,
mluvíme také o pravé lineární gramatice. Poznamenejme ještě, že gramatiky typu 3 se
také nazývají regulárními gramatikami.
Pro práci s přirozenými jazyky, jak jsme prakticky ukázali výše, zůstávají východiskem
gramatiky nekontextové. V lingvistické literatuře posledních 20-30 let se sice spotřebovalo
mnoho papíru na argumenty, které si kladly za cíl ukázat, že nekontextové gramatiky
jsou pro popis přirozených jazyků nedostačující a že je potřeba zavést gramatiky silnější –
transformační (viz již Chomsky, 1957), poslední práce (např. Gazdar, 1982, Gazdar, Mellish,
1989, Pereira, 1983) však obsahují jejich určitou rehabilitaci. Zejména se podařilo
ukázat, že implementace nekontextových gramatik v prologu v podobě tzv. gramatik
vymezených klauzulí (deﬁnite clause grammars = DCG), o nichž bude vzápětí řeč, umožňuje
zachovat nekontextovou podobu pravidel a současně získat kontextovou citlivost
tak potřebnou pro formální popis gramatické shody a dalších kontextově podmíněných
41
gramatických jevů v přirozených jazycích.
0.5.5 Několik slov o PROLOGu
Standardním nástrojem v oblasti zpj je programovací jazyk prolog, který umožňuje
poměrně snadno vyjadřovat algoritmy užívané v počítačové lingvistice. Potřebujeme tu
často manipulovat se symboly (slovy, morfémy, slovními druhy, různými druhy rysů)
a strukturovanými objekty (seznamy, posloupnosti, stromy, grafy), které tyto symboly
obsahují.
prolog je jazyk vysoké úrovně, v němž lze přímo vyjadřovat operace na symbolech
(reprezentovaných jako atomy, řetězy a čísla) a strukturách (reprezentovaných
jako seznamy a termy), aniž se musíme starat o to, jak jsou tyto koncepty vyšší úrovně
skutečně reprezentovány v počítači. prolog umožňuje přesně speciﬁkovat komplexní
struktury v termínech abstraktních vzorců (schémat). Rovněž dovoluje prezentovat informace
na značně abstraktní úrovni v termínech souboru faktů a vyjadřovat libovolně
složité inference.
V zpj hraje základní roli koncept rekurze. Jazykové objekty jsou popisovány rekurzívními
datovými strukturami a operace na těchto rekurzívních strukturách jsou přirozeně
formulovány jako rekurzívní algoritmy. Podobně jako jiné vyšší programovací jazyky
ani prolog neomezuje volání predikátových deﬁnic (funkcí) sebou samými (přímo nebo
nepřímo), takže rekurzívní algoritmy lze v prologu vyjadřovat přímo.
0.5.6 Gramatiky v PROLOGU
V nasledujícím ukážeme, jak lze přepsat výše uvedenou gramatiku g1 tak, aby s ní bylo
možno pracovat jako s gramatikou v prologu. Nekontextovým gramatikám, jako je g1,
v prologu odpovídají gramatiky vymezených klauzulí – DC gramatiky.
0.5.7 Nekontextové gramatiky a DC gramatiky
Gramatická pravidla DC gramatiky jsou velmi podobná pravidlům g1, mají stejně jako
ona levou a pravou stranu a operátor →. Podstatný rozdíl je však v tom, že jednotlivé
neterminální symboly v g1 musí být v DC gramatice zapsány jako predikáty s příslušným
počtem argumentů.
Nekontextovou gramatiku g1 přepíšeme tedy jako DC gramatiku se jménem g1.pl,
tj. jako textový soubor s tímto jménem. Soubor vytvoříme pomocí některého z již zmíněných
editorů, nejlépe NE nebo CSED. S výhodou lze též použít editoru vestavěného
v arity prologu v. 5.1.
42
Při přepisování budeme dodržovat tyto konvence:
1. výraz označující konstantu v prologu musí začínat malým písmenem,
2. výraz označující proměnnou musí začínat velkým písmenem,
3. za každým pravidlem píšeme tečku,
4. /* tento text */ jsou pro prolog závorky, do nichž umisťujeme poznámky
nebo údaje, které potřebujeme jen my sami, a prolog je ignoruje. To se týká
např. číslování pravidel gramatiky nebo hlaviček oddělujících vlastní pravidla gramatiky
od pravidel deﬁnujících slovník (viz níže).
Poznamenáváme, že očíslování pravidel v nekontextové gramatice g1 a v DC gramatice
g1.pl je shodné, takže čtenář může porovnávat snadno podobu pravidel v g1 a v g1.pl.
Princip přepisu pravidel z nekontextové gramatiky do DC gramatiky je následující:
Vyjděme z pravidla gramatiky g1
(p-1) S → Np1 Vp,
jež, jak víme, rozkládá větu na jmennou skupinu v nominativu a slovesnou skupinu, což
je vyjádřeno příslušnými neterminálními symboly. V DC gramatice nemůžeme použít
jednoduchých neterminálních symbolů jako v g1, ale musíme je nahradit příslušnými
predikáty. Místo S budeme mít v g1.pl predikát s(s(Np1,Vp)), který má tři argumenty:
z nichž dva jsou pro nás nedostupné a také v rámci DC gramatiky neviditelné a jeden
– s(Np1,Vp) – zajišťuje vytvoření podstromu deﬁnovaného pravidlem (p-1) v grafustromu
generované nebo rozpoznávané věty – (v-1). Predikát (neterminál) s je splněn,
jsou-li splněny predikáty odpovídající neterminálům na pravé straně pravidla (p-1):
NP1 tedy odpovídá np1(Np1) a VP odpovídá vp(Vp), takže (p-1) odpovídá
/*p-1*/ s(s(Np1,Vp)) → np1(Np1),vp(Vp).
Predikáty np1 a vp1 jsou stejně jako predikát s tříargumentové. Podobně budeme postupovat
i u dalších pravidel gramatiky g1.
Nyní již můžeme uvést přepis pravidel g1 do pravidel DC gramatiky:
/* gramatika g1.pl */
/*p-1*/ s(s(Np1,Vp)) → np1(Np1), vp(Vp).
/*p-2*/ np1(np1(N1)) → n1(N1).
/*p-2a*/ np1(np1(Pnd1,N1)) → pnd1(Pnd1), n1(N1).
/*p-2b*/ np1(np1(A1,Np1)) → a1(A1), np1(Np1).
/*p-2c*/ np1(np1,(Pos1,N1)) → pos1(Pos1),n1(N1).
/*p-2d*/ np1(np1,(Num1,N1)) → num1(Num1),n1(N1).
/*p-3*/ vp(vp(Adgm,V3,Np4)) → adgm(Adgm),v3(V3),np4(Np4).
43
/*p-3a*/ vp(vp(V3,Np4)) → v3(V3), np4(Np4).
/*p-3b*/ vp(vp(Adgm,V3)) → adgm(Adgm),v3(V3).
/*p-3c*/ vp(vp(V3)) → v3(V3).
/*p-4*/ adgm(adgm(Adm)) → adm(Adm).
/*p-5*/ np4(np4(A4,N4)) → a4(A4),n4(N4).
/* slovník */
/*p-6*/ pnd1(pnd1(ta)) → [ta].
/*p-7*/ pos1(pos1(jeho)) → [jeho].
pos1(pos1(moje)) → [moje].
/*p-8*/ num1(num1(první)) → [první].
num1(num1(druhá)) → [druhá].
/*p-9*/ n1(n1(žena)) → [žena].
n1(n1(babička)) → [babička].
/*p-10*/ v3(v3(miluje)) → [miluje].
v3(v3(nenávidí)) → [nenávidí].
/*p-11*/ a1(a1(krásná)) → [krásná].
a1(a1(chytrá)) → [chytrá].
/*p-12*/ a4(a4(rychlá)) → [rychlá].
a4(a4(silná)) → [silná].
/*p-13*/ n4(n4(auta)) → [auta].
n4(n4(kuřata)) → [kuřata].
/*p-14*/ adm(adm(vášnivě)) → [vášnivě].
adm(adm(bláznivě)) → [bláznivě].
Čtenář si jistě povšimne, že proti g1 obsahuje g1.pl několik pravidel navíc. Jejich užití
lze snadno vyzkoušet, a tak si ověřit, v čem rozšiřují výchozí nekontextovou gramatiku
g1. V cvičeních, která následují, je podrobněji naznačen efekt způsobený např. pravidlem
/*p-2b*/, které má tu vlastnost, že neterminální symbol (predikát) np1 se v něm
vyskytuje na levé i pravé straně. Takové pravidlo se nazývá rekurzívní. Jsou to právě
rekurzívní pravidla, která umožňují postihnout opakující se pravidelnosti syntaktických
struktur přirozeného jazyka a díky nimž, jak se čtenář může snadno sám přesvědčit,
může konečná gramatika (tj. gramatika s konečným počtem pravidel) generovat nekonečně
mnoho vět.
0.5.8 Valenční rámce a jejich začlenění do formálních gramatik
V oblasti počítačového zpracování češtiny se nelze obejít bez rozsáhlejšího seznamu českých
sloves s jejich valencemi, který by obsahoval pokud možno všechna běžná česká
44
slovesa a měl také dostatečně formální podobu. Při jeho sestavování jsme mohli opřít o
existující počítačový slovník českých kmenů, který je jádrem automatického morfologického
analyzátoru a současně lemmatizátoru lemma (Osolsobě 1996, Ševeček 1995) Tento
slovník v současnosti obsahuje cca 36 tisíc slovesných kmenů, posloužil jako vhodné východisko
k pokusu o vytvoření základního valenčního slovníku zahrnujícího v současnosti
kolem 15 tisíc českých sloves. Jako další zdroj posloužil díky své elektronické podobě i
Slovník českých synonym (Pala, Všianský 1995). Výsledkem je tedy Valenční slovník českých
sloves, který u vybraných sloves obsahuje i základní frazeologická spojení a některé
kolokace. Takto lze získat přirozené východisko též pro vytvoření základního seznamu
valencí i u českých substantiv a adjektiv: takový seznam představuje další chybějící článek
formálního gramatického popisu češtiny a je nezbytným předpokladem jejího realistického
počítačového zpracování.
Jsme si přirozeně vědomi, že dostatečně reprezentativní seznamy českých sloves
užívaných v současné češtině budeme moci získat teprve z právě vznikajícího Českého
národního korpusu (ČNK) i spolu s jejich frekvenčními charakteristikami. To ale bude
vyžadovat ještě určitý čas (odhadem kolem 2 let) a navíc důležitou podmínkou, která
musí být splněna, abychom dostali přesnější obraz o distribuci slovních druhů včetně
sloves v současné češtině, je gramatické označkování dostatečně velké části ČNK. V současnosti
je k dispozici jen korpus DESAM na FI MU, který je pro tento účel s rozsahem
cca 1 mil. slovních tvarů nedostačující, resp. může sloužit jen jako základní východisko.
Na rozdíl od seznamu vytvořeného pod vedením N. Svozilové v ÚJČ (Svozilová
et al, 1998?), který jednoznačně předpokládá uživatele – člověka, je VSČS primárně
orientován na algoritmický popis české syntaxe a její počítačové zpracování – je proto
zachycen pomocí formální notace. Abychom mohli dostatečně přesně zachytit české valence,
navrhli jsme notační prostředky, které zachycují jak jednotlivé jednoduché valence,
tak i jejich možné kombinace mající pak podobu konkrétních valenčních vzorců. Návrh
notace valenčních vzorců svým způsobem navazuje na existující strojový slovník českých
kmenů a algoritmický popis české morfologie (Osolsobě, 1996). Principy notace pro
valenční vzorce jsou uvedeny a objasněny níže v odd.??
Celkově byl materiál pro VSČS byl získán z následujících zdrojů:
1. Slovník českých synonym, NLN, Praha 1995,
2. Slovník spisovné češtiny, Academia, Praha 1994, 2.vyd.
3. počítačový slovník českých kmenů s celkovým rozsahem cca 164 000 jednotek (preﬁgovaná
slovesa a pravidelně tvořená deverbativa, adjektiva a adverbia jsou však
v tomto slovníku generována automaticky, takže skutečný rozsah tohoto slovníku
je větší než 300 000 položek).
Výchozí soubor získaný z uvedených zdrojů čítal kolem 10 000 tisíc českých sloves. Po
jeho zpracování a postupném porovnání se SSJČ jsme dospěli k první verzi seznamu obsahujícímu
cca 12 000 českých sloves, který byl ještě doplněn o slovesa získaná z korpusu
45
DESAM na rozsah cca 15 000 položek, což je rozsah, který lze z hlediska současných
potřeb pokládat za dostačující.
Výchozí pojmy
Ve shodě s Čermákem a Holubem (1991), jako výchozí koncept může sloužit kolokabilita,
tj. obecná schopnost slova (a dalších jednotek) spojovat se v textu s jinými. S tímto termínem
by se pravděpodobně dalo vystačit, u sloves je však obvyklé mluvit o valenci zejména
proto, že ji lze vyjadřovat morfologickými prostředky, tj. pády. Tuto schopnost sloves
vázat na sebe gramaticky ostatní slova můžeme symbolicky reprezentovat v termínech
slovních druhů – substantiv a zájmen nebo pomocí speciﬁckých pronominálních výrazů jako
koho, co, čeho, komu, čemu, ....
V literatuře se často diskutuje o tom, zda valence je jevem primárně syntaktickým
nebo sémantickým. Většinou se setkáváme s názorem, že valence je záležitostí
roviny syntaktické, což se primárně opírá o fakt, že je (v češtině) vyjadřována morfologickými
prostředky – pády, které se vazebně pojí s jednotlivými slovesy. Tyto formální
prostředky realizace valence by nám však neměly zakrýt podstatu věci, totiž skutečnost,
že schopnost slova kombinovat se v textu s jinými slovy je primárně dána sémanticky,
tj. významy spojujících se slov. Považujeme proto slovesnou valenci za jev primárně sémantický
a chápeme ji jako významem determinovanou schopnost slova kombinovat se s jinými
slovy. V dalším budeme usilovat o co nejúplnější významovou charakterizaci jednotlivých
argumentů, i když v dané verzi slovníku zatím pracujeme zatím především s povrchovými
pádovými příznaky. Je však jasné, že bez přihlížení k významu sloves nemůžeme
rozumně vysvětlit kontextové elipsy typu
(v1) Otec čte dětem před spaním. (pohádku)
nebo významově blízké případy – synonyma jako
(v2a) Matka mluví s otcem o těch penězích.
(v2b) Matka vykládá otci o těch penězích.,
i když jejich valenční vlastnosti se povrchově liší (viz např. Leech, 1981).
Typy valencí
Při popisu valenci a pak i sestavování slovníku je nejobtížnější vyrovnat se s obligatorností
a fakultativností jednotlivých argumentů u sloves, resp. klasiﬁkovat je vzhledem
k těmto kritériím. Obtíže, které tu vznikají, však podle našeho názoru signalizují, že
čistě syntaktická kritéria obligatornosti a fakultativnosti nejsou dostatečná a často neumožňují
dospívat ke konzistentním rozhodnutím. Vzhledem k rozsahu materiálu jsme
proto zatím rezignovali na striktní rozlišení obligatorních a fakultativních doplnění a
zaměřujeme se primárně na jejich zachycení hlavně v souladu s významem toho kterého
predikátu. Jinak řečeno, jde nám hlavně o to, abychom na prvním místě zachytili, co
k danému slovesu patří, a teprve na druhém, jak to k němu patří.
46
V tomto ohledu nejde ovšem jen o naši zkušenost, a proto např. ve shodě se
Somersem (Somers 1987) jsme se pokusili rozlišit následujících šest stupňů valenční
vázanosti, pro něž zavádíme po řadě i příslušné notační konvence:
1. integrální, lexikálně determinovaná, nevypustitelná doplnění, nepřipouštějící substituce
argumentů blízkými synonymy a modiﬁkace adjektivy, nevstupují do syntagmatických
substitučních paradigmat (pronominalizace), frazeologická spojení,
ev. idiomy, frazémy, např. držet krok, hubu, mít šanci, mít koho—co po ruce apod.
Vyznačujeme je samostatným symbolem #, který signalizuje, že ve skutečnosti
jde o samostatnou jednotku. Výše uvedené držet hubu a podobně i držet na koho
zapíšeme tedy jako:
držet
# hubu
# <na koho>
2. obligatorní, nutná doplnění mající pravidelně formu přímých a předložkových pádů
a vedlejších vět uvozených např. spojkami že, aby. Obligatorní přímé i předložkové
pády jsou vyznačeny symbolem & a větná doplnění symbolem $. Můžeme tedy
mít:
rozkázat t
= komu & co
= $(aby, co) = inf
dokázat t
= komu & co
= $(že)
3. fakultativní, nepovinná doplnění formálně realizovaná podobně jako v předchozím
případě přímými a předložkovými pády. Vyskytují se s příslušnými slovesy pravděpodobně
dosti často, ale jejich vypustitelnost nepochybně svědčí o jejich fakultativnosti.
K označení těchto případů užíváme ?, takže můžeme mít např.:
dopisovat si
= s kým ? o čem,
kde lze mít jak dopisovat si bez doplnění, tak i dopisovat si s kým, dopisovat si o
čem a nakonec rovněž dopisovat si s kým o čem.
Zařazujeme sem i případy jako
vyprovázet, vyprovodit t
= koho ? (z čeho, do čeho, na co),
v nichž první doplnění pokládáme za obligatorní, ale ostatní uvedená v závorce mohou
a nemusí být přítomna. Lze namítnout, že mají adverbiální povahu (označují
místo), je však třeba si uvědomit, že se pojí se slovesem pohybu, u nichž lokální
modiﬁkátory nemají podle našeho názoru povahu naprosto volných doplnění.
4. střední doplnění – široce determinovaná sémantickou třídou (významem) slovesa.
Nejtypičtějším představitelem tohoto typu doplnění, jak ukazují naše data, je ob-
47
vykle přímý instrumentál s širokým nástrojovým významem. Dále sem mohou
patřit i výrazy časové, místní a způsobové, pokud jsou široce predikovány významem
odpovídajích sloves – to platí zejména pro doplnění [jak]. Doplnění tohoto
typu jsou notačně zachycována pomocí hranatých závorek, např.:
dopovat t
= koho [čím]
nebo
dosáhnout t
= čeho, co [čím], [jak].
Příkladem široce chápaného lokálního modiﬁkátoru tohoto typu může být třeba
dopít, dopíjet t
= co [z čeho] ,
kde význam slovesa implicitně předpokládá doplnění typu ”nádoby”, které ovšem
může a nemusí být přítomno, bývá však přítomno ”obvykle”.
5. volná doplnění – sem řadíme zcela volná doplnění časová, místní a způsobová určení
spojitelná s každým normálním slovesem. Jsou volná do té míry, že nijak
sémanticky nevyplývají z významu slovesa, proto je u sloves v současné verzi slovníku
nijak nevyznačujeme a předpokládáme, že jsou v případě potřeby doplnitelná.
Pokud jsou vyjadřována čistými adverbii jako doma, tady nebo teď, dnes nepředstavuje
jejich rozpoznání nebo vygenerování zvláštní potíže, složitější je situace u
adverbiálních předložkových pádů. Zde počítáme se zavedením vhodných sémantických
rysů, které mohou pomoci indikovat, že např. na ulici ve spojení plakala na
ulici má povahu volného lokálního modiﬁkátoru. Po dopracování slovníku valencí
do deﬁnitivní podoby počítáme s vyznačením volných doplnění u jednotlivých sloves
pomocí speciálních rysů, které mohou v explicitní podobě vypadat např. takto:
platit t
= komu & co [čím] [za co] <kdy=dnes> <kde=v obchodě, jak=hotově>
6. periferní doplnění, k nimž nepochybně patří částice různého typu, zejména pak
částice mající hlavně pragmatickou povahu. Zatím zvolený způsob značení je
v daném okamžiku celkem arbitrární a deﬁnitivně bude řešen až v průběhu času.
Jako příklad uveďme třeba
poslat
= komu ? co |<asi, možná, patrně>|
Je vidět že použitá škála vede ke klasiﬁkaci, která je širší než klasiﬁkace obvyklé v českých
gramatikách. Za její přednost pokládáme právě to, že umožňuje zachytit v jednom rámci
jak frazeologická spojení na straně jedné, tak případně i různé typy partikulí zejména
pragmatické povahy na straně druhé. Mezi nimi se pak nacházejí jednotlivá doplnění
počínaje obligatorními až po volné.
48
Celkově tedy zachycujeme valenci českých sloves v popisovaném slovníku tak, že
u každého slovesa uvádíme s ohledem na jeho význam jednotlivé přímé nebo předložkové
pády, s nimiž se dané sloveso pojí. Jak lze vidět z příkladů uvedených výše, notačním
prostředkem vyznačujícím jednotlivé valenční vzorce je = (také bychom mohli říci ”významy”,
uvozovkami pak chceme naznačit, že ne vždy musí jít o významy, které by
přesně odpovídaly slovníkovému členění třeba v SSČ, lze však očekávat, že míra shody
bude dosti velká). Základní údaje v tomto ohledu poskytuje tab. 4 níže.
0.5.9 Vztah mezi slovesnými významy a valencemi
Použitelný popis slovesných valencí se neobejde bez jasného rozlišení vztahů mezi jednotlivými
valenčními vzorci a slovesnými významy. Nejprve je tedy potřeba mít u jednotlivých
sloves k dispozici jejich významy, což může být zachyceno podobně jako ve WN
1.5. Mějme např. sloveso rovnat (značka =1, obecně ”=n” značí číslo významu v češtině,
značka :1, obecně ”:n” označuje číslo odpovídajícího ekvivalentního významu ve WN 1.5
(eqsynonym)):
rovnat
=1
## vyrovnávat, činit rovným, planýrovat hřiště
#+ level:8
=2
## urovnávat, uhlazovat vlasy
#+ arrange:1
=3
## vyhlazovat látku, povrch
#+ smooth:3
=4
## stavět do hranice (dřevo)
#+ stock:6
=5
## pořádat, třídit knihy
#+ sort:5
V takto uvedených datech ovšem chybí údaje o valencích: jestliže je doplníme,
budou údaje pro sloveso rovnat v naší notaci vypadat takto – (k5 značí aktuální slovní
druh – zde sloveso, zájmenné výrazy se symbolem V uprostřed tvoří konkrétní valenční
vzorec s příslušnými pády charakteristickými pro dané sloveso a daný význam): rovnat
=1 (k5 kdo V co)
## vyrovnávat, činit rovným, planýrovat hřiště
#+ level:8
49
=2 (k5 kdo V co komu)
## urovnávat, uhlazovat vlasy
#+ arrange:1
=3 (k5 kdo V co)
## vyhlazovat látku, povrch
#+ smooth:3
=4 (k5 kdo V co do čeho)
## stavět do hranice (dřevo)
#+ stock:6
=5 (k5 kdo V co kde)
## pořádat, třídit knihy
#+ sort:5
Posledním údajem, který potřebujeme u sloves mít, je informace o sémantické
povaze jednotlivých slovesných participantů, které jsou v dosavadní podobě charakterizovány
jen příslušnými zájmennými proměnnými. Sémantickou povahou participantů míníme
jejich zařazení pod kategorie typu sémantických pádů jako Agens, Patiens, Adresát
a další: to lze vhodně provést využitím tzv. vnitřně jazykových vztahů (Internal Language
Relations – ILI), jak jsou deﬁnovány ve EurowordNetu-1 a 2 (Vossen, 1998).
V dané verzi slovníku pracujeme jen s pádovými příznaky vyznačenými pomocí
pronominálních výrazů jako koho, co, čeho, komu, čemu, ..., které jsou jednak
vhodné mnemotechnicky a jednak umožňují pohodlně rozlišovat opozici životnost
: neživotnost. Lze však vidět, že uvedené příznaky je možno v případě potřeby
celkem snadno konvertovat do jiné vhodné notace (Horák, ???), která se Subjektové
argumenty jsou v dané verzi implicitní a samostatně jsme nezpracovávali ani aritu sloves
(predikátů) tak, že bychom každému predikátu přiřazovali aritu pro jeho jednotlivé
významy např. ve formě čísla umístěného před rovnítkem vyznačujícím jednotlivé
valenční vzorce:
adresovat t
3= komu & co
3= co ? na koho|co
Je ostatně patrné, že aritu lze z uvedené notace pohodlně odvodit, aniž bychom ji
uváděli samostatným číslem. Příznaky jako jak a kolik uvádíme jen u sloves, u nichž
mají v závislosti na významu jednoznačně valenční charakter. Podobně, jak jsme už
naznačili, zacházíme i s adverbiálními pády jako na čem, v čem, do čeho, z čeho, ...,
které uvádíme jen tam, kde jsou podmíněný význame slovesa – tak je tomu zjevně u
sloves pohybu.
Příznaky typu kam, kudy, kde, kdy, ... v dané verzi u jednotlivých sloves neuvádíme
a situaci kolem adverbiálních argumentů budeme řešit rozvinutím (generováním a
rozpoznáním) adverbiálních doplnění s významem místa, času a případně i způsobu.
Tento krok je založen na teoretickém předpokladu, že uvedená doplnění se obvykle
mohou pojit se všemi běžnými slovesy (mimo např. některá slovesa pohybu apod.).
50
Počítáme tu však s empirickým ověřováním tohoto běžně vyslovovaného předpokladu a
porovnáváním s korpusovými daty.
Východiska pro třídy sloves
Popsaný seznam čítající téměř 12 tisíc českých sloves může posloužit jako východisko
k vytvoření řady slovesných tříd získaných na základě pádových příznaků (a jejich kombinací),
s nimiž se jednotlivá slovesa pojí . Díky celkové složitosti notace a velkému
počtu různých valenčních vzorců představuje třídění sloves s jejich valenčními vzorci
dosti komplikovaný úkol, pro jehož úplné vyřešení je třeba napsat samostatný program
a také v postupných krocích testovat konzistenci zápisu valencí v aktuální verzi valenčního
seznamu. Jde o natolik komplexní věc, že zde můžeme zatím nabídnout jen svého
druhu sondu poskytující jen zatím získané údaje o základních typech valencí a valenčních
vzorců.
Učinili jsme zatím první pokus a pomocí valencí jsme se pokusili vytřídit z našeho seznamu
slovesa pohybu. Použili jsme k tomu valencí do čeho a z čeho, které lze považovat
za spolehlivé signály místního doplnění. Takto získaný podseznam jsme ještě prošli manuálně
a vyřadili některá slovesa, jež se sice vyskytují s valencí do čeho, ovšem označují
velmi speciﬁckou variantu pohybu jako např. bít, bouchat do čeho: výsledkem je seznam
sloves pohybu, který zatím čítá cca 1700 sloves (z cca 12 tis. sloves). Tento seznam se
ještě zjevně rozpadne na menší a sémanticky kompaktnější skupiny podle jednotlivých
typů pohybu – k tomuto jemnějšímu třídění použijeme dalších valencí vyskytujících se
u sloves v seznamu jako např. na co a v čem a dalších.
Již získaná data tedy jasně naznačují, že pomocí valenčních vzorců bude možno
získat širší sémantickou klasiﬁkaci českých sloves, která bude velmi užitečná pro různé
softwarové aplikace.
První soubor údajů se týká tranzitivity a intranzitivity: chápeme je celkem formálně
tak, že za tranzitiva pokládáme všechna slovesa, která mají ve svém valenčním vzorci
akuzativ – i v kombinaci s jinými pády, zatímco mezi intranzitiva řadíme ta slovesa,
u nichž se akuzativ nevyskytuje. Počítáme tu i s případy, kdy je sloveso víceznačné:
např. ....., K rozlišení možných variant slouží příznaky t a i uvedené u jednotlivých
heslových slov.
Podobně je zachycena i reﬂexivita, a to tak, že u heslového slova je podle potřeby
uvedeno se nebo si, které pak slouží jako rozlišující příznak. Takto lze opět rozlišit
případy jako ...
První malá tabulka tab. 0 tedy dává představu o vztazích mezi tranzitivy a intranzitivy
a o četnostech sloves se si a se na základě sebraných cca 12 000 sloves.
Tabulka 0 – tranzitiva, intranzitiva reﬂexiva
51
-- i : celkem 1700 sloves, tj.\,1700:119,42 = cca 15 \% \\
-- t : celkem 6471 sloves, tj.\,6470:119,42 = cca 54 \% \\
-- se : celkem 2780 sloves, tj.\,2780:119,42 = cca 24 \% \\
-- si : celkem 572 sloves, tj.\,572:119,42 = cca 5 \% \\
--------------------------------------------------------------\\
celkem 11523
Předběžná statistika valencí (a pádů)
V následujícím textu uvádíme v tab. 1 předběžné údaje o četnostech jednotlivých
přímých i předložkových pádů, jak se vyskytují u sloves v našem současném valenčním
seznamu. Ve všech tabulkách jsou zatím jen absolutní četnosti, detailnější statistiky
s ohledem na celkovou různorodost a komplikovanost valenčních vzorců budeme moci
nabídnout až v dalším. Zatím nám počet různých valenčních vzorců v poměru k celému
seznamu čítajícímu cca 12 000 sloves vychází na 4000, z nichž 2849 se vyskytuje s četností
1.
Tabulka 1 – souhrnné absolutní četnosti jednotlivých pádů
nominativ 11890
genitiv přímý 215
" předložkový 657
dativ přímý 295
" předložkový 193
akuzativ přímý 2341
" předložkový 589
lokál 1003
instrumentál přímý 878
" předložkový 392
------------------------------
Tab. 1 poskytuje základní a souhrný přehled o distribuci přímých a předložkových
pádů, které se vyskytují s jednotlivými slovesy samy o sobě, tj. je to základní přehled
dvoumístných valencí tvořených na levé straně nominativem, který se implicitně objevuje
téměř u všech sloves, a na pravé straně příslušným pádem z tabulky. Tabulka potvrzuje
očekávanou převahu akuzativu a lokálu, následuje instrumentál a genitiv a jako poslední
vychází dativ, u něhož, jak se dalo čekat, převažuje dativ přímý.
Tabulka 2 – Přehled výskytu konkrétních pádů
genitiv dativ
======= =====
čeho 161 komu 195
52
koho|čeho 54 čemu 19
do čeho, 286 komu|čemu 81
do koho|čeho 38 k čemu 104
z čeho 222 ke komu|čemu 56
z koho|čeho 20 proti komu|čemu 33
od čeho 13 ----------------------------
od koho|čeho 24 celkem 488
-----------------------------
celkem 818
akuzativ lokál
======== =====
co 1461 v čem 595
koho|co 880 v kom|čem 15
na koho 57 na čem 265
na koho|co 201 na kom|čem 16
na co 217 po čem 23
o co 33 po kom|čem 55
o koho|co 24 o čem 13
pro koho|co 28 o kom|čem 21
za koho|co 19 -----------------------------
přes co 10 celkem 1003
-----------------------------
celkem 2930
instrumentál
============
čím 842 větná doplnění
kým|čím 36 ==============
s kým 92 $(co,jak,že) 98
s čím 61 $(že) 83
s kým|čím 128 $(aby) 28
nad čím 18 koho $(aby) 13
nad kým|čím 39 komu $(že) 13
před kým|čím 36 ------------------------------
za kým|čím 18 celkem 235
-----------------------------
celkem 1256
inf 77
-----------------------------
celkem 77
53
Tab. 2 nabízí v porovnání s tab. 1 přehled četností konkrétních přímých a předložkových
pádů získaných vytříděním z našeho seznamu. Lze z ní tedy vyčíst aspoň základní tendence
u variant jednotlivých předložkových pádů a také rozdíly u přímých pádů. Např. u
akuzativu (ale i u ostatních pádů) je vidět, že co je preferováno proti koho—co, což
ukazuje na rozdílnou distribuci vzhledem k opozici životnost : neživotnost. Navíc jsou
v tabulce uvedeny i základní údaje o inﬁnitivní valenci a dále o větných doplněních a
spojkách, které je uvozují.
Tabulka 3 – nejčetnější trojmístné valence
genitiv přímý - předložkový akuzativ - genitiv př.
=========================== ==================
koho ? do čeho 24 co ? z čeho 100
co [z čeho] 57
dativ - genitiv předl. co & z čeho 23
=============== co ? do čeho 94
komu & do čeho 20 co [do čeho] 39
co & do čeho 24
dativ - akuzativ koho|co ? do čeho 52
================ koho|co ? z čeho 22
komu & co 322 koho|co [do čeho] 20
komu & koho|co 22 -----------------------------
komu ? co 256 celkem 431
komu ? koho|co 18
[komu] co 82 akuzativ - dativ
komu ? na co 19 ================
----------------------------- co ? k čemu 30
celkem 719
akuzativ přímý - předložkový
dativ - lokál ============================
============= co ? na co 57
komu ? v čem 30 co [na co] 24
co ? na koho 32
dativ - instrumentál co & na koho 23
==================== co ? na koho|co 22
komu ? čím 33 -----------------------------
celkem 158
akuzativ - instrumentál akuzativ - lokál
======================= ================
co ? čím 250 co [v čem] 84
co [čím] 207 co ? v čem 36
54
koho ? čím 153 koho|co [v čem] 53
koho [čím] 85 co ? (na čem, v čem) 22
koho|co ? čím 264 ------------------------------
koho|co [čím] 256 celkem 195
co ? s kým 34
co [s kým] 18
-------------------------------
celkem 1267
instrumentál - lokál
====================
s kým ? o čem 26
Tabulka 3a – souhrn trojmístných valencí
genitiv přímý - gen.předložkový 24
dativ - genitiv 20
dativ - akuzativ 719
dativ - lokál 30
dativ - instrumentál 33
akuzativ - genitiv 431
akuzativ - dativ 30
akuzativ - lokál 195
akuzativ - instrumentál 1267
akuzativ přímý - ak.předložkový 158
Tab. 3 a 3a poskytují základní představu o nejčetnějších trojmístných valencích včetně
údajů o konkrétních kombinacích přímých i předložkových pádů. K tomu poznamenejme,
že pořadí, v němž jsou jednotlivé pády uváděny, je dáno zvoleným způsobem
notace, takže si lze představit, že s ohledem na volný slovosled v češtině by obě uvedené
tabulky mohly vypadat poněkud jinak, ale podstatu věci by to neovlivnilo. Pracujeme
tedy se zápisem věnovat komu & co, ale stejně tak bychom mohli mít věnovat co
& komu, informace o valenci a (v daném případě) o její obligatornosti tím není nijak
dotčena. Tab. 3a ukazuje jasnou převahu dvojice akuzativ-instrumentál vyplývající
z vyšší četnosti sloves s obecným významem dělat něco něčím. Druhé místo kombinace
dativ-akuzativ rovněž není překvapující a je nepochybně dáno nemalým počtem sloves
s valencí typu dávání či poskytování v širokém slova smyslu.
Z notace použité v tab. 3 lze také vyčíst rozdíly v distribuci obligatorních a fakultativních
doplnění, např. zápis valence komu & co vyjadřuje, že jde o valenci obligatorní,
zatímco zápis komu ? co pro nás znamená, že obě valence jsou v dané kombinaci fakultativní
– mohou se spolu vyskytovat obě nebo jen jedna z nich. Zápis [komu] co pak
55
chápeme tak, že hranaté závorky vyznačují volné doplnění, které se u příslušného slovesa
může a nemusí objevit a – v daném případě půjde s velkou pravděpodobností o volné
dativy.
Tabulka 4 – počet významů u sloves
slovesa bez valence (rovnítka) 0:266
slovesa s jednou valencí (rovnítkem) 1:8429
se dvěma valencemi (rovnítky) 2:2196
se třemi 3:647
se čtyřmi 4:224
s pěti 5:73
s šesti 6:33
se sedmi 7:21
s osmi 8:6
s devíti 9:6
s desíti 10:3
s dvanácti 12:1
s patnácti 15:1
se sedmnácti: být 17:1
s padesáti osmi: jít (včetně frazémů) 58:1
0.5.10 Desambiguace – metody
1. techniky založené na pravidlech: DES a DES1
2. statistické techniky: bigramy, trigramy, Viterbiho algoritmus, probabilistické nekontextové
gramatiky
3. využití neuronových sítí
0.6 Reprezentace významu
0.6.1 Lexikální význam – slova a slovní spojení
K významu obecně
Popis a deﬁnování významu představuje nejobtížnější oblast zpj. Přitom je zjevné, že
bez vyřešení a zvládnutí této problematiky není možný další pokrok nejen v oblasti zpj,
ale i v řadě oblastí AI – konkrétně se to týká reprezentace znalostí a inference.
Vezměme si např. sloveso znamenat – některá jeho užití se netýkají jazyka bezprostředně,
tak např. ve větě
(v-v1) Tyto stopy znamenají, že řidič začal brzdit pozdě.
56
jde o to, že stopy na silnici jsou podkladem pro uvedený závěr. Na druhé straně ve větě
(v-v2) ”Ploužit se” znamená jít pomalu.
je tohoto slovesa použito způsobem, který nás bude dále zajímat. Konkrétně jde o deﬁnování
(popis) významu slova pomocí jiných slov, tedy pomocí nějakého jazyka či přesněji
řečeno metajazyka.
Obecně vzato, jaké máme možnosti, když se pokoušíme popisovat (deﬁnovat)
význam slov nebo význam vět přirozeného jazyka? Bohužel to lze udělat jen tak, že
k tomu použijeme zase jiného jazyka – metajazyka, jímž může být:
• týž nebo jiný přirozený jazyk
• nějaký formální jazyk, např. vhodný matematický nebo logický kalkul nebo jazyk
sémantických rysů (sémů)
• z toho se vymyká ostenzívní způsob deﬁnování významu výrazů přir. jazyka: to je
auto, toto jsou klíče. Přitom na ostenzívním deﬁnování významů je založeno učení
se jazyku u člověka, mělo by tedy být přeneseno i do oblasti AI.
Další potíž spočívá v tom, že v přirozeném jazyce se běžně vyskytují věty jako:
(v-v3) Střílení poslanců ohrožuje demokracii., které ukazují, že jejich význam není nezávislý
na kontextu. Otázka může být položena i jinak: lze popsat význam věty nezávisle na
kontextu? Nebo má věta jen jeden význam, ale lze jí užít k různým účelům? Pokud by
odpověď na první otázku byla kladná, mělo by to tu výhodu, že by bylo možno studovat
význam věty detailně bez ohledu na veškeré komplikace spojené s jejich užíváním. Je-li
tomu naopak a věty mají význam jen v závislosti na kontextu a komunikační situaci, pak
zkoumání jazyka nelze oddělit od studia obecné lidské inference a situačního kontextu.
V dalším ukážeme, že významy slov lze zkoumat nezávisle na kontextu a že do
jisté míry to platí i pro některé typy vět. Pokud nám půjde o kontextově nezávislý
přístup, budeme mluvit o významu, jinak budeme pracovat s termínem užití. Zobrazení
přiřazující větám PJ jejich sémantickou reprezentaci v podobě formulí PK1 nebo TIL
budeme nazývat
– sémantickou interpretací,
zobrazení od sémantické reprezentace k ﬁnální reprezentaci znalostí (RZ) opět ve tvaru
formulí PK1 nebo TIL předpokládá také zpracování deiktických, indexických výrazů a
nazývá se
– pragmatická interpretace.
Je tedy rozdíl mezi normálními deskriptivními jmennými skupinami jako chytrý student a
zájmennými skupinami typu já, ty, on, my, tady, tam, ... – u těchto jejich interpretace
závisí na kontextu či komunikační situaci: ty určují, kdo je mluvčí a kdo posluchač.
Jmenné skupiny s demonstrativy a posesivy typu to auto, moje žena či ta moje žena
ovšem také závisí na kontextu, ale můžeme s nimi pracovat bez větších potíží stejně jako
s deskriptivními jmennými skupinami (ev. je lze brát jako proměnné stejného typu.
57
Popis významů slov
Analogie se syntaxí – tam jsme zavedli slovní druhy a uvedli pravidla jejich kombinování
do větších složek. Podobně to lze udělat se slovy a pokusit se je roztřídit významových
tříd či sémantických polí, tj. nejprve si zavést vhodnou ontologii – tedy množinu tříd objektů,
která představuje klasiﬁkaci objektů universa U (podle Aristotela, 384-322 př.n.l.).
Hlavní třídy objektů a jim odpovídajících jazykových výrazů podle Aristotela jsou:
– substance, tj. fyzické objekty
– kvantity, tj. např. čísla
– vlastnosti, tj. červený, velký, krásný, milá
– relace – typicky slovesa jako milovat, ale i být otcem
– stavy
– události – nejčastěji slovesa, stávají se, probíhají ve světě, poskytují strukturu pro
interpretaci vět
– akce – to, co dělají agenti, činitelé, dá se na ně odkazovat zájmeny: (v-v4) Zvedli jsme
tu bednu. Byla to těžká práce.
– procesy
– situace – jistý soubor okolností, situace v sobě subsumují události. Často jde o abstrakci
úseku světa na určitém místě a v určitém čase: (v-v5) Zuřili jsme a nadávali na
fotbale,
jak vidno, jde soubor akcí probíhajících na určitém místě a v určitém čase,
např. fotbalový zápas. – místo, locus – ve škole, tady, na rohu, doma
– pozice
– čas, tempus – teď, zítra, letos
– následek
– plány, záměry
Naproti tomu ontologie, s níž se pracuje v PK1, zahrnuje jen individua a individuální
proměnné, vlastnosti a relace – tedy entity prvního řádu.
Můžeme jít ještě dále a pokusit klasiﬁkovat slova podle významu ještě detailněji
– dobře je to vidět na slovesech, u nich lze mít:
– slovesa pohybu: jít, kráčet, utíkat, letět, vznášet se, ...
– slovesa modální: chtít, mít, moci, muset, smět, dát, ...
– slovesa dicendi (sentiendi): mluvit, říkat, říci, povídat, vědět
– slovesa označující zpracování informace: informovat, sdělovat, ...
– slovesa označující emoce: smát se, plakat, tesknit, ...
– slovesa označující ﬁnanční transakce: prodávat, kupovat, ...
Levinové klasiﬁkace sloves (Levin, 1995)
1. Slovesa tělesných funkcí a péče o tělo (275 syns.)
- potit se, třást se, omdlévat, bolet - subjekt je neovládá,
intransitivní.
- spát, chrápat, unavit se, mrznout
58
- mýt se, holit se, utírat se, oblékat se
2. Slovesa změny (750 syns.), odpadkový koš, to, co nejde dobře jinam
- (z)měnit, modiﬁkovat, upravit, adjustovat, lišit se
- magnetizovat, elektrizovat, zvlhčit
-zkrátit, prodloužit, zesílit, zeslabit, posílit, oslabit
3. Slovesa komunikace (710 syns.)
- verbální: mluvit, koktat, blábolit
- záměr mluvč.: prosit, žádat, nařizovat, děkovat, vyzývat, deklarovat
- politika: vetovat, inaugurovat, omluvit
- náboženské: kázat, modlit se
- učit, přednášet, zkoušet, testovat
- telefonovat, volat, faxovat, mailovat
- zvířecí zvuky: řehtat, bučet, mňoukat, štěkat
- hluky: skřípat, hrkat, vrzat, hučet, dunět
4. Slovesa soutěžení (200 syns)
- sporty: běžet, skákat, vrhat, házet, bruslit, lyžovat
- hry: kopat, servírovat, útočit, vyhrávat, prohrávat, porazit
- pískat, závodit, soutěžit
5. Slovesa spotřeby, konzumace (130 syns)
- požívání: jíst, pít, polykat
- spotřeba: spotřebovávat, užívat, využít, použít
6. Kontaktová slovesa (820 syns)
- přidělat, připojit, přidat, přivázat, přivařit, při/upevnit
- přikrýt, dotknout se,
- oddělit, odříznout, odseknout
- uchopit, stisknout, zmáčknout
- pohladit, udeřit, praštit, treﬁt, zasáhnout
- nést, strčit, manipulovat
7. Kognitivní slovesa (? syns)
- přemýšlet, uvažovat, usuzovat, pamatovat si, chápat, rozumět
- dedukovat, inferovat, odhadovat, předpokládat
8. Slovesa tvoření (250 syns)
- mentálně: tvořit, vytvářet, vymýšlet, vynalézat,
- umělecky: kreslit, malovat, rýt, tisknout
- ze suroviny: péct, šít, vařit
59
9. Slovesa pohybu (500 syns)
- na místě: hýbat se, otáčet se, kroutit se
- v prostoru: pohybovat se, cestovat, běžet, utíkat, plazit se
- v prostředí: plavat, létat
10. Slovesa emocí (?syns)
- milovat, zbožňovat, nenávidět, bát se, postrádat, pohrdat
- bavit, těšit, povzbuzovat, strašit, rozčilovat
- tesknit, těšit se
- cítit smutek, pociťovat radost
11. Statická (stavová) slovesa (200 syns), blízkost k adjektivům
- být, mít: významy tohoto typu a podobné
12. Slovesa vnímání (percepce) (200 syns)
- vidět, dívat se, hledět, zírat, slyšet, poslouchat
- pozorovat, sledovat, hlídat
- čichat, cítit, vonět, páchnout, smrdět
13. Slovesa vlastnění (300 syns)
- mít, držet, vlastnit
- dávat, dostávat, brát, vzít, získávat
- dědit
- krást, loupit
- věnovat, darovat, poskytnout, uplácet, podplácet, korumpovat (?)
- dodávat, odebírat, převádět
14. Slovesa sociálních interakcí (400 syns) zahrnují různé oblasti: právo, politika, ekonomika,
rodina, náboženství, vzdělání
15. Slovesa počasí (66 syns)
- pršet, lít, sněžit, padat (sníh), mžít, mrholit
- blýskat se, hřmít
- mračit se, zatahovat se, jasnit se
V průběhu SI vyvstává problém víceznačnosti:
– u slov, mají-li více významů než jeden. To zní jednoduše, ale jak zjistíme, že slovo má
více významů? Můžeme se pokusit o svého druhu test: mějme slova štěně, hlava, kulky,
koule, kůň a větu
(v-v6) Já mám dvě koule a Honza má tři.
Tuto větu lze jiste chápat dvěma způsoby, ale nikdy ne tak, že by v ní výraz koule
označoval pokaždé něco jiného.
Na druhé straně slovo kůň ve větě
(v-v7) Mám dva koně a Honza má tři.
60
se nezdá být víceznačné, i když při každém jeho užití nemusíme být schopni rozlišit,
zda se jím míní klisna nebo hříbě. To je jeden možný způsob, jak testovat naši intuici
týkající se významů slov. U výrazu koule jde o víceznačnost, tedy přinejmenším o
význam
K1 = geometrický objekt
a význam
K2 = varlata,
zatímco u kůň jde spíše o jistý druh vágnosti, kdy nemusí být jasné, zda máme na mysli
klisnu nebo hříbě. Přesněji řečeno, platí mezi nimi a výrazem kůň významový vztah
hyponymie. K němu se řadí další významové vztahy:
– hyponymie – hyperonymie
– synonymie – antonymie, např. dobrý : zlý apod.
– meronymie – holonymie, např. nos : tvář aj.
K tomu – viz WordNet 1.5 a několik slov této organizaci slovníku a tomto typu
slovníku obecně (instalace na FI, aisa, add module langtools, wn).
Podobný test lze navrhnout i pro slovesa, mějme větu:
(v-v8) Měl jsem ji loni a Honza taky.,
kde jistě můžeme rozlišit M1 = vyspal jsem se tou slečnou a proti tomu
M2 = měl jsem chřipku.
Je těžké si představit, že by tu mohlo o něco jiného než o plnou koordinaci. Proti tomu
mějme:
(v-v9) Políbil jsem Janu a Jirka taky.,
i zde máme před sebou již zmíněnou vágnost, já jsem mohl Janu políbit na rty, kdežto
Jirka jen na čelo. Místo, kam polibek přišel, není ve významu slovesa políbit explicitně
speciﬁkováno.
Souhrnně lze tedy říci, že v uvedeným případech jde o lexikální víceznačnost, ale
situace může být ještě komplikovanější, víceznačnost může mít strukturní povahu, může
být způsobena syntaktickou strukturou věty:
(v-v10) Kočky a fenky jsou spokojené a hrají si na zahradě.
(v-v11) Každý kluk má rád psa.
(v-v12) Mnoho lidí vidělo tu bouračku. (10, 20, 50, 1000, ...)
Ve větě (v-v11) je jedna syntaktická struktura, ale SI můžeme mít více – a týkají se
rozsahu kvantiﬁkátorů (zkusit zapsat).
Ve větě (v-v12) jde o vágnost výrazu mnoho vzhledem k počtu lidí, kteří bouračku viděli.
Zde můžeme mluvit o sémantické víceznačnosti.
Dále jsou tu případy jako:
(v-v13) Já mám žízeň.
(v-v14) Ty se podíváš na to kolo.
(v-v15) Opravíme to tady.
V nich je víceznačnost způsobena výrazy já, ty, to, tady, ..., kterým říkáme deiktické či
61
indexické. Jejich interpretace závisí na kontextu či na konkrétní komunikační situaci. Tento
typ víceznačnosti můžeme charakterizovat jako víceznačnost pragmatickou. Lze pak uvažovat
o pragmatické funkci, která vede od KS ke konkrétním hodnotám pro proměnné
označené výrazy já, ty, to, tady, ... – jsou to patrně proměnné typu individuí (mluvčí,
adresát, třetí osoba, ...).
0.6.2 Významy slov a slovníky
Významy slov a způsoby jejich popisu:
– pomocí synonym, např. v Oxfordském sl., SSJČ,
– pomocí deﬁnic, využití genu proximum, SSČ
– pomocí množiny vybraných primitivních výrazů daného přir. jazyka, např. zabít =
způsobit, aby někdo zemřel – Hornby
– pomocí speciálního metajazyka: sémantických rysů, komponentová analýza – jednoduchý
příklad:
muž = HUM, MASK, ADU
žena = HUM, FEM, ADU
chlapec = HUM, MASK, -ADU
dívka = HUM, FEM, -ADU
dítě = HUM, NEUT, -ADU
Další a podrobnější příklad – soubor možných rysů, příznaků, sémů (ČAJ):
T - tempus, čas, u substantiv jako "den, rok, leden, soumrak"
L - locus, místo, u substantiv jako "dům, chrám, světadíl, břeh"
BYT(ost) - např. "víla"
HUM(an) - člověk, např. "strejda, rada, bača", + M - muž, + F - žena
ANIM(al) - zvíře "pes, slon, velbloud"
PLANT - rostlina, např. "strom, kosatec"
QUA - vlastnost, např. "nespokojenec, povýšenec" + HUM
FEN(omén) - třeba "úkaz, zázrak"
ENT(ita) - "protiklad, argument"
OBJ(ekt) - předmět, např. "stůl, krb", ale také "dům", takže OBJ + L
INF(ormace) - např. "telefonát, článek, vzkaz, telegram"
EMOC(e) - třeba "cit, radost, strach, neklid, úsměv"
INS(trument) - nástroj, např. "nůž, šíp, hřeben"
MACH(ine) - stroj, aparát, zařízení, např."počítač"
PROC(es) - např. "zážeh, postup, pokrok"
MOT(tion) - pohyb, např."běh, let, pád"
AKT(ivita) - činnost, např. "boj, odboj, příchod"
MAT(eriál) - hlína, dřevo
62
B(ody) P(art), BP - prst, krk
ORG - organizace, instituce
Rysy lze kombinovat a jednomu výrazu jich přiřadit víc, viz třeba kombinaci
”člověk” + ”vlastnost”, ev. i další. Lze zkusit i klasiﬁkaci (hrubou) vlastností. Pokusme
se zamyslet nad tím, že rysy mohou být hierarchické a že se díky tomu mohou dědit.
Typy slovníků:
– výkladové jednojazyčné, SSJČ, SSČ, Collins Cobuild, Webster, Oxford, jejich knižní
a MRD verze.
– vícejazyčné, překladové (Č-A, A-Č)
– thesaury (Longman, WordNet 1.5, synonymické – SČS,
– frazeologické, idiomů (SČFI)
- jiné: dialektologické, etymologické, slangů, terminologické
Ukázat aspoň ty hlavní.
0.6.3 Lexikální databáze
0.6.4 WordNet a sémantické sítě
Motivace
Standardním způsobem organizace lexikálního materiálu ve slovnících je abecední řazení
(lexikograﬁcké uspořádání). Hledání v abecedně řazených slovnících hledání je pomalé,
i když počítače nyní umožňují prohlížení zrychlit. Je však zjevně neefektivní užívat počítačů
jen jako ”obracečů” stránek a má smysl hledat vhodnější způsoby organizace
slovníku. Položme si otázku, zda v tomto ohledu existuje cesta vedoucí ke zlepšení dosavadních
standardních slovníků? Příklady ukazují, že třeba u lexikální jednotky strom
s významem rostlina najdeme následující deﬁnici: dřevina s kmenem, který se nahoře
větví v korunu: listnaté, jehličnaté, ovocné... (SSČ, 1994, s.419). Jako u většiny deﬁnic
ve standardních slovnících je i zde použito základní schéma: genus proximum plus
rozlišující příznaky popisující speciﬁcké rysy stromu (a obvykle mající formu vztažné
věty). Z pohledu běžného uživatele v deﬁnici nic nechybí, ale nicméně nezmiňuje se o
tom, že stromy mají kořeny, skládají se z buněk nebo že jsou to živé organismy. Informaci
tohoto druhu ale můžeme najít u nadřazeného výrazu rostlina. Dále, deﬁnice
výrazu strom neobsahuje informaci o jiných podobných typech rostlin, tedy o třeba o
keřích. Každý uživatel slovníku dobře ví, že najít ve standardním slovníku informace o
lexikálních jednotkách stejného typu je časově velmi náročné. V podobné situaci je uživatel
standardního slovníku, když se chce něco dovědět o jednotlivých druzích stromů,
tj. které z nich jsou jehličnany – smrk, jedle, borovice, které z nich listnáče – buk, dub,
javor, jasan, lípa, a které jsou třeba ovocné apod. Tyto informace ve slovnících obvykle
63
jsou, ale vydolovat je by se mohl pokoušet jen opravdu velmi zarputilý uživatel. Prototypické
deﬁnice ukazují vždy směrem nahoru k nadřazeným pojmům, ale nikdy do strany
k výrazům stejného typu, sourozencům (coordinates) nebo směrem dolů k hyponymům.
Každý z nás zná spoustu věcí o stromech, které by lexikografové nezačlenili do deﬁnice:
víme, že stromy mají kůru, rostou ze semen, poskytují stín a chrání před větrem, rostou
volně v lesích, jejich dřevo slouží jako stavební materiál nebo palivo, energii pro svůj růst
získávají fotosyntézou. Lexikografové uvádějí v deﬁnicích jen důležité distinkce, pouze
připomínají uživateli něco, o čem se předpokládá, že to už zná, a nenabízejí mu souhrn
encyklopedických znalostí. Poznamenejme tedy závěrem, že velká část těchto chybějících
informací má spíše strukturní než faktuální povahu a že konvenční slovníky ani
tak nestrádají nedostatkem informací, problémem je hlavně jejich organizace, která díky
abecednímu uspořádání hesel odděluje od sebe spolehlivě věci, které by bylo užitečné
mít pohromadě.
V poslední době se věnuje značná pozornost lexikální sémantice s cílem vytvořit
lexikální zdroje, které by se popisovaly významy lexikálních jednotek a jejich vztahy
formálně (algoritmicky) a díky tomu umožňovaly i systematické využívání v oblasti
počítačového zpracování přirozeného jazyka (NLP). V jednom směru začaly vznikat
tzv.strojově čitelné slovníky (Machine Readable Dictionaries) a práce na nich ukázaly,
že dosavadní standardní slovníky trpí mnoha nekonzistencemi, z nichž uveďme aspoň
jednu typickou: užití odlišných hyperonym v deﬁnicích tam, kde by bylo vhodné pracovat
jen s jedním. Např. v SSČ (1994) nacházíme rozdílné deﬁnice u hesel stůl: kus
nábytku tvořený vodorovnou deskou ..., židle: lehce přenosný kus nábytku (s opěradlem)...,
křeslo: pohodlné sedadlo s opěradly ...), ačkoliv je zjevné, že křeslo je také
kusem nábytku.
Poznamenejme, že pro češtinu žádný strojově čitelný slovník fakticky nemáme:
současná elektronická verze SSČ na CD ROM (Leda, 1998) neprošla žádnými úpravami,
které by vedly ke zkonzistentnění způsobu popisu významů lexikálních jednotek
a k formalizovanější organizaci struktury hesel, ani není vybavena lepšími technikami
vyhledávání, takže představuje právě jen pouhý počítačový ”obraceč stránek”. Dalším
směrem, který se v poslední době prosazuje, je budování počítačových lexikálních databází
či vytváření elektronických verzí již existujících thesaurů - zejména Rogetova,
(Chapmanova revidovaná verze, 1977), dále vznik sémantických sítí WordNet (Miller et
al., 1993) a EuroWordNet (Vossen et al.,1999) a systémů jako CyC (Lenat and Guha,
1990), ACQUILEX (Briscoe, 1991) a COMLEX (Grishman, Macleod, Myers,1994).
2. Lexikální databáze jako sémantická síť – WordNet V dalším se budeme věnovat
prvním dvěma zmíněným výše, tj. lexikálním databázím:
WordNetu, který již dospěl do verze 1.6 a je dílem G.A.Millera a jeho skupiny z Princetonu
(viz též ftp server clarity.princeton.edu), a EuroWordNetu, jenž vznikl v Evropě.
Za zmínku stojí, že G. A. Miller byl zpočátku blízkým spolupracovníkem N. Chomského
a podílel se s ním na dvou fundamentálních kapitolách v příručce Handbook of Mathematical
Psychology, (Introduction to Formal Description of Natural Language, Fini-
64
tary Models of Language Users) publikované v r.1967 (Chomsky, Miller, 1967). Zatímco
Chomsky se více méně stále přidržuje svých názorů na primárnost syntaktické roviny
v popisu jazyka, G. A. Miller obrátil plně svou pozornost k lexikální sémantice a jako
psycholog a psycholingvista se pokusil o přístup, který charakterizuje jako psycholexikologii.
V jejím rámci usiluje spolu s Johnsonem-Lairdem (Miller, Johnson-Laird, 1976)
o poznání toho, jak je organizována naše lexikální paměť, na jakých principech jsou budovány
naše mentální slovníky. Počátek psycholexikologie je spojen se studiem slovních
asociací, s pokusy o modelování mentálního slovníku, výchozí myšlenkou bylo organizovat
slovník konceptuálně spíše než abecedně. Tento výzkum ho přivedl k pokusu vytvořit
právě WordNet.
Struktura WordNetu
WordNet čili slovní síť je slovník podle autorů založený na psycholingvistických principech.
Např. ve verzi 1.5 obsahuje téměř 120 000 hesel - z toho cca 67 000 jednoduchých
slovních tvarů a kolem 53 000 kolokací. To dává přes 91 000 slovních významů či synonymických
řad (synsets). Nejvýraznější rozdíl mezi WordNetem a standardními slovníky
je mj. v tom, že WordNet člení slovník do pěti kategorií: substantiva, verba, adjektiva,
adverbia a funkční slova (synsémantika). Fakticky jsou synsémantika ponechána stranou,
to se opírá o pozorované řečové projevy afatických pacientů, z nichž vyplývá, že
funkční slova jsou s velkou pravděpodobností uložena odděleně od ostatní slovní zásoby
a tvoří součást syntaktické složky jazyka.
Uvedené členění se opírá o asociační experimenty, které ukazují, že když informanti
měli reagovat prvním slovem, které je napadlo, na předložená slova patřící k
různým slovním druhům, reakce vypadaly následovně:
na substantiva - substantivem : 79 na adjektiva - adjektivem : 65 na slovesa - slovesem
: 43
Dále se WordNet liší od standardních slovníků v tom, že jednotlivé slovní druhy jsou
v něm organizovány rozdílně – přihlíží se důsledně k jejich odlišné sémantické povaze:
- substantiva jsou ve WordNetu (modelu lexikální paměti) organizována jako tématické
hierarchie,
- slovesa jsou organizována na základě různých vztahů vyplývání (entailment, tropony-
mie),
- adjektiva a adverbia jsou organizována jako n-dimenzionální hyperprostory (množiny
n-tic).
Každá z těchto struktur reﬂektuje různý způsob organizování lexikální zkušenosti
– pokusy nakládat jediný organizační princip na všechny syntaktické kategorie by znamenaly
chybnou reprezentaci psychologické komplexnosti lexikální znalosti.
Výrazným rysem WordNetu je též pokus organizovat lexikální informace v termínech
slovních významů, a nikoli slovních tvarů. V tomto ohledu se WordNet blíží
65
více thesaurům než standardním slovníkům (viz např. Roget’s International Thesaurus,
1977).
Výchozím bodem pro lexikální sémantiku ve WordNetu je zobrazení mezi formami
a významy, jinak řečeno, mezi lexikalizovanými koncepty a formami, které je vyjadřují.
Vychází se z předpokladu, že různým syntaktickým kategoriím slov (slovním druhům)
odpovídají různé druhy zobrazení. Přiřazení forem a významů je víceznačné, tj. některým
formám odpovídá více různých významů a některé významy mohou být vyjádřeny několika
různými formami. Polysémii a synonymii lze pak chápat jako komplementární
aspekty tohoto zobrazení, posluchač nebo čtenář rozpoznávající nějakou formu se musí
vyrovnat s její polysémií, mluvčí nebo pisatel usilující o vyjádření významu se musí
rozhodovat mezi synonymy.
Lexikální paměť lze tedy chápat jako organizovanou stromově (což umožňuje vyhnout
se cirkularitám a smyčkám), kde základním vztahem ve stromové struktuře je
transitivní a antisymetrický významový vztah ISA (is a kind of, je druhu) nebo jinými
slovy vztah hypero/hyponymie vedoucí od speciﬁckého ke generickému, tj. vztah
generalizace, k němuž opakem je vztah specializace. Substantiva mají obvykle jedno hyperonymum
a řadu hyponym která se ve standardních slovnících zpravidla neuvádějí.
Proto je vhodné navrhnout lexikální databázi tak, že v ní jsou zakódovány oba vztahy,
jak vztah generalizace, tak i vztah specializace. Výsledkem pak je lexikální databáze
typu WordNet, která se vyznačuje hierarchickou strukturou a umožňuje prohledávání
shora dolů i zdola nahoru stejnou rychlostí. Uvedený princip je dobře znám v oblasti
informačních technologií, kde se mluví o systémech s dědičností (Touretzky, 1986).
Sémantické vztahy ve WordNetu
Jak jsme už naznačili, ve WordNetu se pracuje s následujícími sémantickými vztahy:
• hyponymie/hyperonymie, který je chápán jako vztah významové podřazenosti
a/nebo nadřazenosti (ISA-vztah). Je tranzitivní a antisymetrický a generuje hierarchickou
(stromovou) reprezentaci pro substantiva.
• synonymie je ve WordNetu nejzávažnějším vztahem: nevysvětluje sice, co jednotlivé
významy jsou, ale vyznačuje, že existují a liší se od sebe. V podstatě je tu
synonymie chápána v duchu Leibnizovy deﬁnice založené na pojmu substituovatelnosti,
ale oslabené o vztažení ke kontextu. Výrazy spojené vztahem synonymie
se seskupují do synonymických řad (synsets), které jsou základním organizačním
prvkem sémantické sítě. Vztah synonymie si také vynucuje oddělení jednotlivých
slovních druhů ve WordNetu, protože lexikální jednotky patřící k různým syntaktickým
kategoriím nelze volně substituovat. To je v souladu s psycholingvistickou
evidencí, která ukazuje, že jednotlivé slovní druhy jsou v sémantické paměti organizovány
nezávisle.
66
• antonymie je zdánlivě jednoduchý symetrický vztah, který, jak se ukazuje, není
snadné přesně charakterizovat díky jeho poměrně značné komplexnosti, i když
uživatelé jazyka s ním potíží nemívají. Je centrálním organizujícím vztahem pro
adjektiva a adverbia.
• meronymie/holonymie, jenž lze charakterizovat jako vztah část – celek. Je v zásadě
tranzitivní a antisymetrický a rovněž vede k budování hierarchických struktur.
Hyponymie/hyperonymie
Tyto vztahy uskupují substantiva tak, že tvoří lexikální dědičný systém. Popis významu
substantivních synsetů (celkem asi 60 000) je ve WordNetu (obvykle) založen na nadřazeném
výrazu (termu) doplněném o rozlišující příznaky (diﬀerentia speciﬁca). Vztah
hypero/hyponymie generuje hierarchickou sémantickou strukturu (má formálně podobu
grafu-stromu), v níž synsety (synonymické řady) jsou propojeny ohodnocenými ukazateli
(pointry). Hierarchie mají omezenou hloubku, zřídka přesahují 12 úrovní. Rozlišující
příznaky jsou zavedeny tak, že tvoří lexikální systém s děděním, tj. systém, v němž
každé slovo dědí všechny rozlišující příznaky všech svých nadřazených výrazů. Pracuje
se také s antonymií, ale ta se u substantiv nepokládá se fundamentální organizační princip.
V původní verzi se rozlišovalo 25 tematických souborů a každý z nich byl spojen
s jednou primitivní sémantickou složkou. Těchto 25 hlavních hyperonym ve WN 1.5 pak
fungovalo jako generické koncepty, z nichž vycházejí jednotlivé hierarchie (sémantická
pole). Díky tomu, že všechny příznaky, které charakterizují jednotlivé počátky, se dědí
na všechna hyponyma, lze jednotlivé začátky hierarchicky strukturovaných sémantických
polí pokládat za primitivní sémantické příznaky všech slov v daném poli. To je dobře
vidět v Tab.1, která obsahuje zmíněných 25 původních počátků - většina substantiv ve
WordNetu 1.5 spadá právě pod ně. Zajímavé je, že uvedená sémantická pole jsou celkem
mělká, zřídka hlubší než 10 úrovní, lidské výrobky jako dopravní prostředky mívají kolem
7-8 úrovní, např.: sedan - vůz - motorové vozidlo - kolové vozidlo - dopravní prostředek
- lidský výtvor - věc. Lidské hierarchie mívají kolem 3-4 úrovní.
Tab.1 Vrcholová hyperonyma ve WordNetu 1.5
act, action, activity (činnost, aktivita) natural object (fyzický objekt)
animal, fauna (zvíře, fauna) natural phenomenon (přírodní jev)
artefakt (výtvor, výrobek) person, human being (osoba, lidská bytost)
attribute, property (atribut, vlastnost) plant, flora (rostlina, flora)
body, corpus (tělo, těleso) possession (vlastnictví)
cognition, knowledge (znalost, poznání) process (proces)
communication (komunikace, sdělování) quantity, amount (kvantita, množství)
event, happenning (událost) relation (vztah)
feeling, emotion (pocit, emoce) shape (podoba, tvar)
food (potrava, jídlo) state, condition (stav)
67
group, collection (skupina, soubor) substance (substance, látka )
location, place (umístění, místo) time (čas)
motive (motiv)
Těchto 25 počátků odpovídá potom v EuroWordNetu položkám tvořícím vrcholovou
ontologii, jichž je však o něco více - 63 (viz níže).
Adjektiva - atributy a modiﬁkace
Celkem je ve WordNetu cca 16 000 adjektivních synsetů, které se člení na dvě rozsáhlé
třídy: deskriptivní a relační. První připisují (obvykle) svým řídicím substantivům
hodnoty bipolárních atributů a jsou tedy organizována v termínech binárních opozic
antonymních (velký: malý) a podobných významů (synonym). K relačním adjektivům
patří adjektiva jako prezidentský, nukleární, zubní, mají tedy vztah k určitému substantivu
nebo jsou s ním nějak spojena, nerozlišují škály a neodkazují k vlastnosti svého
řídicího substantiva, nemají přímá antonyma a nelze je stupňovat. Ve WordNetu je jich
kolem 1700. Samostatně stojí malá a uzavřená skupina referenčně modiﬁkujících adjektiv
jako předchozí nebo údajný. Samostatnou skupinu představují také adjektiva označující
barvy.
Slovesa
Ve WordNetu je nyní něco přes 11 000 slovesných synsetů. Díky své významové ﬂexibilitě
se slovesa obecně vyznačují vyšší polysémií – např. Collinsův slovník (1990) uvádí u
substantiv 1,74 významu na substativum, u sloves to činí v průměru 2,11. Sémanticky
se slovesa podstatně liší od ostatních slovních druhů svou predikátově argumentovou
strukturou a vazbami na své aktanty, proto nejsou organizována na základě vztahu
hypero/hyponymie, nýbrž na základě vztahu vyplývání (prodávat : platit) a jeho modiﬁkací:
troponymie (chrápat : spát) a kauzálních vztahů (dát : mít). Rozlišuje se 15 hlavních
slovesných významových tříd (Levin, 1989), konkrétně slovesa tělesných funkcí, změny,
poznání, komunikace, soutěžení, spotřeby, kontaktu, tvoření, emocí, pohybu, vnímání,
vlastnění, sociální interakce a slovesa označující počasí.
0.6.5 Lexikální databáze EuroWordNet-1 a 2
WordNet 1.5 vytvořený G. A. Millerem a jeho skupinou pokrývá dostatečně (americkou)
angličtinu a díky svým vlastnostem se stal impulsem pro podobné aktivity v Evropě,
i když po lexikograﬁcké stránce vykazuje řadu chyb. V r.1997 se skupina lexikografů
kolem P. Vossena z university v Amsterdamu rozhodla začít budovat sítě slov pro tři
vybrané západoevropské jazyky, a to v rámci projektu EuroWordNet-1, v jehož průběhu
byla zároveň doplněna vrcholová ontologie a vytvořen soubor základních konceptů. Na
68
ten pak v r.1998 navázal EuroWordNet-2, do něhož byly zahrnuty další čtyři jazyky, z
toho dva východoevropské.
EuroWordNet 1 - angličtina, holandština, italština, španělština
Projekt EuroWordNet (dále EWN) jako celek vychází z princetonského WordNetu 1.5
a jeho hlavním cílem bylo nejprve rozšířit budování sítě slov na tři evropské jazyky, tj.
holandštinu, italštinu a španělštinu, a posléze na další čtyři - němčinu, francouzštinu, češtinu
a estonštinu. Nově budované slovní sítě rovněž obsahují informace o substantivech,
slovesech, adjektivech a adverbiích a opírají se o pojem synonymické řady (synsetu). Připomeňme,
že každý synset zahrnuje jeden nebo více významů slov, které lze pokládat
za významově totožné nebo blízké, spolu s glosou popisující daný význam. Jako příklad
uveďme synset pro lexikální jednotku soubor:
soubor:2, datový soubor:1 - (množina záznamů vztahujících se k sobě a ukládaných pohro-
madě)
Synset je tedy tvořen posloupností soubor:2, datový soubor:1, tj. soubor ve významu
2 je synonymní s výrazem datový soubor ve významu 1. Synsety mohou vstupovat do
předem deﬁnovaných sémantických vztahů (0 nebo více), jako jsou hyponymie, hyperonymie,
meronymie a holonymie a další. Daný synset může mít u sebe uveden vztah ke
svým:
antonymům (dobrý : zlý)
hyperonymům (auto : dopravní prostředek)
hyponymům (pták : kanárek)
meronymům (dveře : zámek)
holonymům (ruka : tělo)
sourozencům (pes : vlk : kojot : hyena)
vyplývajícím výrazům (kupovat : platit)
kauzacím (rozbít : rozpadnout se).
V rámci projektu EuroWordNet se tedy nejprve budovala lexikální databáze
EWN-1, která vedle WordNetu 1.5 (tj.angličtiny) zahrnovala i holandský, španělský a
italský wordnet. Proti WordNetu 1.5 byly provedeny některé úpravy a změny, které spočívají
v zavedení:
a) vrcholové ontologie (top ontology - TO), která je chápána jako hierarchie jazykově nezávislých
konceptů a odráží význačné sémantické distinkce, např. předmět a substance,
dynamický a statický. Zahrnuje celkem 63 základních sémantických komponent vybraných
s přihlédnutím k různým sémantickým teoriím a paradigmatům. Výchozí rámcovou
představu o konstruktech ve vrcholové ontologii poskytuje Tab.1 výše.
b) množiny základních konceptů (base concepts – BC) tvořené 1000 základními koncepty,
které jsou vybrány na základě obecně sdíleného sémantického rámce, jímž je vrcholová
ontologie. Základní koncepty reprezentují sdílená jádra jednotlivých sítí slov, na druhé
straně se také od sebe liší v závislosti na povaze jednotlivých začleněných jazyků. Před-
69
stavují nejdůležitější významy převažující v jednotlivých lokálních wordnetech a tvoří
jádro multilinguální databáze. Proto jsou také propojeny prostřednictvím vrcholové ontologie
navržené speciálně k tomuto účelu. Aby se dosáhlo maximální shody, wordnety
se budují shora dolů tak, že se začíná právě množinou základních konceptů zvolených
na základě společného sémantického rámce.
c) jazykově nezávislého souboru indexů (interlingual index - ILI), který představuje
hlavní novum ve vztahu k výchozímu WordNetu 1.5. ILI tvoří nestrukturovaný seznam
významů, kde každý ILI-záznam se skládá ze synsetu a glosy a speciﬁkuje význam a odkaz
ke svému zdroji. Mezi jednotlivými ILI-záznamy jako takovými se neudržují žádné
vztahy. Budování úplné jazykově neutrální ontologie se pokládá za příliš komplexní a
časově náročné vzhledem k časovým omezením projektu. Hlavní výhodou tohoto designu
je, že jazykově speciﬁcké vztahy a vztah ekvivalence se nemusí uvažovat z hlediska vícevíceznačného
zobrazení mezi jednotlivými jazyky vstupujícími do databáze EuroWord-
Net.
d) vztahů ekvivalence (EQ-relations) – ty jsou zavedeny mezi ILI a jednotlivými sítěmi
slov a umožňují vztahovat k sobě a porovnávat jednotlivé wordnety. Pomocí vhodných
nástrojů (viz níže o Polarisu) lze pak automaticky vytvářet projekce z jedné sítě slov do
druhé.
EuroWordNet-2 – francouzština, němčina, čeština, estonština
V návaznosti na EWN-1 hlavními cíli projektu EuroWordNet-2 (Vossen et al, 1998)
jsou:
a) Deﬁnice obecné množiny základních konceptů (BC) pro všechny jazyky EWN-1 a
EWN-2: je to soubor významů, jež hrají klíčovou roli v jednotlivých wordnetech. Stanovený
rozsah čítá 1000 synsetů, z toho je 700 substantivních a 300 verbálních.
b) Zachycení vnitřně jazykových vztahů (ILR) a vztahů ekvivalence v rámci základních
konceptů (BC) pro němčinu, francouzštinu, estonštinu a češtinu. Výsledkem budou – de
facto již jsou, – jádra wordnetů, každé v rozsahu 7500 synsetů, z toho je 5 000 substantivních
a 2 500 slovesných synsetů. Adjektiva a adverbia zatím zůstávají stranou, ale
s jejich zpracováním se počítá.
c) Průběžná aktualizace jazykově nezávislého souboru indexů (ILI) o další významy,
které je potřeba doplnit pro potřeby toho kterého jazyka a které nebyly v původním
Wordnetu 1.5 obsaženy. Tím se dosáhne i lepší shody mezi jednotlivými sítěmi slov.
c) Integrace jednotlivých wordnetů do společné databáze EuroWordNet 2, jejich porovnání
a ověření vzájemné kompatibility.
Můžeme tedy shrnout hlavní body, v nichž se EWN odlišuje od Wordnetu 1.5.
Jsou to:
• multilingualita databáze EuroWordNet 2 – je jí dosaženo tím, že se rozlišuje mezi
jazykově speciﬁckými moduly a odděleným jazykově nezávislým modulem (ILI).
Každý z jazykových modulů reprezentuje jedinečný jazykově speciﬁcký systém
70
vnitřních jazykových vztahů mezi synsety. Každý synset rovněž obsahuje vztah
ekvivalence k synsetu v jazykově nezávislém souboru indexů (ILI). ILI-synset neboli
ILI-záznam je částí jazykově nezávislého modulu a může být označen jako
patřící do nějaké domény nebo mající vztah k nějakému jazykově nezávislému vrcholovému
konceptu. Vrcholové koncepty reprezentují fundamentální sémantické
distinkce jako např. předmět : substance nebo životnost : neživotnost a další. Synsety
tvořící ILI jsou převážně odvozeny z WordNetu 1.5, ale budou rozšířeny použitím
speciálního aktualizačního programu v případě, že speciﬁcké významy z
jiných jazyků nejsou ve WordNetu 1.5 přítomny a vyžadují to. Konečný ILI tak
bude nadmnožinou všech konceptů vyskytujících se v různých wordnetech. Skrze
ILI lze mít přístup k dalším wordnetům tak, abychom našli synsety napojené na
stejné synsety a veriﬁkovali způsob, jak se k sobě vzájemně vztahují. Bylo navrženo
speciální multilinguální rozhraní, které umožní srovnávat vztahy ekvivalence
a struktury sémantických polí napříč jednotlivými wordnety.
• Dalším rozdílem je to, že u lexikální databáze EuroWordNet-2 se již počítá se
systematickým využitím v oblasti strojového zpracování informací (Information
Retrieval), konkrétně s multilinguálními aplikacemi pro internetové prohlížeče a
pro lexikální zdroje použitelné v systémech strojového překladu nové generace.Dále
se počítá s dosažením maximální kompatibility vzhledem k různým zdrojům a
současně i s tím, že ve wordnetech se zachovají vztahy speciﬁcké pro jednotlivé
jazyky.
Obr.1 Architektura databáze EuroWordNet 2 Na obr. 1, který ukazuje základní strukturu
databáze EUWN 2, lze vidět vrcholový koncept Motion (pohyb), který je v tomto případě
bezprostředně napojen na ILI-záznam drive (řídit) a díky tomu se nepřímo vztahuje také
na všechny jazykově speciﬁcké koncepty spojené s tímto ILI-záznamem. Prostřednictvím
vnitřně jazykových vztahů lze daný vrcholový koncept dále dědit na všechny další napojené
jazykově speciﬁcké koncepty. Tak lze budovat jednotlivé wordnety na základě
společného rámce, v němž se lexikalizace seskupené kolem daných základních konceptů
mohou od jazyka k jazyku lišit. Ve schématu se také objevuje doménová hierarchie, která
obsahuje znalostní struktury, jež seskupují významy v termínech témat nebo scénářů,
např. sem patří silniční doprava, vzdušná doprava, sporty, nemocnice, restaurace apod.,
v rámci EWN-1,2 však zatím není implementována;
0.6.6 Budování české slovní sítě – českého WordNetu, dosavadní
výsledky
Zatím je k dispozici český WordNet v rozsahu cca 8000 synsetů (asi 1200 slovesných,
zbytek – 6 800 substantivních. Při jeho vytváření bylo použito následujících zdrojů:
1. Výkladový slovník češtiny, což je pracovní název postupně budované lexikální data-
71
báze češtiny, která má dnes přibližně 55 000 hesel a 65 000 významů. Od např. SSČ
se podstatně liší v tom, že je systematicky budována jako důsledně formalizovaná
textová databáze (na principech podobných SGML) a s důrazem na maximální
vnitřní konzistenci.
2. ) Lingea Lexicon 2.0 (Lingea s.r.o, 1998), což je oboustranný elektronický A-Č a
Č-A slovník, který v současné podobě obsahuje ve směru Č-A asi 54 000 hesel a
58 000 významů a ve směru A-Č zhruba 78 000 hesel a 102 400 významů. Tento
zdrojo mimo jiné zahrnuje i automatické morfologické slovníky angličtiny i češtiny
a jádro programu LEMMA (Ševeček, 1996), díky nimž rozpoznává libovolné české
i anglické tvary slov.
3. Slovník českých synonym, (Pala, Všianský, 1994), obsahující v aktuální verzi přibližně
20 000 hesel a 15 000 synonymických řad (synsetů), jichž bude po potřebných
úpravách použito pro synsety začleněné do české sítě slov. Existuje v elektronické
verzi a rovněž funguje s automatickou lemmatizací.
Pomocnými lexikálními zdroji jsou dále:
• Seznam českých kolokací obsahující nyní asi 18 000 položek, byl získán z textového
korpusu ESO (viz níže), který je budován a udržován na Fakultě informatiky
MU. Seznam kolokací byl získán statistickými technikami - výpočtem parametru
vzájemné informace (Pala, Rychlý, 1998), a je dále tříděn podle četností a dalších
syntaktických kritérií – slovosledu a slovních druhů. Seznam kolokací bude v blízké
budoucnosti doplněn a rozšířen, jakmile budou spočítány parametry vzájemné informace
(MI score) i pro aktuální verzi Českého národního korpusu.
• Gramaticky i strukturálně značkovaný korpus DESAM (Pala, Rychlý, Smrž, 1998),
který vznikl na Fakultě informatiky Masarykovy university v průběhu posldních
dvou let jako součást Českého národního korpusu. Jeho rozsah je něco přes 1 mil.
českých slovních tvarů.
• extový korpus ESO budovaný na Fakultě informatiky v průběhu r. 1998 z novinových
publicistických textů (1996-98), jeho aktuální rozsah činí 61 mil. českých
slovních tvarů a jedna jeho verze je částečně lemmatizována.
0.6.7 Nástroje
Je zjevné, že popisovanou síť slov lze sotva budovat jen manuálně, má-li vzniknout
v rozumném časovém úseku a s přijatelnými náklady. Při sestavování české sítě se tedy
systematicky využívalo a využívá počítačů a vhodného softwaru, který se vyvíjí v průběhu
budování databáze. Při vytváření českého wordnetu se nyní používají následující
programové nástroje:
72
1. Polaris – specializovaný program založený na technologii FLAIM ﬁrmy Novell. Je
uzpůsoben pro potřeby projektu EuroWordnet-1 a 2, umožňuje jednotným způsobem
prohlížet současně sítě slov všech zúčastněných jazyků. Zobrazuje ve formě
stromu hyperonyma i hyponyma zvoleného synsetu, v případě hyponym lze zobrazit
buď nejbližší následníky, nebo tranzitivně všechna hyponyma. Také je možno
provádět projekci vybrané množiny synsetů do jiného jazyka a tak konfrontovat
zastoupení jednotlivých sémantických polí v různých jazycích. Program dále umožňuje
importovat synsety z přesně deﬁnovaného textového formátu, případně exportovat
zvolené části databáze do textové podoby.
2. EWN-tools je sada konverzních programů a ﬁltrů umožňující dávkového zpracování
dat českého wordnetu. V zásadě umožňují následující:
(a) konverzi mezi externím textovým formátem programu Polaris a vlastním textovým
(databázovým) formátem umožňující efektivnější dávkovou i editační
práci s daty,
(b) automatické doplnění možných českých ekvivaletů k vybraným synsetům
Wordnetu 1.5,
(c) automatické doplnění vztahů ekvivalence v těch případech, kdy uvedený literál
anglického slova (resp. anglických slov) toto určuje jednoznačně,
(d) automatické doplňování ILI-indexů podle symbolického označení vztahu
ekvivalence libovolným prvkem synsetu,
(e) automatické vytváření synsetů českého wordnetu na základě shodnosti ILI-
indexů,
(f) třídění synsetů podle slovních druhů a některých dalších gramatických kategorií
a opětovné slučování a zatřiďování hesel a synsetů.
3. Lingea Lexicon – program pro efektivní prohlížení anglicko-českého a českoanglického
slovníku ﬁrmy Lingea byl doplněn o možnost zobrazování hesel slovníku
Wordnet 1.5 včetně všech vnitřně jazykových vztahů, zvláště pak hyperonym
a hyponym. Dále umožňuje stejným způsobem prohlížet i český slovník synonym
uvedený výše. Lexicon spolu s programem Polaris tvoří základní pomůcky pro
interaktivní rozšiřování a zpřesňování databáze české sítě slov.
4. Lemmatizátor – nezbytnou pomůckou při práci je i český a anglický lemmatizátor
s názvem LEMMA (Ševeček, 1996). Ten byl použit a používá se např. při zjišťování
vhodných kandidátů pro české základní koncepty, pro značkování korpusu ESO (viz
výše), ze kterého se získávají frekvenční informace o zastoupení jednotlivých hesel
v současné češtině nebo informace pro výpočet pravděpodobnosti souvýskytu určitých
hesel, tj. parametru tzv. vzájemné informace (Pala, Rychlý, 1998). Pomocí
73
obrácené funkce lemmatizátoru, tj. generování tvarů, lze rovněž zrekonstruovat základní
podobu potenciálních českých kolokací.
0.7 Sémantické reprezentace vět PJ
Zatímco pro popis syntaktické roviny existuje již v rámci počítačového zpracování přirozeného
jazyka řada relativně propracovaných přístupů, jak jsme se snažili výše naznačit
i pro češtinu, standardní techniky pro práci s významem vět a výpovědí prakticky neexistují.
Následující úvahy budou proto mít poněkud volnější obrysy a půjde v nich spíše
o mapování některých aktuálních směrů výzkumu.
Povšimneme si sémantických reprezentací, otázek reference a aplikace principu
kompozicionality. Budeme věnovat pozornost algoritmu překladu syntaktických reprezentací
na sémantické a případně i některým otázkám spojeným s víceznačností.
Máme-li vysvětlit schopnost uživatele jazyka rozumět výrazům přirozeného jazyka,
musíme postulovat existenci nějaké vnitřní reprezentace významu výrazů přirozeného
jazyka. I když v současnosti nelze dost dobře odpovědět na otázku, jakou konkrétní
podobu mají u člověka tyto vnitřní reprezentace významu, z povahy jazykové komunikace
a na základě introspekce lze dospět k závěru, že bez postulování sémantických
reprezentací se neobejdeme.
Mají-li SR splňovat svůj účel, měly by vyhovovat aspoň následujícím požadavkům:
1. SR by měly umožňovat jednoznačné zachycení významů výrazů přirozeného jazyka
(dále PJ),
2. SR by měly umožňovat postižení synonymie (parafráze) výrazů jazyka, tj. situace,
kdy různým větám odpovídá jeden význam – jedna SR. Máme tu na mysli
např. situace, kdy následující otázky lze zodpovědět jedním způsobem:
(a) Kdo měl poměr s ředitelovou ženou?
(b) Kdo spal s ženou ředitele?
(c) Byl to údržbář.
3. SR by též měly umožňovat přirozené postižení homonymie jazykových výrazů,
tj. situaci, kdy jedné větě odpovídá více významů a tudíž jí bude přiřazeno více
SR.
Při zkoumání vztahů mezi výrazy jazyka a jejich odpovídajícími SR lze postupovat
ve dvou směrech:
74
1. od výrazů jazyka k hledaným odpovídajícím SR – tento přístup můžeme charakterizovat
jako analýzu,
2. od SR (za předpokladu, že existují induktivní pravidla jejich formování) k výrazům
jazyka – tento přístup charakterizovat jako syntézu.
V následujících úvahách se budeme zaměřovat spíše na syntézu, ačkoli na této úrovni výkladu
není uvedená distinkce podstatná. Svého plného významu nabývá až v okamžiku,
kdy se začneme zabývat implementovatelnými algoritmy.
Pokusíme se tedy vést paralelu mezi postulovanou uživatelovou vnitřní reprezentací
významu výrazů přirozeného jazyka a tím, co budeme dále nazývat sémantickou
reprezentací výrazů přirozeného jazyka. Zde bude klíčovou otázkou, jakých prostředků
k budování sémantických reprezentací (dále SR) použijeme.
0.7.1 Formální aparát pro SR – charakteristika TIL
V současných lingvistických teoriích se významy výrazů (slov, slovních spojení, vět) přirozeného
jazyka nejčastěji popisují na základě aparátu predikátové logiky 1. řádu (Winograd,
1972, Gazdar, Mellish, 1989). Podle našeho názoru lze však pokládat za dostatečně
vyjasněné (viz např. Tichý, 1976, Svoboda, Materna, Pala, 1979, Materna, Pala, Zlatuška,
1989), že predikátová logika 1. řádu (dále PL1) není nejadekvátnějším nástrojem pro zachycení
SR, neboť se jí nedostává potřebné vyjadřovací síly – řadu významů běžně vyjadřovaných
v kterémkoli přirozeném jazyce nelze prostředky predikátové logiky 1. řádu
dostatečně systematicky zachytit. Citované práce přesvědčivě argumentují, že vhodnější
k těmto účelům a empiricky adekvátnější je aparát intenzionální logiky, který ve variantě,
jíž budeme dále věnovat pozornost, bývá charakterizován jako tzv. transparentní
intenzionální logika (dále til, Tichý, 1976, Tichý, 1988, Materna, Pala, Zlatuška, 19892
).
a) TIL je logický systém založený na určité modiﬁkaci (viz zejména dále pod b)) typovaného
lambda kalkulu. Lambda kalkul je logický aparát, který umožňuje manipulaci
s funkcemi. Rozumná interpretace tohoto aparátu, který má obecně velké uplatnění
v matematice a informatice, je umožněna principem teorie typů, který tvorbu funkcí
omezuje na základě výstavby tzv. hierarchie typů a podle něhož funkce nemůže být aplikována
např. na sebe samu. Typovaný lambda kalkul manipuluje s funkcemi v souladu
s principem teorie typů. Tím, že je založen na neomezené hierarchii typů, je typovaný
lambda kalkul vhodným aparátem k překonání nedostatečné expresivity, jaká je vlastní
např. PL1.
I jiné systémy než til, zejména jiné intenzionální logiky, jsou založeny na aparátu
typovaného lambda kalkulu. Pokud však modiﬁkují tento aparát, pak nikdy ve smyslu
b), resp. c) (viz dále).
2
V následujícím výkladu se budeme opírat o řadu formulací z této práce. Podrobnější charakteristika
formálního aparátu til je uvedena v příloze v odd. 0.9.5
75
b) TIL je transparentní systém, tj. pro til není formální aparát reprezentující způsoby, jakými
jsou konstruovány objekty, předmětem studia, nýbrž pouze prostředkem ke studiu těchto
konstrukcí.
Tímto rysem se til odlišuje od všech soudobých logických systémů: zatímco v til
je formální výraz označením konstrukce, je pro stoupence formalismu tento výraz bezprostředním
jménem konstruovaného objektu. Na triviálním příkladu lze tento rozdíl
ukázat takto:
formální pojetí TIL
------------------------------------------------------------------------
výraz 3 + 5 3 + 5
sémantika číslo 3 číslo 5 číslo 3 číslo 5
složek
výrazu
operace sčítání operace sčítání
sémantika číslo 8 konstrukce, tj.určitý způsob,
výrazu jakým uvedené složky spolupracují
na vytvoření objektu
------------------------------------------------------------------------
Vidíme, že pro formalistu neexistuje sémantický mezistupeň mezi objekty označenými
složkami složeného výrazu a objektem výsledným. Pro til je sémantika výrazu dána tím,
že způsob, jakým je tento výraz strukturován, zobrazuje strukturu konstrukce, jejímiž
složkami nejsou složky jazykového výrazu, nýbrž objekty těmito složkami označené. Jak
ukázal autor til v řadě statí (a zejména ve své monograﬁi, Tichý, 1990), vede ignorování
pojmu konstrukce k řadě chyb, nedorozumění i pseudoproblémů.
c) TIL nepreferuje jistá vybraná slova jako tzv. logická slova, jež by údajně určovala charakter
logiky.
Také tento rys je speciﬁcký pouze pro til (souvisí s rysem b)). V ostatních, formálně
budovaných systémech se vždy setkáváme s množinou vyčleněných konstantních
výrazů, které jsou logické a které jedině zajišťují odlišení logicky pravdivých vět, logického
vyplývání, logické ekvivalence od ostatních (zřejmě na empirii závislých) vlastností
a vztahů. Tak ve výrokové logice jsou logickými slovy logické (výrokové) spojky, v PL1
k nim přistupují kvantiﬁkátory, resp. identita. Tato logická slova jsou navíc chápána jako
tzv. nevlastní symboly, tj. interpretací jim není přiřazován soběstačný význam; význam
je přiřazován jen celým složeným výrazům, které je obsahují.
Z tohoto hlediska např. věta
(15) Pavel je starší než Petr.
76
není logicky ekvivalentní větě
(16) Petr je mladší než Pavel.,
protože analýza těchto vět v PL1 dává
(15’) St(Pavel, Petr), resp.
(16’) Ml(Petr, Pavel),
takže se nemůžeme opřít o žádné logické slovo, na jehož základě bychom mohli odvodit
ekvivalenci (15) a (16). Samozřejmě, i PL1 odhalí logickou souvislost těchto vět tím, že
zavede významový postulát
(17) ∀ xy (St(x,y) ≡ Ml(y,x))
a prohlásí, že (15’) je ekvivalentní s (16’) za předpokladu (17). Ale (17) je z hlediska
intuice logicky pravdivá věta, takže ji nepokládáme za zvláštní předpoklad. Jenže (17)
nemůže být z hlediska PL1 logicky pravdivá věta: aby jí byla, musela by být pravdivá
ve všech strukturách. Snadno však najdeme takovou strukturu, v níž (17) neplatí; stačí
za U zvolit např. množinu přirozených čísel a za relace, jež budou interpretací přiřazeny
St, resp. Ml, relace >, resp. ≥.
Další charakteristiky til se týkají aplikace til na analýzu přirozeného jazyka.
d) TIL aplikována na analýzu přirozeného jazyka se stává sémantikou založenou na pojmu
možných světů (possible worlds semantics).
Tento rys sdílí til s nejrozšířenějšími aplikacemi logických systémů na analýzu
přirozeného jazyka. Myšlenka využít možných stavů světa, popř. časových okamžiků k deﬁnování
intenzí jako logicky manipulovatelných objektů se stala v soudobé logické sémantice
převládající ideou.
Poznámka:
Termín možný svět byl převzat z Leibnize a poprvé v zárodečné moderní podobě použit
R. Carnapem. Někdy se mluví i o množině indexů (Montague aj.), do níž jsou vedle možných
světů a časových okamžiků zařazovány některé další parametry (ponejvíce pragmatické
povahy). S kategorií možných světů pracuje i tzv. ﬁnská logická škola (J. Hintikka aj.).
e) Univerzum je v TIL chápáno jako množina společná všem možným světům.
Tento rys je charakteristický zejména pro til; ve většině ostatních koncepcí se uvažuje
vedle možných světů i o možných individuích, tj. populace individuí je obecně různá
v různých možných světech. Tento zdánlivě samozřejmý předpoklad (v některém možném
světě existuje Pegas, v jiném ne) byl koncepcí til přesvědčivě vyvrácen.
f) Fregeho (Churchovo) rozlišení vztahu denotace jakožto označování (reference) a vztahu
vyjadřování smyslu je v TIL zrušeno a nahrazeno jiným schématem.
Také tento rys nalezneme u malého počtu jiných systémů; většinou je denotace
(označení, pojmenování, reference) vztažena k extenzím a intenze jsou chápány jako
výsledek způsobu vyjádření.
77
Vedle těchto rysů charakteristických pro til je třeba se zmínit o speciﬁckém deduktivním
aparátu, který je obdobou syntaktického důkazového aparátu v PL1, ale je
přizpůsoben transparentní koncepci; neklade důraz na axiómy, je generalizací Gentzenovy
přirozené dedukce (s touto teorií se lze seznámit např. v Janákově práci, (1973)) na
teorii typů a je velmi účinný. Nejjednodušší aplikace tohoto aparátu byla u nás realizována
v systému ADAM pro reprezentaci znalostí na počítači CYBER 172. (Viz T. Chrz,
1984).
0.7.2 Formální aparát – TIL a teorie typů
Předchozí úvahy nás vedou k hledání formálního aparátu vhodného pro sémantickou
analýzu výrazů PJ. Jak jsme už naznačili, za takový nástroj pokládáme zmíněný již til.
Základními rysy systému til jsou:
1. schopnost systematicky překračovat omezení platná v predikátové logice 1. řádu
(extenzionální sémantice);
2. důsledný intenzionalismus a z něho vyplývající schopnost přesného deﬁnování intenzí
a zacházení s nimi;
3. vzhledem k přirozenému jazyku disponuje til větší expresívní silou – což plyne
z bodu 1.
Podrobnější charakteristiku systému til a jeho vlastností, díky nimž je tak zajímavý a
vhodný pro sémantickou analýzu PJ, uvádíme samostatně v příloze Teorie typů. I zde
primárně vycházíme z citované již práce Materna, Pala, Zlatuška, 1989.
0.7.3 Sémantická analýza výrazů PJ
Jedním z hlavních cílů sématické analýzy PJ je ukázat, jak význam složeného výrazu
může být odvozen z významů jeho složek. Je patrné, že velmi vhodným nástrojem k tomu
jsou konstrukce uvedené výše.
Analyzovat sémanticky výraz přirozeného jazyka (větu) znamená nalézt konstrukci,
která je tímto výrazem vyjadřována. Tuto konstrukci můžeme pak pokládat
za sémantickou reprezentaci analyzovaného výrazu. Pokud však výsledkem analýzy není
jednoznačná konstrukce, vzniká potřeba konstrukci standardizovat, což se neobejde bez
zavedení tzv.
”
linguistic constructions“ (Hajičová, Materna, Sgall, 1988).
Zajímá-li nás přirozený jazyk jako např. čeština a je-li dána epistémická báze BL
příslušející k tomuto jazyku, lze při budování konstrukcí vyjadřovaných větami tohoto
jazyka – budeme jej značit L – postupovat zhruba následovně:
78
1. Mějme následující českou větu:
(v18) Studentka Alena si myslí, že ministr ﬁnancí je hezčí než ministr zahraničí.
2. Nejprve se pokusíme zjistit, která slova z (v18) označují atomy nad BL. Můžeme
to učinit tak, že nahlédneme do sémantického slovníku, v němž pro jednoduchost
najdeme u příslušných slovních tvarů jejich odpovídající typové charakteristiky.
– Musíme však počítat s tím, že některá slova v L mohou patřit současně do více
kategorií, to platí např. o slovese být a dalších. Je potřeba přihlédnout i k okolnosti,
že i některé gramatické kategorie (rysy) mohou označovat atomy nad BL –
gramatické časy, vidy, gramatické číslo.
– To, co následuje, lze pokládat za minimální fragment takového slovníku. Samostatným
problémem je stavba takového slovníku a způsob jeho vytváření –
jeden pokus týkající se českých sloves lze nalézt v práci B. Podlezlové-Koželouhové
(1974). Další velmi zajímavou analýzu týkající se českých sloves a slovesného času
předložila J. Koukolíková (1988).
3. Víceslovné výrazy pokládáme pro jednoduchost za celky.
studentka Alena: A/ι – nálepka individua
myslet si: M/(oιoτω)τω – vztah mezi individuem a propozicí
ministr ﬁnancí: F/ιτω – individuální koncept
hezčí než: Hn/(oιι)τω – vztah mezi dvěma individui
ministr zahraničí: Z/ιτω – individuální koncept.
4. Další krok spočívá v nalezení konstrukce vyjadřované větou (v18) a tabulky funkce,
jež je touto konstrukcí konstruována. Protože (v18) je souvětí, začneme nejprve
analyzovat vedlejší větu, která je uvozena spojkou že. Hn je vztah mezi individui, F
a Z však nejsou individua. Budou-li ale aplikována na nějaký svět W v okamžiku S,
mohou vytvořit ι-konstrukce, tj. hodnotou F ve světě W a okamžiku S může být ta
určitá osoba, např. právě Václav K. a podobně hodnotou Z může být třeba Jiří D.
Aplikace F a Z na svět W v okamžiku S se uskuteční prostřednictvím ω-proměnné
w (možných světů) a τ-proměnné t časových okamžiků. Podobně postupujeme u
atomu Hn, což vede ke konstrukci:
(K1) (Hnwt(Fwt, Zwt)).
Jak si lze bez větších obtíží ověřit, výsledná o-konstrukce není uzavřená, obsahuje
výskyty volných proměnných w a t. Tato konstrukce v-konstruuje pravdivostní
hodnotu v závislosti na možném světě W a okamžiku S. Další krok spočívá nyní
v tom, že použitím λ-operátoru se zbavíme volných výskytů proměnných w a t, a
tak dostaneme konstrukci (K2), která již konstruuje propozici:
(K2) λwλt (Hnwt Fwt Zwt).
Přidání atomů M a A vede již ke konstrukci (K3), která je vyjadřována naší větou
(v18).
(K3) λwλt (Mwt (A (λwλt (Hnwt) Fwt Zwt)))).
79
Vidíme, že (K3) konstruuje objekt oτω – tedy propozici, což je funkce, která každému
možnému světu W v okamžiku S přiřadí nejvýše jednu pravdivostní hodnotu.
V těch možných světech a těch okamžicích, v nichž si studentka Alena myslí, že
platí propozice konstruovaná konstrukcí (K2), je přiřazenou hodnotou P, v ostatních
světech a okamžicích je touto hodnotou N. Konstrukce (K2) konstruuje propozici,
v jejíž pravdivost studentka Alena věří a která nabývá hodnoty N v těch
světech a okamžicích, v nichž individuum, které je ministrem ﬁnancí (Fwt), a individuum,
které je ministrem zahraničí (Zwt), jsou v relaci, jež je hodnotou vztahu
Hn. V těch světech a těch okamžicích, v nichž zmíněná individua v této relaci
nejsou, nabývá propozice hodnoty N. Posléze v těch světech a těch okamžicích, ve
kterých žádné individuum není ministrem ﬁnancí nebo ministrem zahraničí (nebo
obojí), je propozice nedeﬁnována. Podotkněme k tomu, že v aktuálním světě je tato
propozice v přítomnosti deﬁnována: české větě vyjadřující konstrukci (K2) lze přiřadit
pravdivostní hodnotu. Dodejme ještě, že pravdivost propozice konstruované
(K3) nezávisí na pravdivosti propozici konstruované (K2).
0.7.4 Nástin algoritmu sémantické analýzy
Nyní nás budou zajímat možnosti algoritmizace sémantické analýzy výrazů PJ popsané
výše, a to s cílem dospět k sémantickému analyzátoru, který by v úzké návaznosti na již
popsaný syntaktický analyzátor budoval pro vstupní české věty jejich odpovídající SR.
Navazujeme tu na dřívější experimentální syntakticko-sémantický analyzátor pro omezenou
podmnožinu českých vět, který byl napsán v programovacím jazyce LISP (Pala,
Materna, 1976, Palová-Vaníčková, 1978, Čihánek, 1978, nejnověji se o implementaci jednoduchého
sémantického analyzátoru v prologu pokusila Koukolíková, 1988).
Ať už zvolíme přístup rule-to-rule (každému syntaktickému pravidlu je přiřazeno
odpovídající pravidlo sémantické) či postup sekvenční, kdy se nejprve provádí syntaktická
analýza, jejímž výsledkem je stromový graf reprezentující syntaktickou strukturu
vstupní věty, v každém případě musíme počítat se dvěma okruhy vstupních dat:
1. s informacemi o syntaktické struktuře vstupní české věty v podobě vhodného stromového
grafu, který např. může být výstupem z výše popsaného syntaktického
analyzátoru. U přístupu rule-to-rule by šlo o tytéž informace, z technického hlediska
by se s nimi ovšem zacházelo poněkud jinak, neboť některé kroky by se
prováděly prakticky současně;
2. s vhodnou formou sémantického slovníku, který v zásadě může obsahovat do značné
míry stejné lexikální jednotky jako slovník syntaktický, ovšem s poněkud jinými
údaji. Lze ovšem mít i slovník jeden, který při vhodném uspořádání může sloužit
oběma částem analýzy, ale to je otázka do značné míry technická a implementační,
kterou se zde nebudeme podrobněji zabývat. Zde budeme vycházet z toho, že
lexikálním jednotkám jsou v sémantickém slovníku přiřazeny vhodné typové popisy
80
a že tam jsou i další potřebné údaje týkající se např. kvantiﬁkátorů, logických
spojek, předložek, částic ap.
Vlastní sémantická analýza může začínat testováním uzlů syntaktického stromu a rysů
v seznamech připojených k uzlům. Jak uzly tak rysy obsahují údaje předurčující celkový
průběh sémantické analýzy, je v nich totiž obsažena informace, že např. věta je tázací,
je v ní budoucí čas, hlavní sloveso je negováno apod.
Po provedení testů tohoto druhu lze standardním způsobem založit kořen sémantického
stromu (oω) a jeho obligatorní potomky λw a o. Od časových okamžiků τ budeme
zatím odhlížet, i když jejich začlenění není spojeno s žádnými zvláštními komplikacemi.
Dalším význačným krokem je analýza slovesné skupiny ve větě. Začíná tím, že
pro hlavní sloveso analyzované věty se v sémantickém slovníku najde jeho typová charakteristika.
Poté je průběh analýzy do značné míry závislý na výsledcích syntaktické
analýzy: dostaneme-li např. ze syntaktické analýzy údaje o tom, že slovesná skupina
v analyzované větě je tvořena sponovým slovesem být a jmennou skupinou v nominativu,
je slovesné skupině bez dalšího testování přiřazen typ vlastnosti, tj. (oα)τω (kde α
je jakýkoli typ).
Poté se hledají adverbia míry a způsobu. Jsou-li nalezena, připojí se pod slovesnou
skupinu a s použitím operace aplikace se vytvoří celkový typ slovesné skupiny. Pokud
jde o typy těchto adverbií, lze pro začátek vyjít z toho, že označují objekty, které mohou
být charakterizovány jako vlastnosti vlastností, tj. mohou být spojovány s podobnými
objekty jako níže zmíněná adjektiva. Je-li ve větě nalezena (při syntaktické analýze)
adverbiální skupina s rysem místa nebo času, založí se pro ni v sémantickém stromu
samostatný uzel. U adverbií času jako včera, dnes, ... lze počítat s tím, že označují
(oτ)τ-objekty, i když v této souvislosti se nevyhneme podrobné sémantické analýze gramatických
časů a vidů u značného počtu českých sloves, jak je naznačena u Tichého
(1980).
Následuje v podstatě nejobtížnější fáze analýzy, jíž je analýza jmenných skupin
ve větě. Nejprve se testuje, zda počet argumentů indikovaných typem slovesné skupiny
se shoduje s počtem jmenných skupin v syntaktickém stromu věty. Je-li výsledek testu
negativní, analýza se vrací zpět ke slovesné skupině, u níž se v sémantickém slovníku
snažíme najít další typ. Pokud uspějeme, výše popsaný proces se opakuje. Je-li výsledek
testu na počet jmenných skupin ve větě pozitivní, přistoupí se již k analýze jmenných
skupin, která u každé jednotlivé skupiny probíhá nejprve zdola nahoru, tj. ve slovníku
se vyhledají typy složek tvořících jmennou skupinu (např. A N – chytrý poslanec).
Nejprve je potřeba vyrovnat se s typy adjektiv. Obecně lze počítat s tím, že
adjektiva označují ((oα)(oα)τω)τω -objekty pro nějaký typ α: jsou to tedy funkce, které
každému stavu světa přiřadí funkci, jež každé vlastnosti α-objektů přiřadí určitou třídu
α-objektů, což se uplatní při analýze výrazů jako
(v19) Můj kamarád je chytrý poslanec.
Druhou možností je, že adjektiva označují (ι(oι)τω)τω -objekty, což se vztahuje např. k vý-
81
razům nejdemokratičtější prezident nebo ten chytrý poslanec.
Poznamenejme však, že u výrazů (jmenných skupin) obsahujících demonstrativa
či posesiva se nabízí možnost typovou analýzu minimalizovat, neboť tato zájmena vcelku
spolehlivě signalizují, že jmenné skupiny, které je obsahují, lze bezpečně analyzovat jako
výrazy označující individuální objekty.
Pak se postupem shora dolů (počínaje uzlem NP) činí pokus sestavit výsledný typ
celé jmenné skupiny, jenž byl již predikován typovou charakteristikou slovesa získanou
v předchozím průběhu analýzy.
Je-li výsledek analýzy všech příslušných jmenných skupin ve větě pozitivní, je
sestaven sémantický strom analyzované věty spolu s jeho linearizací, která je hledanou
konstrukcí, již analyzovaná věta vyjadřuje. Tuto konstrukci pak můžeme pokládat za
sémantickou reprezentaci analyzované vstupní věty.
Po takto provedené analýze mohou nastat dvě situace:
1. Získaná konstrukce (SR) neobsahuje žádné volné proměnné a je tudíž uzavřená.
V tom případě lze celou analýzu pokládat za deﬁnitivně a úspěšně ukončenou.
2. Výsledná konstrukce (SR) obsahuje volné proměnné a je tedy otevřená. Nastane-li
tento případ, je nutno přejít k analýze pragmatické, která by měla poskytnout
chybějící údaje potřebné k získání uzavřené konstrukce (SR) (viz dále).
Jak lze vidět z předchozího, naznačený algoritmus se přirozeně člení do čtyř modulů,
které byly v Čihánkově programu (Čihánek, 1978) realizovány jako lispovské funkce:
1. přípravný modul I – v něm se analyzují slovesné časy, větná negace (spojená s ﬁnitním
slovesným tvarem) a provádějí se přípravné akce pro analýzu slovesné skupiny;
2. slovesný modul – analyzuje slovesnou skupinu věty a adverbia patřící k hlavnímu
(ﬁnitnímu) slovesu ve větě, též výrazy s významem místa a času a případně i další;
3. přípravný modul ii – provádí přípravné akce pro analýzu jmenných skupin (nastavení
hodnot programových proměnných potřebných pro koordinaci činnosti slovesného
a jmenného modulu);
4. jmenný modul – provádí sémantickou analýzu jmenných skupin ve vstupní větě,
tj. sestavuje na základě syntaktických informací jejich výsledné typy a začleňuje
je do typu získaného již dříve při analýze slovesné skupiny věty. Dokončuje celou
analýzu, tj. vytváří výsledný sémantický strom a jemu odpovídající linearizaci hledané
konstrukce – sémantické reprezentace vstupní věty a podle potřeby i jejich
graﬁcké podoby.
82
0.7.5 Poznámky k sémantické roli jmenných skupin
Typickou funkcí singulární np ve větě zhruba je označovat nějaký objekt univerza promluvy,
který je relevantní v dané komunikační situaci. Z hlediska počítačové analýzy
je problémem skutečnost, že np může být ve větě víceznačná nebo neurčená. Nicméně
lze počítat s jistými základními regularitami, pokud jde o hlavní funkce np. (V těchto
úvahách počítáme spíše s extenzionálním pojetím reprezentace objektů v reprezentaci
daného výseku světa, i proto, že konkrétní počítačové reprezentace výseků světa zatím
plné intenzionální pojetí neumožňují, neboť nejsou vybaveny koncepty (intenzemi) jako
rozpoznávacími procedurami.)
1. neurčité np, např. nové kolo, nějaké děti, tři docenti, jsou obvykle extenzionálně
chápány tak, že označují speciﬁcký objekt nebo jejich množinu, u nichž se předpokládá,
že jsou pro adresáta nové. Z hlediska algoritmického popisu (a odpovídajícího
počítačového programu) to znamená, že v dané reprezentaci světa se vytvoří
nový vnitřní symbol, který bude označovat příslušný objekt, a přidá se do aktuální
reprezentace daného výseku světu. Máme-li větu
(v20) Karel si koupil nové kolo.,
do aktuální reprezentace světa se poznamená něco jako
kolo(k1)
nový(k1)
vlastnit(karel, k1).
2. dále se neurčitých np užívá v nespeciﬁckých kontextech pro označení objektů, které
mohou nebo nemusí existovat, např. ve větě
(v21) Karel si chce koupit nové Shimano.
jde podle extenzionalistů o tzv. nepřímý (opaque, oblique) kontext, který je spojen
se slovesy jako věřit, chtít, myslet, doufat, přát si aj.
3. neurčitých np lze též (extenzionálně vzato) užít genericky k označení třídy objektů
jako např. ve větě
(v22) Nové kolo vyžaduje pravidelnou údržbu.
– Typické jsou konstrukce se slovesem být nebo stát se, jichž se často užívá k vyjádření
skutečnosti, že (extenzionálně) daný individuální objekt patří do nějaké
třídy (má nějakou vlastnost), např.
(v23) Ta hromádka zkrouceného kovu je nové kolo.
(v24) Shimano XJ je nové kolo.
4. určité np mají někdy užití, které je dosti podobné neurčitým np, např. np ve (v25)
označuje konkrétní objekt, ve (v26) jde o užití generické
(v25) Karlovi se přestalo líbit to nové Shimano, co si koupil.
(v26) Jaguár je příbuzným leoparda, který žije v Jižní Americe.
83
5. Určité np nezřídka hrají roli deskripcí, které v terminologii intenzionální sémantiky
označují individuální koncepty (tzv. oﬃces), např.
(v27) Výrobce tohoto kola by měl být volán k odpovědnosti.
Np tohoto typu obvykle umožňují identiﬁkovat denotát bez větších komplikací, pro
extenzionální pojetí však představují nemalé potíže.
6. zájmena, resp. koncovky verba ﬁnita, odkazují zpět k individuálním objektům které
byly v promluvě uvedeny předchozími np. Tak např.
(v28) Karel si v dražbě koupil staré Shimano XJ.
Bylo už pěkně ojeté.
– O poněkud jinou situaci jde v následujícím případě, i když se tváří do jisté míry
podobně jako předchozí
(v29) Karel si chtěl opatřit láhev s džinem.
Doufal∅, že mu bude uklízet byt.
Zde se zájmenná a
”
koncovková“ reference týká individuálního konceptu a individua,
navíc np láhev s džinem je víceznačná, takže zjištění korektní reference
prostřednictvím koncovky 3. os. sg. může být velmi nesnadné, jestliže daná reprezentace
světa neobsahuje žádné údaje o pohádkových bytostech.
7. poznamenejme však, že np se objevují též v konstrukcích typu
(v30) Žádný řidič nepřipustí, že je horší než nějaká ženská.,
v nichž ovšem nelze mluvit o referenci jako takové – tyto np vyžadují jiný typ
analýzy, neboť se vztahují k logickým kvantiﬁkátorům (obecnému a existenčnímu)
a navíc jsou ještě spojeny s operátorem negace.
8. V dosud uvedených příkladech jsme věnovali pozornost výlučně oznamovacím
větám. U otázek a rozkazů lze očekávat interpretaci neurčitých np jako deskripcí
objektů, které by adresát měl identiﬁkovat v průběhu procesů tázání se a odpovídání
a rozkazování a provádění rozkazů, např.
(v31) Je ta tvoje kniha v pokoji na stole?
(v32) Dej tu jeho knihu do pokoje na stůl!
Pokusili jsme se naznačit některé základní funkce np v oblasti reference a nyní vzniká
otázka, jak se s těmito otázkami vyrovnat v rámci počítačového modelu porozumění PJ.
Situace je o to nepříjemnější, že syntaktické prostředky neposkytují příliš často jasná
vodítka pro rozpoznání příslušné funkce np (jako je tomu např. u konstrukcí se slovesem
být. Adresát je většinou odkázán na znalost tématu konverzace a kontextu a z nich musí
odvodit příslušnou funkci np. V počítačových modelech se však zjednodušeně počítá
jen s np a zájmeny, které se vyznačují konkrétní referencí, dále s tím, že neurčité np
jsou speciﬁcké nebo v případě otázek a rozkazů nespeciﬁcké. Přes tyto simpliﬁkace jsou
problémy s interpretací np v netriviálních kontextech značné.
84
0.7.6 Referenční role funkční perspektivy větné
Obvyklým cílem pronesení oznamovací věty je sdělit novou informaci, která adresátovi
není dosud známa. Aby si adresát mohl integrovat tuto informaci do své zásoby existujících
znalostí, může mu mluvčí poskytnout jisté množství známé informace, kterou již
adresát disponuje (Sgall, Hajičová, 1985). Např. ve větě
(v33) Posledně jsem mu vysvětloval principy českého slovosledu.
adresát pravděpodobně ví, že výraz mu odkazuje k jednomu z mých studentů a že jsem
to byl já, kdo vysvětloval. Nová informace se pak týká toho, co bylo vysvětlováno.
V jakém smyslu je distinkce nového (rématu) a známého (tématu) (Firbas, 1971,
Sgall, Hajičová, Buráňová, 1980) relevantní pro (sémantickou) interpretaci jmenných
skupin? Za předpokladu, že vedeme konverzaci s partnerem, který je kooperativní, může
adresát očekávat, že nová a známá informace bude nějak vyznačena a známá informace
bude vskutku odpovídat tomu, o čem je mluvčí přesvědčen, že adresát už ví.
Má-li počítačový systém korektně identiﬁkovat známou informaci, měl by také
testovat, že tato informace je konzistentní se základní bází znalostí, což mu umožní
řešit případné víceznačnosti. Navíc, je-li jasně vyznačena i nová informace, systém může
reagovat tím, že si ji doplní do svého modelu světa. Výraz mu tedy označoval mého
studenta Petra Nováka a v tomto ohledu sotva může vzniknout nějaká nejednoznačnost.
Opozice určitosti–neurčitosti je často vodítkem pro rozlišení nového a známého.
Např. ve větě
(v34) Ten profesor zkoušel nějakého studenta.
očekáváme (není-li k dispozici další kontext, který by naznačoval něco jiného), že ten
profesor byl již zmíněn v konverzaci nebo je znám z kontextu, zatímco nějaký student
se v konverzaci objevuje poprvé. Ne vždy je však situace tak jednoznačná a podobné
jmenné skupiny často nesou i novou informaci. Jako příklad lze uvést
(v35) Petr Novák nebyl včera ve škole. Tento úspěšný student orientující se na otázky
českého slovosledu mě na dnešním semináři zklamal.,
kde vyznačená jmenná skupina jednak odkazuje k již zmíněné osobě a jednak o ní přináší
novou informaci.
Dovedeme-li ve větě identiﬁkovat známou informaci, můžeme jí využít k omezení
množiny možných referentů u jmenných skupin. Ve větě o Petrovi (v33), kterému
profesor vysvětloval pravidla českého slovosledu, dativní pronominální skupina musí
odkazovat k někomu, kdo je student. Kdyby daná jmenná skupina byla víceznačná,
mělo by smysl zjistit si implicitní presupozice potřebné k tomu, aby nová informace
dávala smysl. Např. by nebylo konzistentní říci, že je něco lokomotiva, bylo-li již známo,
že to je člověk nebo robot; podobně by bylo poněkud nekoherentní tvrdit o někom, že
je předseda vlády, víme-li již, že jde o vysokoškolského studenta. Presupozice tohoto
druhu lze ověřovat dopřednými inferenčními pravidly, která testují výskyt kontradikcí,
např.:
85
dopravní-prostředek(X) if lokomotiva(X)
počet-nohou(X,2) if člověk(X)
počet-nohou(X,2) if robot(X)
kontradikce if dopravní-prostředek(X) & počet-nohou(X,2)
různé(X,Y) if uvnitř(X,Y)
kontradikce if různé(X,X)
Tato pravidla nám bezprostředně pomohou odhalit kontradikci, když se pokusíme
zpracovat následující zájmenné referenty:
Robot předváděl nového Jaguára.
Byl to automobil.
(* “to” → robot)
Robot má dvě nohy.
Je to student.
(* “to” → robot)
Další způsob, jak testovat takové presupozice, představují zpětné inference. Kdykoli
se chystáme doplnit do znalostní báze nějakou novou informaci, musíme testovat,
zda je konzistentní s tím, co je již známo (uloženo v bázi). Postačující zpětná pravidla
konzistence by mohla mít např. následující podobu:
konzistentní (lokomotiva(X)) if (dopravní-prostředek(X)) & ...
konzistentní (uvnitř(X,Y)) if (různé(X,Y)) & ...
Pravidla pro testování konzistence musejí přihlížet k pořadí, v němž bude pravděpodobně
přicházet informace o objektech komunikace. Je možné, že zjistíme, jakého
druhu objekt je, např. že to je dopravní prostředek, se dovíme dříve, než že jde o lokomotivu.
Pak můžeme uplatnit předchozí pravidla, která potvrzují konzistenci – lokomotiva
je typem dopravního prostředku.
Dovíme-li se však, že objekt je lokomotiva dříve, než je známo, o jaký typ objektu
jde, pak první pravidlo ke stanovení konzistence nepostačuje. Naše pravidla konzistence
(významové postuláty) ve skutečnosti nevyjadřují generalizace o světě, ale jsou to heuristická
metalogická pravidla pro speciální případy, u nichž je nepravděpodobné, že by
nová informace byla v kontradikci s tím, co je již známo. Smysl jejich použití je v tom,
že mohou produkovat kandidáty na referenty, a méně již vést k zamítnutí referentů
nevhodných či vysloveně chybných.
Efektivnější ovšem je snažit se přímo vydedukovat (najít) množinu propozic, které
by měly být pravdivé, aby daná věta dávala smysl. Pak můžeme zamítnout nebo nepreferovat
možné interpretace, které nepodporují pravdivost těchto propozic.
V praxi se často vyskytují situace, kdy formulace presupozic umožňuje adresátovi
přímo provádět jednoduché inference, např. :
86
Marie má dvě děti, kluka a holku.
Dcera bude letos maturovat.
Můj kamarád koupil auto z druhé ruky.
Motor je v dobrém stavu, ale karosérie je shnilá.
Vhodná inferenční pravidla, která by měla být součástí našeho modelu porozumění
jazyku, by mohla vypadat takto:
dcera(X) if dcera(X,Y)
dcera(X,Y) if děvče(X) & dítě(X,Y)
motor(motor(X)) if dopr.-prostředek(X)
karosérie(karosérie(X)) if dopr.-prostředek(X)
Pravidla tohoto typu umožňují učinit závěr, že je-li dopr.-prostředek17 dopravní
prostředek, pak existuje objekt motor(dopr.-prostředek17), který je motorem dopravního
prostředku. Užito dopředně vytvoří toto pravidlo automaticky objekt – motor, kdykoli
se na scéně objeví dopravní prostředky. Při zpětné inferenci uvede na scénu motory
dopravních prostředků tak, aby cíl inference byl splněn.
Prezentovaný pohled na distinkci známé (téma) – nové (réma) vychází, jak patrno,
především z pozice porozumění přirozenému jazyku. S problémy podobného typu
se ovšem musí vypořádat i jazykový generátor, u něhož je potřeba, aby explicitně poskytoval
dostatečné množství tématických prvků (formálně signalizovaných osobními a
ukazovacími zájmeny, koncovkami verba ﬁnita – povšimněme si tu zajímavé koincidence
– zmíněné prvky hrají dvojí roli: signalizují téma a současně hrají svou roli deiktickou
–, částicemi a některými dalšími prostředky), takže nebude docházet k chybnému
přiřazování mezi příslušnými výrazy a jim odpovídajícími referenty.
87
0.8 Pragmatická rovina
Podrobná analýza vět přirozeného jazyka přesvědčivě ukazuje, že ani detailní sémantická
analýza vět PJ, jak byla naznačena výše, nevyčerpává ještě plně problém porozumění
větám PJ. Věty lze dále zkoumat z hlediska uživatele jazyka a z hlediska postojů, které
uživatel (dále UJ) může zaujímat k sémantickému jádru věty, jímž pro nás, jak jsme
už naznačili, je konstrukce + funkce konstrukcí konstruovaná. Zkoumání těchto otázek
konstituuje pro nás oblast, kterou budeme dále nazývat interní (vnitřní) pragmatika.
I když přihlédneme k postojům UJ, i tak značná část vět PJ ještě nebude umožňovat
jednoznačnou sémantickou interpretaci, pokud navíc nebudeme respektovat skutečnost,
že vět se užívá v konkrétních komunikačních situacích a kontextech. Samotná
sémantická analýza ukazuje, že mnohé věty jsou sémanticky neurčité, neboť neoznačují
určitou konkrétní konstrukci, jak bychom očekávali, nýbrž nějakou otevřenou konstrukci.
Zkoumání tohoto okruhu problémů konstituuje pro nás externí (vnější) pragmatiku.
0.8.1 Interní pragmatika
Ukázali jsme výše, že z hlediska sémantiky věta vyjadřuje konstrukci a denotuje propozici.
Taková analýza ještě není úplná a snadno se lze přesvědčit o tom, že věta obsahuje
ještě další informaci, která se týká UJ. Ve větě vždy najdeme speciﬁcké formální prostředky,
které signalizují, že:
1. UJ pokládá propozici, kterou daná věta označuje, za pravdivou v nějakém (obvykle
aktuálním) světě W a okamžiku S, pak jde o tvrzení formálně signalizované
např. indikativem,
2. UJ chce zjistit, jaká je pravdivostní hodnota dané propozice – pak jde o empirickou
otázku, a to buď o otázku zjišťovací, nebo o otázku doplňovací,
3. UJ chce, aby propozice odpovídající dané větě byla v aktuálním světě a okamžiku
S pravdivá – potom jde o rozkaz formálně signalizovaný imperativem,
4. UJ si přeje, aby propozice odpovídající dané větě byla pravdivá v aktuálním světě
a okamžiku S – pak jde o přání.
Můžeme tedy říci, že mimo to, co vyjadřuje a označuje, věta demonstruje uvedené postoje
UJ. Soubor demonstrovaných postojů tvoří to, co bychom mohli nazvat prostor postojů.
Výše uvedené postoje představují široké modality, tj. postoje které mohou být
demonstrovány ve větách deklarativním, interogativních, imperativních, deziderativních
a dalších (např. typu nabídky, slibu, odmítnutí).
Dalším druhem postojů jsou jistotní modality, tj. postoje demonstrující subjektivní
míru pravděpodobnosti toho, že daná propozice v aktuálním světě a okamžiku S platí.
88
Formálními prostředky tu jsou modální slovesa (muset, moci, mít) a modální adverbia a
částice typu asi, snad, možná, jistě, určitě. Lze uvažovat ještě o dalších druzích postojů,
jak jsou naznačeny např. v práci Materna, Pala, Svoboda, 1979.
0.8.2 Externí pragmatika
Výsledkem sémantické analýzy vět jsou často tzv. otevřené konstrukce, tj. konstrukce,
v nichž se vyskytují volné proměnné. V takových případech sémantická analýza nedostačuje
k určení, o kterou konkrétní propozici jde, a proto je nutno přejít k analýze
pragmatické. Otevřené konstrukce odpovídají vždy nějaké třídě propozic – jsou tudíž víceznačné.
Volné proměnné se v konstrukcích objevují zpravidla tam, kde se v odpovídajících
analyzovaných větách vyskytly výrazy v literatuře charakterizované jako deiktické
(indexové). Patří k nim např. osobní zájmena já, ty, on, my, ..., ukazovací zájmena ten,
ta, to, tenhle, tamten, ..., místní adverbia zde, tady, tam,...
Deiktické výrazy odkazují ke komunikační situaci, v níž je příslušná věta proslovena.
Komunikační situace umožňuje určit, jaké konkrétní atomy (konstanty) mají
být dosazeny za volné proměnné získané v průběhu sémantické analýzy při budování
SR analyzované věty. Teprve tak získáme uzavřené konstrukce, jež konstruují konkrétní
propozice.
Komunikační situaci můžeme charakterizovat jako vektor (t, l, m, h, o1, ..., on), kde
t – je časový okamžik
l – je nějaké místo (prostor)
m – je mluvčí
h – je posluchač
o1, ..., on – jsou objekty univerza, o nichž se právě (v dané větě) mluví.
Pro jednotlivé složky věty
(v36) Ona je studentka.
nechť máme v sémantickém slovníku následující typy:
být studentkou S/ (oι)τω – vlastnost individuí
ona x/ι – proměnná individuí
Větě (v36) pak odpovídá otevřená konstrukce
(K4) λwλt(Swt(x)).
Abychom zjistili, která konkrétní propozice je konstrukcí (K4) konstruována, musíme
vzít v potaz konkrétní komunikační situaci KS3, jež určuje, kdo je individuum, o němž
se mluví ve (v36).
Lze to učinit pomocí pragmatické funkce Fona, jejímž oborem je množina komunikačních
situací. Funkce Fona určuje, jaká valuace má být vybrána pro větu (v36).
89
Konstrukci (K4) můžeme s použitím funkce Fona zapsat následujícím způsobem:
(K5) λwλt (Swt(x[Fona])).
Jestliže se v situaci KS mluví o individuu AN, je Fona(S) =AN a konstrukce (K5) pak
vypadá takto:
(K6) λwλt (Swt(AN)).
Ta již je uzavřená a konstruuje konkrétní propozici, jíž odpovídá např. věta
(v36a) Alena Nováková je studentka.
Tím jsme naznačili jeden možný průběh pragmatické analýzy vět, jako je (v36), v rámci
externí pragmatiky, neodpověděli jsme tím však ještě na otázku, jak obecně budovat
pragmatické funkce, tj. jak obecně budovat algoritmus přechodu od sémantiky k externí
pragmatice.
Pokusme se aspoň stručně nastínit, jak by se v tomto směru dalo postupovat
s ohledem na systémy pro porozumění přirozenému jazyku. V každém případě se lze
opírat o deiktické výrazy a už při syntaktické a sémantické analýze se pokusit o vymezení
komunikační situace jako celku. K tomu je potřeba určit hodnoty jednotlivých
proměnných konstituujících komunikační situaci jako celek, tj.:
1. nalézt nebo stanovit hodnotu proměnné t, což může spočívat ve zjištění nebo zadání
daného data včetně konkrétního časového okamžiku – zde jsou východiskem
gramatické časy a další časové výrazy, ostatně všechny počítačové systémy (operační
systémy zejména) jsou dnes vybaveny hodinami a kalendářem, takže potřebné
informace o čase dané komunikace mohou být snadno k dispozici,
2. určit hodnotu proměnné l, tedy explicitně identiﬁkovat místo, na němž daná komunikace
probíhá. Na rozdíl od časových údajů není tato informace vyjadřována
gramatickými prostředky, ale jen lexikálně jistými typy adverbií, případně dalšími
výrazy. V současných počítačových systémech není informace o místě pokládána
za relevantní, nicméně pro komunikaci v přirozeném jazyce bude nevyhnutelné s ní
počítat,
3. identiﬁkovat hodnoty proměnných m a h, tj. zjistit, kdo je v dané komunikační
situaci mluvčím a kdo posluchačem a jaký mají vztah k objektům o1, ..., on, což
je spolehlivě signalizováno prostředky vyjadřujícími gramatické osoby (osobní zájmena
a koncovky verba ﬁnita),
4. určit, o kterých objektech univerza jde v dané promluvě řeč, znamená nalézt jejich
referenci, tj. provést sémantickou analýzu dané promluvy. Tento krok je úzce spojen
s přechozími body, ale na tomto místě je obtížné stanovit posloupnost jednotlivých
akcí, které povedou nejen k získání sémantické reprezentace dané výpovědi, ale také
zajistí provázání s komunikační situací, i když je zřejmé, že nejnadějnější řešení by
mělo směřovat k paralelnímu zpracovávání předchozích tří bodů.
90
0.9 Dialogové systémy, inference
0.9.1 Analýza promluvy, promluvové objekty
0.9.2 Anafora, anaforické vztahy
0.9.3 Odkazovací výrazy, rozpoznávání antecedentů
0.9.4 Historie promluvy a promluvový zásobník
0.9.5 Segmenty v promluvě
0.10 Závěr
Pokusme se shrnout výše uvedené výsledky. V oblasti české morfologie se nám podařilo
vytvořit algoritmický popis české deklinace a konjugace pokrývající odhadem 80 % české
slovní zásoby – náš současný slovník českých kmenů kmenů čítá něco přes 170 000
položek. V algoritmickém popisu se dále propracovává systém vzorů, zejména u sloves
dochází k propojení vzorů s preﬁxy včetně začlenění popisu vidů, což vede k výraznému
zpřehlednění této části popisu zahrnující asi 70 000 českých sloves a také k jeho další
optimalizaci (zkrácení o více než 50 %). K dispozici již je první verze lemmatizátoru, který
byl začleněn do první varianty počítačového synonymického slovníku češtiny (v rozsahu
kolem 20 000 hesel) a po dokončení potřebných úprav bude existovat i jako samostatný
modul použitelný např. v rešeršních systémech a dalších vhodných aplikacích. Práce na
algoritmickém popisu bude dále pokračovat zejména v oblasti slovotvorby, v níž bychom
rádi dospěli k vytvoření slovotvorného automatu, tj. programu, který by modeloval hlavní
slovotvorné procesy v češtině a měl by schopnost interaktivně se učit.
Jak jsme ukázali v další části práce, využili jsme příznivých vlastností prologu
a v programu klara naznačili integraci algoritmického popisu morfologie a syntaxe.
V programu klara ii je pak tento postup ilustrován na českých slovesech označujících
komunikaci a je ho využito i pro vytvoření jednoduchého, avšak dostatečně zajímavého
programu překládajícího věty se slovesy komunikace z češtiny do angličtiny. Naším nejbližším
cílem v tomto ohledu je pokusit se o integraci české morfologie a syntaxe na
kvalitativně vyšší úrovni dané velkým rozsahem slovníku, s nímž je již schopen pracovat
morfologický analyzátor, a vytvořit syntaktický analyzátor (generátor) schopný pracovat
se souvislými českými texty (v aplikaci použitelný např. jako gramatický korektor).
Pokud jde o rovinu sémantickou, využili jsme dřívějších výsledků a pokusili jsme
se naznačit jednu z možných cest, která může vést k integraci syntaxe a sémantiky a
posléze i pragmatiky. Zde prezentovaný přístup se v daném okamžiku pohybuje více
v oblasti teoretického hledání než přímých počítačově orientovaných aplikací, i když
91
v dílčích úsecích jsou již docela dobře možné. Ukazuje se, že při práci na integraci
morfologie a syntaxe bude vhodné a potřebné orientovat se současně i na začlenění
sémantiky do takto naznačeného analyzátoru. Stejně tak je zřejmé, že v oblasti sémantiky
se neobejdeme bez nemalé práce empirické, která se týká jednak otázek lexikálních včetně
získávání dat ze strojově čitelných slovníků a jednak sémantické analýzy víceslovných
výrazů a vět s využitím tilu.
V tomto bodě citelně pociťujeme nedostatek vhodného a uživatelsky
”
přítulnějšího“ programového vybavení pro práci s gramatikami a reprezentacemi znalostí,
které by umožnilo zajímavé a k dalšímu poznání vedoucí experimenty v naznačené
oblasti. Nevyhnutelná je jak těsná spolupráce s kvalitními odborníky v oblasti počítačové
vědy a AI, tak i kvalitní technické vybavení, což je v současnosti především záležitost
dostatečných ﬁnančních prostředků.
92
Literatura
Akademická mluvnice češtiny, ed. Petr, J., kol. autorů, Mluvnice češtiny 1,2,3, Praha
1986.
Benešovský, M., Šmídek, M., Testování programů, sb. semináře sofsem 1984, vuseiar
Bratislava, 1984.
Bierwisch, M., Strukturelle Semantik, in: Deutsch als Fremdesprache 6, Heft 2, s.67,
1969.
Clocksin, W., Mellish, Ch., Programming in prolog, Springer-Verlag, Berlin, 1981.
Colmerauer, A., Metamorphosis grammars, in: Natural Language Communication with
Computers, ed. L. Bolc, Springer Verlag, s.133-89, 1978.
Čermák, F., Králík, J., Pala, K., Počítačová lexikograﬁe a čeština (Počítačový fond
češtiny), Slovo a slovesnost, 53, 41-48, 1992.
Čermák, F., Holub, J., Syntagmatika a paradigmatika českého slova I (Valence a kolokabilita),
skriptum LŠSS, UK Karolinum, Praha 1991.
Čihánek, P., Sémantický analyzátor pro češtinu, rigorózní práce, Brno 1978.
Dahl, V., Abramson, H., On gapping grammars, in: Proceedings of the Second Int. Conference
on Logic Programming, Ord & Form, Uppsala, Sweden, s.77-88, July 1984.
Daneš, F., Hlavsa, Z., Větné vzorce v češtině, Academia, Praha, 1981.
Dokulil, M., Daneš, F., K tzv. významové a mluvnické stavbě věty, in: O vědeckém
poznání soudobých jazyků, Praha, s.231-246, 1958.
Fillmore, Ch., J., The case for case, in: Universals in Linguistic Theory, E. Bach and
R. Harms, eds., Holt, Rinehart & Winston, New York, s.1-88, 1968.
Firbas, J., On the Concept of Communicative Dynamism in the Theory of FSP, sbpffbu,
A 19, Brno, s.135-144, 1971.
Frege, G., Über Sinn und Bedeutung, in: Zeitschrift für Philosophie un philosophische
Kritik (Halle) 1892, NF 100, s.25-50.
Gazdar, G., Mellish, Ch., Natural Language Processing in: prolog, Addison Wesley„
Wokingham, 1989.
Grepl, M., Karlík, P., Skladba spisovné češtiny, SPN, Praha, 1987.
Grosz, B., J., The representation and use of focus in dialogue understanding,
PhD. dissertation, University of California at Berkeley, 1977.
93
Hajič, J., Drozd, J., Spelling-Checking for Highly Inﬂected Languages, sb. konference
COLING’90, Helsinki, 1990.
Hajičová, E., Sgall, P., Towards an automatic identiﬁcation of topic and focus, ACL
Proceedings, Second European Conference,s.263-7, 1985.
Havránek, B., Jedlička, A., Česká mluvnice, Academia, Praha, 1960.
Church, A., Introduction to mathematical logic, Princeton 1956.
Katz, J., J., Fodor, J., A., The structure of a semantic theory, Language 39, 1963,
170-210.
Komárek, M., Ke dvěma koncepcím stavby jednoduchých slovesných tvarů v češtině.
Acta Universitatis Palackianae Olomucensis. Studia Bohemica IV. Praha 1987.
Konečná, D., Algoritmické popisy českých slovesných tvarů, disertační práce, FF UK
Praha, 1964.
Koskenniemi, A general computational model for word form recognition and production,
COLING-84, s.178-81, 1984.
Kulagina, O., S., Mel’čuk, I., A., Mašinnyj perevod s francuzskogo jazyka na russkij,
Voprosy jazykoznanija 5, Moskva, 1956.
Machová, S., Havel, I., M., Pala, K., Komunikace s počítačem v přirozeném jazyce,
Materiály semináře sofsem 1978, vuseiar Bratislava, 1978.
Machová, S., Říha, A., Computer testing of generative grammar, PBML 29, Praha,
s.43-58, 1978.
Materna, P., An Intensional approach to questions, Kybernetika 15, s.161-192, 1979.
Materna, P., Pala, K., Theoretical framework for syntax and semantics, Sborník celostátní
konference o kybernetice, Praha, 1976.
Materna, P., Pala, K., Svoboda, A., Externí a interní pragmatika, Otázky slovanské
syntaxe IV/1, 53-60, Brno, 1976.
Materna, P., Pala, K., Svoboda, A., The ordered-triple theory continued, Brno Studies
in English 13, 119-165, 1979.
Materna, P., Sgall, P., Hajičová, E.,
”
Linguistic constructions“ in transparent intensional
logic, in: Categorial Grammar, ed. by W. Buszkowski, W. Marciszewski and
J. van Benthem, John Benjamins Publishing Co., Amsterdam/Philadelphia, s.283-
300, 1988.
Mel’čuk, I., A., Avtomatičeskij sintaksičeskij analiz, Novosibirsk, 1964.
94
Minsky, M., A framework for representing knowledge, in: Mind Design,
ed. J. Haugeland, MIT Press, Cambridge, 95-128, 1981.
Montague, R., Formal Philosophy, ed. by R. H. Thomason, Yale University Press, New
Haven and London, 1974.
Osolsobě, K., Algoritmický popis české formální morfologie substantiv a adjektiv, rukopis
pro sbpffbu, Brno 1988.
Osolsobě, K., Model vybraných slovotvorných typů (v jazyce prolog), rukopis, Brno
1990.
Osolsobě, K., Popis systému českých substantivních a slovesných vzorů, rukopis disertační
práce, Brno, 1991.
Osolsobě, K., Pala, K., Czech Stem Dictionary for IBM PC XT/AT, Conference on
Computer Lexicography, Balatonfüred, September 1990.
Osolsobě, K., Pala, K., Základy počítačové lingvistiky, vš. skriptum, FF MU, Brno
1992.
Pala, K., O procedurální gramatice (pro češtinu), sbpffbu, A 30, 103-122, Brno 1982.
Pala, K., O sémantických reprezentacích, sbpffbu, A 32, 24-35, Brno 1984.
Pala, K., Osolsobě, Franc, S., Česká morfologie a syntax v prologu, sofsem 1987,
vuseiar. Bratislava 1987.
Páleš, E., sapfo – systém pre komunikáciu v prirodzenom jazyku, dipl. práce, MFF
UK, Bratislava, 1988.
Palová-Vaníčková, I., Syntaktický analyzátor pro češtinu, rigorózní práce, Brno 1977.
Panevová, J., Random generation of Czech Sentences, Proceedings of COLING 82,
ed. by J. Horecký, Academia, Praha 1982.
Panevová, J., Verbal frames revisited, PBML 28, s.55-72, 1978.
Pereira, Fernando, C., N., Warren, David, H., D., 1980, Deﬁnite clause grammars for
language analysis – a survey of the formalism and a comparison with ATN, Artiﬁcial
Intelligence, 13, 231-78.
Piťha, P., On the case frames of nouns, PSML 7, Academia, Praha, s.215-224, 1981.
Podlezlová-Koželouhová, B., Sémanticky orientovaný generativní popis českých sloves
nepřechodných, diplomová práce, FF MU Brno, 1974.
95
Quillian, M., R., Semantic memory, in: Semantic Information Processing, ed. by
M. Minsky, MIT Press, Cambridge, Mass., s.227-270, 1968.
Sgall, P., Soustava pádových koncovek v češtině, AUC – Slavica Pragensia 2, s.65-84,
1960.
Sgall, P., Generativní popis jazyka a česká deklinace, Academia, Praha 1967.
Sgall, P., a kol., Úvod do syntaxe a sémantiky, Academia, Praha, 1985, s.9.
Sgall, P., et al, The Meaning of the sentence in its semantic and pragmatic aspects,
Academia, Prague, 1986,
Sgall, P., Hajičová, E., Buráňová, E., Aktuální členění věty v češtině, Academia, Praha,
1980.
Schank, R., Conceptual dependency: a theory of natural language understanding, Cognitive
Psychology, 3, 552-631, 1972.
Slovník spisovného jazyka českého, Academia, Praha, 1960, 1989.
Ševeček, P., Morfologické programy pro češtinu: analyzátor a lemmatizátor, rkp., 1992.
Šmilauer, Vl., Novočeská skladba, SPN, Praha, 1969.
Tichý, P., Introduction to intensional logic, rukopis, University of Otago, 1976.
Tichý, P., The Semantic of episodic verbs, Theoretical Linguistic 7, s.263-296, 1980.
Tichý, P., The foundations of Frege’s Logic, de Gruyter, Berlin – New York, 1988.
Wampler, B., E., and the RSI Software Engineering Staﬀ, grammatik iv, v. 1, Software
International, 1989.
Winograd, T., Understanding Natural Language, Academic Press, New York, 1972.
Woods, W., 1973, Progress in natural language understanding: an application to lunar
geology, AFIPS Conference Proceedings, 42, 441-50.
Osolsobě, K., Algoritmický popis české formální morfologie, disertační práce, Brno
1996.
Panevová, J., On Verbal Frames in Functional Generative Description, Part I, II, The
Prague Bulletin of Mathematical Linguistics 22, pp.3-39.
Pala, K., Všianský J., Slovník českých synonym, NLN Praha, 1995,
96
Petr, J., a kol., Mluvnice češtiny I, II, Academia Praha, 1986,
Slovník spisovného jazyka českého, Academia Praha, 1.vyd. 1960, 2.vyd. 1989
Somers, H., L., Valency and Case in Computational Linguistics, eds. S. Michaelson and
Y. Wilks, Edinburgh Information Technology Series, Edinburgh University Press,
1987, pp.4-29
Svozilová N. a kol. Valenční slovník vybraných českých sloves, ÚJČ ČAV, Praha, 1997
???
Ševeček, P., Morfologický analyzátor a lemmatizátor pro češtinu – implementace v jazyce
C, program (rukopis), Brno, 1995
97