Korpus jako zdroj dat pro opravy chyb automatické morfologické analýzy
Klára Osolsobě
1. Úvod
Cílem našeho příspěvku je ukázat, jak mohou korpusová data přispět k doplnění popisů
gramatických jevů zachycených ve slovnících a gramatikách na straně jedné a
v lingvistických bázích automatických morfologických analyzátorů na straně druhé.
Ke značkování řádově stamilionových korpusů se běžně používají automatické nástroje.
V prostředí českých korpusů jsou to především dva analyzátory (taggery) pro morfologické
značkování. Morfologický analyzátor Jana Hajiče ­ dále HA (Hajič, 1995, 2004,
http://ucnk.ff.cuni.cz/bonito/index.html) a morfologický analyzátor Radka Sedláčka ­ Ajka
(Sedláček, 2005, http://nlp.fi.muni.cz/projekty/wwwajka). Lingvistickou bázi těchto
analyzátorů byly mluvnice a slovníky, o něž se opíraly algoritmické popisy flexe (Hajič 1995,
Osolsobě, 1996). Při aplikaci na jazykový materiál korpusů se ukázalo, že celá řada
interpretací, které byly přiřazeny jednotkám na úrovni strojových slovníků, se plně nekryje
s bohatstvím přirozeného jazyka, jak je prezentuje korpus. Vyšlo najevo, že s ohledem na
zkušenosti z konkrétní praxe, je třeba některé interpretace zpětně verifikovat.
V našem příspěvku si všimneme tří jevů: 1) syntetické futurum, 2) stupňování adjektiv a
adverbií a 3) slovnědruhové přechody vybraných slov.
2. Syntetické futurum
2.1. Slovníky a tištěné zdroje
Termínem syntetické futurum se v českých gramatikách označují tvary několika desítek
českých nedokonavých sloves tvořených od tvarů indikativu prézentu aktíva prefixem po(pů-)
většinou (kromě jet, jít) paralelně ke tvarům opisného futura. Tato slovesa
jednotlivé mluvnice 1) významově vymezují a 2) uvádějí jejich seznamy. Ve slovnících jsou
zachyceny nejednotně. SSJČ uvádí celkem 50 sloves. SSČ pouze 21, z toho je 18 těch, které
uvádí i SSJČ a 3, která v SSJČ uvedena nejsou. Dalších 5 sloves navíc uvádí Čermák
(Čermák, 1990, s. 106), 2 slovesa navíc uvádí Šmilauer (Šmilauer 1972, s. 223). V
uvedených tištěných pracích je doloženo celkem 60 sloves, která mohou v češtině tvořit tvary
futura synteticky prefixem po- (viz příloha).
2.2. Automatická morfologická analýza
Automatické analyzátory zachycují sledovaný jev takto: HA značkuje a lemmatizuje (lemma
bez prefixu po-, ve značce na pozici 9 ­ slovesný čas je uvedeno F - futurum) správně pouze
tvary 12 sloves v SYN2000 a 14 sloves v SYN2005. Ajka tvary syntetického futura
lemmatizuje nesprávně (tvarům s prefixem po- automaticky uvádí lemma s tímto prefixem).
2.3. Korpusy
Analýzou korpusových dat jsme zjistili, že v dostupných korpusech (SYN2000, SYN2005,
SYN2006PUB, BMK, PMK) se vyskytují další tvary sloves (celkem 20 lemmat) dokládající
tvoření syntetického futura v češtině nezaznamenané ve zkoumaných tištěných příručkách
(viz příloha). Další doklady jsme našli na internetu.
V tabulce uvádíme výsledky analýzy.
tištěné zdroje 60 lemmat 72,29 %
pouze korpusy 20 lemmat 24,1 %
korpusy i tištěné zdroje 37 lemmat 44,58 %
pouze tištěné zdroje 23 lemmat 27,71 %
pouze internet 3 lemmata 3,61 %
Celkem tištěné zdroje + korpusy +
internet
83 lemmat 100 %
2.4. Tištěné zdroje a korpusy
České gramatiky (např. Komárek a kol., 1987: 412, 417; Čechová, 1996: 208; Karlík, Nekula,
Rusínová, 1996: 317, Šmilauer, 1972: 223) definují sledovanou skupinu sloves jako slovesa
vidu nedokonavého s významem pohybu, který dále vymezují jako pohyb ,,určený" nebo
,,jednosměrný". Dále se v nich uvádí, že může jít také o slovesa označující ,,stav", jeho
,,trvání" nebo ,,změnu". Tyto charakteristiky jsou dosti vágní. Korpusová data pomohou
uvedené definice upřesnit. Kromě pohybu jednosměrného/ v určeném směru (půjde, pojede,
poplazí se, pokráčí, pošine se, povalí, pomaže, ...), může jít i o pohyb různými směry (pošíří
se, poline se). Procesy zahrnující pohyb lze blíže klasifikovat jako pohyb a) přírodní (povane);
b) s neživým nositelem (rostlina pokvete, poroste, strom ponese, hudba poline se, povalí,
vůně pošíří se, poline se, voda: poteče, povalí, zpráva pošíří se); c) mentální (popálí mu to);
d) s živým nositelem (poroste, popase se, pták ponese); e) ve významu fungovat (pošlape,
poklape); vycházet s někým (poklape, popeče); f) ve významu vést/vládnout (povede,
povládne, pokoučuje, potrénuje).
3. Stupňování adjektiv a adverbií
3.1. Stupňování adjektiv a adverbií v gramatikách a slovnících
Gramatiky řadí sufixální tvoření tvarů 2. stupně a prefixálně-sufixální tvoření tvarů 3. stupně
jak do kapitol pojednávajících o formální morfologii, tak o slovotvorbě. Slovníky mapují
tvary 2./3. stupně nejednotně. Samostatná hesla mají tvary ,,nepravidelně" tvořených
komparativů (superlativů). U ostatních adjektiv a adverbií se o tom, zda a jak je příslušné
adjektivum/adverbium schopno tvořit tvar 2./3. stupně příslušnými afixy neříká nic.
Mluvnice i další odborná literatura (srv. např. Karlík, Nekula, Pleskalová, 2002; Hladká,
Karlík, 2004) se snaží definovat nejrůznější pravidla omezující možnost derivovat zmíněné
tvary.
3.2. Automatická morfologická analýza
Automatické morfologické analyzátory mají v návaznosti na gramatiky vypracována
v lingvistických bázích (strojových slovnících) pravidla, podle nichž se adjektiva/adverbia
dělí podle toho, zda tvoří/netvoří afixálně tvary 2. a 3. stupně. Lingvistická východiska jsou
v obou analyzátorech podobná. HA implicitně vychází z předpokladu, že afixálně nelze
stupňovat a) subjektově posesivní adjektiva tvořená sufixy na -ův/-in; b) deverbativa
derivovaná od přechodníků; c) jmenné tvary s výjimkou problematicky slovnědruhově
zařaditelných tvarů rád, raději, nejraději; d) adverbia, která nejsou paradigmaticky tvořena od
adjektiv. U řady adjektiv, u nichž lze uvažovat o formálních i sémantických omezeních
afixálního stupňování (srv. Karlík, Nekula, Pleskalová, 2002), uvádí HA (SYN2000,
SYN2005) značku pro adjektiva stupňovatelná. Jedná se o tyto případy: a) deverbální účelová
adjektiva na -cí (prací); b) kompozita, jejichž druhým členem je adjektivizovaný přechodník
(rychleschnoucí); c) desubstantivní druhově posesivní adjektiva na -í (psí, medvědí, kuřecí);
d) neadverbiální adjektivum (domácí, letošní). V analyzátoru Ajka se +/- možnost tvořit
afixálně tvary 2./3. stupně řeší na úrovni vzorů založených na derivačních typech adjektiv.
3.3. Korpusová data
Tvary 2./3. stupně jsou v korpusech velmi málo frekventované. Korpusová data nemohou
dosud výrazně pomoci pro upřesnění dosavadních observací. Morfologické značkování
nebere v úvahu opisné stupňování. Doklad z korpusu SYN2006PUB ,,Basilio je <víc
Beaumarchaisův> než Rossiniho." nelze pokládat za důkaz stupňovatelnosti (byť opisné)
posesivních adjektiv na -ův/-in. Rovněž na internetu nalezený doklad ,,aby se dodavatelům
nenasazovala <psejší> hlava, než jim přísluší" těžko vyvrátí, že některé slovotvorné typy
syntetické tvary 2./3. stupně zpravidla netvoří. V obou případech jde o doklady toho, že
přenos významu (adjektivum relační ­ hodnotící) může nejrůznější omezení rušit.
3.4. Analýza derivačních typů a morfologické značkování
Zdá se, že sledovaná problematika stupňování adjektiv a adverbií zůstává i nadále otevřená
pro další diskusi. Klíčovou a dobře formálně popsatelnou roli hraje příslušnost k derivačnímu
typu. Proto by dle našeho názoru bylo užitečné k ní při úpravách analyzátorů přihlédnout.
Jisté řešení nabízí v tomto směru analyzátor Ajka.
4. Slovnědruhová víceznačnost
Jedním z problémů automatické morfologické analýzy je určení hranice v oblasti
slovnědruhových přechodů (transpozic). Z hlediska automatické morfologické analýzy jde o
zachycení případů, kdy jedna jednotka může mít více interpretací (značek) z toho důvodu, že
může v návaznosti na užití (kontext) nabývat různé platnosti slovního druhu a dalších
slovnědruhově závislých významů (je tedy homonymní). Tradiční gramatiky se tohoto
problému dotýkají jen zběžně, mluví se sice o různých homonymiích, ale nikoli o jejich
rozhodování. Ve slovnících (SSJČ, SSČ) je u řady hesel uváděna několikerá slovnědruhová
platnost. Z hlediska automatické morfologické analýzy není nejzávažnějším problémem
rozšíření počtu možných interpretací, ale spíše užitečnost takového kroku při dalším užití
automatických nástrojů. Situace je zdánlivě složitější tehdy, tvoří-li tvary, které lze
potencionálně interpretovat více způsoby, otevřenou a početnou skupinu (například
substantivizace adjektiv), zdánlivě jednodušší je u relativně uzavřených tříd (např. zájmen,
zájmenných příslovcí a určitých číslovek) nebo u tříd poměrně méně početných (předložky,
spojky, částice), kde je tento jev více zaznamenán ve slovnících i gramatikách. Sporné není,
jak upravit automatické analyzátory, aby rozlišovaly možné slovnědruhové a další
interpretace, ale jakými pravidly se bude řídit disambiguace v jednotlivých případech.
4.1. Slovnědruhová platnost tvarů mnoho, moc, hodně, (nej)víc(e) ve slovnících
Tvary mnoho, moc, hodně, (nej)víc(e) jsou ve slovnících (SSJČ, SSČ) interpretovány
následujícím způsobem.
SSČ SSJČ
hodně/přísl. hodně/přísl.
mnoho/přísl. ve spoj. s počít. předmětem v plat. čísl.
neurč. hovor.
mnoho/přísl. a čísl. neurč.
moc/přísl. v plat. čísl. neurč. hovor. moc/přísl. a čísl. neurč.
víc/více/přísl. v plat. čísl. neurč. víc/více/přísl. a čísl. neurč.
nejvíc/nejvíce/přísl. ODKAZ k více
4.2. Automatická morfologická analýza
Každé značkování je interpretace a každá interpretace má jistá omezení. Proto se na tomto
místě budeme zabývat nikoli otázkou slovnědruhové platnosti slov/slovních tvarů, nýbrž
otázkou, jak stanovit a následně dodržovat průhledná kriteria přiřazování zvolených
interpretací.
V praxi vidíme na posunu mezi značkováním uvedených tvarů v SYN2000 a SYN2005, že
problém nezůstal v automatické morfologické analýze na okraji zájmu.
4.2.1. Interpretace v SYN2000 a SYN2005
Následující tabulka zachycuje posun mezi značkováním SYN2000 (obyčejné písmo a tučná
kurzíva) a SYN2005 (obyčejné písmo a kurzíva).
hodně/hodně/Dg.......1.* víc(e)/více/Dg.......2.* nejvíc(e)/více/Dg.......3.*
moc/moc/Db.......-.*
mnoho/mnoho/Db.......-.*
víc(e)/více/Dg.......2.* nejvíc(e)/více/Dg.......3.*
mnoho/mnoho/Ca..(1|4)....-.*
mnoha/mnoho/Ca..(2|3|6|7)....-.* víc(e)/víc|více/ Ca..(1|2|3|4|6|7).*
moc/moc/Ca.......-.*
Interpretace v SYN2000:
1) V souladu se SSJČ/SSČ ignoruje hojně v korpusech doložené užití tvaru hodně v platnosti
neurčité číslovky (hodně lidí, bylo nás hodně) a hodnotí jej výhradně jako adverbium.
2) V rozporu se SSJČ/SSČ ignoruje v korpusech doložené užití tvaru mnoho v platnosti
adverbia (pracoval mnoho, mnoho platný);
3) Prakticky řeší problematickou lemmatizaci tvarů víc(e)/nejvíc(e) a zároveň ignoruje užití
těchto tvarů ve funkci neurčité číslovky (více lidí, peněz, ... ).
Interpretace v SYN2005:
1) Nadále v souladu se SSJČ ignoruje hodně synonymní s moc/mnoho v platnosti neurčité
číslovky (hodně/mnoho/moc lidí, bylo nás hodně/mnoho/moc);
2) S tím souvisí, že rozlišuje adverbia (mnoho/moc), která hodnotí jako nestupňovatelná
(Db.*), a stupňovatelné (Dg.*) adverbium hodně ­ 1. stupeň, více ­ 2. stupeň, nejvíce -3.
stupeň. Řeší tak problém obtížné lemmatizace: Je lemmatem tvarů víc(e)/nejvíc(e) tvar
mnoho, moc nebo hodně?
3) Neignoruje transponované užití tvarů víc(e) (nikoli nejvíc(e)) v roli číslovky (více lidí,
peněz, ... ). Současně lemmatizuje tyto tvary důsledně tvarem samým.
4.2.3. Interpretace analyzátoru Ajka
Problematické řešení v analyzátoru Ajka je uvedeno v tabulce.
hodně/ hodně/k6.*d1 víc(e)/ hodně/k6.*d2 nejvíc(e)/ hodně/k6.*d3
moc/moc/k6.*d1 víc(e)/ moc/k6.*d2 nejvíc(e)/ moc/k6.*d3
mnoho/mnoho/k6.*d1 víc(e)/ mnoho/k6.*d2 nejvíc(e)/ mnoho/k6.*d3
nejvíc(e)/nejvíc/k6.*d1
Interpretace Ajky:
1) Neumožňuje rozumnou lemmatizaci tvarů víc(e), nejvíc(e) (není možné rozhodnout, které
z lemmat moc, hodně, mnoho se má přiřadit tvarům víc(e)/nejvíc(e)).
2) Ignoruje číslovkovou platnost tvarů.
4.3. Návrh na zjednodušení a zprůhlednění dosavadní interpretace v HA i Ajce
hodně/hodně/Da.......1.*|k6.*d1
moc/moc/Da.......-.* |k6.*d1
mnoho/mnoho/Da.......-.* |k6.*d1
víc(e)/více/Da.......2.* |k6.*d2 nejvíc(e)/více/Da.......3.* |k6.*d3
mnoho/mnoho/Ca..(1|4)....-.* |k4.*
mnoha/mnoho/Ca..(2|3|6|7)....-.*
|k4.*
Argumentace pro navrhované řešení:
1. Pouze mnoho rozlišuje užití ve funkci číslovky formálně, a to nikoli tvary původní jmenné
flexe (dochované v ustrnulých adverbializovaných tvarech mnohem, namnoze), nýbrž
paradigmatem složeným ze dvou tvarů, které odpovídá typu skloňování číslovek od 5 výše
(srv. Komárek, 2006). Proto je vhodné pouze tvary mnoho/mnoha analyzovat jako tvary se
značkou slovní druh číslovka, přičemž tvar mnoho je třeba disambiguovat (může mít též
platnost adverbia a odpovídající značku).
2. Značkování tvarů víc(e), nejvíc(e) jako slovní druh adverbium, detailní určení slovního
druhu číslovka neurčitá/adverbium míry (Da.*) a lemmatizace tvarů víc(e), nejvíc(e)
lemmatem víc se řeší a) problémy disambiguace (výsledky ve značkovaných korpusech jsou
dosti nepřesné), b) případ ,,sporné lemmatizace" (viz výše) a c) z lingvistického hlediska je
obhajitelné poukazem na to, že chápeme-li tvoření tvarů komparativu a superlativu jako
slovotvornou modifikaci, pak je přijetí lemmatizace tvarů komparativu a superlativu tvarem
pozitivu pouze přijetím zavedené lexikografické konvence. Tuto konvenci je pak možné
z dobrých důvodu porušit. ,,Nezávislost" tvarů komparativu/superlativu na tvaru pozitivu není
totiž jen nezávislostí formy (nejde o tvoření afixální, ale o tvary, které se interpretují jako
nepravidelné tvoření od supletivních kořenů), ale i nezávislostí na ,,jediném" tvaru pozitivu
(ambiguita určení tvaru nahrazujícího komparativ/superlativ při transformaci do pozitivní
konstrukce).
3. Značkování tvarů hodně, moc (lze uvažovat i o dalších např. tuze, velmi, velice) jako slovní
druh adverbium detailní určení slovního druhu číslovka neurčitá/adverbium míry by mohlo
pomoci systematičtějšímu a průhlednějšímu zachycování zkoumaného problému na úrovni
automatické morfologické analýzy.
5. Závěr
V našem příspěvku jsme se snažili ukázat, jak mohou korpusová data přispět k upřesnění a
doplnění údajů uvedených v gramatikách, slovnících a v neposlední míře i v lingvistických
bázích automatických morfologických analyzátorů, které byly na základě dostupných příruček
budovány. Dílčí závěry jsou uvedeny v kapitolách 2.4., 3.4. a 4.3., proto je na tomto místě
pouze stručně shrneme.
Na základě analýzy dostupných reprezentativních korpusů psaného jazyka jsme dokázali
zhruba o čtvrtinu rozšířit seznam sloves, která mohou v češtině vyjadřovat futurum
synteticky, a pokusili jsme přesněji definovat jejich významy. Stranou ponecháváme
stylistickou klasifikaci jednotlivých dokladů. Z porovnání popisu zkoumaného jevu ve
starších slovnících s jeho výskytem v synchronních reprezentativních korpusech vyplývá, že
se jedná o skupinu sloves, již lze rozdělit na stabilní jádro (frekventovaná slovesa stojící
v centru slovní zásoby doložená jak v tištěných příručkách, tak v korpusech) a proměnlivou
periferii, kam lze zahrnout lemmata zaznamenaná v tištěných příručkách a nedoložená
v korpusech ani na internetu a lemmata, jejichž výskyt dosvědčují výhradně korpusy a
internet.
Na základě analýzy popisu afixálního tvoření tvarů 2./3. stupně v lingvistické literatuře a
automatických morfologických analyzátorech upozorňujeme na možnost hlouběji využít
analýzu derivačních typů při dalších úpravách existujících korpusových nástrojů.
Na základě zkušeností s problémy slovnědruhové víceznačnosti tvarů hodně, moc, mnoho,
(nej)víc(e) upozorňujeme na některá sporná řešení a navrhujeme jistá zjednodušení, která by
nebyla v rozporu s lingvistickou teorií na straně jedné a přispěla by k průhlednějšímu řešení
na úrovni automatické morfologické analýzy na straně druhé.
Příloha: Seznam lemmat sloves, která mohou tvořit synteticky tvary futura
Tvary uvedené ,*` jsou homonymní s tvary sloves tvořených prefixem po-. ,*?` uvádíme u slovesa potrvá/trvat.
V korpusu SYN2006PUB jsme nalezli 9 dokladů tvaru potrval(-a/-y) od předpokládaného slovesa potrvat.
půjde/jít #1 *pocupe/cupat &0 postěhuje se/stěhovat se #1
*pojede/jet #1 pohasí si to /hasit si to $1 pocestuje/cestovat #1
poběží/běžet #1 *pojechá/jechat &1 *?potrvá/trvat #3
*poletí/letět #1 poklape/klapat -1 poputuje/putovat $1
poleze/lézt #1 poklíčí/klíčit &1 povane/vanout $5
popluje/plout #1 pokulhá/kulhat &1 *pomaže/mazat $5
poplave/plavat $1 pokulí se/kulit se &1 *povalí (se)/valit (se) $5
*potáhne/táhnout $1 pokvačí/kvačit &1 pokráčí/kráčet $5
*poteče/téct #1 poline se/linout se &1 *popase se/pást se $5
*povleče/vléct $1 poloudá se/loudat se &1 *pošine se/šinout se $5
*požene/hnát $1 popeláší/pelášit $1 posviští/svištět $5
*ponese/nést #1 poplaví se/plavit se $1 *potáhne (se)/táhnout (es) $5
*povede/vést ?$1 poplazí se/plazit se #1 * potrénuje/trénovat $5
poveze/vézt #1 poplíží se/plížit se $1 *popeče s kým/péci s kým-6
*poroste/růst $1 porázuje/rázovat &1 pokluše/klusat @1
pokvete/kvést $1 pořine se/řinout se $1 pošupe/šupat @7
povládne/vládnout $1 poštráduje si to/štrádovat &1 pobrodí se/brodit se @7
povrávorá/vrávorat $1 pověje/vát &1 pocrčí/crčet @7
*pošlape/šlapat $1 povine se/vinout se &1 pošupajdí/šupajdit @7
pomašíruje/mašírovat $1 povisí/viset &1 poharcuje/harcovat @7
pofičí/fičet $1 *poleje|polije/lít &1 pokoučuje/koučovat @7
?pokutálí se/ kutálet se $1 podere se/drát se &1 *povesluje/veslovat @8
pohrne se/hrnout se #1 *porazí/razit &2 poprýští/prýštit @8
pochvátá/chvátat &1 pošíří se/šířit se &2 pošupačí/šupačit @8
pokvapí/kvapit &1 *poprší/pršet &2 potryská/tryskat %9
poplyne/plynout $1 *popálí/pálit &2 potrtá/trtat %9
pocupitá/cupitat #1 porajzuje/rajzovat &2 pozdrhá/zdrhat %9
pocape/capat &0 pořítí se/řítit se #1
LEGENDA:
# doloženo v korpusech ­ lemma bez po-/tag="VB......F.*"
?# doloženo v korpusech ­ lemma bez po-/tag="VB......P.*"
$ doloženo v korpusech ­ lemma s po-/tag="VB......P.*"
@ doloženo v korpusech ­ lemma tvar sám (nesmyslný tvar)/tag!="VB......P.*"
- doloženo v korpusech ­ korpus není lemmatizován a tagován
& není doloženo v korpusech, pouze v tištěných zdrojích
% není doloženo ani v korpusech, ani v tištěných zdrojích, pouze na internetu
1 SSJČ/SSČ
2 Čermák, 1991
3 doloženo v SYN2000/SYN2005/SYN2006PUB ­ lemma bez po-/tag="VB......F.*"
4 doloženo v SYN2005/SYN2006PUB lemma bez po-/tag="VB......P*"
5 doloženo v SYN2000/SYN2005/SYN2006PUB ­ lemma s po-/tag="VB......P.*"
6 doloženo v BMK
7 doloženo v SYN2000/SYN2005 ­ lemma tvar sám (nesmyslný tvar)/tag!="VB......P.*"
8 doloženo v SY2006PUB ­ lemma tvar sám (nesmyslný tvar)/tag!="VB......P.*"
9 doloženo na internetu
0 Šmilauer, 1972
Bibliografie
ČECHOVÁ A KOL. (1996): Čeština, řeč a jazyk. Praha : ISVN.
ČERMÁK, F. (1990): Syntagmatika a paradigmatika českého slova. Praha : Karlova
Univerzita.
HAJIČ J. (1994): Unification Morphology Grammar. Praha : MFF UK, (disert. práce).
HAJIČ J. (2004): Desambiguation of Rich Inflection (Computational Morphology of Czech).
Praha : Karolinum.
KARLÍK, P., NEKULA, M., RUSÍNOVÁ, Z. (1996): Příruční mluvnice češtiny. Praha :
Nakladatelství Lidové noviny.
KARLÍK, P., NEKULA, M., PLESKALOVÁ, J. (2002): Encyklopedický slovník češtiny.
Praha: Nakladatelství Lidové noviny.
KARLÍK, P., HLADKÁ, Z. (2004): Kam s ním? (problém stupňování adjektiv). In: Karlík, P.,
Pleskalová, J. (eds.), Život s morfémy. Brno : FF MU, 73-93.
KOMÁREK, M. a kol. (1986): Mluvnice češtiny II., Praha : Academia.
KOMÁREK, M. (2006): Příspěvky k české morfologii. Olomouc : Periplum.
OSOLSOBĚ, K. (1996): Algoritmický popis české morfologie a strojový slovník češtiny. Brno
: FF MU (disert. práce).
OSOLSOBĚ, K. (2007): Syntetické futurum v češtině ­ gramatiky, slovníky, korpusy.
Přednášky a besedy z XL. běhu LŠSS. Brno, s. 131-144.
OSOLSOBĚ, K. (2007): Popis gramatických významů jednoduchých slovesných tvarů
v anotacích českých (slovenských) korpusů. SPFFMU A, 55, v tisku.
SEDLÁČEK, R. (2004): Morphematic analyser for Czech. Brno : FI MU (disert. práce).
ŠMILAUER, V. (1972): Nauka o českém jazyku. Praha : SPN.
Elektronická verze Slovníku spisovného jazyka českého (SSJČ) a Slovníku spisovné češtiny
pro školu a veřejnost (SSČ) dostupná z chrome://debdict/content/debdict.xul
Český národní korpus - SYN2000, SYN2005, SYN2006PUB, BMK, PMK, ORAL2006. Ústav
Českého národního korpusu FF UK, Praha 2000. Dostupné z WWW: <http://ucnk.ff.cuni.cz>.
Morfologický analyzátor Ajka dostupný z http://nlp.fi.muni.cz/projekty/ajka/ajkacz.htm.