habilitační přednáška 18.10. 2011 1 Korpusy jako zdroje dat pro doplnění obrazu okrajových gramatických jevů Klára Osolsobě osolsobe@phil.muni.cz habilitační přednáška 18.10. 2011 2 Značkovaní korpusů je dobrá věc ALE nlingvistické předpoklady : morfologický slovník + tagset ntechnická řešení (rozdělení na pozice, různé nelingvistické přístupy k disambiguaci) n habilitační přednáška 18.10. 2011 3 Kvalita značkování z lingvistického hlediska nkvalita zdrojů nmožnosti a meze formalizace núplnost výčtu některých okrajových jevů habilitační přednáška 18.10. 2011 4 Futurum nanalytické futurum (slovesa nedokonavá) ndokonavá slovesa a jejich prézentní tvary nsyntetické futurum (budu, jít, jet, ...) habilitační přednáška 18.10. 2011 5 Gramatiky a slovníky ngramatiky: definují skupinu sloves pohybu výčtem (rozsah odpovídá rozsahu gramatiky). npraxe slovníků je nejednotná (u některých sloves např. vézt se SSJČ a SSČ rozcházejí). n habilitační přednáška 18.10. 2011 6 Česká mluvnice (Havránek, Jedlička, 1981) nhovoří o: … „některých slovesech nedokonavých (většinou s významem pohybu, řidčeji stavu) …. n … nemají složený tvar času budoucího, leda v jiném významovém odstínu … nmožnost tvořit u některých tvarů imperativ … s malým významovým rozdílem, který je na dvou příkladech charakterizován u slovesa pojď jako … pohyb k mluvčímu… u sloves poběž, poleť jako …počátek nsamostatně se zmiňuje imperativ poslyš, který nemá oporu ve tvarech syntetického futura indikativu (slyšet - *poslyším – slyš – poslyš) habilitační přednáška 18.10. 2011 7 Příruční mluvnice češtiny (Karlík, Nekula, Rusínová, 1996) nhovoří o … zvláštní skupině sloves pohybu a některých jiných, která pohyb implikují ndále uvádí, že … u nich lze rozeznat rozdíl mezi určeností a neurčeností co do cíle pohybu… přičemž … oba tyto významy se vyjadřují v rámci sloves nedokonavého vidu… nkonstatuje, že … nejde o dokonavé futurum, od těchto forem nelze utvořit infinitiv ani préteritum, jsou však možné formy složené ... habilitační přednáška 18.10. 2011 8 Čeština řeč a jazyk (Čechová a kol., 1996) nU některých nedokonavých sloves (sloves pohybu a změny stavu) se tvoří ještě (míní se kromě tvarů budu + infinitiv nedokonavého slovesa) tvary jednoduché s předponou po-. habilitační přednáška 18.10. 2011 9 Mluvnice češtiny 2 (Komárek a kol., 1987) n… prefix po- (s ojediněle se vyskytující variantou pů-): spojuje se s tvary ind. préz. akt. některých nedokonavých sloves, zvláště s významem jednosměrného pohybu v tzv. jednoduché, syntetické futurum …, nmá tedy gramatickou kategoriální platnost; tato platnost je oslabena ve tvarech imperativu těchto sloves, …, které jsou synonymní s tvary bez tohoto prefixu. nslovesa jsou charakterizována jako …. slovesa jednosměrného pohybu a slovesa trvání nebo změny stavu (jež jsou rovněž pojaty jako jednosměrný pohyb) npředpona po- má zde význam pouze gramatický, nikoli lexikální; nemění ani lexikální význam, ani nedokonavý vid slovesa nvedle futurálních tvarů jednoduchých je možno tvořit i pravidelné tvary složené futura opisného, …. habilitační přednáška 18.10. 2011 10 Mluvnice současné češtiny (Cvrček a kol., 2010) nSpecifická omezená skupina sloves má tvary budoucího času vyjádřené pomocí předpony po/pů : půjdu, pojedu, potrvá, poroste, ponesu, povedu, poběžím, poletíš, polezeš, poteče, poženu, povezeme, poplujete, pohrne, pocestujou, postěhuje, poplazí. habilitační přednáška 18.10. 2011 11 Syntetické futurum – slovníky a další tištěné zdroje nSSJČ : 50 sloves (27 navíc, které neuvádí SSČ) nSSČ : 21 sloves (3 navíc, které neuvádí SSJČ) nSSSJČ i SSČ : 18 sloves nČermák, 1990, s. 106 : 5 dalších sloves, které neuvádí ani SSJČ, ani SSČ nŠmilauer, 1972 s. 223 : 2 další slovesa nKopečný,1962 s. 46-50 : 115 sloves habilitační přednáška 18.10. 2011 12 vézt habilitační přednáška 18.10. 2011 13 vézt habilitační přednáška 18.10. 2011 14 lézt habilitační přednáška 18.10. 2011 15 lézt habilitační přednáška 18.10. 2011 16 Zachycení na úrovni morfologické značky (tagu) nPozice 2 - Detailní určení slovního druhu nB sloveso, tvar přítomného nebo budoucího času nPozice 9 - Čas -neurčuje se nF futurum (budoucí čas) nH minulost nebo přítomnost (P/R)* nP prézens (přítomný čas) nR minulý čas nX libovolný čas (F/R/P)*) habilitační přednáška 18.10. 2011 17 SYN VB......F.* ntvary budu, budeš, ... nněkolik sloves, která tvoří synteticky futurum prefixem po-/pů- habilitační přednáška 18.10. 2011 18 Frekvenční seznam lemmat habilitační přednáška 18.10. 2011 19 Korpus SYN (22) nbýt 5302509 jít 181280 ntrvat 85600 jet 82167 nrůst 14078 nést 12481 nběžet 10456 letět 5800 ntéci 3710 vézt 2555 nvést 2278 hrnout 969 ncestovat 961 plout 758 nlézt 755 stěhovat 406 nhnát 382 řítit 22 nplavat 21 plazit 19 nkrást 9 kvést 4 habilitační přednáška 18.10. 2011 20 Mohou korpusy přispět k poznání tohoto jevu ? na) Výčet získaný pomocí výše uvedeného tagu je úplný/neúplný. nb) Další doklady se vyskytují/nevyskytují v korpusech. nc) Existuje/neexistuje nějaký postup, jak je z korpusů získat/získávat. n habilitační přednáška 18.10. 2011 21 Hledání kandidátů syntetického futura v lemmatizovaných korpusech nlemma=„po.*“ nP-filtr tag=„(VB......P.*)|(X.*)“ nN-filtrem lze odstranit lemmata na pod-, popo-, pona-, ..., kdy může jít o jiný prefix, kombinaci více prefixů atd. nfrekvenční seznam lemmat nruční výběr kandidátů nověření předpokladu habilitační přednáška 18.10. 2011 22 Frekvenční seznam lemmat habilitační přednáška 18.10. 2011 23 Příklady chybné lemmatizace habilitační přednáška 18.10. 2011 24 Heslo trvat habilitační přednáška 18.10. 2011 25 Heslo potrvat habilitační přednáška 18.10. 2011 26 SYN2000 habilitační přednáška 18.10. 2011 27 SYN2005 habilitační přednáška 18.10. 2011 28 SYN2010 habilitační přednáška 18.10. 2011 29 Výsledky získané z korpusů (20) (ne SSJČ a SSČ) npofrčí/frčet (*)pověje/vát n*pomaže/mazat *povalí (se)/valit (se) npokráčí/kráčet *popase se/pást se n*pošine se/šinout se posviští/svištět n*potáhne/táhnout se *potrénuje/trénovat n*popeče s kým/péci pošupe/šupat npobrodí se/brodit se pocrčí/crčet npošupajdí/šupajdit poharcuje/harcovat npokoučuje/koučovat *povesluje/veslovat npoprýští/prýštit pošupačí/šupačit habilitační přednáška 18.10. 2011 30 Výsledky získané z internetu (3) (ne SSJČ a SSČ) npotryská/tryskat npotrtá/trtat npozdrhá/zdrhat habilitační přednáška 18.10. 2011 31 pofrčet ? pofrčel.* ? (ani jeden výskyt v SYN) habilitační přednáška 18.10. 2011 32 povanout ? povanul ? habilitační přednáška 18.10. 2011 33 povát ? povál ? habilitační přednáška 18.10. 2011 34 NIKOLI: pověj habilitační přednáška 18.10. 2011 35 ALE: na internetu n... Možná by neškodilo, kdyby vítr, který nám přinese novou vládu, zavál i do těchto koutů. Uvidíme, jakým směrem pověje i na našem resortním ministerstvu, které přislíbilo o tomto tématu jednat. ... nPověj, větříčku, pověj, moju hlavěnku ověj! Moja hlavěnka mladá větříčkovi je ráda. n... Pověje-li vítr od slunce východu, mříti bude dobytek bez plodu. Pověje-li vítr od slunce západu, králové, páni nemocní budou, ... habilitační přednáška 18.10. 2011 36 mazat NEBO pomazat habilitační přednáška 18.10. 2011 37 bmk habilitační přednáška 18.10. 2011 38 ORAL2008 habilitační přednáška 18.10. 2011 39 Zastoupení lemmat v tištěných zdrojích, korpusech a na internetu slovníky a tištěné zdroje 53+7 lemmat 72,29 % pouze korpusy 20 lemmat 24,1 % korpusy i slovníky a tištěné zdroje 37 lemmat 44,58 % pouze slovníky a tištěné zdroje 23 lemmat 27,71 % pouze internet 3 lemmata 3,61 % slovníky + tištěné zdroje + korpusy 83 lemmat 100 % habilitační přednáška 18.10. 2011 40 Podíl dokladů z tištěných zdrojů a z korpusů n n habilitační přednáška 18.10. 2011 41 Hodnocení nseznam lze nadále doplňovat (slovníky, gramatiky, učebnice) nvysoká míra homonymie – problémy automatické lemmatizace a následné disambiguace ndalší možnosti zkoumat poměr syntetického a analytického vyjádření futura (rozsah korpusů) nsémantické vymezení skupiny sloves habilitační přednáška 18.10. 2011 42 Upřesnění definice významu sloves schopných tvořit tvary syntetického futura nPohyb v konkrétním slova smyslu (přemísťování z místa na místo jednosměrně/ v určeném směru) : (půjde, pojede, poběží, poplazí se, pokráčí, pošine se, povalí, pomaže, ...) npohyb bez určení směru (různými směry) : (pošíří se, poline se, ... ). nProces zahrnující pohyb na) přírodní (povane, pověje, pol(i/e)je, poprší, ...); nb) s neživým nositelem (rostlina: pokvete, poroste, poplazí se, strom: ponese (ovoce), ...; hudba: poline se, povalí ...; vůně: pošíří se, poline se, ...; voda: poteče, povalí, pocrčí, poprýští..., zpráva: pošíří se ,... ); nc) mentální (popálí mu to) nd) s živým nositelem (poroste, popase se, ... pták: ponese (vejce), ...); ne) ve významu fungovat (v přeneseném významu jít) (správně) poklape, pošlape, povalí ...; vycházet s někým, (poklape, pošlape, popeče, ...). nf) ve významu vést (pokoučuje, potrénuje, povládne) n habilitační přednáška 18.10. 2011 43 Závěr notevřená třída sloves nupřesnění definice nopravy chybné lemmatizace a značkování habilitační přednáška 18.10. 2011 44 Bibliografie n nCVRČEK A KOL. (2010): Mluvnice současné češtiny. Praha : Karolinum. nČECHOVÁ A KOL. (1996): Čeština, řeč a jazyk. Praha : ISVN. nČERMÁK, F. (1990): Syntagmatika a paradigmatika českého slova. Praha : Karlova Univerzita. nHAJIČ J. (1994): Unification Morphology Grammar. Praha : MFF UK, (disert. práce). nHAJIČ J. (2004): Desambiguation of Rich Inflection (Computational Morphology of Czech). Praha : Karolinum. nHAVRÁNEK, B. A KOL. (1989): Slovník spisovného jazyka českého (SSJČ). Praha : Academia. n FILIPEC, J. A KOL. (2005): Slovníku spisovné češtiny pro školu a veřejnost (SSČ). Praha : Academia. nKARLÍK, P., NEKULA, M., RUSÍNOVÁ, Z. (1996): Příruční mluvnice češtiny. Praha : Nakladatelství Lidové noviny. nKARLÍK, P., NEKULA, M., PLESKALOVÁ, J. (2002): Encyklopedický slovník češtiny. Praha: Nakladatelství Lidové noviny. habilitační přednáška 18.10. 2011 45 Bibliografie nKOMÁREK, M. a kol. (1986): Mluvnice češtiny II., Praha : Academia. nKOPEČNÝ, F. (1962): Slovesný vid v češtině. Praha : Nakladatelství československé akademie věd. nOSOLSOBĚ, K. (2007): Syntetické futurum v češtině – gramatiky, slovníky, korpusy. Přednášky a besedy z XL. běhu LŠSS. Brno, s. 131-144. nOSOLSOBĚ, K. (2007): Popis gramatických významů jednoduchých slovesných tvarů v anotacích českých (slovenských) korpusů. SPFFMU A, 55, s. 201-218. nOSOLSOBĚ, K. (2008): Značkování gramatických kategorií v korpusech ČNK a jejich zachycení v gramatice a ve slovníku (syntetické futurum, stupňování adjektiv, neurčité číslovky a příslovce míry). In Štícha, F. (ed.) Grammar & Corpora / Gramatika a korpus 2007. Academia : Praha, s. 407-416. nSEDLÁČEK, R. (2004): Morphematic analyser for Czech. Brno : FI MU (disert. práce). nŠMILAUER, V. (1972): Nauka o českém jazyku. Praha : SPN. n n habilitační přednáška 18.10. 2011 46 Elektronické zdroje nSYN: Český národní korpus - SYN. Ústav Českého národního korpusu FF UK, Praha. Cit. 20. 03. 2011, dostupný z WWW: . nKorpusový manažer BONITO [online]. 2011. Cit. 20. 03. 2011, dostupný z . nAutomatický analyzátor ajka [online] 2011. Cit. 20. 03. 2011, dostupný z . nInternetový vyhledávač Google [online]. 2011. Cit. 20. 03. 2011, dostupný z . nDebDict – internetový prohlížeč slovníků umožňující mj. přístup k elektronickým verzím SSJČ, SSČ, PSČ [online]. 2011. Cit. 20. 03. 2011, dostupný z: . habilitační přednáška 18.10. 2011 47 nDěkuji Vám za pozornost !