CJBB105-5 Morfologické značkování
Mgr. Dana Hlaváčková, Ph.D.
CJBB105 PRZA009
Morfologické značkování
• mnoho korpusů v mnoha jazycích je obohaceno o morfologické informace o tvarech slov
• tímto značkováním se zvyšuje informační hodnota korpusu a usnadňuje se hledání relevantních informací o užívání jazyka
• jedná se o nej rozšířenější typ vnitrotextového značkování v korpusech
Morfologické značkování
• ke každému tokenu je v označkovaném korpusu přiřazen kód, který nese morfologickou informaci o tvaru slova
• např. v ČNK: koček kočka/NNFP2-—A-—
- tvar koček má lemma kočka a jde o substantivum, ženského rodu, v genitivu plurálu, afirmativ (= bez negativní předpony ne-)
• co musí uživatel vědět:
- jak značky vypadají a co kódy znamenají
- které morfologické kategorie v nich najde
- které další informace v nich najde (některé značky kombinují informaci o tvaru i o významu)
- že nejsou v automaticky značkovaných korpusech přiřazeny 100% správně
Morfologické značkování
• proces automatického značkování
• token - lemma -tag
• tokenizace - rozdělení textu na pozice/tokeny
• lemmatizace
- přiřazení základního slovního tvaru (jednoslovné) = lemma
- pro subst. - nom.sg., pro adj. - nom. sg. mase, pro verb. - infinitiv
- problém - význam spojený s tvarem v ustálených slovních spojeních a idiomech - jít na nervy (lemma nerv), nechal ho na holičkách (lemma holička), pozdě bycha honit (lemma bycha) -často neodpovídající nebo uměle vytvořená lemmata
• tagging
- přiřazení morfologické značky (všechny interpretace tvaru nezávisle na kontextu, vliv homonymie) = tag
Morfologické značkování
• problém - homonymie, automatické nástroje v procesu taggingu neberou ohled na kontext
- např. ženu - lemma žena (substantivum) i lemma hnát (sloveso) - jsou přiřazena všechna lemmata a všechny tágy
• nastupuje další fáze - desambiguace - zjednoznačnění lemmat a tagů na základě kontextu
• tagger - nástroj, který provádí morfologickou analýzu (lemmatizace a přiřazení všech odpovídajících tagů) a desambiguaci (výběr správného tágu)
• „zlaté pravidlo morfologie" - přiřazení tvaru, lemmatu a tágu je jednoznačné
Morfologické značkování
• na úrovni slovních druhů
- PoS tagging (angličtina)
- v češtině např. u neohebných slovních druhů (spojky, částice, citoslovce)
• adverbia - značena navíc negace a stupeň
• kompletní značkování
- všechny morfologické kategorie (slovanské/flektivní jazyky, jazyky s bohatou morfologií)
• ohebné slovní druhy
- nutné pro další stupně automatického zpracování jazyka (např. pro syntaktickou analýzu) a navazující aplikace v korpusových manažerech
Morfologické značky
• musí být transparentní - tagset (srozumitelné vysvětlení sady tagů)
- jednoznačná interpretace značky
• zachycují především morfologické charakteristiky
- ale také sémantické vlastnosti (např. druhy zájmen a adverbií)
• musí být nezávislé na různých lingvistických teoriích (často se volí úroveň středoškolských znalostí, případné odchylky musí být vysvětleny)
• musí být orientované na uživatele a současně strojově čitelné
• častá podoba - kód sestavený z písmen a čísel
- kočka/kočka/NNFSl-—A------ČNK
- kočka /kočka/klgFnScl - korpusy na MU v Brně
- kot [kot:subst:sg:nom:m2] - polština
- cat/NN/cat-angličtina
- Katze /N.Reg.Nom.Sg.Fem/Katze - němčina
Homonymie
v češtině a podobných jazycích znesnadňuje celý proces značkování významová - obvykle není rozdíl v morfologických kategoriích
- koruna (na hlavě/mince), sladit (uvést v soulad/činit sladkým - zde je rozdíl ve vidu)
tvarová - nejfrekventovanější
- jarní (stejný tvar pro různý rod, číslo, pád) slovnědruhová
- jak (adverbium, spojka, částice) - často těžko rozlišitelné i pro lingvistu kombinovaná
- ženu (subst.,f, ak., sg./verb., 1. os., sg.) může se kombinovat i v celé větě
Sním je místo něho. - každý tvar v této větě je homonym ní
Praštil se sluchátkem, se - předložka/zvratné zájmeno - dva různé významy věty
Metody automatického značkování
• morfologické značkování včetně desambiguace
• závisí na velikosti a kvalitě morfologického slovníku
• Stochastické (statistické, pravděpodobnostní)
- založeno na strojovém učení (na referenčních datech)
- systém se sám učí na základě správně označkovaného korpusu
- aktuálně se začínají využívat i neuronové sítě se slibným výsledkem
• Pravidlové
- využívá pravidla stanovená lingvisty nebo vyvozená z textu
- pozitivní i negativní pravidla (např. co se může/nemůže vyskytnout ve větě vedle sebe)
• Hybridní
- kombinace obou přístupů, nejúspěšnější
Metody automatického značkování
• v textu mohou být neznámé tvary, které systém nemá ve slovníku
- nástroj guesser - automaticky odhadne možné lemma a tag
- často se netrefí - např. v brněnských korpusech mývali kočka (lemma mývalit)
• úspěšnost taggerů až 98 %, měří se:
- Dokrytí (recall) - kolik tokenů dostalo značku (může Dýt až 100%, nějakou značku dostává i interpunkce, čísla, znaky, neznámá slova)
- přesnost (precision) - kolik značek je správných (nikdy není 100%)
Morfologická analýza v ČR
• v ČR existují dva systémy značkování (Praha, Brno)
• za základní a rozšířenější se považuje pražský systém
- také má vyšší úspěšnost, udržovaný slovník a nyní se do analýzy zapojují neuronové sítě
• brněnský systém je často označen za srozumitelnější
- jsou jím označkovaný velké miliardové korpusy na MU
• pro českého lingvistu je výhodou znát oba systémy a moci pracovat se všemi dostupnými českými korpusy
Morfologická analýza v ČR
• ÚČNK Praha -ČNK, manažer KonText
- Ústav formální a aplikované lingvistiky MFF UK
- Ústav teoretické a komputační lingvistiky FF UK
• poziční systém
- značka se skládá z 16 pozic, každá vyjadřuje jednu morfologickou charakteristiku
- 2 rezervní (13. a 14.), 1 stylová (15.), 1 smíšená (2.)
- SYN2020- 15 pozic, vid na 13. pozici
• analyzátor hybridní - stochastický i pravidlový MorphoDiTa (se slovníkem MorfFlex)
, ty kvalitní s na nichž se dá sedět i osm hodin denně, stojí kolem /kolen/RR- -2-------	— 5000 ú 6000 korun, Za plně vybaven
bérové řízen í n a kom plex n í i nf o rmač n í systém, je hož p rvnim ko le m / kolo/NN NS7-----A -	— prošli čtyři výrobci .Průběh implemen
Novinky v SYN2020
• sublemma - pro variantní lemmata (myslet/myslit, okno/vokno)
• agregát - víceslovný token (aby noč, ses, dělals), dvě lemmata a dvě značky,
— ses = sej být
• verbtag - přesnější značkování slovesných tvarů
— slovesa plnovýznamová a pomocná
— deverbativní adjektiva
Morfologická analýza v ČR
• MU Brno, manažer Sketch Engine
- Centrum zpracování přirozeného jazyka Fl MU
- Ústav českého jazyka FF MU (formálni popis české morfologie - doc. K. Osolsobé)
- Lexical Computing
9 atributivní systém
- atribut - morfologická kategorie obecně (např. c = pád)
- hodnota - morfologická kategorie konkrétně (cl-c7)
:>vý výsledek nebyl ovlivněn . Druhým kolem /kolo/k 1&N n 5c7 prezidentských voleb se Rusko ve středí juma požaduje šetřeni" korupce kliky  kolem /kolem/k7c2  Gračova Jako člověka po uši zapleteněhn
Syntaktická analýza
• v korpusech SYN2015 a SYN2020
• zobrazení závislostních vztahů mezi slovy ve větě
- závislostní strom
• vychází z PDT (Prague Dependency Treebank) z ÚFAL MFF UK
— manuálně označkovaná data
— východiskem je syntax VI. Šmilauera
- syntaktický analyzátor (parser) - úspěšnost cca 80 %
• zobrazení v KonTextu, možnosti vyhledávání podle syntaktických atributů [parent - vzdálenost od řídícího tokenu, afun - syntaktická funkce)
Práce s morfologickými značkami
• uživatel - lingvista
• důležitá je znalost tagsetu a principu analýzy
• je pak možné vyhledávání v korpusu podle morfologických charakteristik
• kontrola správnosti značkováni
• jazykové a frekvenční studie
• důležitá je schopnost interpretace značky a nalezených informací
• v současnosti probíhá projekt NovaMorf- nové přepracování značkování pro ČNK, nový přístup a nový tagset (výsledky budou v nejbližší dobé)
Prohlížení lemmat a tagů
• v obou manažerech musíte mít zaškrtnutou možnost zobrazit lemma a tag
• KonText - Zobrazení - Korpusová nastavení
• Sketch Engine - Možnosti zobrazení (ikonka oka)
• je také možné nastavit možnost zobrazit lemma a tag jen pro KWIC nebo pro všechny tokeny
Hledání podle lemmat a tagů
• využívá se dotazovací jazyk CQL (Corpus Query Language)
• formální podoba dotazu např.
- [lemma=„kočka"]
- [tag=„N.*F.*"] - najdi všechna substantiva v ženském rodě (poziční systém), kombinace .* je regulární výraz = jakákoli kombinace znaků, můžeme jím nahradit části značky, které v dotazu nejsou důležité
Hledání podle tagů
• oba manažery pomáhají s konstrukcí dotazu
• KonText
- Typ dotazu - CQL
- Dotaz - Vložit tag (uvidíte celý tagset, který vám pomůže vložit tag), přeskočené části značky se samy nahradí regulárním výrazem .*
- popis morfologických značek (odkaz na tagset)
• Sketch Engine
- Typ dotazu - CQL
- Vložit (formální znaky)
- Značky (celý tagset)
- CQL Builder- konstrukce značky
Odkazy
• popis pozičního systému v ČNK
- https://wiki.korpus.ez/doku.php/seznamy:tagy
• Kurz práce s ČNK - 5. lekce
- https://wiki.korpus.ez/doku.php/kurz:pokrocile d ota zv
• Vyzkoušejte si hledání podle morfologické značky v obou manažerech, korpus SYN2020 a Czech Web 2017