CJBB105 – 6 Morfologické značkování Mgr. Dana Hlaváčková, Ph.D. CJBB105 Morfologické značkování • mnoho korpusů v mnoha jazycích je obohaceno o morfologické informace o tvarech slov • tímto značkováním se zvyšuje informační hodnota korpusu a usnadňuje se hledání relevantních informací o užívání jazyka • jedná se o nejrozšířenější typ vnitrotextového značkování v korpusech Morfologické značkování • ke každému tokenu je v označkovaném korpusu přiřazen kód, který nese morfologickou informaci o tvaru slova • např. v ČNK: koček kočka/NNFP2-----A----- – tvar koček má lemma kočka a jde o substantivum, ženského rodu, v genitivu plurálu, afirmativ (= bez negativní předpony ne-) • co musí uživatel vědět: – jak značky vypadají a co kódy znamenají – které morfologické kategorie v nich najde – které další informace v nich najde (některé značky kombinují informaci o tvaru i o významu) – že nejsou v automaticky značkovaných korpusech přiřazeny 100% správně Morfologické značkování • proces automatického značkování • token – lemma – tag • tokenizace – rozdělení textu na pozice/tokeny • lemmatizace – přiřazení základního slovního tvaru (jednoslovné) = lemma – pro subst. – nom.sg., pro adj. – nom. sg. masc., pro verb. – infinitiv – problém – význam spojený s tvarem v ustálených slovních spojeních a idiomech – jít na nervy (lemma nerv), nechal ho na holičkách (lemma holička), pozdě bycha honit (lemma bycha) – často neodpovídající nebo uměle vytvořená lemmata • tagging – přiřazení morfologické značky (všechny interpretace tvaru nezávisle na kontextu, vliv homonymie) = tag Morfologické značkování • problém – homonymie, automatické nástroje v procesu taggingu neberou ohled na kontext – např. ženu – lemma žena (substantivum) i lemma hnát (sloveso) – jsou přiřazena všechna lemmata a všechny tagy • nastupuje další fáze – desambiguace – zjednoznačnění lemmat a tagů na základě kontextu • tagger – nástroj, který provádí morfologickou analýzu (lemmatizace a přiřazení všech odpovídajících tagů) a desambiguaci (výběr správného tagu) Morfologické značkování • na úrovni slovních druhů – PoS tagging (angličtina) – v češtině např. u neohebných slovních druhů (spojky, částice, citoslovce) • adverbia – značena navíc negace a stupeň • kompletní značkování – všechny morfologické kategorie (slovanské/flektivní jazyky, jazyky s bohatou morfologií) • ohebné slovní druhy – nutné pro další stupně automatického zpracování jazyka (např. pro syntaktickou analýzu) a navazující aplikace v korpusových manažerech Morfologické značky • musí být transparentní – tagset (srozumitelné vysvětlení sady tagů) – jednoznačná interpretace značky • zachycují především morfologické charakteristiky – ale také sémantické vlastnosti (např. druhy zájmen a adverbií) • musí být nezávislé na různých lingvistických teoriích (často se volí úroveň středoškolských znalostí, případné odchylky musí být vysvětleny) • musí být orientované na uživatele a současně strojově čitelné • častá podoba – kód sestavený z písmen a čísel – kočka/kočka/NNFS1-----A----- – ČNK – kočka /kočka/k1gFnSc1 – korpusy na MU v Brně – kot [kot:subst:sg:nom:m2] – polština – cat /NN/cat – angličtina – Katze /N.Reg.Nom.Sg.Fem/Katze – němčina Homonymie • v češtině a podobných jazycích znesnadňuje celý proces značkování • významová – obvykle není rozdíl v morfologických kategoriích – koruna (na hlavě/mince), sladit (uvést v soulad/činit sladkým – zde je rozdíl ve vidu) • tvarová – nejfrekventovanější – jarní (stejný tvar pro různý rod, číslo, pád) • slovnědruhová – jak (adverbium, spojka, částice) – často těžko rozlišitelné i pro lingvistu • kombinovaná – ženu (subst., f, ak., sg./verb., 1. os., sg.) • může se kombinovat i v celé větě • Sním je místo něho. – každý tvar v této větě je homonymní • Praštil se sluchátkem. se – předložka/zvratné zájmeno – dva různé významy věty Metody automatického značkování • morfologické značkování včetně desambiguace • závisí na velikosti a kvalitě morfologického slovníku • Stochastické (statistické, pravděpodobnostní) – založeno na strojovém učení (na referenčních datech) – systém se sám učí na základě správně označkovaného korpusu – aktuálně se začínají využívat i neuronové sítě se slibným výsledkem • Pravidlové – využívá pravidla stanovená lingvisty nebo vyvozená z textu – pozitivní i negativní pravidla (např. co se může/nemůže vyskytnout ve větě vedle sebe) • Hybridní – kombinace obou přístupů, nejúspěšnější Metody automatického značkování • v textu mohou být neznámé tvary, které systém nemá ve slovníku – nástroj guesser – automaticky odhadne možné lemma a tag – často se netrefí – např. v brněnských korpusech mývalí kočka (lemma mývalit) • úspěšnost taggerů až 98 %, měří se: – pokrytí (recall) – kolik tokenů dostalo značku (může být až 100%, nějakou značku dostává i interpunkce, čísla, znaky, neznámá slova) – přesnost (precision) – kolik značek je správných (nikdy není 100 %) Morfologická analýza v ČR • v ČR existují dva systémy značkování (Praha, Brno) • za základní a rozšířenější se považuje pražský systém – také má vyšší úspěšnost, udržovaný slovník a nyní se do analýzy zapojují neuronové sítě • brněnský systém je často označen za srozumitelnější – jsou jím označkovány velké miliardové korpusy na MU • pro českého lingvistu je výhodou znát oba systémy a moci pracovat se všemi dostupnými českými korpusy Morfologická analýza v ČR • ÚČNK Praha – ČNK, manažer KonText – Ústav formální a aplikované lingvistiky MFF UK – Ústav teoretické a komputační lingvistiky FF UK • poziční systém – značka se skládá z 16 pozic, každá vyjadřuje jednu morfologickou charakteristiku – 2 rezervní (13. a 14.), 1 stylová (15.), 1 smíšená (2.) • analyzátor hybridní – stochastický i pravidlový MorphoDiTa (se slovníkem Morfflex) Morfologická analýza v ČR • MU Brno, manažer Sketch Engine – Centrum zpracování přirozeného jazyka FI MU – Ústav českého jazyka FF MU (formální popis české morfologie – doc. K. Osolsobě) – Lexical Computing • atributivní systém – atribut – morfologická kategorie obecně (např. c = pád) – hodnota – morfologická kategorie konkrétně (c1–c7) • analyzátor pravidlový, hybridní (+ guesser), Majka Syntaktická analýza • v korpusu SYN2015 (zveřejněn 2016) • zobrazení závislostních vztahů mezi slovy ve větě – závislostní strom • vychází z PDT (Prague Dependency Treebank) z ÚFAL MFF UK – manuálně označkovaná data – východiskem je syntax Vl. Šmilauera – syntaktický analyzátor (parser) – úspěšnost cca 80 % • zobrazení v KonTextu, možnosti vyhledávání podle syntaktických atributů (parent, afun) Práce s morfologickými značkami • uživatel – lingvista • důležitá je znalost tagsetu a principu analýzy • je pak možné vyhledávání v korpusu podle morfologických charakteristik • kontrola správnosti značkování • jazykové a frekvenční studie • důležitá je schopnost interpretace značky a nalezených informací • v současnosti probíhá projekt NovaMorf – nové přepracování značkování pro ČNK, nový přístup a nový tagset (výsledky budou v nejbližší době) Prohlížení lemmat a tagů • v obou manažerech musíte mít zaškrtnutou možnost zobrazit lemma a tag • KonText – Zobrazení – Korpusová nastavení • Sketch Engine – Možnosti zobrazení (ikonka oka) • je také možné nastavit možnost zobrazit lemma a tag jen pro KWIC nebo pro všechny tokeny Hledání podle lemmat a tagů • využívá se dotazovací jazyk CQL (Corpus Query Language) • formální podoba dotazu např. – [lemma=„kočka“] – [tag=„N.*F.*“] – najdi všechna substantiva v ženském rodě (poziční systém), kombinace .* je regulární výraz = jakákoli kombinace znaků, můžeme jím nahradit části značky, které v dotazu nejsou důležité Hledání podle tagů • oba manažery pomáhají s konstrukcí dotazu • KonText – Typ dotazu – CQL – Dotaz – Vložit tag (uvidíte celý tagset, který vám pomůže vložit tag), přeskočené části značky se samy nahradí regulárním výrazem .* – popis morfologických značek (odkaz na tagset) • Sketch Engine – Typ dotazu – CQL – Vložit (formální znaky) – Značky (celý tagset) – CQL Builder – konstrukce značky Odkazy • popis pozičního systému v ČNK – https://wiki.korpus.cz/doku.php/seznamy:tagy • Kurz práce s ČNK – 5. lekce – https://wiki.korpus.cz/doku.php/kurz:pokrocile_d otazy • Vyzkoušejte si hledání podle morfologické značky v obou manažerech, korpus SYN2015 a Czech Web 2017