PLIN063_1 Algoritmický popis morfologie osolsobe@phil.muni.cz Osnova •Přístup jazykovědce a informatika •Fonetika a grafika •Stabilní a proměnlivé •Exaktní definice Lingvistika a NLP •Na střední škole se učí, že úkolem morfologické analýzy slova je určit morfologické kategorie danému slovu v textu příslušné. •Pro člověka je tato definice přijatelná, a koneckonců každý z nás na oné střední škole nakonec nějak uspěl. •Při počítačovém zpracování je však situaci třeba definovat a popsat mnohem přesněji. •Především je třeba jasně rozlišovat mezi morfologickou kategorií a její hodnotou. • • Přístup jazykovědce a informatika •Segmentace slovního tvaru (lexikální kořeny, afixy, typy afixů) •Terminologie •Definice termínů •Příklady (rozdíl mezi koncovkou a koncovým řetězcem, prefixem a iniciálním řetězcem) Slovo a jeho tvary •Bohatství tvaroslovného systému (systémové slovo/textové slovo) •Vymezení tvaroslovného systému (Lemma/Word) •Lemmatizace je závislá na tradici konkrétního jazyka i na rovině jazyka, kterou právě analyzujeme •Technická řešení (nemusí být u všech nástrojů NLP identická) Jak poznáme, co k sobě patří a co ne? •přípravku, přípravky, přípravek, přípravkem, přípravka •správec, správce, správci, správcem •buřt, buřtu, buřta, buřtem, buřtovi •koblih, koblihu, kobliha, koblihem, koblihou •myslím, myslíš, mysli, myslel, myslit, myslet •citron, citrónu, citronem, citróny •filozof, filosofa, filozofem, filosofovi • • Mezi jazyky existují značné rozdíly v bohatství a v pojetí tvaroslovného systému Značky pro slovesa Značky pro substantiva láska - substantivum milovat - sloveso milulující - adjektivum Společné a odlišné •Forma •Funkce •Význam Formy + významy + funkce Tvary substantiv slon, vlk, pes, papoušek Porovnejte zápis dotazu v jazyce cql na slovní tvary slov tradičně řazených k jedinému vzoru •Tvary substantiv slon, vlk, pes, papoušek •Dotaz: slon([aueiůy]?|em|ům|ech|ov[ié]) •Dotaz: vlk([auůy]?|em|ům|ov[ié])|vlc(i|ích) •Dotaz: pes|ps([aueiůy]|em|ům|ech|ov[ié]) •Dotaz: papoušek|papoušk([auůy]|em|ům|ov[ié])|papoušc(i|ích) • slon/vlk pes/papoušek Popište zjištěné nesrovnalosti aparátem lingvistických termínů •kmen •Koncovka •morfémový šev •morfologická nula •alomorfie •hláskové alternace •variantní koncovka Strojový popis vzorů •+slon {pán Ea} • <> V1,V13X,VOVE,VVE,VZ1,VI • <ův> PRIVL1X • PRIVL1 •+pes {pán S} • <> V13X •+ps {pán S} • <> V1,VOVE,VVE,VZ1,VI • <ův> PRIVL1X • PRIVL1 • Strojový popis vzorů •+vl {pán Fa} • V1,V13X,VOVE,VVU • PRIVL1X • PRIVL1 • VI,VQ1 •+medvíd {pán Fb} • V13X • V1,VOVE,VVU • PRIVL1X • PRIVL1 • VI,VQ1 • • • • • Segmentace slovního tvaru •kmenový základ •Intersegment •Koncovkové množiny Mnemotechnika •Vztah ke klasickým vzorům (1=pán, 3=muž, …) •Rozčlenění na koncovkové množiny podle n-tic koncovek se společnými vlastnostmi https://nlp.fi.muni.cz/projekty/wwwajka/WwwAjkaSkripty/morph.cgi?jazyk=0 Fonetika a grafika •Porovnejte zápis dotazu v jazyce cql na slovní tvary slov tradičně řazených k jedinému vzoru •Tvary substantiv muž a choť •Tvary substantiv růže a vůně •Tvary substantiv kníže a hrabě • • NLP jako aplikační oblast exaktního popisu jazyka •Co víme o hláskových alternacích ve flexi •Umíme formulovat pravidla? •Víme, jak se vypořádat s výjimkami? • Pravidla distribuce variantních koncovek •Víme, jaká pravidla platí? •Umíme je formálně vyjádřit? •Umíme ověřit jejich platnost/ nalézt výjimky? Pravidla výskytu hláskových alternací •Víme na čem závisí? •Umíme to zjišťovat? • Výskyt hláskových alternací •Je nějaké omezení místa alternace? •Lze místo alternace formálně popsat? •Potřebujeme morfémovou segmentaci, nebo lépe – v čem nám může pomoci? Příklady - cvičení •Pozorujme spojitost mezi pravidlem o distribuci variantních koncovek vokativu singuláru maskulin životných a kodifikací. •Pane soud[cč]e •Který z tvarů je kodifikovaný? •Umíme definovat důsledky systematické (nenahodilé – analogické) změny v kodifikaci? •Lze někde v systému českého tvarosloví/derivace vidět působení tlaku analogie a v jejím důsledku i rozkolísání systému? Otázky •Je změna c/č v češtině pravidelná nebo nahodilá? •Čím se řídí? •Kde k ní dochází? Hledáme dvojice slov, v nichž po c/č následuje přední vokál a jinak jsou identické Pozorování •prá[cč]e •ru[cč]e, kon[cč]e •ot[cč]e, zástup[cč]e, chlap[cč]e, vůd[cč]e, … •Závěr: Distribuce [cč] před předními vokály není řízena fonologicky, ale morfonologicky. •Všimněme si, jak je tomu v případě [rř]: •kobře, patře, Petře, doktore Závěr •Potřeba povědomí o možnostech a mezích formalizace (pravidla a výjimky, kontextová pravidla) • Potřeba povědomí o rozdílech v terminologii (např. kmen, koncovka, …) •Potřeba povědomí o fungování nástrojů (např. jednotlivé kroky automatické analýzy) •Potřeba povědomí o technických zjednodušeních (např. jednoslovná morfologie) Ke čtení •OSOLSOBĚ, Klára a Karel PALA. Czech Stem Dictionary. Czech stem Dictionary. In Sborník prací filozofické fakulty brněnské univerzity. 1. vyd. Brno: Masarykova univerzita, Brno, 1993. s. 51-60, 10 s. ISBN 80-210-0883-0. () •OSOLSOBĚ, Klára, PALA, Karel, RYCHLÝ, Pavel. Frekvence vzorů českých sloves (na materiálu ČNK). Slovo a slovesnost, Praha: Akademie věd ČR, ÚJČ, 1998, roč. 98, č. 4, s. 265-277. ISSN 0037-7031. •(http://sas.ujc.cas.cz/archiv.php?lang=en&art=3804) •https://digilib.phil.muni.cz/bitstream/handle/11222.digilib/100316/A_Linguistica_46-1998-1_9.pdf?s equence=1 •Jaroslava Hlaváčová, Marie Mikulová, Barbora Štěpánková, Jan Hajič (2019): Modifications of the Czech morphological dictionary for consistent corpus annotation. In: Jazykovedný časopis / Journal of Linguistics, ISSN 0021-5597, vol. 70, no. 2, pp. 380-389