PLIN063_2 Algoritmický popis morfologie osolsobe@phil.muni.cz Strojové slovníky •slovoforma/systémové slovo/interpretace – základní jednotka strojového slovníku •seznam slovoforem •tvorba seznamu •interpretace na rovině systémového slova a gramatických významů • gramatické kategorie a slovotvorné kategorie •praxe tagsetů v českém prostředí Hajič – definice morfologického slovníku • Morfologický slovník obsahuje ke každému lemmatu informaci o kmeni slova (v našem případě, kvůli sloučení nejnižších rovin popisu jazyka do jedné, je za kmen slova považována ta část slova, která se při ohýbání nemění), a o přípustných koncovkách. •Množina koncovek tvoří vzor. U každé koncovky je navíc informace o tom, které značky (kombinace hodnot morfologických kategorií) jí pro daný vzor odpovídají. Tvarosloví a co pod ně zahrnout •Systémové a textové slovo (slovoforma) •Slovníkový tvar •Hranice derivační a flektivní morfologie •Různost jazyků a různost přístupů Systémové a textové slovo •Systémové slovo – lemma •Textové slovo – word •Lemmatizace a varianty • Slovníkový tvar •Heslová slova (SSJČ, korpusy – nerozpoznaná slova) •Hnízdování (rozgenerování tvarů, tvary zahrnuté pod morfologické vzory) •Lemmatizace a stupňování •Lemmatizace a negace • Hranice derivační a flektivní morfologie •Lemmatizace a slovnědruhová transpozice •Lemmatizace a jednoslovná morfologie (reflexiva tantum, příslovečné spřežky, víceslovné spojky, …) • • Různost jazyků a různost přístupů Různost jazyků a různost přístupů •https://www.sketchengine.eu/penn-treebank-tagset/ •https://www.sketchengine.eu/German-rftagger-part-of-speech-tagset/ • • Praxe tagsetů v českém prostředí •https://www.sketchengine.eu/french-treetagger-part-of-speech-tagset/ •https://www.sketchengine.eu/tagset-reference-for-czech/ •https://wiki.korpus.cz/doku.php/en:pojmy:tag • Poziční systém •Pozice a hodnota •Nepřehlednost a heterogennost druhé pozice •Sdružené hodnoty jako obcházení desambiguace •Čas a slovesný rod •Stylistické hodnocení •Nejednotnost v přístupu k variantám Systém atribut/hodnota •Jednoduchost •Atribut m •Atribut d •Subklasifikace zájmen •Subklasifikace číslovek •Subklasifikace adverbií •Atribut w •Práce se sdruženými hodnotami pro neohebné slovní druhy Společné rysy a rozdíly •Převody dat •Bez ztrát informací •Se ztrátami informací •Stejné informace, ale různé slovníky (data) •Stejné informace, ale různá pojetí Slovní druhy •Interpunkce jako slovní druh •Slovnědruhové přechody •Slovnědruhová platnost agregátů •Slovnědruhová platnost cizích slov •Slovnědruhová platnost afixových segmentů Subklasifikace slovních druhů •Heterogennost (značkování ovlivněno potřebami popisu vyšší – syntaktické roviny) – např. vydělení krátkých tvarů os. zájmen, vztažných slov, která fungují jako spojovací výrazy, zacházení s agregáty spojka + kondicionálový morf, volný morf –s za 2. os., … •Revize podle slovních druhů •Inspirace Brnem (pozitivní i negativní) Slovesný tvar •Slovesná subparadigmata •Jmenné a složené tvary participií •Doplnění variant do slovníku Adverbia •Upuštění od sémantické klasifikace adverbií •Upuštění od explicitního rozdělení adverbií na stupňovatelná a nestupňovatelná •Zvýraznění vazby mezi zájmeny a zájmennými adverbii •Adverbiální spřežky Spojky •Agregátová povaha výrazů .*by.* •Jednoslovná morfologie a víceslovné spojvací výrazy Částice •Potřeba definovat seznamy •Netřeba zatěžovat systém desambiguace v případě, že nebude úspěšná • Projekt NovaMorf •Od r. 2012 •Snaha o jednotný morfologický popis češtiny •Snaha o nezávislost popisu na aplikacích a pracovištích •Snaha o zachování tradice s ohledem na uživatele •Snaha o dodržení zlatého pravidla morfologie [lemma=".*(ou|í)cí"] • [lemma=".*(ou|í)cí" & tag!="AG.*" ] AA.* plačící AG.* plakající X@.* pláčící Ke čtení •OSOLSOBĚ, Klára a Jaroslava HLAVÁČOVÁ. Chystané změny projektu NovaMorf jako výsledek dlouhého období konvergencí a divergencí ve zpracování české morfologie. In Aleš Horák, Klára Osolsobě, Adam Rambousek, Pavel Rychlý. Slavonic Natural Language Processing in the 21st Century. 1. vyd. Brno: Tribun EU, 2019. s. 93-99, 7 s. ISBN 978-80-263-1545-2. •OSOLSOBĚ, Klára, Vladimír PETKEVIČ, Jaroslava HLAVÁČOVÁ, Josef ŠIMANDL a Martin SVÁŠEK. Parts of Speech in NovaMorf, a New Morphological Annotation of Czech. Jazykovedný časopis, Versita, 2019, roč. 70, 2019, č. 2, s. 358-369. ISSN 0021-5597. doi:10.2478/jazcas-2019-0065. •OSOLSOBĚ, Klára, Jaroslava HLAVÁČOVÁ, Vladimír PETKEVIČ, Josef ŠIMANDL a Martin SVÁŠEK. Nová automatická morfologická analýza češtiny. Naše řeč, AV ČR, Ústav pro jazyk český, 2017, roč. 2017, č. 4, s. 225-234. ISSN 0027-8203.