PLIN033_2 MORFIO Aplikace k odhadování rozsahu a produktivity slovotvorných modelů v češtině na základě korpusových dat 1 Co dnes chceme? •představit aplikaci MORFIO •ukázat na konkrétním příkladu postup práce při extrakci podkladů pro lingvistickou analýzu slovotvorných formací automaticky získaných prostřednictvím aplikace MORFIO •zadat úkoly na příště • 2 Co je to MORFIO ? •Aplikace Morfio slouží k odhadování rozsahu a produktivity slovotvorných modelů v češtině na základě korpusových dat. •slovotvorný vztah - vytvářen 1) formální shodou/podobností v určitých částech slova, tzv. báze (např. dřev- je část společná pro slova dřevo i dřevěný) a 2) formálními odlišnostmi v částech specifických, tzv. formantech (morfy -o a -ěný v předchozím příkladu). •Cílem aplikace je najít všechny dvojice, resp. trojice nebo čtveřice, jednotek v korpusu, které se shodují v bázi a liší se pouze specifikovanými formanty. •Výstupem aplikace Morfio není a nemůže být lingvisticky bezchybný výstup, spíš se jedná o pomůcku, která množství dat dokáže pro lingvistické účely předzpracovat. 3 MORFIO •http://morfio.korpus.cz/ •http://ucnk.ff.cuni.cz/bonito/znacky.php 4 Jak vypadá přístup • 5 Volba korpusu •SYN2010 •SYN2005 6 Zadání dotazu •regulární výrazy •morfologické značky (viz výše) •další možnosti zobecnění (rozlišení samohlásek, souhlásek, ...) •volby různých typů alternací 7 Co chceme? •Kolik a která substantiva typu učitel mají ženský protějšek tvořený příponou -ka •Jaké další dvojice tohoto typu známe? •Jak je můžeme popsat? •Jaké mají formální vlastnosti? 8 -tel / -telka •Substantivum maskulinum životné •Lemma končí na tel •Substantivum femininum •Lemma končí na telka • • 9 Vyplnění formuláře • 10 SOUHRN V záložce souhrn jsou uvedeny počty typů s nadlimitní frekvencí a součet jejich výskytů. Jedna sada údajů (sloupec "celkem") se vždy týká vzoru samotného (chápaného izolovaně), druhá sada (sloupec "v modelu") pak odkazuje k těm jednotkám příslušejícím ke vzoru, které zároveň patří do analyzovaného slovotvorného modelu, tj. slova, která mají k sobě odvozeninu identifikovanou v rámci druhého vzoru. • 11 Výpis V tabulce jsou uvedeny všechny doklady ze všech vzorů, které vstupují do zadaného modelu. Červená část slov označuje společnou bázi (ta se může lišit pouze v případě aplikace alternací). V závorkách uvedený údaj představuje celkovou frekvenci jednotky ve zvoleném korpusu. Tabulku je možné přetřídit podle libovolného sloupce a to jak abecedně, tak frekvenčně pomocí šipek v záhlaví tabulky. Každé slovo zároveň funguje jako odkaz směřující k ukázce konkordancí ve zvoleném korpusu. • 12 Výpis lze •seřadit podle frekvence 1. nebo 2. členu dvojice • 13 Výpis lze •seřadit abecedně podle 1. nebo 2. členu dvojice • • 14 Kliknutím na lemma lze získat konkordanci v příslušném korpusu • 15 Vzor 1 •Výsledky analýzy jednotlivých vzorů jako samostatných dotazů jsou prezentovány ve formě tabulky jednotek (slovních tvarů nebo lemmat) spolu s jejich frekvencemi ve zvoleném korpusu. Tabulku je možné doplnit i o jednotky, které v modelu nebyly brány v potaz, protože jejich frekvence byla nižší než uživatelem stanovený limit. Údaje zvýrazněné barevným pozadím se účastní slovotvorného modelu (tj. existuje k nim v druhém vzoru protějšek se stejnou bází, lišící se pouze formanty). 16 tel (vzor 1) •Žlutě jsou ty členy, k nimž byl nalezen vzor 2 17 telka (vzor2) •Žlutě jsou ty členy, k nimž byl nalezen vzor 1 • 18 Produktivita • 19 Měření produktivity •Odhad produktivity obou vzorů a jejich vzájemné porovnání vychází z teoretických poznámek H. Baayena (viz zde). Morfologická produktivita se zde měří pomocí odhadu tendence přírůstku nových typů při přírůstku dokladů (tokenů) pro každý vzor samostatně. Ze srovnání pak vyplývá, který vzor je produktivní, protože počet jeho typů roste rychleji, s jeho formanty se pojí nové a nové báze, a který vzor je naopak neproduktivní a potenciálně uzavřený (i když třeba frekventovaný a rozsáhlý). 20 Úkol na 16. 10. 2013 •Pomocí aplikace MORFIO vyhledejte v korpusu SYN2010 kandidáty na deriváty substantiv tvořených ze sloves sufixem –č, přičemž chceme pouze názvy živých bytostí (hrát/hráč), takže např. dvojice jako vařit-vařič nás zajímá pouze v případě, že jde u vzoru dvě o označení člověka vyrábějícího pokoutně drogy a nikoli o neškodnou část běžného kuchyňského vybavení. •Popište problémy, na které jste při práci narazili a připravte si dotazy k technickým problémům. • 21