Automatická morfologická analýza z hlediska pokrytí a nepokrytí morfologických variant Klára Osolsobě, Hana Žižková osolsobe@phil.muni.cz h.zizkova@email.cz Korpusová lingvistika Praha 2016 1 Rezervy automatické morfologické analýzy •Kde se berou chyby v automatické morfologické analýze? •Jaká úskalí mohou přinést pokusy o odstranění těchto chyb? Korpusová lingvistika Praha 2016 2 Kde se berou chyby v automatické morfologické analýze? •Tvar je ve slovníku a je chybně desambiguován v důsledku tvarové homonymie •Ve slovníku automatického analyzátoru chybí adekvátní interpretace, tvar/word tudíž nemůže být správně interpretován (podgenerování na rovině slovníku) • • Korpusová lingvistika Praha 2016 3 Tvar je ve slovníku Korpusová lingvistika Praha 2016 4 a je chybně desambiguován Korpusová lingvistika Praha 2016 5 v důsledku tvarové homonymie Korpusová lingvistika Praha 2016 6 Popis homonym Korpusová lingvistika Praha 2016 7 Ve slovníku automatického analyzátoru chybí adekvátní interpretace, tvar/word tudíž nemůže být správně interpretován (podgenerování na rovině slovníku) Korpusová lingvistika Praha 2016 8 Možná řešení a jejich úskalí •Guessery •Doplňování slovníku Korpusová lingvistika Praha 2016 9 Tvar/varianta není ve slovníku, přestože jiné tvary/varianty ve slovníku jsou, tudíž nemůže být správně desambiguován Korpusová lingvistika Praha 2016 10 Nedostatečné pokrytí má vliv na nepřesnou analýzu •Řešení: DOPLNĚNÍ TVARŮ DO SLOVNÍKU = ZLEPŠENÍ VÝSLEDKŮ AUTOMATICKÉ ANALÝZY •PROBLÉMY • Korpusová lingvistika Praha 2016 11 Pokrytí slovníku je v pořádku, ale výsledky analýzy nejsou přesné •Tvar/varianta není ve slovníku, přestože jiné tvary/varianty ve slovníku jsou, je ovšem homonymní s tvarem, který ve slovníku je, a tak desambiguace je technicky vzato v pořádku, nicméně neodpovídá skutečnosti Korpusová lingvistika Praha 2016 12 Nejde o chybu v desambiguaci, ale i o podgenerovaný slovník Korpusová lingvistika Praha 2016 13 Úskalí odstranění podgenerování na rovině slovníku automatického analyzátoru •Dopad odstranění podgenerování na výsledky automatické morfologické analýzy •Typy podgenerováných jednotek Korpusová lingvistika Praha 2016 14 PODGENEROVANÉ JEDNOTKY – tvary sloves (sloveso – klíčové pro další stupně analýzy – pravidlovou desambiguaci) •Příprava manuálu pro doplnění tvarů sloves nezachycených automatickou analýzou •Zachycení tvarů sloves uzavřených tříd •Zachycení tvarů sloves otevřených tříd •Zachycení variant z hlediska dichotomie kodifikovaný a nekodifikovaný Korpusová lingvistika Praha 2016 15 Konkrétní příklady •Krácení dlouhých infinitivů (http://www.karaoketexty.cz/texty-pisni/lidove-pisne/co-sa-to-supoce-60336) •Tvar 3. pl. ind. préz. akt. Na –[eě]j (viz snímek č. 13), potenciální homonymie s tvarem 2. sg. imp. • Korpusová lingvistika Praha 2016 16 Krácení dlouhých infinitivů Korpusová lingvistika Praha 2016 17 PRO POROVNÁNÍ DATA Z KORPUSU SYN Korpusová lingvistika Praha 2016 18 A Z KORPUSU ORAL2013 Korpusová lingvistika Praha 2016 19 Homonymie imperativu 2. sg. a substandardního tvaru 3. pl. ind. préz. akt. Korpusová lingvistika Praha 2016 20 Morfio – nástroj na detekci variant (SYN2015) Korpusová lingvistika Praha 2016 21 Nejde vždy o vzor sázet a homonymii substandardního tvaru s tvarem standardním (SYN2010) Korpusová lingvistika Praha 2016 22 Závěr •Slovník automatického analyzátoru má rezervy a nedostatky jsou při využití korpusů vidět. •Doplnění slovníku a zvýšení jeho pokrytí je v zásadě možné a díky korpusům lze zajistit zachycení jak centrálních, tak okrajových variant. •Zvýšení pokrytí slovníku nemusí znamenat zlepšení přesnosti automatické morfologické analýzy. Korpusová lingvistika Praha 2016 23 Kam dál? •Chceme novou automatickou morfologickou analýzu, i když víme, že i ona bude obsahovat chyby? •Ano, ale informujme uživatele o tom, na které úrovni která chyba vzniká! • •Děkuji Vám za pozornost. • Korpusová lingvistika Praha 2016 24 Bibliografie •BABINCOVÁ, Adriana. Morfologické varianty jako problém strojové analýzy češtiny. FF MU: Brno. 2015. (Nepublikovaná bakalářská práce pod vedením K. Osolsobě). • HLAVÁČKOVÁ, Dana. Korpusové zpracování korespondenčních textů: morfologické značkování. In Hladká, Zdeňka a kol.. Soukromá korespondence jako lingvistický pramen. Vyd. 1. Brno: Masarykova univerzita, 2013. s. 19-31. • HLAVÁČKOVÁ, Dana a Klára OSOLSOBĚ. Morfologické značkování mluvených korpusů, zkušenosti a otevřené otázky. Kopřivová, Marie, Waclawičová, Martina. In Čeština v mluveném korpusu. 1. vyd. Praha: Nakladatelství Lidové noviny/ Ústav Českého národního korpusu, 2008. s. 105-114. • OSOLSOBĚ, Klára. Slovesné tvary nerozpoznané automatickou morfologickou analýzou. Rkp. 2016. •PETKEVIČ, Vladimír. Morfologická homonymie v současné češtině. Praha: Nakladatelství Lidové noviny/ Ústav Českého národního korpusu, 2016. Korpusová lingvistika Praha 2016 25