AUTOMATICKÁ MORFOLOGICKÁ ANALÝZA (TOKENIZACE, ANALÝZA A DESAMBIGUACE, TAGGING A LEMMATIZACE) Úvod do korpusové lingvistiky 4 Značkování pomocí nástrojů automatické morfologické analýzy —Morfologický slovník —Jednotky + interpretace —Word – lemma – tag —Identifikace —Obecně nejednoznačné přiřazení —disambiguce Rozdělení textu na tokeny —Token – jednotka pro další analýzu —Jednotky typu word —Textová slova —Interpunkce —problémy Lemmatizace a značkování proloženě psaného textu —p o o l Tvary s volným morfémem -s —Lemma a slovní druh (pos) Tvary se spojovníkem —První část kompozit Automatická morfologická analýza —Obecně víceznačná —Tvarová homonymie —Homonymie na úrovni slovního druhu —Slovnědruhové přechody a přesahy Tvarová homonymie Word: který —který: —P4MS1----------- —P4IS1----------- —P4IS4----------- —P4MS5----------- —P4IS5----------- — Tvarová homonymie Word: který —který: —k2gMnSc1 —k2gInSc1 —k2gInSc4 —k2gMnSc5 —k2gInSc5 — —k2gMnPc1wH k2gMnPc4wH k2gMnPc5wH —k2gInPc1wH k2gInPc4wH k2gInPc5wH —k2gFnSc2wH k2gFnSc3wH k2gFnSc6wH —k2gFnPc1wH k2gFnPc4wH k2gFnPc5wH —k2gNnSc1wH k2gNnSc4wH k2gNnSc5wH —k2gNnPc1wH k2gNnPc4wH k2gNnPc5wH — Homonymie tvarů od různých lemmat —ženu /žena —ženu/hnát —1.ř. … je <ženu/hnát/VB-S---1P-AA.*> i muže vyšetřit —3.ř. … cílem je < ženu/hnát/VB-S---1P-AA.*> ženu zaujmout Homonymie tvarů od různých lemmat pila/pila x pila/pít —5. ř. je přímo propojena s počítačem Slovnědruhové přechody a přesahy — Lemma a tag —Výsledkem automatické morfologické analýzy a desambiguce —Závisí na rozsahu a obsahu slovníku, nad nímž pracuje AMA —Závisí na použité desambiguace Rozsah a obsah slovníku —Pouze interpretace uložené ve slovníku —Pouze jednotky uložené ve slovníku —Tvary nerozpoznané AMA —Tag=X.* Desambiguace —Stochastické metody —Pravidlové metody —Hybridní metody —Guessery Desambiguace —Zjednoznačnění = volba konkrétní (kontextově správné) interpretace z nabízených možností —Problémy: nepřítomnost správné interpretace, nemožnost jednoznačně určit, která interpretace je správná Stochastické metody —Ruční analýza dat – trénovací data —Metody strojového učení —Automaticcké nástroje založené na matematické pravděpodobnosti Pravidlové metody —Implementace pravidel, která v jazyce platí (kognitivně plausibilní přístup). —Pozitivně formulovaná pravidla —Negativně formulovaná pravidla — Hybridní metody —Kombinují různé přístupy statistické a pravidlové Guesser —Hadač – program, který pracuje na různých základech (statistika/pravidla) a bez znalostní databáze (slovníku) se snaží „uhádnout“ příslušnou interpretaci. —Guessery byly testovány na korpusu SYN2005.