CJDSL001 Korpusová lingvistika (2) Klára Osolsobě osolsobe@phil.muni.cz Experimentální a počítačová lingvistika DO1 1 O čem budeme mluvit v kurzu •Krátký historický exkurz •Definice korpusu v moderním slova smyslu •Dva metodologické přístupy k vytěžování korpusu •Dva pohledy na korpus (lingvista a informatik) •Filologie a korpusy •Výuka jazyků a korpusy DO1 2 Definice korpusu v moderním slova smyslu •Elektronické uložení •Elektronická přístupnost •Definovaný obsah (ČEHO) a rozsah (KOLIK) •Standardní anotace – metada a interpretace jazykových jednotek •Rychlost, spolehlivost a opakovatelnost vyhledávání a kvantifikace nalezeného DO1 3 Dva pohledy na korpus (lingvista a informatik) •Nástroje NLP a korpusy •Konverzní programy, vertikál, tokenizér •Automatické analyzátory •Lingvistické interpretace v korpusech DO1 4 Lingvistické informace v korpusech •word/lc (slovoforma, slovní tvar, textové slovo) •lemma (základní tvar, systémové slovo, položka ve slovníku, heslové slovo) •tag (slovní druh a slovnědruhově závislé gramatické kategorie) •K čemu je lemmatizace a taggování? • Jaké jsou způsoby zaznamenání/kódování gramatických informací? • Jaké jsou problémy a jak s nimi lze pracovat? DO1 5 Tagset (instrukce pro kódování významů gramatických kategorií) https://wiki.korpus.cz/doku.php/pojmy:tag?redirect=1#tagset https://www.sketchengine.eu/tagset-reference-for-czech/#toggle-id-1 Poziční systém značek Atributivní systém značek NNMS1----------- k1gMnSc1 6 Automatická morfologická analýza / tagging Tokenizace Nejednoznačné přiřazení lemmatu a tagu (na základě slovníku) Desambiguace 7 lemma a lemmatizace Lemmatizace - přiřazení systémového slova / základního tvaru slova k textovému slovu / slovnímu tvaru / slovoformě Čím je tvarosloví bohatší, tím je lemmatizace žádoucnější Základní tvar / lemma odpovídá slovníkovému tvaru Diskutabilní jsou různé případy: a) spřežky (jeden grafický útvar představuje více slovních tvarů, a tedy i potenciálně více lemmat); b) analytické tvary a tzv. jednoslovná morfologie; c) lemmatizace slov, která nemají standardní základní tvar (např. jaké je lemma tvarů pozdě bycha honit, křížem krážem, panečku, ...); d) nakolik koresponduje lemmatizace v korpusu a tradiční hnízdování / paradigmatické tvoření (např. syntetické stupňování, verbální substantiva, adjektivizovaná participia, přechylování, posesivní adjektiva, ...); e) lemmatizace z hlediska variant a variantní lemma Pokud je zvoleno technické řešení na úkor lingvistické tradice/školy/teorie, pak by mělo být konzistentně dodrženo pro všechny analogické případy a vysvětleno na úrovni uživatelských příruček. 8 Vyhledání slovního tvaru jít DO1 9 Vyhledání lemmatu jít (KWIC+lemma+tag) DO1 10 Lze vyhledat systémová slova bez pomoci lemmatizace / v nelemmatizovaném korpusu? DO1 11 •[lemma="jít"] •[lc="(jít|jíti|nejít|nejíti|jd(u|e|e|ou|eš|e[mt]e)|(ne|pů|nepů)jd(u| e|e|ou|eš|e[mt]e)|šel|šl[aoiy]|nešel|nešl[aoiy]|jd(i|ě [mt]e)|nejd(i|ě[mt]e)|nechoď|nechoď[mt]e|pojď|pojď[mt]e)"] Na co se zapomnělo? DO1 12 BOHUŽEL DO1 13 Jak tedy funguje automatická morfologická analýza? •Tokenizace (= rozdělení textu na jednotky, s nimiž bude nadále automatická analýza pracovat). Token se vždy nerovná textovému slovu. Textové slovo se vždy nerovná grafickému slovu (Gazette de Villette, Joffrey de Peyrac, × Jak to de?). •Přiřazení všech interpretací nalezených ve slovníku morfologického analyzátoru. NEJEDNOZNAČNOST výsledků dodaných ze slovníku. •Desambiguace – výběr jediné interpretace (desideratum - kontextově odpovídající). DO1 14 Tagování v korpusu SYN2020 https://wiki.korpus.cz/doku.php/cnk:syn2020:tag DO1 15 Proč je desambiguace obtížná? •Pánové, nežeňte se •Nemluv a rožni. •Jan je osel. DO1 16 Víceznačné tvary •nežeňte/(ne)hnat/V •nežeňte/(ne)ženit/V •se/se/P •se/s/R •rožni/rožnit/V •rožni/rozžehnout/V •rožni/rožeň/N •je/být/V •je/on/P •osel/osel/N •osel/osít/V DO1 17 hnát/ženit DO1 18 být/on DO1 19 rožeň/rožnit/rozžehnout DO1 20 Desambiguace Statistická Pravidlová (různé postupy - pravidla založená na syntaktických vztazích i na kolokacích) Hybridní 21 HOMONYMIE DO1 22 Závěr •Lemmatizace a tagging – užitečný nástroj •Výsledky automatické analýzy je třeba prověřit s ohledem na záměr, který sleduje analýza dat •Výsledky automatické analýzy lze zlepšovat • Pokud pracujeme s výsledky automatické analýzy (s anotovaným korpusem), pak je třeba seznámit se i se způsoby automatické anotace a s řešením sporných / obtížných otázek. • Pokud je desambiguace ve většině případů správně, pak s ní lze pracovat. Pokud je velmi špatná, je třeba hledat cesty, jak se bez ní obejít. Ty pak mohou být inspirací jak pro její zlepšení, tak pro uživatele neanotovaných korpusů. DO1 23 Vyzkoušejte •Viděli jsme, že jedním z problémů, který ovlivňuje desambiguaci, je i tokenizace jednotek, které z lingvistického pohledu tvoří jedno textové slovo. Zamyslete se nad postupem, který by umožnil filtrovat případy, kdy slovní tvar di není substandardním imperativem 2. osoby sg. slovesa jít. •Tvar kolem lze interpretovat jako substantivum, adverbium, nebo předložku. Pozorujte výsledky desambiguace tvaru kolem jako substantiva v korpusu SYN2020 v případě, že za tvarem kolem následuje tvar jména v genitivu a zamyslete se nad tím, jak by bylo možné chyby v desambiguaci filtrovat. •V korpusu synv8 vyhledejte tvar rožni a pokuste se najít postup, jak filtrovat případy, kdy tvar je imperativem slovesa rozsvítit. DO1 24 Vyzkoušejte Mezijazyková homonyma jsou jedním z problémů homonymie. Tak např. “my” je v češtině i angličtině slovo, v obou jazycích jde o zájmeno a v obou jazycích je frekventované. Přesto je žádoucí, aby vyskytne-li se v textu A slovo z jazyka B, bylo toto slovo správně desambiguováno (aby bylo správně rozpoznáno na všech úrovních automatické analýzy). Podívejte se do korpusu syn2020 na tvar “my”zobrazte jeho interpretace na úrovni morfologické značky a pokuste se zamyslet nad způsobem, jakým by bylo možné postupovat při snaze zlepšit desambiguaci. Porovnejte rozdíly ve značkování korpusů řady syn a korpusů webových dostupných přes Sketch Engine a pokuste se najít strategii pro řešení úkolu v korpusu cztenten. (Na to, jak blízké vztahy máme, tak přišli po dost dlouhé době, ale zatímco jsme my baby kecaly, chlapi navrtali sádroše na strop koupelny.) 25 Vyzkoušejte Vyzkoušejte např. v BNC podobným způsobem najít případy, kdy tvar die není tvarem anglického slovesa. Poměrně velmi zle vypadají výsledky desambiguace tvaru house v korpusu synv8. Navrhněte, jak byste postupovali, pokud byste chtěli najít skutečné doklady, kdy jde o neutrum pojmenovávající mládě husy. 26 Tagsety v korpusech sketch engine: https://www.sketchengine.eu/tagsets/ •https://www.sketchengine.eu/tagset-reference-for-czech/ DO1 27 Otázky •Které tagsety používáte? •Jaké jsou jejich výhody/nevýhody? •Jaké jsou problémy automatické analýzy u jazyků typologicky odlišných od češtiny? DO1 28 Děkuji vám za pozornost DO1 29