Jakub Machura Masarykova univerzita Filozofická fakulta machura@phil.muni.cz podzim 2020 PLIN034 Algoritmický popis syntaxe Počítačové zpracování přirozeného jazyka Organizace předmětu https://is.muni.cz/auth/predmet/phil/podzim2020/PLIN034 NLP = Natural Language Processing NLP = Natural Language Processing Co je NLP? NLP = Natural Language Processing Co je NLP? mluvené slovo × strojově čitelný text NLP = Natural Language Processing Co je NLP? mluvené slovo × strojově čitelný text analýza × syntéza jazyka NLP Kam zapadá syntax a syntaktická analýza? Dílčí úkoly analýzy jazyka Dílčí úkoly analýzy jazyka Tokenizace Dílčí úkoly analýzy jazyka Tokenizace „Chcete-li mi to dát, neváhejte!“ Tokenizace „Chcete-li mi to dát, neváhejte!“ „ Chcete - li mi to dát , neváhejte ! “ Tokenizace ohlas -imperativ slovesa ohlásit -nom./akuz. substantiva ohlas -2. os. sg. fem. minulého času slovesa ohnout Tokenizace ohlas Větná segmentace Větná segmentace - explicitně vyznačený začátek i konec věty - Větná segmentace -explicitně vyznačený začátek i konec věty např. XML: - Větná segmentace -explicitně vyznačený začátek i konec věty např. XML: - Větná segmentace Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu. Větná segmentace Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu. Větná segmentace Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu. Jak to vyřešit? Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu. Jak to vyřešit? Další problémy? Větná segmentace Morfologická analýza - Morfologická analýza lemma, lemmatizace Morfologická analýza lemma, lemmatizace Morfologická analýza lemma, lemmatizace tag, tagging Morfologická analýza lemma, lemmatizace tag, tagging, tagger desambiguace Tagging -většinou založena na statistických modelech, někdy kombinováno s pravidly Tagging -většinou založena na statistických modelech, někdy kombinováno s pravidly -ruční anotace Tagging -většinou založena na statistických modelech, někdy kombinováno s pravidly -ruční anotace -statistika četnosti značek Tagging -většinou založena na statistických modelech, někdy kombinováno s pravidly -ruční anotace -statistika četnosti značek -„natrénování“ taggeru Desambiguace stochastická/statistická Desambiguace stochastická/statistická založená na ling. pravidlech Desambiguace stochastická/statistická založená na ling. pravidlech hybridní Desambiguace Syntaktická desambiguace Desambiguace Syntaktická desambiguace František hrál v altánu šachy se svým ruským přítelem. Desambiguace Syntaktická desambiguace František hrál v altánu šachy se svým ruským přítelem. Desambiguace Sémantická desambiguace Desambiguace Sémantická desambiguace využívat zařízení Desambiguace Sémantická desambiguace využívat zařízení dělat chyby ve skloňování Parsing = Syntaktická analýza Parsing Cíle: -„porozumět“ gramatice př. jaz. -odhalit povrchovou strukturu (větný rozbor) Parsing Výsledky: -orientované grafy (tzv. stromy) závislostní × složkový Parsing Překážky: -pro čj bohatá morfologie a rel. volný slovosled Parsing Překážky: -pro čj bohatá morfologie a rel. volný slovosled -velké množství teoretických východisek Parsing Překážky: -pro čj bohatá morfologie a rel. volný slovosled -velké množství teoretických východisek -subjektivita syntaxe Parsing Překážky: -pro čj bohatá morfologie a rel. volný slovosled -velké množství teoretických východisek -subjektivita syntaxe Faxu škodí především přetížené telefonní linky. Parsing Víceznačnost: Parsing Víceznačnost: 1. Předložkové fráze (PP) Parsing Víceznačnost: 1.Předložkové fráze (PP) Charles talked about cooking with Britney Spears. 1.Předložkové fráze (PP) I saw the man on the hill with the telescope. 1.Předložkové fráze (PP) I saw the man on the hill with the telescope. Different interpretations of the structure of text. Source: Gatius 2019, slide 5. 1.Předložkové fráze (PP) I saw the man on the hill with the telescope. Different interpretations of the structure of text. Source: Gatius 2019, slide 5. 1.Předložkové fráze (PP) I saw the man on the hill with the telescope. Different interpretations of the structure of text. Source: Gatius 2019, slide 5. 1.Předložkové fráze (PP) I saw the man on the hill with the telescope. Different interpretations of the structure of text. Source: Gatius 2019, slide 5. 1.Předložkové fráze (PP) I saw the man on the hill with the telescope. Different interpretations of the structure of text. Source: Gatius 2019, slide 5. 2. Elipsa (gap) Marie má ráda fyziku, ale nesnáší chemii. [Mary likes Physics but hates Chemistry.] 2. Elipsa (gap) Marie má ráda fyziku, ale nesnáší chemii. [Mary likes Physics but hates Chemistry.] 3. Koordinační konstrukce Small boys and girls are playing. Dřevěná vrata a okna natřel nabílo. 4. Slovnědruhová homonymie She ran up a large bill. She ran up a large hill. 4. Slovnědruhová homonymie She ran up a large bill. [částici] She ran up a large hill. [předložka] 4. Slovnědruhová homonymie She ran up a large bill. [částici] She ran up a large hill. [předložka] Umyl se úplně celý. Umyl se žínkou nádobí. 4. Slovnědruhová homonymie She ran up a large bill. [částici] She ran up a large hill. [předložka] Umyl se úplně celý. [zvratné zájmeno] Umyl se žínkou nádobí. [předložka] 4. Slovnědruhová homonymie Frightening kids can cause troubles. [gerundium vs. adjektivum] 4. Slovnědruhová homonymie Frightening kids can cause troubles. [gerundium vs. adjektivum] Zdraví nemocnému nevěří. Zdraví si musíme chránit. Zdraví vás z Krušných hor. Základní termíny slovo Základní termíny slovo autosémantika, synsémantika Základní termíny slovo autosémantika, synsémantika fráze, idiomy Základní termíny lexikální symbol, lexikální kategorie (lexical category) Základní termíny lexikální symbol, lexikální kategorie (lexical category) -tzv. preterminál, speciální neterminál gramatiky, který se přímo přepisuje na terminálový řetězec znaků, tj. pravidla tvaru X → w Základní termíny lexikální symbol, lexikální kategorie (lexical category) -tzv. preterminál, speciální neterminál gramatiky, který se přímo přepisuje na terminálový řetězec znaků, tj. pravidla tvaru X → w Základní termíny frázová kategorie (phrasal category) -neterminální symbol gramatiky, který nevyjadřuje lexikální kategorii Základní termíny frázová kategorie (phrasal category) -neterminální symbol gramatiky, který nevyjadřuje lexikální kategorii Základní termíny složka (konstituent, fráze) -lexikální nebo frázová kategorie Osvobození hrdinnou Sovětskou armádou jsme oslavili v letošním roce obzvláště důstojně. NP: Sovětskou armádou NP: hrdinnou Sovětskou armádou NP: Osvobození hrdinnou Sovětskou armádou VP: jsme oslavili PP: v letošním roce AdvP: obzvláště důstojně S: Osvobození hrdinnou Sovětskou armádou jsme oslavili v letošním roce obzvláště důstojně Základní termíny větná struktura Základní termíny klauze (clause) Literatura Nový encyklopedický slovník češtiny online: https://www.czechency.org/ hesla: Počítačové zpracování přirozeného jazyka, Tokenizace, Větná segmentace, Morfologická analýza, Lemmatizace, Desambiguace, Tagger, Parsing, Složka, Klauze