PA153 Počítačové zpracování přirozeného jazyka 04 - Sémantika I (reprezentace lexikálního významu) Karel Pala, Zuzana Nevěřilová Centrum ZPJ, Fl MU, Brno 17. října 2018 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 1/32 Q Lexikální význam Q Slovníkové heslo Q Nalezení významu v kontextu • Algoritmy lexikálni desambiguace Q Popis lexikálních významů pro ZPJ Sémantické primitivy Sémantické třídy • Sémantické vektory Q Shrnutí Lexikální význam lexikální význam (lexical meaning): izolovaný význam slova [Oxford Dictionaries, 2013] bez ohledu na význam věty, ve které se slovo nachází • bez ohledu na gramatické kategorie Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 3/32 Lexikální význam lexikální význam (lexical meaning): izolovaný význam slova [Oxford Dictionaries, 2013] bez ohledu na význam věty, ve které se slovo nachází • bez ohledu na gramatické kategorie jiné významy: gramatický význam, význam slov a význam vět Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 3/32 Lexikální význam lexikální význam (lexical meaning): izolovaný význam slova [Oxford Dictionaries, 2013] bez ohledu na význam věty, ve které se slovo nachází • bez ohledu na gramatické kategorie jiné významy: gramatický význam, význam slov a význam vět • kuře - kuřata 9 frekvence - kmitočet • Pan profesor běží na tramvaj. Gepard běží za kořistí. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 3/32 Lexikální forma a lexikální význam Lexikální jednotka (lexical unit, LU) [Ziková, 2003]: • reprezentována lexikální formou • asociována s určitým lexikálním významem • má určité gramatické vlastnosti (např. tranzitivní sloveso) • může mít určité pragmatické vlastnosti (např. já je pokaždé někdo jiný) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 4/32 Lexikální forma a lexikální význam Lexikální jednotka (lexical unit, LU) [Ziková, 2003]: • reprezentována lexikální formou • asociována s určitým lexikálním významem • má určité gramatické vlastnosti (např. tranzitivní sloveso) • může mít určité pragmatické vlastnosti (např. já je pokaždé někdo jiný) 9 LU se stejným významem, ale jinou formou Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 4/32 Lexikální forma a lexikální význam Lexikální jednotka (lexical unit, LU) [Ziková, 2003]: • reprezentována lexikální formou • asociována s určitým lexikálním významem • má určité gramatické vlastnosti (např. tranzitivní sloveso) • může mít určité pragmatické vlastnosti (např. já je pokaždé někdo jiný) 9 LU se stejným významem, ale jinou formou synonymie (např. šalina, tramvaj, šmirgl) • LU se stejnou formou, ale jiným významem Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 4/32 Lexikální forma a lexikální význam Lexikální jednotka (lexical unit, LU) [Ziková, 2003]: • reprezentována lexikální formou • asociována s určitým lexikálním významem • má určité gramatické vlastnosti (např. tranzitivní sloveso) • může mít určité pragmatické vlastnosti (např. já je pokaždé někdo jiný) 9 LU se stejným významem, ale jinou formou synonymie (např. šalina, tramvaj, šmirgl) • LU se stejnou formou, ale jiným významem homonymie (např. kolej) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 4/32 Kde najít informace o lexikálním významu? Pro nás slovník/lexikon/lexikální databáze = soubor lexikálních jednotek (LU) strojově čitelné slovníky = machine readable dictionaries □ Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 5/32 Struktura slovníkového hesla bez -U m. (ó.j. -u) 1. šeřík (bot), modrý, bílý b.; kytice bezu 2. vysoký keř s květemtvim drobných nažloutlých květů, které dozrávají na podzim v drobně černé bobulky (bezinky); bez černý (bot): třást bez(em); [x] zůstat pod bezem neprovdat se; ob. expr. jdi mi s tím na b. dej pokoj; bot. rod Sambucus: b. černý; b. hroznatý 3. ob. květ černého bezu: vařit čaj z bezu; přen. odvar z bezového květu: pít teplý b. (Jir.) • lexikální forma • gramatické vlastnosti • definice • kolokace • příklady užití • odvozené lexikální formy (hnízdování) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 6/ Kolokace jako slovníkové heslo pevné kolokace: zakopaný pes, devítiocasá kočka, slaměný vdovec, New York, křížem krážem, ad hoc porušují princip kompozicionality samostatná slovníková hesla? Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I Kolokace jako slovníkové heslo pevné kolokace: zakopaný pes, devítiocasá kočka, slaměný vdovec, New York, křížem krážem, ad hoc porušují princip kompozicionality samostatná slovníková hesla? v NLP se používá termín multiword expression (MWE) je důležité MWE identifikovat, např. pro strojový překlad: o zamrzlé MWE: ad hoc • pevné MWE: zakopaný pes, zakopaného psa, *zakopaní psi, dejme tomu • syntaktické anomálie: cobydup, coby dup, co by dup 9 MWE s možnou přetržkou: více méně, více či méně • MWE jako vzory (patterns): vzít na hůl Více informací v [Constant et al., 2017] Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 7/32 Slovníkové definice a hyperonymie bez -U m. (6. j. -u) 1. šeřík (bot), modrý, bílý b.; kytice bezu 2. vysoký keř s kvetemtvim drobných nažloutlých květů, které dozrávají na podzim v drobně černé bobulky (bezinky); bez černý (bot): třást bez(em); [x] zůstat pod bezem neprovdat se; ob. expr. jdi mi s tím na b. dej pokoj; bot. rod Sambucus: b. černý; b. hroznatý 3. ob. květ černého bezu: vařit čaj z bezu; přen. odvar z bezového květu: pít teplý b. (Jir.) Definice pomocí synonym: bez = šeřík Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 8 / Slovníkové definice a hyperonymie bez -U m. (6. j. -u) 1. šeřík (bot), modrý, bílý b.; kytice bezu 2. vysoký keř s kvetemtvim drobných nažloutlých květů, které dozrávají na podzim v drobně černé bobulky (bezinky); bez černý (bot): třást bez(em); [x] zůstat pod bezem neprovdat se; ob. expr. jdi mi s tím na b. dej pokoj; bot. rod Sambucus: b. černý; b. hroznatý 3. ob. květ černého bezu: vařit čaj z bezu; přen. odvar z bezového květu: pít teplý b. (Jir.) Definice pomocí synonym: Definice klasická: bez = vysoký keř s květenstvím drobných nažloutlých květů... [Havránek et al., 1960] bez = šeřík Slovníkové definice a hyperonymie bez -U m. (6. j. -u) 1. šeřík (bot), modrý, bílý b.; kytice bezu 2. vysoký keř s kvetemtvim drobných nažloutlých květů, které dozrávají na podzim v drobně černé bobulky (bezinky); bez černý (bot): třást bez(em); [x] zůstat pod bezem neprovdat se; ob. expr. jdi mi s tím na b. dej pokoj; bot. rod Sambucus: b. černý; b. hroznatý 3. ob. květ černého bezu: vařit čaj z bezu; přen. odvar z bezového květu: pít teplý b. (Jir.) Definice pomocí synonym: Definice klasická: bez = vysoký keř s květenstvím drobných nažloutlých květů... [Havránek et al.f 1960] bez = šeřík Slovníkové definice a hyperonymie bez -U m. (6. j. -u) 1. šeřík (bot), modrý, bílý b.; kytice bezu 2. vysoký keř s kvetemtvim drobných nažloutlých květů, které dozrávají na podzim v drobně černé bobulky (bezinky); bez černý (bot): třást bez(em); [x] zůstat pod bezem neprovdat se; ob. expr. jdi mi s tím na b. dej pokoj; bot. rod Sambucus: b. černý; b. hroznatý 3. ob. květ černého bezu: vařit čaj z bezu; přen. odvar z bezového květu: pít teplý b. (Jir.) Definice pomocí synonym: Definice klasická: bez = vysoký keř s květenstvím drobných nažloutlých květů... [Havránek et al., 1960] bez = šeřík Nalezení významu v kontextu se znalostí lexikálního významu mnohdy nevystačíme =4> je třeba znát kontext Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Nalezení významu v kontextu se znalostí lexikálního významu mnohdy nevystačíme =4> je třeba znát kontext lexikální desambiguace (Word Sense Disambiguation) funkce: (1/1/, c) —> s • l/l/ G W - množina slov • c G C - množina kontextů 9 s G S - množina významů Naivní Leskův algoritmus: list (SSJC) [Lesk, 1986] O jeden ze základních orgánů rostlin, zprav, do plochy rozšířený a velmi různých tvarů; lupen: kaštanový, dubový, javorový I.; velký, malý I.; drobné listy borůvčí; široké listy lip; zelné listy; fíkový I., přen. (ve výtv. dílech) jeho zpodobení zakrývající ohanbí, jednání ap. věcně něco zastírající; Q kniž. a nář. listí: svěžím listem zalesklo se habří (Jir.); stromy obalily se listem (Něm.) O kus papíru čtyřúhelníkového tvaru, zprav, určený k psaní, tisku ap.: sešit o 24 listech; titulní I. v knize; I. pergamenu; cyklus grafických listů; její duše je nepopsaný I. (kniž.) nemá zkušenosti; zpívat, hrát přímo z listu z notového partu bez cvičení; ... O kniž. a zast. dopis, psaní: zalepený, zapečetěný I.; otevřený I.; veřejný, osobní I.; listy Jana Nerudy; hist. opovědný, odporný, výhostní I.; cirk. apoštolský, pastýřský I. provolání, výzva papeže, biskupa O úřední listina o něčem svědčící, k něčemu opravňující: rodný, domovský (dř.), oddací, úmrtní I.; výuční, živnostenský I.; odběrní, dodací I.; nákladní I.; záruční, zástavní I.; vůdčí I. (dř.) řidičský 04 - Sémantika I 10/32 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Naivní Leskův algoritmus: vstup Ještě lepším řešením by bylo vydat se evropskou cestou: zbavit se úvěrů bez zodpovědnosti dlužníka a rozvinout systém financí založený na zástavních listech, jako jsou německé Pfandbriefe. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 11 Naivní Leskův algoritmus: vstup Ještě lepším řešením by bylo vydat se evropskou cestou: zbavit se úvěrů bez zodpovědnosti dlužníka a rozvinout systém financí založený na zástavních listech, jako jsou německé Pfandbriefe. {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 11 Naivní Leskův algoritmus {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} l:{a, borůvčí, dílo, do, drobný, dubový, fíkový, javorový, jeden, jednání, kaštanový, lípa, lupen, malý, ohanbí, orgán, plocha, rostlina, rozšířený, různý, široký, tvar, věčně, velký, velmi, ... } 2:{habří, listí, obalit, se, strom, svěží, zalesknout} 3:{bez, být, cvičení, cyklus, čtyřúhelníkový, dnes, duše, grafický, hráč, hrát, jeden, jeho, jiný, k, karta, kniha, který, kus, mít, mluvit, něco, notový, o, obrátit, on, padat, papír, part, pergamen, popsaný, přímo, psaní, ruka, se, sešit, situace, souhrn, štěstí, tvar, určený, v, tisk, titulní, z, . .. } 4:{apoštolský, biskup, dopis, Jan, Neruda, odporný, opovědný, osobní, otevřený, papež, pastýřský, provolání, psaní, veřejný, výhostní, výzva, zalepený, zapečetěný} 5:{dodací, domovský, k, kniha, listina, nákladní, něco, o, odběrní, oddací, opravňující, průkaz, pozemkový, rodný, řidičský, svědčící, úmrtní, úřední, vůdčí, výuční, záruční, zástavní, živnostenský} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 12/32 Naivní Leskův algoritmus {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} l:{a, borůvčí, dílo, do, drobný, dubový, fíkový, javorový, jeden, jednání, kaštanový, lípa, lupen, malý, ohanbí, orgán, plocha, rostlina, rozšířený, různý, široký, tvar, věčně, velký, velmi, ... } 2:{habří, listí, obalit, se, strom, svěží, zalesknout} 3:{bez, být, cvičení, cyklus, čtyřúhelníkový, dnes, duše, grafický, hráč, hrát, jeden, jeho, jiný, k, karta, kniha, který, kus, mít, mluvit, něco, notový, o, obrátit, on, padat, papír, part, pergamen, popsaný, přímo, psaní, ruka, se, sešit, situace, souhrn, štěstí, tvar, určený, v, tisk, titulní, z, . .. } 4:{apoštolský, biskup, dopis, Jan, Neruda, odporný, opovědný, osobní, otevřený, papež, pastýřský, provolání, psaní, veřejný, výhostní, výzva, zalepený, zapečetěný} 5:{dodací, domovský, k, kniha, listina, nákladní, něco, o, odběrní, oddací, opravňující, průkaz, pozemkový, rodný, řidičský, svědčící, úmrtní, úřední, vůdčí, výuční, záruční, zástavní, živnostenský} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 12/32 Naivní Leskův algoritmus {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} l:{a, borůvčí, dílo, do, drobný, dubový, fíkový, javorový, jeden, jednání, kaštanový, lípa, lupen, malý, ohanbí, orgán, plocha, rostlina, rozšířený, různý, široký, tvar, věčně, velký, velmi, ... } 2:{habří, listí, obalit, se, strom, svěží, zalesknout} 3:{bez, být, cvičení, cyklus, čtyřúhelníkový, dnes, duše, grafický, hráč, hrát, jeden, jeho, jiný, k, karta, kniha, který, kus, mít, mluvit, něco, notový, o, obrátit, on, padat, papír, part, pergamen, popsaný, přímo, psaní, ruka, se, sešit, situace, souhrn, štěstí, tvar, určený, v, tisk, titulní, z, . .. } 4:{apoštolský, biskup, dopis, Jan, Neruda, odporný, opovědný, osobní, otevřený, papež, pastýřský, provolání, psaní, veřejný, výhostní, výzva, zalepený, zapečetěný} 5:{dodací, domovský, k, kniha, listina, nákladní, něco, o, odběrní, oddací, opravňující, průkaz, pozemkový, rodný, řidičský, svědčící, úmrtní, úřední, vůdčí, výuční, záruční, zástavní, živnostenský} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 12/32 Naivní Leskův algoritmus {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} l:{a, borůvčí, dílo, do, drobný, dubový, fíkový, javorový, jeden, jednání, kaštanový, lípa, lupen, malý, ohanbí, orgán, plocha, rostlina, rozšířený, různý, široký, tvar, věčně, velký, velmi, ... } 2:{habří, listí, obalit, se, strom, svěží, zalesknout} 3:{bez, být, cvičení, cyklus, čtyřúhelníkový, dnes, duše, grafický, hráč, hrát, jeden, jeho, jiný, k, karta, kniha, který, kus, mít, mluvit, něco, notový, o, obrátit, on, padat, papír, part, pergamen, popsaný, přímo, psaní, ruka, se, sešit, situace, souhrn, štěstí, tvar, určený, v, tisk, titulní, z, . .. } 4:{apoštolský, biskup, dopis, Jan, Neruda, odporný, opovědný, osobní, otevřený, papež, pastýřský, provolání, psaní, veřejný, výhostní, výzva, zalepený, zapečetěný} 5:{dodací, domovský, k, kniha, listina, nákladní, něco, o, odběrní, oddací, opravňující, průkaz, pozemkový, rodný, řidičský, svědčící, úmrtní, úřední, vůdčí, výuční, záruční, zástavní, živnostenský} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 12/32 Naivní Leskův algoritmus {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} l:{a, borůvčí, dílo, do, drobný, dubový, fíkový, javorový, jeden, jednání, kaštanový, lípa, lupen, malý, ohanbí, orgán, plocha, rostlina, rozšířený, různý, široký, tvar, věčně, velký, velmi, ... } 2:{habří, listí, obalit, se, strom, svěží, zalesknout} 3:{bez, být, cvičení, cyklus, čtyřúhelníkový, dnes, duše, grafický, hráč, hrát, jeden, jeho, jiný, k, karta, kniha, který, kus, mít, mluvit, něco, notový, o, obrátit, on, padat, papír, part, pergamen, popsaný, přímo, psaní, ruka, se, sešit, situace, souhrn, štěstí, tvar, určený, v, tisk, titulní, z, . .. } 4:{apoštolský, biskup, dopis, Jan, Neruda, odporný, opovědný, osobní, otevřený, papež, pastýřský, provolání, psaní, veřejný, výhostní, výzva, zalepený, zapečetěný} 5:{dodací, domovský, k, kniha, listina, nákladní, něco, o, odběrní, oddací, opravňující, průkaz, pozemkový, rodný, řidičský, svědčící, úmrtní, úřední, vůdčí, výuční, záruční, zástavní, živnostenský} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 12/32 Naivní Leskův algoritmus {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} l:{a, borůvčí, dílo, do, drobný, dubový, fíkový, javorový, jeden, jednání, kaštanový, lípa, lupen, malý, ohanbí, orgán, plocha, rostlina, rozšířený, různý, široký, tvar, věčně, velký, velmi, ... } 2:{habří, listí, obalit, se, strom, svěží, zalesknout} 3:{bez, být, cvičení, cyklus, čtyřúhelníkový, dnes, duše, grafický, hráč, hrát, jeden, jeho, jiný, k, karta, kniha, který, kus, mít, mluvit, něco, notový, o, obrátit, on, padat, papír, part, pergamen, popsaný, přímo, psaní, ruka, se, sešit, situace, souhrn, štěstí, tvar, určený, v, tisk, titulní, z, . .. } 4:{apoštolský, biskup, dopis, Jan, Neruda, odporný, opovědný, osobní, otevřený, papež, pastýřský, provolání, psaní, veřejný, výhostní, výzva, zalepený, zapečetěný} 5:{dodací, domovský, k, kniha, listina, nákladní, něco, o, odběrní, oddací, opravňující, průkaz, pozemkový, rodný, řidičský, svědčící, úmrtní, úřední, vůdčí, výuční, záruční, zástavní, živnostenský} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 12/32 Naivní Leskův algoritmus Ještě lepším řešením by bylo vydat se evropskou cestou: zbavit se úvěrů bez zodpovědnosti dlužníka a rozvinout systém financí založený na zástavních listech, jako jsou německé Pfandbriefe. {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} Di = {a} D2 = {se} D3 = {bez, být, se} D* = {} D5 = {zástavní} Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 13 Naivní Leskův algoritmus Ještě lepším řešením by bylo vydat se evropskou cestou: zbavit se úvěrů bez zodpovědnosti dlužníka a rozvinout systém financí založený na zástavních listech, jako jsou německé Pfandbriefe. {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} Di = {a} D2 = {se} D3 = {bez, být, se} D* = {} D5 = {zástavní} kus papíru čtyřúhelníkového tvaru, zprav, určený k psaní, tisku ap. ... Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 13 Naivní Leskův algoritmus Ještě lepším řešením by bylo vydat se evropskou cestou: zbavit se úvěrů bez zodpovědnosti dlužníka a rozvinout systém financí založený na zástavních listech, jako jsou německé Pfandbriefe. {a, bez, by, být, cesta, dlužník, dobrý, evropský, finance, jako, ještě, německý, rozvinout, řešení, se, systém, úvěr, vydat, založený, zástavní, zbavit, zodpovědnost} Di = {a} D2 = {se} D3 = {bez, být, se} D* = {} D5 = {zástavní} úřední listina o něčem svědčící, k něčemu opravňující Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 13 WSD založené na metodách strojového učení [Yarowsky, 1995] O stanovit význam u pevných kolokací (ručně nebo ze slovníku) obrátit list (list:3), živnostenský list (list:5), ... O iterativně zjistit další kolokace kopie (živnostenského listu) kopie oddacího listu (list:5) O opakovat, dokud desambiguované množiny nepřestanou narůstat Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I WSD založené na metodách strojového učení [Yarowsky, 1995] O stanovit význam u pevných kolokací (ručně nebo ze slovníku) obrátit list (list:3), živnostenský list (list:5), ... O iterativně zjistit další kolokace kopie (živnostenského listu) kopie oddacího listu (list:5) O opakovat, dokud desambiguované množiny nepřestanou narůstat Algoritmus natrénovaný na obecném korpusu je použitelný na dalších textech. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I Slabiny WSD (w. c) S • w G W - množina slov • c G C - množina kontextů • s G S - množina významů Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Slabiny WSD (i/i/, c) —y s • l/l/ G W - množina slov • c G C - množina kontextů • s G 5 - množina významů Všechny algoritmy WSD závisejí na inventáři a popisu významů. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 15/32 Slabiny WSD (i/i/, c) —y s • l/l/ G W - množina slov • c G C - množina kontextů • s G 5 - množina významů Všechny algoritmy WSD závisejí na inventáři a popisu významů. Kolik významů má slovo list? 9 SSJČ: 8 • SSČ: 6 • Slovník českých synonym: 4 • Český WordNet: 9 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 15/32 WSD nebo WSD Algoritmy, které nepočítají s pevným inventářem významů, jen s kontextem: Word Sense Discrimination nebo Word Sense Induction Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 16/32 WSD nebo WSD Algoritmy, které nepočítají s pevným inventářem významů, jen s kontextem: Word Sense Discrimination nebo Word Sense Induction production equips Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka ÍVéronis. 20041 04 - Sémantika I 16/32 Komponentová analýza (Componential analysis) = popis významu slov pomoci množiny sémantických rysů (primitiv), které jsou buď přítomny, nebo nepřítomny, nebo irelevantní pro daný význam: • muž = +HUMAN +ADULT +MALE • žena = +HUMAN +ADULT -MALE • chlapec = +HUMAN -ADULT +MALE • batole = +HUMAN -ADULT ±MALE [Katz and Fodor, 1963] a [Bierwisch, 1971] Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 17/32 Komponentová analýza (Componential analysis) I označení popis příklad T tempus, čas den, rok, leden, soumrak L locus, místo dům, chrám, světadíl, břeh BYT bytost víla HUM člověk strejda, rada, bača ANIM zvíře pes, slon, velbloud PLÁNT rostlina strom, kosatec QUA vlastnost nespokojenec, povýšenec + HUM FEN fenomén úkaz, zázrak ENT entita protiklad, argument OBJ objekt, předmět stůl, krb, ale i dům (OBJ + L) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 18/32 Komponentová analýza (Componential analysis) II označení popis příklad INF informace telefonát, článek, vzkaz EMO emoce cit, radost, strach, neklid, úsměv INS instrument, nástroj nuz, sip hřeben MACH stroj, aparát, zařízení počítač PROC proces zážeh, postup, pokrok MOT pohyb běh, let, pád AKT aktivita, činnost boj, odboj, příchod MAT materiál hlína, dřevo BP část těla (body part) prst, krk ORG organizace, instituce vláda Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 19/32 Sémantické třídy = skupiny slov, která sdílejí určitý sémantický rys Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Sémantické třídy = skupiny slov, která sdílejí určitý sémantický rys obratlovec - savec - šelma - psovitá šelma - pes - pudl - trpasličí pudl Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 20/32 Sémantické třídy = skupiny slov, která sdílejí určitý sémantický rys obratlovec - savec - šelma - psovitá šelma - pes - pudl - trpasličí pudl taxonomie, hierarchie tříd Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 20/32 Sémantické třídy, Porfyriův strom Supreme genus: Differentiae: Subordinate genera: Differentiae: Subordinate genera: Differentiae: Proximate genera: Differentiae: Species: Substance immaterial Body Spirit sensitive insensitive Animal Plant irrational Human Beast InttividitatM Socrates Plato Aristotle etc. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 21/32 Sémantické třídy, sémantické sítě, odvozování Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 22/32 Sémantické třídy, sémantické sítě, odvozování Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 22/32 Sémantické sítě WordNet (Princeton WordNet, PWN) - lexikální síť 9 původně nástroj k ověření teorie o uspořádání lidské paměti (G. A. Miller, od r. 1985) počítačově dobře zpracovatelný zdroj informací o významech slov a vztazích mezi významy [Fellbaum, 1998] • jednotkou je synonymická řada (synonymical set, synset) • syn sety jsou spojeny relacemi: ► hyperonymie/hyponymie: vůz, automobil - dodávka ► holonymie/meronymie (part of, member of): vůz, automobil - tlumič; orchestr - houslista ► near-antonym: den - noc ► odvození: velikost - velký slovní druhy: substantiva, adjektiva, verba, adverbia Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 23/32 Word Net angličtina: PWN (117 tis. synsetů) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Word Net angličtina: PWN (117 tis. synsetů) projekty EuroWordNet (angličtina + holandština, italština, španělština němčina, francouzština, čeština, estonština) • ILI - InterLingual Index • Top Ontology (63 kategorií) 9 Base Concepts Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I Word Net angličtina: PWN (117 tis. synsetů) projekty EuroWordNet (angličtina + holandština, italština, španělština, němčina, francouzština, čeština, estonština) • ILI - InterLingual Index • Top Ontology (63 kategorií) 9 Base Concepts projekty (BalkaNet: bulharština, čeština, rumunština, řečtina, srbština, turečtina), při kterých vznikají word n ety pro další jazyky, koordinátorem databází je Global WordNet Association (GWA) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 24/32 Word Net angličtina: PWN (117 tis. synsetů) projekty EuroWordNet (angličtina + holandština, italština, španělština, němčina, francouzština, čeština, estonština) • ILI - InterLingual Index • Top Ontology (63 kategorií) 9 Base Concepts projekty (BalkaNet: bulharština, čeština, rumunština, řečtina, srbština, turečtina), při kterých vznikají word n ety pro další jazyky, koordinátorem databází je Global WordNet Association (GWA) současný český W.: 28 tis. synsetů Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 24/32 WordNet není jediný Ontológie = explicitní specifikace sdílené konceptualizace 9 firemní o. • všeobecné o. SUMO/MILO (Suggested Upper Merged Ontology, Mid-Level Ontology) • common sense o. ConceptNet Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Sémantické vektory sémantické vektory: charakteristika jednotlivých slov a frází pomocí vektoru reálných čísel nutná podmínka: distribuční sémantika ,,a word is characterized by the company it keeps" J. R. Firth Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 26/32 Sémantické vektory jeden vektor popisuje jedno slovo Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Sémantické vektory jeden vektor popisuje jedno slovo jedno slovo odpovídá jedné dimenzi vektor popisuje kontext (n-gramy v okolí slova) 1 2 3 4 5 koupit jíst řídit jablko auto hruška = (0.9,1,0,1,0) pomeranč = (1,1,0,0.5,0) náklaďák = (0.8,0,1,0.3,0.9) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 27/32 Sémantické vektory jeden vektor popisuje jedno slovo jedno slovo odpovídá jedné dimenzi vektor popisuje kontext (n-gramy v okolí slova) 1 2 3 4 5 koupit jíst řídit jablko auto hruška = (0.9,1,0,1,0) pomeranč = (1,1,0,0.5,0) náklaďák = (0.8,0,1,0.3,0.9) příliš mnoho dimenzí a příliš prázdný prostor (řídké matice) —>» redukce dimenzí, vnoření slov (word embeddings) word2vec - jeden ze způsobů vnoření (kromě n-gramů používá také skip-gramy, počet dimenzí 50-300) pro trénování sémantických vektorů potřebujeme větší korpusy (> 10 milionů) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 27/32 Shrnutí slovní druh, gramatické kategorie větný člen sémantická třída gramatika syntax sémantika Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Shrnutí gramatika slovní druh, gramatické kategorie syntax větný člen sémantika sémantická třída popis lexikálního významu: • pro uživatele jazyka: slovníky o pro počítačové programy: specializované zdroje (sém. rysy, ontológie, ...), vektorový popis Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 28/32 Shrnutí gramatika slovní druh, gramatické kategorie syntax větný člen sémantika sémantická třída popis lexikálního významu: • pro uživatele jazyka: slovníky o pro počítačové programy: specializované zdroje (sém. rysy, ontológie, ...), vektorový popis rozlišení lexikálního významu: 9 pro uživatele jazyka: číslo významu • pro počítačové programy: WSD, vzdálenost mezi koncepty Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 28/32 Odkazy I 3 Bierwisch, M. (1971). On classifying semantic features. In M. Bierwisch, K. E. H., editor, Progress in Linguistics, pages 27-50 Mouton. 3 Constant, M., Eryigit, G., Monti, J., van der Plas, L, Ramisch, C, Rosner, M., and Todirascu, A. (2017). Multiword Expression Processing: A Survey. Computational Linguistics, 0(ja):l-92. 1 Fellbaum, C. (1998). WordNet: An Electronic Lexical Database (Language, Speech, and Communication ). The MIT Press. Published: Hardcover. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 29/32 Odkazy II Goddard, C. (2011). Semantic Analysis: A Practical Introduction. Oxford Textbooks in Linguistics. Oxford University Press. Havránek, B. et al. (1960). Slovník spisovného jazyka českého (Dictionary of Written Czech, SSJČ). Academia, Praha, 1st edition. electronic version, created in the Institute of Czech Language, Czech Academy of Sciences Prague in cooperation with Faculty of Informatics, Masaryk University Brno. Katz, J. and Fodor, J. (1963). The structure of a semantic theory. Language, (39):170-210. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 30/32 Odkazy III Lesk, M. (1986). Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone. In Proceedings of the 5th annual international conference on Systems documentation, SIGDOC '86, pages 24-26, New York, NY, USA. ACM. Oxford Dictionaries (2013). lexical meaning. Oxford Dictionaries. online. http://oxforddictionaries.com/definition/english/ lexical-meaning (accessed October 03, 2013). Veronis, J. (2004). Hyperlex: Lexical cartography for information retrieval. In Computer Speech and Language: Special Issue on Word Sense Disambiguation, page 23. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika I 31/ Odkazy IV Yarowsky, D. (1995). Unsupervised word sense disambiguation rivaling supervised methods. In Proceedings of the 33rd annual meeting on Association for Computational Linguistics, ACL '95, pages 189-196, Stroudsburg, PA, USA. Association for Computational Linguistics. Ziková, M. (2003). Současný český jazyk: Tvoření slov. online. http://www.phi1.muni.cz/cest/lide/zikova/CJA009_l.rtf (accessed October 03, 2013). Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 04 - Sémantika 1 32/32