Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami PLIN021 Sémantická analýza v praxi OP VK Mezi bohemistikou a informatikou www. p roj e kt- i n o va. cz Zuzana Nevěřilová xpopelkOfi.muni.cz Centrum zpracování přirozeného jazyka, B203 Fakulta informatiky, Masarykova univerzita 6. května 2013 Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model významu Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Významové potenciály (Hanks) • slovníky pro lidi jsou pro počítače nevyhovující • slovníky kombinované a hierarchické (WordNet) mají lepší výsledky v počítačovém zpracování (Nirenburg 2007) • význam není jedno políčko v „kontrolním seznamu" • významy lze nejlépe interpretovat pomocí pravděpodobnosti, s jakou se užití blíží prototypu (Fillmore) • významy jsou spojeny se vzory (patterns, Hunston a Francis, 2000), konstrukcemi (Goldberg) či „frazémy" (Melčuk), ale i se slovy - korpusová lingvistika dokáže tyto vzory (preference užití) zjistit a studovat • významy vně kontextu neexistují, existují jen významové potenciály, které se kontextem aktivují [Hanks, 2000] Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Významové potenciály (Hanks) • slovníky pro lidi jsou pro počítače nevyhovující • slovníky kombinované a hierarchické (WordNet) mají lepší výsledky v počítačovém zpracování (Nirenburg 2007) • význam není jedno políčko v „kontrolním seznamu" • významy lze nejlépe interpretovat pomocí pravděpodobnosti, s jakou se užití blíží prototypu (Fillmore) • významy jsou spojeny se vzory (patterns, Hunston a Francis, 2000), konstrukcemi (Goldberg) či „frazémy" (Melčuk), ale i se slovy - korpusová lingvistika dokáže tyto vzory (preference užití) zjistit a studovat • významy vně kontextu neexistují, existují jen významové potenciály, které se kontextem aktivují [Hanks, 2000] Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Významové potenciály (Hanks) • slovníky pro lidi jsou pro počítače nevyhovující • slovníky kombinované a hierarchické (WordNet) mají lepší výsledky v počítačovém zpracování (Nirenburg 2007) • význam není jedno políčko v „kontrolním seznamu" • významy lze nejlépe interpretovat pomocí pravděpodobnosti, s jakou se užití blíží prototypu (Fillmore) • významy jsou spojeny se vzory (patterns, Hunston a Francis, 2000), konstrukcemi (Goldberg) či „frazémy" (Melčuk), ale i se slovy - korpusová lingvistika dokáže tyto vzory (preference užití) zjistit a studovat • významy vně kontextu neexistují, existují jen významové potenciály, které se kontextem aktivují [Hanks, 2000] Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Významové potenciály (Hanks) • slovníky pro lidi jsou pro počítače nevyhovující • slovníky kombinované a hierarchické (WordNet) mají lepší výsledky v počítačovém zpracování (Nirenburg 2007) • význam není jedno políčko v „kontrolním seznamu" • významy lze nejlépe interpretovat pomocí pravděpodobnosti, s jakou se užití blíží prototypu (Fillmore) • významy jsou spojeny se vzory (patterns, Hunston a Francis, 2000), konstrukcemi (Goldberg) či „frazémy" (Melčuk), ale i se slovy - korpusová lingvistika dokáže tyto vzory (preference užití) zjistit a studovat • významy vně kontextu neexistují, existují jen významové potenciály, které se kontextem aktivují [Hanks, 2000] Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Významové potenciály (Hanks) • slovníky pro lidi jsou pro počítače nevyhovující • slovníky kombinované a hierarchické (WordNet) mají lepší výsledky v počítačovém zpracování (Nirenburg 2007) • význam není jedno políčko v „kontrolním seznamu" • významy lze nejlépe interpretovat pomocí pravděpodobnosti, s jakou se užití blíží prototypu (Fillmore) • významy jsou spojeny se vzory (patterns, Hunston a Francis, 2000), konstrukcemi (Goldberg) či „frazémy" (Melčuk), ale i se slovy - korpusová lingvistika dokáže tyto vzory (preference užití) zjistit a studovat • významy vně kontextu neexistují, existují jen významové potenciály, které se kontextem aktivují [Hanks, 2000] Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Významové potenciály (Hanks) • slovníky pro lidi jsou pro počítače nevyhovující • slovníky kombinované a hierarchické (WordNet) mají lepší výsledky v počítačovém zpracování (Nirenburg 2007) • význam není jedno políčko v „kontrolním seznamu" • významy lze nejlépe interpretovat pomocí pravděpodobnosti, s jakou se užití blíží prototypu (Fillmore) • významy jsou spojeny se vzory (patterns, Hunston a Francis, 2000), konstrukcemi (Goldberg) či „frazémy" (Melčuk), ale i se slovy - korpusová lingvistika dokáže tyto vzory (preference užití) zjistit a studovat • významy vně kontextu neexistují, existují jen významové potenciály, které se kontextem aktivují [Hanks, 2000] Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický mod Významové potenciály (Hanks) Corpus Patterns Analysis PATTERN: [[Human]] translate ([[Document]]) (from [[Language 1]]) (into [[Language 2]]) IMPLICATURE: [[Human]] expresses the meaning of [[Document]] in [[Language 1]] in the words and phraseology of [[Language 2]] Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Významové potenciály (Hanks): normy (norm) [Hanks, 2010] • norma = užití slova podle určitého syntagmatického vzoru • slova se užívají jednak v souladu s normou (očekáváním), jednak mluvčí normu porušují • vzory se skládají z užitého slova a z lexikálních množin, se kterými se slovo užívá • lexikální množiny mohou být obrovské, např. [[Human]] • čím menší lexikální množina, tím silnější je její vliv na význam vzoru Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Významové potenciály (Hanks): normy (norm) [Hanks, 2010] • norma = užití slova podle určitého syntagmatického vzoru • slova se užívají jednak v souladu s normou (očekáváním), jednak mluvčí normu porušují • vzory se skládají z užitého slova a z lexikálních množin, se kterými se slovo užívá • lexikální množiny mohou být obrovské, např. [[Human]] • čím menší lexikální množina, tím silnější je její vliv na význam vzoru Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Významové potenciály (Hanks): normy (norm) [Hanks, 2010] • norma = užití slova podle určitého syntagmatického vzoru • slova se užívají jednak v souladu s normou (očekáváním), jednak mluvčí normu porušují • vzory se skládají z užitého slova a z lexikálních množin, se kterými se slovo užívá • lexikální množiny mohou být obrovské, např. [[Human]] • čím menší lexikální množina, tím silnější je její vliv na význam vzoru Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Významové potenciály (Hanks): normy (norm) [Hanks, 2010] • norma = užití slova podle určitého syntagmatického vzoru • slova se užívají jednak v souladu s normou (očekáváním), jednak mluvčí normu porušují • vzory se skládají z užitého slova a z lexikálních množin, se kterými se slovo užívá • lexikální množiny mohou být obrovské, např. [[Human]] • čím menší lexikální množina, tím silnější je její vliv na význam vzoru Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Významové potenciály (Hanks): normy (norm) [Hanks, 2010] • norma = užití slova podle určitého syntagmatického vzoru • slova se užívají jednak v souladu s normou (očekáváním), jednak mluvčí normu porušují • vzory se skládají z užitého slova a z lexikálních množin, se kterými se slovo užívá • lexikální množiny mohou být obrovské, např. [[Human]] • čím menší lexikální množina, tím silnější je její vliv na význam vzoru Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický Významové potenciály (Hanks): porušení normy (exploitation) • kreativní užití jazyka • porušení normy nepřesahuje 10 % případů v korpusu • pokud ano, je to nejspíš dosud neobjevená norma • i porušení normy má jistá pravidla „dvojitá šroubovice" systémů pravidel: pravidla, jak slova používat normálně, a pravidla, jak normu porušit • často studovaným vzorem je valence Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický Významové potenciály (Hanks): porušení normy (exploitation) • kreativní užití jazyka • porušení normy nepřesahuje 10 % případů v korpusu • pokud ano, je to nejspíš dosud neobjevená norma • i porušení normy má jistá pravidla „dvojitá šroubovice" systémů pravidel: pravidla, jak slova používat normálně, a pravidla, jak normu porušit • často studovaným vzorem je valence Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický Významové potenciály (Hanks): porušení normy (exploitation) • kreativní užití jazyka • porušení normy nepřesahuje 10 % případů v korpusu • pokud ano, je to nejspíš dosud neobjevená norma • i porušení normy má jistá pravidla „dvojitá šroubovice" systémů pravidel: pravidla, jak slova používat normálně, a pravidla, jak normu porušit • často studovaným vzorem je valence Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický Významové potenciály (Hanks): porušení normy (exploitation) • kreativní užití jazyka • porušení normy nepřesahuje 10 % případů v korpusu • pokud ano, je to nejspíš dosud neobjevená norma • i porušení normy má jistá pravidla „dvojitá šroubovice" systémů pravidel: pravidla, jak slova používat normálně, a pravidla, jak normu porušit • často studovaným vzorem je valence Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický Významové potenciály (Hanks): porušení normy (exploitation) • kreativní užití jazyka • porušení normy nepřesahuje 10 % případů v korpusu • pokud ano, je to nejspíš dosud neobjevená norma • i porušení normy má jistá pravidla „dvojitá šroubovice" systémů pravidel: pravidla, jak slova používat normálně, a pravidla, jak normu porušit • často studovaným vzorem je valence Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Významové potenciály (Hanks): valence ,, .možná bych prodloužila poslední verš,,, nesedí Whitesun a stále nedokončeným C-3PQ. Cliegg sedí atraktivní módní přehlídce. Tvůrkyně ošacení seděla zablokovali oba směry magistrály. Někteří sedí centrem byl zdemolován vůz TV Nova. Jinak zde sedí hráli v sále hospody a hodně lidízůstaLo sedět jsem byl naprosto unesena.Jsou perfekní. Sedí psala, dorazil a věcičky jsou nádherný Vse sedí dnes mi s podprsenkami dorazil... Skvěle sedí moc děkuj i, těhotenskě rifle jsou super - sedí mi tam nejen vizuálně, že je prílis krátký na létajícím kresle, protože mu chybí jedna na premiére v první radě v atraktivní róbě na schodech k opere. Mávají rudými vlajkami ještě menší skupina demonstrantů. Jde většinou venku, protože tentokrát počasí přálo, jako ulite.Jen dálka ,ale tu jsem za 15 tak jak má a já jsem moooc spokojená Moc . Jsem moc spokoj enál Budu se těšit zase úplně perfektně L L L A taky děkuju za dáreček Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Významové potenciály (Hanks): valence ,,,možná bych prodloužila poslední verš... nesedí mi tam nejen vizuálnej že je pnliš krátký Whitesun a stále nedokončeným C-3PO. Cliegg sedí na létajícím kresle, protože mu chybí jedna atraktivní módní přehlídce. Tvůrkyně ošacení seděla na premiére v první radě v atraktivní róbě zablokovali oba směry magistrály. Někteří sedí na schodech k opere. Mávají rudými vlajkami centrem byl zdemolován vůz TV Nova. Jinak zde -sedí ještě menší skupina demonstrantů. Jde většinou hráli v sále hospody a hodně lidi'zůstalo sedět venku, protože tentokrát počasí přálo, jsem byl naprosto unesena.Jsou perfekní. Sedí jako ulite.Jen dálka ,ale tu jsem za 15 psala, dorazil a věcičky jsou nádherný Vse sedí tak jak má a já jsem moooc spokojená Moc dnes mi s podprsenkami dorazil... Skvěle sedí . Jsem moc spokojená! Budu se těšit zase moc děkuji, těhotenskě rifle jsou super - sedí úplně perfektnělll A taky děkuju za dáreček [[Human | Group of Humans]] sedět [[Location]] [[Garment]] sedět [[Human, dative]] [[Manner]] [[Art]] sedět [[Human, dative]] [[Location]] [[Manner]] Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Významové potenciály (Hanks): elipsa ,, .možná bych prodloužila poslední verš... nesedí mi tam nejen vizuálnej že je pnliš krátký Whitesun a stále nedokončeným C-3PO. Cliegg sedí na létajícím kresle, protože mu chybí jedna atraktivní módní přehlídce. Tvůrkyně ošacení seděla na premiére v první radě v atraktivní róbě zablokovali oba směry magistrály. Někteří sedí na schodech k opere. Mávají rudými vlajkami centrem byl zdemolován vůz TV Nova. Jinak zde -sedí ještě menší skupina demonstrantů. Jde většinou hráli v sále hospody a hodně lidi'zůstalo sedět venku, protože tentokrát počasí přálo, jsem byl naprosto unesena.Jsou perfekní. Sedí jako ulite.Jen dálka ,ale tu jsem za 15 psala, dorazil a věcičky jsou nádherný Vse sedí tak jak má a já jsem moooc spokojená Moc dnes mi s podprsenkami dorazil... Skvěle sedí . Jsem moc spokojená! Budu se těšit zase moc děkuji, těhotenskě rifle jsou super - sedí úplně perfektnělll A taky děkuju za dáreček [[Human | Group of Humans]] sedět [[Location]] [[Garment]] sedět [[Human, dative]] [[Manner]] [[Art]] sedět [[Human, dative]] [[Location]] [[Manner]] Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model ,,,možná bych prodloužila poslední verš... nesedí mi tam nejen vizuálnej že je pnliš krátký Whitesun a stále nedokončeným C-3PO. Cliegg sedí na létajícím kresle, protože mu chybí jedna atraktivní módní přehlídce. Tvůrkyně ošacení seděla na premiére v první radě v atraktivní róbě zablokovali oba směry magistrály. Někteří sedí na schodech k opere. Mávají rudými vlajkami centrem byl zdemolován vůz TV Nova. Jinak zde sedí ještě menší skupina demonstrantů. Jde většinou hráli v sále hospody a hodně Udí zůstalo sedět venku, protože tentokrát počasí přálo, jsem byl naprosto unesena.Jsou perfekní. Sedí jako ulite.Jen dálka ,ale tu jsem za 15 psala, dorazil a věcičky jsou nádherný Vše sedí tak jak má a já jsem moooc spokojená Moc dnes mi s podprsenkami dorazil... Skvěle sedí . Jsem moc spokojená! Budu se těšit zase moc děkuji, těhotenskě rifle jsou super - sedí úplně perfektnělll A taky děkuju za dáreček Významové potenciály (Hanks): elipsa Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Významové potenciály (Hanks): elipsa Elipsy mají také svá pravidla. Co může být vypuštěno? • podmět • předmět • příslovečné určení Za jakých okolností se může vyskytnout elipsa? Vypuštěno může být jen to, co je zřejmé. Elipsa jako porušení normy? Je to otázka frekvence. Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Kontextové vektory [Schütze, 1998] Významy jsou spojeny vztahy. Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Kontextové vektory [Schütze, 1998] Významy jsou spojeny vztahy. Zdá se, že některé významy jsou „víc spojeny" než jiné. Např. „pták" je víc spojený s „peří" než se „strom". Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický mod Kontextové vektory [Schütze, 1998] Významy jsou spojeny vztahy. Zdá se, že některé významy jsou „víc spojeny" než jiné. Např. „pták" je víc spojený s „peří" než se „strom". Problémem WSD je inventář významů, jeho kvalita, granularita a aktuálnost. Inventářům se můžeme vyhnout, pokud potřebujeme „pouze" zjistit, která slova jsou použita ve stejném významu, aniž bychom věděli, jaký význam to je. Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický mod Kontextové vektory [Schütze, 1998] Významy jsou spojeny vztahy. Zdá se, že některé významy jsou „víc spojeny" než jiné. Např. „pták" je víc spojený s „peří" než se „strom". Problémem WSD je inventář významů, jeho kvalita, granularita a aktuálnost. Inventářům se můžeme vyhnout, pokud potřebujeme „pouze" zjistit, která slova jsou použita ve stejném významu, aniž bychom věděli, jaký význam to je. Algoritmus rozlišení kontextových skupin (context group discrimination) Výsledkem jsou výskyty víceznačného slova v různých shlucích. Každé slovo, kontext i shluk jsou reprezentovány vektorem v mnoharozměrném vektorovém prostoru. Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Vektor jako reprezentant výskytu slova v doméně Mějme n domén d; G V\i = 1,..., n (např. zoologie, vaření, atmosféra, vojenské letectví). Každé slovo w je reprezentováno vektorem v = (xi,X2,... ,xn). Vyskytuje-li se slovo w v textech z domény d;, pak x; přiřadíme četnost w v doméně d\. Četnost můžeme vyjádřit více způsoby (které už známe z WSD): • počet výskytů w • počet dokumentů, ve kterých se w vyskytuje • 0 pokud se w v d; nevyskytuje, jinak 1 • ... Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Vektor jako reprezentant výskytu slova v doméně Mějme 4 domény d; G V\i vojenské letectví). ,4 (zoologie, vaření, atmosféra, Každé slovo w je reprezentováno vektorem v = (xi, x2, X3, X4). Získáme potom vektory: \/i (buňka) = (10,0,0,5) i/2(tkáň) = (9,0,0,0) \v2\ i/3(let) = (4,0,l,10) ^(množství) = (4,5,4, 5) | V41 vs(pára) = (0,6,5,1) |i/5| V100 + 25 = 11,18 VŠI = 9 V16 + 1+ 100 = 10,81 V16 + 25 + 16 + 25 = 9,06 V36 + 25 + 1 = 7, 87 Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Vektor jako reprezentant výskytu slova v doméně vi (buňka) = (10,0,0,5) kil = 11,18 1/2 (tkáň) = (9,0,0,0) = 9 i^(let) = (4,0,1,10) = 10,81 \/4 (množství) = (4,5,4,5) \v*\ = 9,06 vs(pára) = (0,6,5,1) \vs\ = 7,87 aro-Wi/, — arrrnc "ľ"2 — arrrnc 10 9+° °+° °+5 0 — arccos^i, v2) — arccos j^pj^j — arccos-n 189-— arccos 1qq062 = arccos 0,89 = 27° a VI V2 V3 1/4 V5 vi 0 27° 42,2° 50° 86,6° Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Vektor jako reprezentant výskytu slova v doméně vi (buňka) = (10,0,0,5) kil = 11,18 i/2(tkáň) = (9,0,0,0) = 9 i^(let) = (4,0,1,10) = 10,81 \/4 (množství) = (4,5,4,5) \v*\ = 9,06 vs(pára) = (0,6,5,1) \vs\ = 7,87 aro-Wi/, — arrrnc "ľ"2 — arrrnc 10 9+° °+° °+5 0 — arccos^i, v2) — arccos j^pj^j — arccos-n 189-— arccos 1qq062 = arccos 0,89 = 27° a VI V2 V3 Vi, V5 vi 0 27° 42,2° 50° 86,6° v2 27° 0 68° 63,9° 90° Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Vektor jako reprezentant výskytu slova v doméně vi (buňka) = (10,0,0,5) kil = 11,18 1/2 (tkáň) = (9,0,0,0) = 9 i^(let) = (4,0,1,10) = 10,81 \/4 (množství) = (4,5,4,5) \v*\ = 9,06 vs(pára) = (0,6,5,1) \vs\ = 7,87 aro-Wi/, — arrrnc "ľ"2 — arrrnc 10 9+° °+° °+5 0 — arccos^i, v2) — arccos j^pj^j — arccos-n 189-— arccos 1qq062 = arccos 0,89 = 27° a VI V2 V3 1/4 V5 VI 0 27° 42,2° 50° 86,6° V2 27° 0 68° 63,9° 90° V3 42,2° 68° 0 44,4° 80° Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Vektor jako reprezentant výskytu slova v doméně vi (buňka) = (10,0,0,5) kil = 11,18 1/2 (tkáň) = (9,0,0,0) = 9 i^(let) = (4,0,1,10) = 10,81 \/4 (množství) = (4,5,4,5) \v*\ = 9,06 vs(pára) = (0,6,5,1) \vs\ = 7,87 aro-Wi/, — arrrnc "ľ"2 — arrrnc 10 9+° °+° °+5 0 — arccos^i, v2) — arccos j^pj^j — arccos-n 189-— arccos 1qq062 = arccos 0,89 = 27° a VI 1/2 V3 1/4 V5 vi 0 27° 42,2° 50° 86,6° V2 27° 0 68° 63,9° 90° V3 42,2° 68° 0 44,4° 80° l/4 50° 63,9° 44,4° 0 40° Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Vektor jako reprezentant výskytu slova v doméně vi (buňka) = (10,0,0,5) kil = 11,18 1/2 (tkáň) = (9,0,0,0) = 9 i^(let) = (4,0,1,10) = 10,81 \/4 (množství) = (4,5,4,5) \v*\ = 9,06 vs(pára) = (0,6,5,1) \vs\ = 7,87 aro-Wi/, — arrrnc "ľ"2 — arrrnc 10 9+° °+° °+5 0 — arccos^i, v2) — arccos j^pj^j — arccos-n 189-— arccos 1qq062 = arccos 0,89 = 27° a VI 1/2 V3 1/4 V5 VI 0 27° 42,2° 50° 86,6° V2 27° 0 68° 63,9° 90° V3 42,2° 68° 0 44,4° 80° l/4 50° 63,9° 44,4° 0 40° V5 86,6° 90° 80° 40° 0 Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Kontextové vektory [Schütze, 1998] Algoritmus: 1. vytvoř matici spoluvýskytů 2. spočítej kontextový vektor pro každý kontext 3. sdruž kontextové vektory do shluků [Král, 2006] Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický Kontextové vektory [Schütze, 1998] vi (buňka) = (10,0,0,5) i/2(tkáň) = (9,0,0,0) i^(let) = (4,0,1,10) \/4 (množství) = (4,5,4,5) vs(pára) = (0,6,5,1) w zoologie vaření atmosféra vojenské letectví buňka 10 0 0 5 tkáň 9 0 0 0 let 4 0 1 10 množství 4 5 4 5 pára 0 6 5 1 Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický m Kontextové vektory: matice spoluvýskytů Matice spoluvýskytů je tabulka, kde řádky odpovídají znakům a sloupce dimenzím. Čísla v buňkách odpovídají počtu spoluvýskytů znaku a dimenze v tomtéž kontextu. Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický mi Kontextové vektory: matice spoluvýskytů Matice spoluvýskytů je tabulka, kde řádky odpovídají znakům a sloupce dimenzím. Čísla v buňkách odpovídají počtu spoluvýskytů znaku a dimenze v tomtéž kontextu. Jaká slova vybrat jako znaky? Ideálně všechna, většina z nich nebude mít žádný vliv (v buňkách budou nuly) a budeme je moci vypustit. Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický mo Kontextové vektory: matice spoluvýskytů Matice spoluvýskytů je tabulka, kde řádky odpovídají znakům a sloupce dimenzím. Čísla v buňkách odpovídají počtu spoluvýskytů znaku a dimenze v tomtéž kontextu. Jaká slova vybrat jako znaky? Ideálně všechna, většina z nich nebude mít žádný vliv (v buňkách budou nuly) a budeme je moci vypustit. Atmosféra Havárie Atmosphere Crash ránafbang 0 4 ráno/moniing 6 0 ozvai/resound 1 5 ocekávai/expect 2 2 Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Kontextové vektory: výpočet Kontextový vektor získáme jako průměrný vektor všech výskytů všech slov v daném kontextu. ■É A Atmosféra Havárie Asmosphere Crash rána/bang 0 4 ránoJmoming 6 0 ozvat/resound 1 5 očekávat/expect 2 2 ',Ván'a Po siSíce se ozvala rana. ozvat i očekávat Nad ránem očekáváme srážky, ráno \-i-1-1—H-I- Atmosféra Po srážce se ozvala(l,5) rána(0'4)+(6'0) = (3,2). (l25l+í3221 = (2 3l) Nad ránem(6,0) očekáváme(2,2) srážky. (6'0)+(2'2) = (4,1) Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Kontextové vektory: shlukování (klastrování) 1. Vyber k centroidů (těžišť) 2. Každý kontextový vektor přiřaď k nejbližšímu centroidů 3. Centroid přepočítej podle přítomných vektorů 4. Opakuj kroky 2-3, dokud se shluky neustálí Výsledek pro slovo srážka: Cluster: ozbrojený daň mzda teplota oblačnost zahynout voják vlak armed tax wage temperature cloudiness deaden soldier train 1 0.07 0.01 0.01 0.01 0.00 0.02 0.04 0.01 2 0,01 0.16 0.20 0.01 0.00 o.ot 0.01 0.00 3 0.02 0.01 0.01 0.12 0.08 0.01 0.01 0,00 4 0,03 0.01 0.01 0.01 0.00 0.08 0.02 0.04 □ Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Množina, n-tice, relace, zobrazení, funkce Množina A = {xi,... ,x„} soubor prvků. Množina je určena svými prvky. Množiny mohou být prvky jiných množin. Součin A x B je množina (uspořádaných) dvojic. A x B = {{a,b)\a G A, b G B} N-tice (xi,... ,xn) je prvek součinu A\ x • • • x An, kde x; G A; Relace R je podmnožina součinu A\ x • • • x An Funkce je relace f c A x B, kde pro x G A existuje právě jedno y G 6 takové, že (x,y) G f. Zobrazení je obecnější než funkce. Funkce je zobrazení do množiny čísel. Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický m Matematický model významu [Widdows, 2003] přesné vymezení toho, co je kontext prostory W (words), C (lexicon of meanings), C (contexts) korespondence (w, c) —> I kontextové skupiny: homonyma jsou v disjunktních kontextových skupinách, víceznačná slova jsou v překrývajících se k. skupinách Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický mod Matematický model významu: motivace Soutěže jako SENSEVAL ukázaly, že úspěch či neúspěch WSD záleží na tom, jak těžké víceznačnosti jsou. Co to ale znamená? Někdy mají potíže s rozeznáním významu i lidé, jak to pak mají zvládnout počítače? Problém je jednak granularita, jednak kontext. Ve většině přístupů je totiž kontext definován vágně. Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Matematický model významu: prostory W (words) slova, části složených slov, víceslovné výrazy Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Matematický model významu: prostory W (words) C (lexicon of meanings) slova, části složených slov, víceslovné výrazy tradiční slovníky, ontológie, taxonomie, významy z trénovacích dat Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Matematický model významu: prostory W (words) C (lexicon of meanings) C (contexts) slova, části složených slov, víceslovné výrazy tradiční slovníky, ontológie, taxonomie, významy z trénovacích dat věty, kolokace, domény Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Matematický model významu: tradiční WSD tradiční WSD: (w, c) G W x C zobrazení: 4> : (w, c) —> C ověření oproti „zlatému standardu" (tj. manuálním anotacím) všechny významy slova: S(w) = {4>(w, c)|Vc G C} C C úkol WSD je extrapolace (zobecnění) 4> (známe hodnotu (w,C2)) Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Matematický model významu: synonymie slova w\, W2 6 W jsou synonyma právě, když 4>(wi, c) = 4>{w2, c) zobrazení z W do L není injektivní úplná synonymie: (w2, c) pro všechna c £ C Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický m Matematický model významu: odposlouchávání Odposlouchávání (eavesdropping) v neznámých datech: přiřazení významu nejen z kontextu c G C, ale z libovolné podmnožiny C. Označme Cs kontexty, které jsou relevantní pro w. Pak přiřazení významu je zobrazení ■ {w, c,Cs) ->• C Jak zjistit Csl Pomocí podobností spočítaných na korpusu. Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Matematický model významu: kontextové skupiny Jak vlastně vypadá množina Cl Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model význami Matematický model významu: kontextové skupiny Jak vlastně vypadá množina Cl Podmnožina promluvy......................... Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Matematický model významu: kontextové skupiny Jak vlastně vypadá množina Cl Podmnožina promluvy.........................obsahující slovo w Kolik kontextu potřebujeme pro určení významu wl Záleží případ od případu. Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Matematický model významu: kontextové skupiny Jak vlastně vypadá množina Cl Podmnožina promluvy.........................obsahující slovo w Kolik kontextu potřebujeme pro určení významu wl Záleží případ od případu. Tradiční přístup ke kontextu je c = (1/1/1,..., wn), tj. zobrazení >Vx---x>V = >Vn^C Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický model Matematický model významu: kontextové skupiny Jak vlastně vypadá množina Cl Podmnožina promluvy.........................obsahující slovo w Kolik kontextu potřebujeme pro určení významu wl Záleží případ od případu. Tradiční přístup ke kontextu je c = (uvi,..., wn), tj. zobrazení W je však širší, obsahuje „meta" informace, obecně nepopsa(tel)né slovy, např.: „v lékařském kontextu operace vždy znamená chirurgický zákrok, na rozdíl od vojenské nebo matematické operace" Významové potenciály Zkoumání kontextu Kontextové vektory Odbočka k teorii množin Matematický m Matematický model významu: kontextové skupiny Vztah mezi významy a kontexty je monotónní, tj. jsou-li dva významy velmi různé, jsou velmi různé i kontexty, ve kterých se slovo objevuje. Nabízí se tedy popsat vztah mezi významy a kontexty bez ohledu na to, jak nějaký konkrétní kontext vypadá. Kontextová skupina slova w s významem / obsahuje přesně ty jazykové situace, ve kterých má slovo w význam /. C/, = {c G C|0(srážka, c) = /}, kde / má význam „autonehoda" a Ch je kontext „havárie". Kontext je inverzní zobrazení k přiřazení významu