Kritická práce s daty 2 Radek Čech Frekvence • smysluplná pouze jako „vztahová“ veličina • distribuce jednotek určitého typu • ranková frekvenční distribuce • frekvence délek slov/vět… • … • vztah frekvence a jiných vlastností • frekvence slovních druhů vs. typ textu • frekvence vs. délka slova • frekvence vs. polysémie • … Distribuce jednotek • Havel 1990: ranková frekvenční distribuce slov Distribuce jednotek • Skácel: Odvaha k tomu: ranková frekvenční distribuce slov Distribuce jednotek • SYN2005: : ranková frekvenční distribuce primárních předložek Distribuce – modely a interpretace • diverzifikovanost sytému: • type-token ratio • repeat rate • entropie • výsledkem jedna hodnota Příklad • V = 10 jednotek • N = 50 výskytů • dvě různé distribuce Příklad pořadí f pořadí f 1 23 1 40 2 10 2 2 3 5 3 1 4 3 4 1 5 2 5 1 6 2 6 1 7 2 7 1 8 1 8 1 9 1 9 1 10 1 10 1 Příklad Příklad – type-token poměr • diverzifikovanost/slovní bohatství 𝑇𝑇𝑅 = 𝑉 𝑁 • jaká bude teoreticky nejvyšší a nejnižší hodnota TTR u textu (souboru), který bude mít délku N = 50 slov? Příklad – type-token poměr • nejvyšší hodnota = každé slovo pouze jednou 𝑇𝑇𝑅 𝑚𝑎𝑥 = 𝑉 𝑁 Příklad – type-token poměr • nejvyšší hodnota = každé slovo pouze jednou 𝑇𝑇𝑅 𝑚𝑎𝑥 = 𝑉 𝑁 = 50 50 = 1 Příklad – type-token poměr • nejvyšší hodnota = každé slovo pouze jednou 𝑇𝑇𝑅 𝑚𝑎𝑥 = 𝑉 𝑁 = 50 50 = 1 • nejnižší hodnota = jedno slovo v celém texu Příklad – type-token poměr • nejvyšší hodnota = každé slovo pouze jednou 𝑇𝑇𝑅 𝑚𝑎𝑥 = 𝑉 𝑁 = 50 50 = 1 • nejnižší hodnota = jedno slovo v celém texu 𝑇𝑇𝑅 𝑚𝑖𝑛 = 𝑉 𝑁 = 1 50 = 0.02 Příklad – type-token poměr • a co naše hypotetická data? • liší se jejich TTR? pořadí f pořadí f 1 23 1 40 2 10 2 2 3 5 3 1 4 3 4 1 5 2 5 1 6 2 6 1 7 2 7 1 8 1 8 1 9 1 9 1 10 1 10 1 Příklad – type-token poměr • a co naše hypotetická data? • liší se jejich TTR? 𝑇𝑇𝑅 𝑝ří𝑘𝑙𝑎𝑑 = 𝑉 𝑁 = 10 50 = 0.2 pořadí f pořadí f 1 23 1 40 2 10 2 2 3 5 3 1 4 3 4 1 5 2 5 1 6 2 6 1 7 2 7 1 8 1 8 1 9 1 9 1 10 1 10 1 Příklad – index opakování (repeat rate) • míra koncentrace jednotek (např. slov) v souboru 𝑅𝑅 = ෍ 𝑟=1 𝑉 𝑝 𝑟 2 𝑝 𝑟 = 𝑓𝑟 𝑁 𝑅𝑅 = 1 𝑁2 ෍ 𝑟=1 𝑉 𝑓𝑟 2 Příklad – index opakování (repeat rate) • nejvyšší koncentrace = jedno slovo v celém texu 𝑅𝑅 𝑚𝑎𝑥 = 𝑓𝑟 2 𝑁2 = 502 502 = 2500 2500 = 1 • nejnižší koncentrace = každé slovo pouze jednou 𝑅𝑅 𝑚𝑖𝑛 = 𝑓𝑟 2 𝑁2 = 12 + 12 + 12 … + 12 502 = 50 2500 = 0.02 Příklad – index opakování (repeat rate) • nejnižší koncentrace = zobecnění 𝑅𝑅 𝑚𝑖𝑛 = 1 𝑁2 ෍ 𝑟=1 𝑉 𝑁 𝑉 2 = 1 𝑉 • pro naše hypotetická data, V = 10 platí 𝑅𝑅 𝑚𝑖𝑛 = 1 𝑉 = 1 10 = 0.1 Příklad – repeat rate • a co naše hypotetická data? • liší se jejich RR? • Excel pořadí f pořadí f 1 23 1 40 2 10 2 2 3 5 3 1 4 3 4 1 5 2 5 1 6 2 6 1 7 2 7 1 8 1 8 1 9 1 9 1 10 1 10 1 Příklad – repeat rate • Excel Příklad – repeat rate • vypočítejte RR pro oranžová data Příklad – repeat rate Entropie • míra neurčitosti systému • míra diverzity • čím je hodnota entropie větší, tím systém diverzifikovanější (tj. méně koncentrovaný) • např. vysoká hodnota entropie je např. znakem velkého slovního bohatství Entropie 𝐻 = − ෍ 𝑟=1 𝑉 𝑝 𝑟 𝑙𝑜𝑔2 𝑝 𝑟 𝑝 𝑟 = 𝑓𝑟 𝑁 𝐻 = 𝑙𝑜𝑔2 𝑁 − 1 𝑁 ෍ 𝑟=1 𝑉 𝑓𝑟 𝑙𝑜𝑔2 𝑓𝑟 Příklad – entropie • nejnižší entropie = největší koncentrace slovníku (celý text z 1 slova) 𝐻 𝑚𝑖𝑛 = 𝑙𝑜𝑔250 − 50 𝑙𝑜𝑔250 50 = 𝑙𝑜𝑔250 − 𝑙𝑜𝑔250 = 0 Příklad – entropie • nejvyšší entropie = nejnižší koncentrace slovníku (každé slovo 1x) 𝐻 𝑚𝑎𝑥 = 𝑙𝑜𝑔250 − 50 σ 𝑟=1 𝑉 𝑙𝑜𝑔21 50 = 𝑙𝑜𝑔250 − 0 50 = 𝑙𝑜𝑔250 = 5.64 𝐻 𝑚𝑎𝑥 = 𝑙𝑜𝑔2 𝑉 • nejvyšší entropie pro naše hypotetická data V = 10 𝐻 𝑚𝑎𝑥 = 𝑙𝑜𝑔210 = 3.32 Příklad – entropie • pro porovnání dat různého rozsahu → relativní entropie • <0; 1> 𝐻𝑟𝑒𝑙 = 𝐻 𝐻 𝑚𝑎𝑥 = 𝐻 𝑙𝑜𝑔2 𝑉 Příklad – entropie • a co naše hypotetická data? • liší se jejich H? • Excel pořadí f pořadí f 1 23 1 40 2 10 2 2 3 5 3 1 4 3 4 1 5 2 5 1 6 2 6 1 7 2 7 1 8 1 8 1 9 1 9 1 10 1 10 1 Příklad – entropie Příklad – repeat rate • vypočítejte H pro oranžová data Příklad – entropie TTR, RR, H • ! nevhodné pro porovnávání souborů nestejné délky (např. textů) • viz QuitaUp (https://korpus.cz/quitaup/) • příklad vhodného použití → distribuce pádů Příklad - distribuce pádů vs. sémantika • Proč (a jaký) by měla mít sémantika vliv na distribuci pádů substantiv? • východiska (předběžná) • substantiva denotující osoby mají tendenci se vyskytovat nejčastěji v nominativu (vlivem tendence vyskytovat se v sémantické roli agentu) • u substantiv denotujících např. neživé předměty nebo abstraktní entity není jejich morfosyntaktický status jednoznačný Subst. maskulina anim. vs. inanim Anim. sg. (SYN2010) pád frekvence nom. 2161013 gen. 532579 acc. 278806 instr. 233327 dat. 170042 loc. 39956 Inanim. sg. (SYN2010) pád frekvence gen. 1649641 acc. 1546412 nom. 1422769 loc. 1045981 instr. 613918 dat. 184674 Subst. maskulina anim. vs. inanim Subst. maskulina anim. vs. inanim • RRanim = 0.439 RRinanim = 0.207 Distribuce pádů vs. sémantika • Jaké obecné principy řídící jazykové chování by mohly mít vliv na předpokládaný vztah mezi sémantikou a distribucí pádů? • Jaké jsou tzv. hraniční podmínky? • rod • číslo • polysémie atd. • pozn. více o hraničních podmínkách u tématu Hypotéza a její vlastnosti Teoretické předpoklady • distribuce pádů je výsledkem tzv. diverzifikačního procesu • diverzifikace (obecně) • jednotka (např. slovo) – kategorie (pád, rod, číslo atd.) – jednotlivé instance (nom., gen…; mask., fem., neut….) • pokud jednotka v rámci kategorie podléhá diverzifikaci, frekvence nejsou distribuovány rovnoměrně • jedná se o obecný jev, který je charakteristický pro jazykový systém Hypotéza • pádové distribuce jednotlivých substantiv (anim. a inanim u všech tří rodů) se významně liší vzhledem k životnosti • H0: mezi distribucí pádů životných a neživotných substantiv není rozdíl • H1: mezi distribucí pádů životných a neživotných substantiv je rozdíl Data • SYN 2010 • 5 nejfrekventovanějších anim. a inanim. substantiv • 10 v rámci každého rodu (mask., fem., neut.) • celkem analyzováno 30 substantiv • konkrétní substantiva • bez vlastních jmen • pouze singulár Distribuce pádů vs. sémantika Distribuce pádů vs. sémantika anim. • člověk • RR = 0.414 • Hrel = 0.676 • muž • RR = 0.423 • Hrel = 0.67 inanim. • dům • RR = 0.24 • Hrel = 0.874 • stůl • RR = 0.225 • Hrel = 0.903 Distribuce pádů vs. sémantika anim. • člověk • RR = 0.414 • Hrel = 0.676 • muž • RR = 0.423 • Hrel = 0.67 inanim. • dům • RR = 0.24 • Hrel = 0.874 • stůl • RR = 0.225 • Hrel = 0.903 pozn. z daných hodnot je možné udělat aritmetický průměr a statisticky testovat rozdíly mezi skupinami slov → více později Distribuce – modely a interpretace • matematická funkce jako model • distribuční funkce • spojité veličiny • diskrétní veličiny Model – funkce • lineární 𝑦 = 𝑥 𝑦 = 𝑎𝑥 𝑦 = 𝑏 + 𝑎𝑥 x, y … proměnné a, b … parametry Model – funkce 𝑦 = 𝑎𝑥 a = 1 Model – funkce 𝑦 = 𝑎𝑥 a = 2 Model – funkce 𝑦 = 𝑎𝑥 a = 10 Model – funkce 𝑦 = 𝑏 + 𝑎𝑥 a = 1 b = 50 Model – funkce 𝑦 = 𝑎𝑥 a = 1 Model – funkce 𝑦 = 𝑏 + 𝑎𝑥 a = -0.5 b = 80 Model – mocninná funkce • diverzifikovaný systém • méně diverzifikovaný systém • jednotky se častěji opakují • nejméně diverzifikovaný systém (z prezentovaných příkladů) • jednotky se opakují ještě častěji Model vs. realita • model • předpokládá působení mechanismu • ideální stav • realita • mechanismus ovlivněn různými faktory • fluktuace • náhodné jevy Model vs. realita • postup • model predikuje chování systému • porovnáváme model s daty • je možné vyjádřit míru modelu s daty Model vs. realita Model vs. realita Model vs. realita Model vs. realita Model vs. realita Model vs. realita • modelujte mocninnou funkci zelená a oranžová data Příklad – modelování frekvenční distribuce tzv. dependenčních rámců • Čech, R., Milička, J., Mačutek, J., Koščová, M., Lopatková, M. (2018). Quantitative Analysis of Syntactic Dependency in Czech. In Jiang, J., Liu, H. (eds.). Quantitative Analysis of Dependency Structures. De Gruyter, 53-70. • http://www.cechradek.cz/publ/2018_Cech_etal_Quantitative_Analysi s_Syntactic_Dependency.pdf Distribuce příslovečných určení • Čech, Uhlířová (2014) Case study • Radek Čech, Emmerich Kelih, Jan Mačutek: Impact of semantics on case diversification Rankové frekvenční distribuce (mask.) Rankové frekvenční distribuce (fem.) Rankové frekvenční distribuce (neut.) Model 𝑦 = 𝑎𝑒−𝑏𝑥 x … pořadí pádu y … frekvence pádu a, b … parametry speciální případ Wimmerova-Altmannova modelu Výsledky aplikace modelu na data (mask.) mask. anim. lemma a b R2 člověk 123208.0 1.059 0.9723 muž 91962.4 1.149 0.9711 pan 39832.5 0.685 0.9887 otec 48060.8 1.014 0.9476 ředitel 46335.5 1.142 0.9950 mask. inanim. lemma a b R2 dům 29591.9 0.411 0.9400 stůl 11730.4 0.375 0.9772 měsíc 18996.9 0.738 0.9852 vzduch 8805.4 0.374 0.9268 byt 10488.9 0.456 0.9221 Aplikace modelu na lemma „člověk“ Aplikace modelu na lemma „dům“ Výsledky aplikace modelu na data (fem.) fem. anim. lemma a b R2 žena 46525.9 0.723 0.9664 matka 32093.7 0.772 0.9108 paní 56238.4 1.247 0.9667 dívka 17406.2 0.889 0.9771 dcera 8179.4 0.471 0.9757 fem. inanim. lemma a b R2 hlava 32671.4 0.380 0.9046 ruka 25636.7 0.385 0.9366 škola 25894.7 0.506 0.9778 ulice 31193.3 0.772 0.9802 tvář 11521.9 0.308 0.8232 Výsledky aplikace modelu na data (neut.) neut. anim. lemma a b R2 dítě 19762.8 0.492 0.9743 děvče 2220.8 0.596 0.9281 miminko 1135.3 0.403 0.8960 děcko 587.2 0.430 0.9574 děťátko 691.4 0.555 0.9854 neut. inanim. lemma a b R2 město 53158.3 0.515 0.9819 tělo 15578.0 0.369 0.9673 auto 10164.0 0.299 0.8910 divadlo 11608.6 0.423 0.9291 srdce 7553.4 0.295 0.9777 Průměry parametru b rod anim. inanim. mask. 1.010 0.471 fem. 0.821 0.471 neut. 0.495 0.380 Rozdělení dat • diskrétní modely • může nabývat pouze spočetně izolovaných hodnot z množiny