Téma 12: Hodnocení kontingenčních tabulek Úkol 1.: Testování hypotézy o nezávislosti, měření síly závislosti V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů. Barva očí Barva vlasů světlá kaštanová černá rezavá modrá 1768 807 180 47 šedá nebo zelená 946 1387 746 53 hnědá 115 438 288 16 Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti barvy očí a barvy vlasů. Vypočtěte Cramérův koeficient a koeficenty nejistoty. Simultánní četnosti znázorněte graficky. Návod: Testujeme hypotézu H[0]: X, Y jsou stochasticky nezávislé náhodné veličiny proti H[1]: X, Y nejsou stochasticky nezávislé náhodné veličiny. Testová statistika má tvar: . Platí-li H[0], pak K se asymptoticky řídí rozložením χ^2((r-1)(s-1)), kde r, s jsou počty variant jednotlivých proměnných. Hypotézu o nezávislosti veličin X, Y tedy zamítáme na asymptotické hladině významnosti α, když K ≥ χ^2[1-α]((r-1)(s-1)). V našem případě zjistíme, že K = 1088,15, r = 3 , s = 4, χ^2[1-α]((r-1)(s-1) = χ^2[0,95](6) = 12,592 a protože hodnota testové statistiky K = 1088,15 ≥ 12,592, zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. Cramérův koeficient: , kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je 1, tím je těsnější závislost mezi X a Y, čím blíže je 0, tím je tato závislost volnější. Význam hodnot Cramérova koeficientu: mezi 0 až 0,1 … zanedbatelná závislost, mezi 0,1 až 0,3 … slabá závislost, mezi 0,3 až 0,7 … střední závislost, mezi 0,7 až 1 … silná závislost. Vytvoříme nový datový soubor o 12 případech a třech proměnných (OCI, VLASY, CETNOST). Do proměnné OCI napíšeme varianty barvy očí x[[1]] = 1 (modrá), x[[2]] = 2 (šedá nebo zelená), x[[3]] = 3 (hnědá), přičemž každou variantu napíšeme čtyřikrát pod sebou. Do proměnné VLASY napíšeme třikrát pod sebe všechny varianty y[[1]] = 1 (světlá), y[[2]] = 2 (kaštanová), y[[3]] = 3 (černá), y[[4]] = 4 (rezavá)[.] Před provedním testu je zapotřebí ověřit podmínky dobré aproximace: Statistiky – Základní statistiky/tabulky – Kontingenční tabulky - Specif. tabulky – List 1 OCI, List 2 VLASY, OK, Váhy - CETNOST, Stav zapnuto, OK – na záložce Možnosti zaškrtneme Očekávané četnosti – Výpočet. Podmínky dobré aproximace jsou splněny. Všechny teoretické četnosti jsou větší než 5. Nyní budeme testovat hypotézu o nezávislosti proměnných OCI, VLASY. Návrat do Výsledky; kontingenční tabulky – na záložce Detaily zaškrtneme Pearsonův & M-L Chi - kvadrát, Phi & Cramerovo V, Koeficienty nejistoty – Detailní výsledky – Detailní 2 rozm. tabulky. Ve výstupní tabulce najdeme mj. hodnotu testové stastistiky (Pearsonův chí-kv = 1088,149) s počtem stupňů volnosti (sv = 6) a odpovídající p-hodnotou (p = 0,0000), dále Cramérův koeficient (V = 0,283) a koeficienty nejistoty (U[X/Y] = 0,0865, U[Y/X] = 0,0767, U[sym] = 0,0813). Protože p-hodnota je mnohem menší než 0,05, nulovou hypotézu o nezávislosti barvy očí a barvy vlasů zamítáme na asymptotické hladině významnosti 0,05. Cramérův koeficient svědčí o slabé závislosti barvy očí a vlasů. Koeficient nejistoty U[X/Y] = 0,0865 vyjadřuje kvalitu predikce barvy očí na základě barvy vlasů. Koeficient nejistoty U[Y/X] = 0,0767 vyjadřuje kvalitu predikce barvy vlasů na základě barvy očí. Koeficient nejistoty U[sym] = 0,0813 vyjadřuje kvalitu vzájemné predikce barvy očí a barvy vlasů. Pro grafické znázornění četností se vrátíme do Výsledky; kontingenční tabulky – Detailní výsledky – 3D histogramy. Po vytvoření grafu 2 krát poklepeme levým tlačítkem myši na pozadí grafu: Rozvržení grafu – Typ Šipky – OK. Graf lze natáčet pomocí volby Zorný bod. Úkol k samostatnému řešení: Na hladině významnosti 0,05 testujte hypotézu o nezávislosti pedagogické hodnosti a pohlaví, vypočtěte Cramérův koeficient a koeficient nejistoty vyjadřující intenzitu závislosti pedagogické hodnosti na pohlaví, jsou-li k dispozici následující údaje: pohlaví pedagogická hodnost odb. asistent docent profesor muž 32 15 8 žena 34 8 3 Výsledek: Podmínky dobré aproximace jsou splněny, pouze jediná teoretická četnost klesne po 5. Testová statistika K nabývá hodnoty 3,5, p = 0,1739, tedy na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti pedagogické hodnosti a pohlaví. Cramérův koeficient: V = 0,187, koeficient nejistoty U[Y/X] = 0,0209. Úkol 2.: Fisherův faktoriálový test 100 náhodně vybraných mužů a žen bylo dotázáno, zda dávají přednost nealkoholickému nápoji A či B. Údaje jsou uvedeny ve čtyřpolní kontingenční tabulce. preferovaný nápoj pohlaví muž žena A 20 30 B 30 20 Na hladině významnosti 0,05 testujte pomocí Fisherova faktoriálového testu hypotézu, že preferovaný typ nápoje nezáleží na pohlaví respondenta. Návod: Vytvoříme nový datový soubor o třech proměnných NAPOJ, POHLAVI, CETNOST a čtyřech případech. Do proměnné NAPOJ napíšeme dvakrát pod sebe 1 (nápoj A) a dvakrát pod sebe 2 (nápoj B). Do proměnné POHLAVI napíšeme dvakrát pod sebe jedničku (1 – muž) a dvojku (2 – žena). D proměnné CETNOST napíšeme uvedené četnosti. Statistiky – Základní statistiky/tabulky – Kontingenční tabulky - Specif. tabulky – List 1 NAPOJ, List 2 POHLAVI, OK, Váhy - CETNOST, Stav zapnuto, OK – na záložce Možnosti zaškrtneme Fisher exakt, Yates, McNemar (2x2) – Detailní výsledky – Detailní 2-rozm. tabulky. Ve výstupní tabulce je mimo jiné uvedena p-hodnota pro oboustranný a jednostranný test. V našem případě se jedná o oboustranný test (nevíme, zda muži více preferují nápoj A či nápoj B než ženy), zajímáme se tedy o Fisherův přesný, 2-str. Ta je 0,07134. Protože p-hodnota je větší než 0,05, nezamítáme na hladině významnosti 0,05 hypotézu, že preferovaný typ nápoje nezáleží na pohlaví respondenta. Úkol 3.: Podíl šancí Pro údaje z úkolu 2 vypočtěte podíl šancí a sestrojte 95% asymptotický interval spolehlivosti pro podíl šancí. Pomocí tohoto intervalu spolehlivosti testujte na asymptotické hladině významnosti 0,05 hypotézu, že preferovaný typ nápoje nezáleží na pohlaví respondenta. Návod: Nejprve zopakujme teorii: Ve čtyřpolních tabulkách používáme charakteristiku , která se nazývá podíl šancí (odds ratio). Můžeme si představit, že pokus se provádí za dvojích různých okolností a může skončit buď úspěchem nebo neúspěchem. Výsledek pokusu okolnosti n[j.] I II úspěch[] a b a+b neúspěch c d c+d n[.k] a+c b+d n Poměr počtu úspěchů k počtu neúspěchů (tzv. šance) za 1. okolností je , za druhých okolností je . Podíl šancí je . Pomocí 100(1-α)% asymptotického intervalu spolehlivosti pro podíl šancí lze na asymptotické hladině významnosti α testovat hypotézu o nezávislosti nominálních veličin X a Y. Asymptotický 100(1-α)% interval spolehlivosti pro přirozený logaritmus skutečného podílu šancí má meze: . Jestliže po odlogaritmování nezahrne interval spolehlivosti 1, pak hypotézu o nezávislosti zamítneme na asymptotické hladině významnosti α. V našem případě podíl šancí vypočteme ručně. . Dolní a horní mez intervalu spolehlivosti pro OR zjistíme pomocí STATISTIKY. Vytvoříme datový soubor o dvou proměnných DM a HM a dvou případech. Do Dlouhého jména proměnné DM napíšeme vzorec pro dolní mez: =exp(log(4/9)-sqrt(1/20+1/30+1/30+1/20)*VNormal(0,975;0;1)) a analogicky do Do Dlouhého jména proměnné HM napíšeme vzorec pro horní mez: =exp(log(4/9)+sqrt(1/20+1/30+1/30+1/20)*VNormal(0,975;0;1)) Výsledek: 0,1997 < OR < 0,9893 s pravděpodobností přibližně 0,95. Protože tento interval spolehlivosti neobsahuje 1, na asymptotické hladině významnosti 0,05 zamítáme hypotézu, že preferovaný typ nápoje nezáleží na pohlaví respondenta. Tento výsledek je v rozporu s výsledkem, ke kterému dospěl Fisherův přesný test. Je to způsobeno tím, že test pomocí asymptotického intervalu spolehlivosti je pouze přibližný. Úkol k samostatnému řešení: 18 mužů onemocnělo určitou chorobou. Někteří z nich se léčili, jiní ne. Někteří se uzdravili, jiní zemřeli. Údaje jsou uvedeny ve čtyřpolní kontingenční tabulce. přežití léčení ano ne ano 5 3 ne 6 4 Vypočtěte a interpretujte podíl šancí. Pomocí intervalu spolehlivosti pro podíl šancí testujte na asymptotické hladině významnosti 0,05 hypotézu, že přežití nezávisí na léčení proti tvrzení, že léčení zvyšuje šance na přežití. Výsledek: , nulovou hypotézu nezamítáme asymptotické hladině významnosti 0,05, protože levostranný 95% asymptotický interval spolehlivosti pro podíl šancí je (0,2236; ∞).