10 Testování nezávislosti v kontingenčních tabulkách 10.1 Kontingenční tabulky • jeden výběr ... dva nominální znaky X a Y • znak X ... r variant; znak Y ... s variant Kontingenční tabulka (KT) • rijk . . . absolutní simultánní četnosti j-té varianty znaku X a k-té varianty znaku Y • rij. = riji + ... rijS ... absolutní marginální četnosti j-té varianty znaku X • n.k = nik + • • • nrk ... absolutní marginální četnosti k-té varianty znaku Y Pearsonův x2 test • asymptotický test — musíme ověřit podmínku dobré aproximace — chisq.test(data, correct=F)$expected — alespoň 80 % případů musí být > 5 a zbylých 20 % nesmí klesnout pod 2. • Hq : X, Y jsou stochasticky nezávislé. • Hi : X, Y nejsou stochasticky nezávislé. • porovnávame pozorované četnosti rijk a teoretické četnosti dvojice variant {x[j],y[k]) • za platnosti Hq si jsou rijk a —— podobne n • Testovací statistika: j=i k=i n • Kritický obor: W = (xí-a((r ~ — !))> °°) • chisq.test(data, correct=F) 1 Měření závislosti, Cramérův koeficient • Cramérův koeficient v = J ,K 1V y n(m — 1) kde m = min{r, s}. Cramérův koeficient interpretace 0 - 0.1 zanedbatelná závislost 0.1 - 0.3 slabá závislost 0.3 - 0.7 střední závislost 0.7- 1 silná závislost • cramersV(data) z knihovny Isr 10.2 Čtyřpolní kontingenční tabulky • náhodné veličiny X, Y mají pouze 2 varianty —> čtyřpolní kontingenční tabulka • značení: nu = a, n12 = b, »2i = c, n22 = d 10.2.1 Pearsonův x2 test • asymptotický test; viz výše • kritický obor: W = (x?_0(l),oo) 10.2.2 Fisherův faktoriálový test • přesný test • fisher.test(data) 2 Podíl šancí ve čtyřpolní KT • pokus se provádí za dvojích různých okolností a může skončit buď úspěchem nebo neúspěchem • 1.okolnost: podíl počtu úspěchů ku počtu neúspěchů: ^ • 2.okolnost: podíl počtu úspěchů ku počtu neúspěchů: ^ • op ... teoretický podíl šancí — A", Y nezávislé —> potom op = 1 • OR ... výběrový podíl šancí or = \ = t a • Závislost X, Y je tím silnější, čím více se OR (op) liší od 1. • OR resp. op G (0; oo) (nesymetrický interval) —> preferujeme logaritmus podílu šancí • ln(Oi?) resp. ln(op) G (—oo; oo) Test podílem šancí • Hq '■ X, Y jsou stochasticky nezávislé ... op = 1 —> ln op = 0 • Hi : X, Y nejsou stochasticky nezávislé ... op = 1 —>• ln op ^ 0. • Testová statistika \nOR T0 = — —i— — —i— — —i— — a ^ b ^ c T d Kritický obor: W = ( — oo; —«1-^/2) U (iti-a/2; 00) 100(1 — a)% asymptotický interval spolehlivosti (d,h) = ( ln OR - \l i + i + -c + ^i-«/2; lnOi?-^ + i + ^ + ^a/2 3