10   Testování nezávislosti v kontingenčních tabulkách
10.1   Kontingenční tabulky
• jeden výběr ... dva nominální znaky X a Y
• znak X ... r variant; znak Y ... s variant
Kontingenční tabulka (KT)
• rijk . . . absolutní simultánní četnosti j-té varianty znaku X a k-té varianty znaku Y
• rij. = riji + ... rijS ... absolutní marginální četnosti j-té varianty znaku X
• n.k = nik + • • • nrk ... absolutní marginální četnosti k-té varianty znaku Y
Pearsonův x2 test
• asymptotický test
— musíme ověřit podmínku dobré aproximace
— chisq.test(data, correct=F)$expected
— alespoň 80 % případů musí být > 5 a zbylých 20 % nesmí klesnout pod 2.
• Hq : X, Y jsou stochasticky nezávislé.
• Hi : X, Y nejsou stochasticky nezávislé.
• porovnávame pozorované četnosti rijk a teoretické četnosti dvojice variant {x[j],y[k])
• za platnosti Hq si jsou rijk a —— podobne
n
• Testovací statistika:
j=i k=i
n
• Kritický obor: W = (xí-a((r ~       — !))> °°)
• chisq.test(data, correct=F)
1
Měření závislosti, Cramérův koeficient • Cramérův koeficient
v = J ,K 1V
y n(m — 1)
kde m = min{r, s}.
Cramérův koeficient	interpretace
0 - 0.1	zanedbatelná závislost
0.1 - 0.3	slabá závislost
0.3 - 0.7	střední závislost
0.7- 1	silná závislost
• cramersV(data) z knihovny Isr
10.2   Čtyřpolní kontingenční tabulky
• náhodné veličiny X, Y mají pouze 2 varianty —> čtyřpolní kontingenční tabulka
• značení: nu = a, n12 = b, »2i = c, n22 = d
10.2.1 Pearsonův x2 test
• asymptotický test; viz výše
• kritický obor: W = (x?_0(l),oo)
10.2.2 Fisherův faktoriálový test
• přesný test
• fisher.test(data)
2
Podíl šancí ve čtyřpolní KT
• pokus se provádí za dvojích různých okolností a může skončit buď úspěchem nebo neúspěchem
• 1.okolnost: podíl počtu úspěchů ku počtu neúspěchů: ^
• 2.okolnost: podíl počtu úspěchů ku počtu neúspěchů: ^
• op ... teoretický podíl šancí
— A", Y nezávislé —> potom op = 1
• OR ... výběrový podíl šancí
or = \ = t
a
• Závislost X, Y je tím silnější, čím více se OR (op) liší od 1.
• OR resp. op G (0; oo) (nesymetrický interval) —> preferujeme logaritmus podílu šancí
• ln(Oi?) resp. ln(op) G (—oo; oo)
Test podílem šancí
• Hq '■ X, Y jsou stochasticky nezávislé ... op = 1 —> ln op = 0
• Hi : X, Y nejsou stochasticky nezávislé ... op = 1 —>• ln op ^ 0.
• Testová statistika
\nOR
T0 =
— —i— — —i— — —i— —
a ^ b ^ c T d
Kritický obor: W = ( — oo; —«1-^/2) U (iti-a/2; 00) 100(1 — a)% asymptotický interval spolehlivosti
(d,h) = ( ln OR - \l i + i + -c + ^i-«/2; lnOi?-^ + i + ^ + ^a/2
3