Téma 12: Hodnocení kontingenčních tabulek


Úkol 1.: Testování hypotézy o nezávislosti, měření síly závislosti

V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.


Barva očí

                                                            Barva vlasů

                                                              světlá

                                                                                                 kaštanová

                                                                                                            černá

                                                                                                                rezavá

modrá

                                                               1768

                                                                                                    807

                                                                                                             180

                                                                                                                  47

šedá nebo zelená

                                                                946

                                                                                                   1387

                                                                                                             746

                                                                                                                  53

hnědá

                                                                115

                                                                                                    438

                                                                                                             288

                                                                                                                  16


Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti barvy očí a barvy vlasů.
Vypočtěte Cramérův koeficient. Simultánní četnosti znázorněte graficky.


Návod:

Testujeme hypotézu H[0]: X, Y jsou stochasticky nezávislé náhodné veličiny proti
H[1]: X, Y nejsou stochasticky nezávislé náhodné veličiny. Testová statistika má tvar:

. Platí-li H[0], pak K se asymptoticky řídí rozložením χ^2((r-1)(s-1)),

kde r, s jsou počty variant jednotlivých proměnných.

Hypotézu o nezávislosti veličin X, Y tedy zamítáme na asymptotické hladině významnosti α, když K ≥
χ^2[1-α]((r-1)(s-1)).

Podmínky dobré aproximace: Rozložení statistiky K lze aproximovat rozložením χ^2, pokud teoretické
četnosti  aspoň v 80% případů nabývají hodnoty větší nebo rovné 5 a ve zbylých 20% neklesnou pod 2.

V našem případě zjistíme, že K = 1088,15, r = 3 , s = 4, χ^2[1-α]((r-1)(s-1) = χ^2[0,95](6) =
12,592 a protože hodnota testové statistiky K = 1088,15 ≥ 12,592,  zamítáme nulovou hypotézu na
asymptotické hladině významnosti 0,05.

Cramérův koeficient: , kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je 1,
tím je těsnější závislost mezi X a Y, čím blíže je 0, tím je tato závislost volnější.

Význam hodnot Cramérova koeficientu:

mezi 0 až 0,1 … zanedbatelná závislost,

mezi 0,1 až 0,3 … slabá závislost,

mezi 0,3 až 0,7 … střední závislost,

mezi 0,7 až 1 … silná závislost.


Otevřeme datový soubor oci_vlasy.sta o 12 případech a třech proměnných (OCI, VLASY, CETNOST).

Před provedením testu je zapotřebí ověřit podmínky dobré aproximace:

Statistiky – Základní statistiky/tabulky – Kontingenční tabulky -  Specif. tabulky – List 1 OCI,
List 2 VLASY, OK, Váhy  - CETNOST, Stav zapnuto, OK – na záložce Možnosti zaškrtneme Očekávané
četnosti – Výpočet.


Podmínky dobré aproximace jsou splněny. Všechny teoretické četnosti jsou větší než 5. Nyní budeme
testovat hypotézu o nezávislosti proměnných OCI, VLASY.


Návrat do Výsledky; kontingenční tabulky – na záložce Detaily zaškrtneme Pearsonův & M-L Chi -
kvadrát, Phi & Cramerovo V – Detailní výsledky – Detailní 2 rozm. tabulky.


Ve výstupní tabulce najdeme mj. hodnotu testové stastistiky (Pearsonův chí-kv = 1088,149) s počtem
stupňů volnosti (sv = 6) a odpovídající  p-hodnotou (p = 0,0000), dále Cramérův koeficient (V =
0,283). Protože  p-hodnota  je mnohem menší než 0,05, nulovou hypotézu o nezávislosti barvy očí a
barvy vlasů zamítáme na asymptotické hladině významnosti 0,05.

Cramérův koeficient svědčí o slabé závislosti barvy očí a vlasů.


Pro grafické znázornění četností se vrátíme do Výsledky; kontingenční tabulky – Detailní výsledky –
3D histogramy. Po vytvoření grafu 2 krát poklepeme levým tlačítkem myši na pozadí grafu:

Rozvržení grafu – Typ Šipky – OK. Graf lze natáčet pomocí volby Zorný bod.


Úkol k samostatnému řešení: Na hladině významnosti 0,05 testujte hypotézu o nezávislosti
pedagogické hodnosti a pohlaví a vypočtěte Cramérův koeficient vyjadřující intenzitu závislosti
pedagogické hodnosti na pohlaví, jsou-li k dispozici následující údaje:


pohlaví

                                               pedagogická hodnost

                                                  odb. asistent

                                                                                                      docent

                                                                                                           profesor

muž

                                                       32

                                                                                                        15

                                                                                                               8

žena

                                                       34

                                                                                                         8

                                                                                                               3


Výsledek: Podmínky dobré aproximace jsou splněny, pouze jediná teoretická četnost klesne pod 5.
Testová statistika K nabývá hodnoty 3,5, p = 0,1739, tedy na asymptotické hladině významnosti 0,05
nezamítáme hypotézu o nezávislosti pedagogické hodnosti a pohlaví. Cramérův koeficient: V = 0,187.


Úkol 2.: Fisherův faktoriálový test

100 náhodně vybraných mužů a žen bylo dotázáno, zda dávají přednost nealkoholickému nápoji A či B.
Údaje jsou uvedeny ve čtyřpolní kontingenční tabulce.


preferovaný nápoj

                                                               pohlaví

                 muž

                                                                                                 žena

A

                                                                 20

                                                                                                  30

B

                                                                 30

                                                                                                  20


Na hladině významnosti 0,05 testujte pomocí Fisherova faktoriálového testu hypotézu, že preferovaný
typ nápoje nezáleží na pohlaví respondenta.


Návod: Vytvoříme nový datový soubor o třech proměnných NAPOJ, POHLAVI, CETNOST a čtyřech případech.
Do proměnné NAPOJ napíšeme dvakrát pod sebe 1 (nápoj A) a dvakrát pod sebe 2 (nápoj B).  Do
proměnné POHLAVI napíšeme jedničku (1 – muž) a dvojku (2 – žena) a znovu jedničku a dvojku. D
proměnné CETNOST napíšeme uvedené četnosti.

Statistiky – Základní statistiky/tabulky – Kontingenční tabulky -  Specif. tabulky – List 1 NAPOJ,
List 2 POHLAVI, OK, Váhy  - CETNOST, Stav zapnuto, OK – na záložce Možnosti zaškrtneme Fisher
exakt, Yates, McNemar (2x2) – Detailní výsledky – Detailní 2-rozm. tabulky.


Ve výstupní tabulce je mimo jiné uvedena p-hodnota pro oboustranný a jednostranný test. V našem
případě se jedná o oboustranný test (nevíme, zda muži více preferují nápoj A či nápoj B než ženy),
zajímáme se tedy o Fisherův přesný, 2-str. Ta je 0,07134. Protože p-hodnota je větší než 0,05,
nezamítáme na hladině významnosti 0,05 hypotézu, že preferovaný typ nápoje nezáleží na pohlaví
respondenta.


Úkol 3.: Podíl šancí

Pro údaje z úkolu 2 vypočtěte podíl šancí a sestrojte 95% asymptotický interval spolehlivosti pro
podíl šancí. Pomocí tohoto intervalu spolehlivosti testujte na asymptotické hladině významnosti
0,05 hypotézu, že preferovaný typ nápoje nezáleží na pohlaví respondenta.


Návod: Nejprve zopakujme teorii:

Ve čtyřpolních tabulkách používáme charakteristiku , která se nazývá podíl šancí (odds ratio).
Můžeme si představit, že pokus se provádí za dvojích různých okolností a může skončit buď úspěchem
nebo neúspěchem.


Výsledek pokusu

                                                                                                  okolnosti

                                                                                                                                           n[j.]

                                                                                                      I

                                                                                                                                        II

                                             úspěch[]

                                                                                                      a

                                                                                                                                         b

                                                                                                                                            a+b

                                             neúspěch

                                                                                                      c

                                                                                                                                         d

                                                                                                                                            c+d

                                               n[.k]

                                                                                                     a+c

                                                                                                                                        b+d

                                                                                                                                             n

Poměr počtu úspěchů k počtu neúspěchů (tzv. šance) za 1. okolností je , za druhých okolností je .
Podíl šancí je . Považujeme ho za odhad skutečného podílu šancí oρ. Pomocí 100(1-α)% asymptotického
intervalu spolehlivosti pro logaritmus skutečného podílu šancí ln oρ lze na asymptotické hladině
významnosti α testovat hypotézu o nezávislosti nominálních veličin X a Y.

Upozornění: Musí být splněny podmínky dobré aproximace.

Asymptotický 100(1-α)% interval spolehlivosti pro přirozený logaritmus skutečného podílu šancí má
meze:

. Jestliže interval spolehlivosti nezahrne 0, pak hypotézu o nezávislosti zamítneme na asymptotické
hladině významnosti α.

V našem případě podíl šancí vypočteme ručně. .

Dolní a horní mez intervalu spolehlivosti pro OR zjistíme pomocí STATISTIKY.

Ověříme splnění podmínek dobré aproximace a zjistíme, že všechny teoretické četnosti jsou 25.

Vytvoříme datový soubor o dvou proměnných DM a HM a dvou případech. Do Dlouhého jména proměnné DM
napíšeme vzorec pro dolní mez:

=log(4/9)-sqrt(1/20+1/30+1/30+1/20)*VNormal(0,975;0;1)

a analogicky  do Do Dlouhého jména proměnné HM napíšeme vzorec pro horní mez:
=log(4/9)+sqrt(1/20+1/30+1/30+1/20)*VNormal(0,975;0;1)


Výsledek: -1,61108 < ln oρ < -0,01078 s pravděpodobností přibližně 0,95. Protože tento interval
spolehlivosti neobsahuje 0, na asymptotické hladině významnosti 0,05 zamítáme hypotézu, že
preferovaný typ nápoje nezáleží na pohlaví respondenta.

Tento výsledek je v rozporu s výsledkem, ke kterému dospěl Fisherův přesný test. Je to způsobeno
tím, že test pomocí asymptotického intervalu spolehlivosti je pouze přibližný.

Úkol k samostatnému řešení: 36 mužů onemocnělo určitou chorobou. Někteří z nich se léčili, jiní ne.
Někteří se uzdravili, jiní zemřeli. Údaje jsou uvedeny ve čtyřpolní kontingenční tabulce.


přežití

                                                     léčení

       ano

                                                                                                  ne

ano

                                                       10

                                                                                                   6

ne

                                                       12

                                                                                                   8


Vypočtěte a interpretujte podíl šancí. Pomocí intervalu spolehlivosti pro podíl šancí testujte na
asymptotické hladině významnosti 0,05 hypotézu, že přežití nezávisí na léčení proti tvrzení, že
léčení zvyšuje šance na přežití.

Výsledek: , nulovou hypotézu nezamítáme asymptotické hladině významnosti 0,05, protože levostranný
95% asymptotický interval spolehlivosti pro  logaritmus podílu šancí je

(-1,94; ∞).


Úkol 4.: Testování hypotézy o symetrii ve čtyřpolní tabulce (McNemarův test)

Máme náhodný výběr 18 pacientů, kteří byli léčeni dvěma různými antihypertenzívy A a B. Každý
pacient dostával po dobu jednoho měsíce lék A a po odeznění jeho případných účinků dostával po dobu
jednoho měsíce lék B. Výsledek byl klasifikován jako úspěch nebo neúspěch. Za úspěch byl pokládán
pokles krevního tlaku alespoň o 15 mm Hg. Každý jiný výsledek byl považován za neúspěch. Lék A byl
úspěšný u 4 pacientů, přičemž u jednoho z nich byl úspěšný i lék B. Lék B byl úspěšný u 10
pacientů. Na asymptotické hladině významnosti 0,05 testuje hypotézu, že pravděpodobnost úspěchu je
stejná pro oba léky.

Výsledek: Testová statistika McNemarova testu se realizuje hodnotou 3, kritický obor je , tedy
nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05.