logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test dobré shody
Fisherův přesný test
McNemar test
VII. Kontingenční tabulky

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Anotace
—Analýza kontingenčních tabulek umožňuje analyzovat vazbu mezi dvěma kategoriálními proměnnými.
Základním způsobem testování je tzv. chi-square test, který srovnává pozorované četnosti kombinací
kategorií oproti očekávaným četnostem, které vychází z teoretické situace, kdy je vztah mezi
proměnnými náhodný.
—Test dobré shody je využíván také pro srovnání pozorovaných četností proti očekávaným četnostem
daným určitým pravidlem (typickým příkladem je Hardy-Weinbergova rovnováha v genetice)
—Specifickým typem výstupů odvozených z kontingenčních tabulek jsou tzv. odds ratia a relativní
rizika, využívaná často v medicíně pro identifikaci a popis rizikových skupin pacientů.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test dobré shody - základní teorie
pozorovaná
četnost
očekávaná
četnost
očekávaná četnost
=
+
2
pozorovaná
četnost
očekávaná
četnost
očekávaná četnost
1. jev
2. jev
-
2
-
+
…
pozorovaná
četnost
očekávaná
četnost
očekávaná četnost
=
2
-
∑

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test dobré shody - základní teorie
Binomické jevy (1/0)
pozorovaná
četnost
očekávaná
četnost
očekávaná četnost
=
+
2
pozorovaná
četnost
očekávaná
četnost
očekávaná četnost
I. jev 1
II. jev 2
-
2
-
Příklad
10 000 lidí hází mincí           rub: 4 000 případů (R)
                                            líc: 6 000 případů (L)
Lze výsledek považovat za statisticky významně odlišný
(nebo neodlišný) od očekávaného poměru R : L = 1 : 1 ?
 Rozdíl je vysoce statisticky významný (p << 0,001]
Tabulková hodnota:

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Kontingenční tabulky
 H0 :Nezávislost dvou jevů A a B
Kontingenční tabulka
2 x 2
N = a + b + c + d
+
-
Podíl (+)
+
a
b
-
c
d
Podíl (+)
B
A
p1
p2
Očekávané četnosti:

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Kontingenční tabulky: příklad
FA = 102 * 30 / 166 = 18,43
FB = 102 * 136 / 166 = 83,57
FC = 11,57
FD = 52,43
Ano
Ne
S
Ano
20
82
102
Ne
10
54
64
S
30
136
166
gen
…
Kontingenční tabulka v obrázku
Gen: ANO
Gen: NE

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
R x C kontingenční tabulka
Výběr: N lidí ze sociologického průzkumu (delikventi)
Jev A: Původ z rozvrácených rodin
Jev B: Stupeň zločinnosti I < II < III < IV
I.
II.
III.
IV.
S
číslo 1
ANO
a
b
c
d
NE
e
f
g
h
   S
A
B
číslo2
Stupně volnosti:
 (R-1) * (C-1) = 1 * 3 = 3
Tabulky:
Očekávané četnosti:

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test dobré shody: příklad I
   H0: Pozorovaná frekvence pro jednotlivé barvy květů jsou vzorkem populace mající poměr mezi
   žlutými a červenými květy 3 :1.
   Součet frekvencí u obou barev květů (fi) se rovná 100 a pozorované frekvence u kategorií barvy
   budou srovnány s očekávanými frekvencemi (uvedeny v závorkách):
   Ověřte na datech z pokusu se 100 květinkami určitého druhu, že barva květů se geneticky štěpí v
     poměru žlutá : červená = 3 : 1.
Kategorie barvy
Žlutá
Červená
n
f poz.
84
16
100
f oček.
75
25
St. volnosti = n = k - 1 = 1
Zamítáme hypotézu shody srovnávaných četností
Při testování H0 jsme použili matematický zápis (0,025 < P < 0,05). Z tabulek c2 rozložení vidíme,
že pravděpodobnost překročení hranice 2,706 je 0,1 (10 %), což může být stručně zapsáno jako
P (c2 ³ 2,706) = 0,10.
Dále lze zjistit pro P (c2 ³ 3,841) = 0,05. V řešené úloze jsme dospěli k hodnotě testové
statistiky c2 = 4,320. Pro tento případ lze tedy psát 0,025 < P (c2 ³ 4,320) < 0,05; a jednodušeji
0,025 < P < 0,05. Jde v podstatě o přibližné určení hranic chyby 1. druhu.

logo-IBA ü
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií:
žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto
kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a
dále postup při testování H0.
   Tento příklad je rozšířením problému z příkladu 1 na srovnání pozorovaných a očekávaných
frekvencí pro více kategorií sledovaného znaku:
žluté/hladké
žluté/vrásčité
zelené/hladké
zelené/vrásčité
n
f poz.
152
39
53
6
250
f oček.
140,6250
46,8750
46,8750
15,6250
n = k - 1 = 3
Zamítáme hypotézu shody pozorovaných četností s očekávanými
Test dobré shody: příklad II

logo-IBA ü
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Předpokládejme, že chceme pro data z předchozí úlohy testovat hypotézu existence štěpného poměru 9
: 3 : 3 pro první tři kategorie semen:
Složitější příklady řešené srovnáváním frekvencí je možné rozdělit na testování dílčích hypotéz:
žluté/hladké
žluté/vrásčité
zelené/hladké
n
f poz.
152
39
53
244
f oček.
146,400
48,800
48,800
n = k - 1 = 2
Nezamítáme hypotézu shody pozorovaných četností s očekávanými.
Nyní otestujeme hypotézu štěpného poměru kategorií zelené/vrásčité:ostatní typy = 1:15
zelené/vrásčité
ostatní
n
f poz.
6
244
25
f oček
15,625
234,375
n = k - 1 = 1
Zamítáme hypotézu shody pozorovaných četností s očekávanými.
Test dobré shody: příklad III

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test dobré shody: příklad IV - využití aditivity testu
  U 193 párů dvojčat byly zjištěny následující poměry pohlaví:  56 Ch - Ch

               72 Ch – H

               65 H - H
ü
Za předpokladu, že narození chlapečka má stejnou pravděpodobnost jako narození holčičky, lze
očekávat poměry pro výše uvedené skupiny = 0,25 : 0,5 : 0,25.
Ověřte tento předpoklad na uvedeném vzorku populace.
?
S 193 párů                  1/4     :   1/2   :   1/4
očekávané četnosti =  48,25 : 96,50 : 48,25
Proč lze v předchozím případě očekávat zamítnutí H0?
Testujte následující hypotézy:
1) Jsou relativní počty párů se shodným pohlavím ve shodě s očekávanými četnostmi? (ignorujte Ch –H
páry)
2) Je relativní četnost kombinace Ch - Ch a H - H párů oproti párům s rozdílným pohlavím ve shodě s
očekávanými četnostmi?
S 121 párů                       1   :   1
očekávané četnosti =  60,5 : 60,5
S 193 párů                       1   :    1
očekávané četnosti =  96,5  :  96,5

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
  Města  -  zatížení exhalacemi  -  třídy   (A  >  B   >  C  >  D)
                                            Svět:  A : B : C : D  = 2   :   3   :   6   :   4
  Konkrétní země (n = 184 měst):  A : B : C : D  = 32  :  151  :  182  :  116
  H0: shoda fi a Fi      a = 0,05              FA: 64,13             FC: 192,39
                                                              FB: 96,19             FD: 128,27
Zamítáme hypotézu shody pozorovaných četností s očekávanými.
Příspěvek kategorií A, B, C, D k celkové hodnotě c2
Tmavý šikmo nahoru
%
Tmavý šikmo nahoru
A
B
C
D
A
B
C
D
Test dobré shody: příklad V

logo-IBA ü
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
  Jev: Úmrtnost na leukemii
  Předpoklad: P = 0,6
  Absolutní četnost jevu označena ri
Sledovalo s autorů z s zemí:
Autor
ni
ri
pi
1
2
.
.
.
s
Test shody reálného r
Test homogenity binomických rozložení
Po možném sloučení s výběrů
Test homogenity binomických rozložení

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test homogenity binomických četností: příklad
Bylo provedeno 6 nezávislých výběrů z populace mladých mužů, kteří v dětství  onemocněli těžkým
zánětem mozkových blan.
H0: V této populaci se vyskytují praváci a leváci v poměru 1 : 1.
   Pomocí c2 rozložení lze rovněž posuzovat homogenitu většího množství nezávislých pokusů
testujících tutéž hypotézu.
Nalezněte v literatuře příslušné vztahy pro testování homogenity všech šesti výběrových populací a
na základě výsledků tohoto testu rozhodněte o dalším postupu.
Následující tabulka obsahuje původní data a výsledek testování (v závorkách jsou uvedeny očekávané
četnosti):
Vzorek
Praváci
Leváci
n
c2
St. volnosti
1
3 (7)
11 (7)
14
4,5714
1
2
4 (8)
12 (8)
16
4,000
1
3
15 (10)
5 (10)
20
5,000
1
4
14 (9)
14 (9)
18
5,5556
1
5
13 (8,5)
4 (8,5)
17
4,7647
1
6
17 (11)
5 (11)
22
6,5455
1
   Jednoduchým testováním lze zjistit, že všechny testy pro jednotlivé výběry jsou významné, což
znamená, že ani v jednom případě nebyla potvrzena shoda očekávaných a pozorovaných četností. Test
homogenity štěpného poměru v zkoumaných populacích rovněž vedl k zamítnutí možnosti sloučit
jednotlivé výběry a posuzovat je jako celek (kromě testovaného poměru 1 : 1 neexistuje tedy v
datech žádný jiný jednotný štěpný poměr mezi oběma vlastnostmi.
  V případě, že by tento test neprokázal odchylky mezi jednotlivými výběrovými populacemi, bylo by
možné jednotlivé odběry sloučit a posuzovat jako homogenní vzorek.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
c2 test - příklad složitější kontingenční tabulky I
Caffeine consumption and marital status in antenatal patiens (from Martin and Bracken, 1987)
                                                               Caffeine consumption (mg/day)
Marital status
0
1 - 150
151 - 300
> 300
Total
Married
652
1537
598
242
3029
Divorced, separed or widowed
36
46
38
21
141
Single
218
327
106
67
718
Total
906
1910
742
330
3888
Caffeine consumption and marital status data
                                                               Caffeine consumption (mg/day)
Marital status
0
1 - 150
151 - 300
> 300
Total
Married
22 %
51 %
20 %
8 %
3029 (100 %)
Divorced, separed or widowed
26 %
33 %
27 %
15 %
141  (100 %)
Single
30 %
46 %
15 %
9 %
718 (100 %)
Total
23 %
49 %
19 %
8 %
3888 (100 %)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Contributions of each cell
                                                               Caffeine consumption (mg/day)
Marital status
0
1 - 150
151 - 300
> 300
Total
Married
4,11
1,61
0,69
0,89
7,30
Divorced, separed or widowed
0,30
7,82
4,57
6,82
19,51
Single
15,36
1,88
7,02
0,60
24,86
Total
19,77
11,31
12,28
8,31
51,66
Expected frequencies
                                                               Caffeine consumption (mg/day)
Marital status
0
1 - 150
151 - 300
> 300
Total
Married
705,8
1488
578,1
257,1
3029
Divorced, separed or widowed
32,9
69,3
26,9
12,0
141
Single
167,3
352,7
137
60,9
718
Total
906
1910
742
330
3888
c2 test - příklad složitější kontingenční tabulky II

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
c2 test - příklad frakcionace složitější kontingenční tabulky I
Cílem rozsáhlejšího průzkumu populace bylo prozkoumat vztah mezi dvěma typy chorob a krevními
skupinami u lidí. Konkrétní data jsou uvedena v tabulce:
Krevní skupina
Žaludeční vředy
Rakovina žaludku
Kontrola
Celkem
0
983
383
2892
4258
A
679
416
2625
3720
B
134
84
570
788
Celkem
1796
883
6087
8766
  Vypočítejte testovou charakteristiku pro tuto kontingenční tabulku a
  otestujte nulovou hypotézu nezávislosti jevů (c2 = 40,54; 4 st. volnosti)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
K podrobnějšímu průzkumu složitějších tabulek výrazně napomáhá přepis původní tabulky do podoby
procentického zastoupení kategorií:
Krevní skupina
Žaludeční vředy
Rakovina žaludku
Kontrola
0
983
383
2892
A
679
416
2625
B
134
84
570
Celkem
1796
883
6087
Jsou jenom malé rozdíly v distribuci krevních skupin u kontroly a u skupiny nemocných rakovinou
žaludku.
Pacienti s vředy mají mnohem častěji krevní skupinu 0.
Z této tabulky je patrné:
   Na základě těchto poznatků je možné sestrojit menší kontingenční tabulku, která otestuje
      hypotézu o shodné distribuci krevních skupin pro nemocné rakovinou a pro zdravé lidi.
  Sestavte tuto tabulku a otestujte nulovou hypotézu.
(c2 = 5,64 (2 st. v.), P je přibližně rovna 0,06)
c2 test - příklad frakcionace složitější kontingenční tabulky II

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
•  Z tohoto dílčího testu vyplývá možnost sloučení skupiny nemocných rakovinou a zdravých lidí
neboť se vzhledem k distribuci krevních skupin chovají jako homogenní populace. Dalším logickým
krokem v podrobné analýze je testování shody relativních četností výskytu krevních skupin A a B
mezi kombinovaným vzorkem (sloučená skupina s rakovinou a kontrola) a mezi vzorkem lidí nemocných
žaludečními vředy - tzn. nyní neuvažujeme krevní skupinu 0. Výsledkem tohoto testu je c2 = 0,68 (1
st. vol.); P > 0,7. Vzorky pro krevní skupiny A a B lze tedy sloučit do směsného vzorku A + B.
•  Nyní otestujeme shodu relativních četností výskytu skupiny 0 oproti A + B, a to mezi
kombinovanou populací (kontrola + nemocní rakovinou) a mezi vzorkem nemocných vředařů (c2 = 34,29;
1 st. vol.). Lze tedy shrnout, že vysoká hodnota původního c2 se 4 st. volnosti byla způsobena
zvýšenou četností lidí s krevní skupinou 0 mezi nemocnými žaludečními vředy.
c2 test - příklad frakcionace složitější kontingenční tabulky III

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Srovnání
St. volnosti
c2
0, A, B skupina u pacientů s rakovinou (r) x kontrola (k)
2
5,64
A, B skupina u pacientů s vředy x kombinovaný vzorek (r + k)
1
0,68
0, A, B skupina u pacientů s s vředy x kombinovaný vzorek (r + k)
1
34,29
Celkem
4
40,61
   Průběh hodnocení lze shrnout do tabulky:
   Celkový součet testových statistik c2 (40,61) odpovídá přibližně původní hodnotě c2 (40,54). Což
platí i o stupních volnosti (4). Tato skutečnost potvrzuje, že jsme detailním rozborem vyčerpali
informační obsah původní kontingenční tabulky a kromě popsané závislosti (zvýšený výskyt krevní
skupiny 0 u lidí s žaludečními vředy) jsou jednotlivé kategorie zkoumaných jevů zcela nezávislé.
c2 test - příklad frakcionace složitější kontingenční tabulky IV

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Kontingenční tabulka 2 x 2:
Řešení při nedostatečné velikosti vzorku
   Test analyzuje všechny možné 2 x 2 tabulky, které dávají stejnou sumu řádků a sloupců jako
tabulka zdrojová.
  Algoritmus každé tabulce přiřazuje pravděpodobnost, že taková situace nastane, je-li H0 pravdivá.
Yates' corection
Fisher's exact test
 H0: Nezávislost jevů
Spectacle wearing among juvenile delinquents and non-delinquents who failed a vision test
(Weindling et al., 1986)
Spectacle wearers
Juvenile delinquents
Non- deliquents
Total
Yes
1
5
6
No
8
2
10
Total
9
7
16

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
a
b
c
d
P
( I )
0
6
9
1
0,00087
( II )
1
5
8
2
0,02360
( III )
2
4
7
3
0,15734
( IV )
3
3
6
4
0,36713
( V )
4
2
5
5
0,33042
( VI )
5
1
4
6
0,11014
( VII )
6
0
3
7
0,01049
Total
0,99999
 Pravděpodobnost náhodného vzniku variant tabulky
   Všechny možné varianty tabulky s danou sumou řádků a sloupců
0
6
9
1
1
5
8
2
2
4
7
3
6
0
3
7
5
1
4
6
4
2
5
5
3
3
6
4
(I)
(II)
(III)
(IV)
(V)
(VI)
(VII)
Kontingenční tabulka 2 x 2:
Řešení při nedostatečné velikosti vzorku

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
2 x 2 frekvenční tabulka pro párové uspořádání: Mc Nemar's test
Příklad: Srovnání 2 metod stanovení antigenu v krvi (antigen vždy přítomen)
  H0: metoda 1 = metoda 2
Metoda 1
Metoda 2
Frekvence
úspěch
úspěch
202
úspěch
neúspěch
60
neúspěch
úspěch
42
neúspěch
neúspěch
10
H0 nezamítnuta