Přednáška X.
Testování hypotéz o
kvalitativních proměnných
Testování hypotéz o podílech
Kontingenční tabulka, čtyřpolní tabulka
Testy nezávislosti, Fisherův exaktní test, McNemarův test
Testy dobré shody pro ověření rozdělení pravděpodobnosti
Tomáš Pavlík Biostatistika
Opakování – analýza rozptylu
Proč je výhodnější provést srovnání průměrů spojité veličiny u více než dvou
skupin pomocí analýzy rozptylu než pomocí testů pro všechny dostupné
dvojice sledovaných skupin?
Jak lze řešit situaci, kdy chceme provést více testů zároveň?
Tomáš Pavlík Biostatistika
Opakování – princip analýzy rozptylu
Jaký je princip analýzy rozptylu?
Jaké jsou předpoklady analýzy rozptylu?
Tomáš Pavlík Biostatistika
Opakování – normalita dat
Jak můžeme „seriózně“ ověřit normalitu dat?
1. Motivace
Tomáš Pavlík Biostatistika
Matematická biologie × modré oči
Tomáš Pavlík Biostatistika
Studenti matematické biologie s modrýma očima
Budeme sledovat podíl studentů matematické biologie (současných i
bývalých), kteří mají modré oči.
Náhodná veličina A = modrá barva očí – alternativní náhodná veličina.
Náhodná veličina X = počet studentů matematické biologie s modrýma
očima – binomická náhodná veličina. Je to součet n alternativních veličin.
Odhad parametru π:
),(~ πnBiX



=
0
1
A
π
π
−==
==
1)0(
)1(
AP
APkdyž student má modré oči
když student nemá modré oči
∑=
=
n
i iAX 1
nXp /ˆ ==π
Tomáš Pavlík Biostatistika
Studenti matematické biologie s modrýma očima
Budeme sledovat podíl studentů matematické biologie, kteří mají modré
oči.
Výsledky v tabulce:
Odhad parametru π:
Modrá barva očí Jiná barva očí Celkem
Studenti matematické
biologie (současní i bývalí)
17 43 60
283,060/17/ˆ ==== nXpπ
Tomáš Pavlík Biostatistika
Studenti matematické biologie s modrýma očima
Budeme se zajímat o to, jestli podíl studentů matematické biologie, kteří
mají modré oči, souvisí s obdobím studia.
Výsledky v tabulce:
Studenti BIMAT Modrá barva očí Jiná barva očí Celkem
Současní 11 31 42
Bývalí 6 12 18
Celkem 17 43 60
2. Testování hypotéz o podílech
Tomáš Pavlík Biostatistika
Co nás bude zajímat?
Binární data jsou v medicíně i biologii častá – výskyt ano/výskyt ne,
úspěch/neúspěch, …
Kromě bodového odhadu nás může zajímat
Interval spolehlivosti pro parametr π
Test o parametru π proti konstantě π0
Test o parametru π ve dvou souborech
Tomáš Pavlík Biostatistika
Aproximace na normální rozdělení
Pravděpodobnost, že náhodná veličina X bude při své realizaci rovna
hodnotě k lze přesně stanovit pomocí vzorce:
Pro větší n (a tedy větší rozsah možných hodnot k) je jednodušší použít
aproximaci normálním rozdělením.
Vychází z CLV – součty se pro dostatečné n chovají normálně.
Předpokladem aproximace na normální rozdělení je součin np(1-p) větší než
5, nebo ještě lépe součin np(1-p) větší než 10.
Pak platí:
)1,0(~
)1(
N
n
nX
Z
ππ
π
−
−
=
knk
k
n
kXP −
−





== )1()( ππ
Tomáš Pavlík Biostatistika
Proč np(1-p) větší než 5?
Souvisí s množstvím informace nutné pro dosažení „tvaru normálního
rozdělení“ → nutné pro vhodnost, respektive přesnost aproximace.
Pro π = 0,5 je jednodušší dosáhnout „tvar normálního rozdělení“ než pro π = 0,1
nebo π = 0,9. Pro π hodně blízká 0 nebo 1 není aproximace vhodná.
Tomáš Pavlík Biostatistika
Interval spolehlivosti pro podíl
Máme n studentů Matematické biologie a mezi nimi x s modrýma očima.
Rozdělení pravděpodobnosti odhadu parametru π:
Při konstrukci intervalu spolehlivosti neznáme hodnotu π, proto je logické ji
v odhadu rozptylu (a SE) nahradit odhadem p:
Při splnění podmínek pro aproximaci normálním rozdělením má 100(1-α)%
IS tvar:
nxp /ˆ ==π
npppDpSE /)1()()( −==
nppzppSEzp /)1()( 2/12/1 −±=± −− αα
ππ ==== nnnxEnxEpE //)()/()(
nnnnxDnxDpD /)1(/)1(/)()/()( 22
ππππ −=−===
Tomáš Pavlík Biostatistika
Příklad s modrýma očima
Máme 60 studentů Matematické biologie a mezi nimi 17 s modrýma očima.
Odhad parametru π:
Chceme sestrojit 95% IS pro parametr π.
Splnění podmínky pro aproximaci normálním rozdělením:
Pak
283,060/17/ˆ ==== nXpπ
Modrá barva očí Jiná barva očí Celkem
Studenti matematické
biologie (současní i bývalí)
17 43 60
058,060/)283,01(283,0/)1()()( =−=−== npppDpSE
)397,0;169,0(058,0*96,1283,0)(:IS%95 2/1 =±=± − pSEzp α
2,12)283,01(*283,0*60)1( =−=− pnp
Tomáš Pavlík Biostatistika
Test pro podíl u jednoho výběru
Chceme testovat rovnost odhadu parametru π získaného na náhodném
výběru n jedinců předem dané hodnotě π0:
Při splnění podmínek pro aproximaci normálním rozdělením víme, že platí:
To za platnosti H0 znamená:
Vypočteme hodnotu testové statistiky a nulovou hypotézu zamítáme podle
toho, jakou máme alternativu a hladinu významnosti α.
Pro alternativu zamítáme H0 když
00 : ππ =H
)1,0(~
/)1()(
N
n
p
pSE
p
Z
ππ
ππ
−
−
=
−
=
)1,0(~
/)1()( 00
00
N
n
p
pSE
p
Z
ππ
ππ
−
−
=
−
=
01 : ππ ≠H 2/1|| α−> zZ
Tomáš Pavlík Biostatistika
Příklad s modrýma očima
Chceme testovat na hladině významnosti α=0,05 rovnost odhadu
parametru π získaného na výběru 60 matematických biologů předem dané
hodnotě π0=0,40:
Splnění podmínky pro aproximaci normálním rozdělením máme ověřeno.
Testová statistika:
Srovnání s kvantilem:
4,0:0 =πH
85,1
60/)4,01(4,0
400,0283,0
/)1()( 00
00
−=
−
−
=
−
−
=
−
=
n
p
pSE
p
Z
ππ
ππ
96,185,1|| 975,02/1 ==<= − zzZ α
Nezamítáme H0: π = 0,40.
Tomáš Pavlík Biostatistika
Je rozdíl mezi IS a testem?
Pokud ano, v čem?
Tomáš Pavlík Biostatistika
Je rozdíl mezi IS a testem?
Ano je…
Konstrukce IS:
Test H0:
Binomické rozdělení má různou variabilitu pro různé hodnoty π – největší je
pro π = 0,5, směrem k 0 a 1 variabilita klesá.
Neplatí ekvivalence mezi intervalem spolehlivosti a testem proti π0 jako
tomu bylo v případě průměru jako odhadu střední hodnoty.
npSE /)1()( 00 ππ −=
npppSE /)1()( −=
Tomáš Pavlík Biostatistika
IS pro podíl ve dvou souborech
Máme n studentů Matematické biologie a mezi nimi x s modrýma očima, x1
je současných a x2 je již vystudovaných. Zajímá nás interval spolehlivosti pro
rozdíl podílů studentů s modrýma očima ve skupině současných a již
vystudovaných studentů: π1 – π2.
Podmínka pro aproximaci normálním rozdělením musí být splněna v obou
výběrech.
Rozdělení pravděpodobnosti odhadu parametru π v jednotlivých
souborech:
Při splnění podmínek pro aproximaci normálním rozdělením má 100(1-α)%
IS tvar:
2
22
1
11 )1()1(
2121 )()()( n
pp
n
pp
pDpDppSE −−
+=+=−
1
1
11ˆ
n
x
p ==π
2
2
22ˆ
n
x
p ==π
2
22
1
11 )1()1(
2/121212/121 )( n
pp
n
pp
zppppSEzpp −−
−− +±−=−±− αα
Tomáš Pavlík Biostatistika
Příklad s modrýma očima
Máme 60 studentů Matematické biologie a mezi nimi 17 s modrýma očima, 11
je současných a 6 je již vystudovaných. Chceme 95% IS pro π1 – π2.
Splnění podmínek pro aproximaci – zde je to pouze pro ilustraci.
Odhady:
95% IS pro π1 – π2:
Studenti BIMAT Modrá barva očí Jiná barva očí Celkem
Současní 11 31 42
Bývalí 6 12 18
Celkem 17 43 60
130,0)( 18
)333,01(333,0
42
)262,01(262,0)1()1(
21 2
22
1
11
=+=+=− −−−−
n
pp
n
pp
ppSE
262,042/11/ˆ 1111 ==== nxpπ 333,018/6/ˆ 2222 ==== nxpπ
)184,0;326,0(130,0*96,1071,0)( 212/121 −=±−=−±− − ppSEzpp α
Tomáš Pavlík Biostatistika
Test pro podíl ve dvou výběrech
Chceme testovat rovnost odhadu parametru π získaného na dvou
náhodných výběrech n1 a n2 jedinců:
Nejlepším odhadem parametru π je za platnosti H0:
Odhady pro jednotlivé výběry:
Při splnění podmínky pro aproximaci normálním rozdělením (musí být
splněna v obou souborech zároveň) víme, že platí:
kde
Pro alternativu zamítáme H0 když
21
21
ˆ
nn
xx
p
+
+
==π
))(1()( 2121
11)1()1(
21 nnn
pp
n
pp
ppppSE +−=+=− −−
πππ == 210 :H
)1,0(~
)( 21
21
N
ppSE
pp
Z
−
−
=
1111 /ˆ nxp ==π 2222 /ˆ nxp ==π
211 : ππ ≠H 2/1|| α−> zZ
Tomáš Pavlík Biostatistika
Příklad s modrýma očima
Máme 60 studentů Matematické biologie a mezi nimi 17 s modrýma očima,
11 je současných a 6 je již vystudovaných. Testujeme
Odhady:
Testová statistika:
Studenti BIMAT Modrá barva očí Jiná barva očí Celkem
Současní 11 31 42
Bývalí 6 12 18
Celkem 17 43 60
πππ == 210 :H
262,0ˆ 11 == pπ 333,0ˆ 22 == pπ283,0ˆ == pπ
127,0))(283,01(283,0))(1()( 18
1
42
111
21 21
=+−=+−=− nnppppSE
56,0
127,0
333,0262,0
)( 21
21
−=
−
=
−
−
=
ppSE
pp
Z
96,156,0|| 975,02/1 ==<= − zzZ α Nezamítáme H0.
3. Analýza kontingenčních tabulek
Tomáš Pavlík Biostatistika
Kontingenční tabulka
Frekvenční sumarizace dvou nominálních nebo ordinálních veličin pomocí
tabulky.
Proměnné reprezentujeme diskrétními náhodnými veličinami X a Y.
Speciální případ: 2 × 2 tabulka = čtyřpolní tabulka.
Př.: Sumarizace pacientů diagnostikovaných s melanomem dle lokalizace
onemocnění a roku diagnózy.
Období
Lokalizace
Celkem
Horní končetina Dolní končetina Trup Hlava a krk
1994-2000 50 103 116 7 276
2001-2005 106 157 310 54 627
2006-2009 115 142 316 52 625
Celkem 271 402 742 113 1528
Tomáš Pavlík Biostatistika
Kontingenční tabulka - hypotézy
Kontingenční tabulky umožňují testování různých hypotéz:
Nezávislost (Pearsonův chí-kvadrát test)
Jeden výběr, dvě charakteristiky – obdoba nepárového uspořádání
Př.: studenti matematické biologie – modré oči × období studia
Shoda struktury (Pearsonův chí-kvadrát test)
Více výběrů, jedna charakteristika – obdoba nepárového uspořádání
Př.: pacienti s IM v několika nemocnicích × věková struktura
Symetrie (McNemarův test)
Jeden výběr, opakovaně jedna charakteristika – obdoba párového uspořádání
Př.: stromy – posouzení jejich stavu ve dvou sezónách
Tomáš Pavlík Biostatistika
Značení
Proměnné reprezentujeme diskrétními náhodnými veličinami X a Y.
Označme nij počet subjektů, pro které platí, že X=i a Y=j (i = 1, ..., r; j = 1, ..., c).
Marginální četnosti:
Celkový počet subjektů:
Relativní četnosti lze vztahovat:
Vzhledem k celkovému n
Vzhledem k řádkovým součtům ni.
Vzhledem k sloupcovým součtům n.j
∑ =
=
c
j iji nn 1. ∑=
=
r
i ijj nn 1.
∑ ∑= =
=
r
i
c
j ijnn 1 1
jij
c
ij
iij
r
ij
ijij
nnp
nnp
nnp
.
.
/
/
/
=
=
=
Tomáš Pavlík Biostatistika
Pointa testu pro kontingenční tabulku
Celkem 17 studentů s modrýma očima = 28,3 %. Pokud modré oči nesouvisí
s obdobím studia, mělo by stejné zastoupení modrookých platit i v rámci
skupin → očekávaná četnost za platnosti H0 o nezávislosti:
Ekvivalentně lze nezávislost vyjádřit následovně:
Z toho plyne:
Očekávané četnosti v příkladu s modrýma očima:
n
nn
n
n
n
n
npnpe jiji
jiij
....
.. ===
Studenti BIMAT Modrá barva očí Jiná barva očí Celkem
Současní 11,9 30,1 42
Bývalí 5,1 12,9 18
Celkem 17 43 60
jiij ppp ..=
nnne jiij /..=
Tomáš Pavlík Biostatistika
Příklad – melanomy
Období
= veličina X
Lokalizace = veličina Y
CelkemHorní končetina
Y = 1
Dolní končetina
Y = 2
Trup
Y = 3
Hlava a krk
Y = 4
1994-2000 X = 1 50 = n11 103 = n12 116 = n13 7 = n14 276 = n1.
2001-2005 X = 2 106 = n21 157 = n22 310 = n23 54 = n24 627 = n2.
2006-2009 X = 3 115 = n31 142 = n32 316 = n33 52 = n34 625 = n3.
Celkem 271 = n.1 402 = n.2 742 = n.3 113 = n.4 1528 = n
Období
= veličina X
Lokalizace = veličina Y
CelkemHorní končetina
Y = 1
Dolní končetina
Y = 2
Trup
Y = 3
Hlava a krk
Y = 4
1994-2000 X = 1 18.12 % 37.32 % 42.03 % 2.54 % 100 %
2001-2005 X = 2 16.91 % 25.04 % 49.44 % 8.61 % 100 %
2006-2009 X = 3 18.40 % 22.72 % 50.56 % 8.32 % 100 %
Celkem 17.74 % 26.31 % 48.56 % 7.40 % 100 %
Tomáš Pavlík Biostatistika
Pearsonův chí-kvadrát test nezávislosti
Založen na myšlence srovnání pozorovaných a očekávaných četností
jednotlivých hodnot, kterých nabývá náhodná veličina X.
Pozorované četnosti jednotlivých variant X=i a Y=j nám vyjadřují nij.
Za platnosti nulové hypotézy lze očekávané četnosti jednotlivých variant X=i
a Y=j vypočítat pomocí:
Karl Pearson odvodil, že statistika
má za platnosti H0 chí-kvadrát rozdělení s (r-1)(c-1) stupni volnosti:
Nulovou hypotézu o nezávislosti X a Y zamítáme na hladině významnosti α,
když
∑∑= =
−
=Χ
r
i
c
j ij
ijij
e
en
1 1
2
2 )(
n
nn
n
n
n
n
ne jiji
ij
....
==
2
)1)(1(
2
~ −−Χ crχ
)1)(1(2
)1(
2
−−≥Χ − crαχ
Tomáš Pavlík Biostatistika
Předpoklady Pearsonova chí-kvadrát testu
Nezávislost jednotlivých pozorování
Alespoň 80 % buněk musí mít očekávanou četnost (eij) větší než 5
100 % buněk musí mít očekávanou četnost (eij) větší než 2
Tomáš Pavlík Biostatistika
Příklad – melanomy
Období
= veličina X
Lokalizace = veličina Y
CelkemHorní končetina
Y = 1
Dolní končetina
Y = 2
Trup
Y = 3
Hlava a krk
Y = 4
1994-2000 X = 1 50 = n11 103 = n12 116 = n13 7 = n14 276 = n1.
2001-2005 X = 2 106 = n21 157 = n22 310 = n23 54 = n24 627 = n2.
2006-2009 X = 3 115 = n31 142 = n32 316 = n33 52 = n34 625 = n3.
Celkem 271 = n.1 402 = n.2 742 = n.3 113 = n.4 1528 = n
Období
= veličina X
Lokalizace = veličina Y
CelkemHorní končetina
Y = 1
Dolní končetina
Y = 2
Trup
Y = 3
Hlava a krk
Y = 4
1994-2000 X = 1 e11 = 48.95 e12 = 72.61 e13 = 134.03 e14 = 20.41 276
2001-2005 X = 2 e21 = 111.20 e22 = 164.96 e23 = 304.47 e24 = 46.37 627
2006-2009 X = 3 e31 = 110.85 e32 = 164.43 e33 = 303.50 e34 = 46.22 625
Celkem 271 402 742 113 1528
Tomáš Pavlík Biostatistika
Příklad – melanomy
Př.: Sumarizace pacientů diagnostikovaných s melanomem dle lokalizace
onemocnění a roku diagnózy.
Testová statistika:
Výpočet:
Kritická hodnota:
∑∑= =
−
=Χ
r
i
c
j ij
ijij
e
en
1 1
2
2 )(
41,30
22,46
)22,4652(
50,303
)50,303316(
43,164
)43,164142(
85,110
)85,110115(
37,46
)37,4654(
47,304
)47,304310(
96,164
)96,164157(
20,111
)20,111106(
41,20
)41,207(
03,134
)03,134116(
61,72
)61,72103(
95,48
)95,4850(
222222
222222
2
=
−
+
−
+
−
+
−
+
−
+
−
+
+
−
+
−
+
−
+
−
+
−
+
−
=Χ
)6(2
)95,0(
2
χ≥Χ
59,12)6()1)(1( 2
)95,0(
2
)1( ==−−− χχ α cr
Zamítáme H0 o nezávislosti.
Tomáš Pavlík Biostatistika
Příklad s modrýma očima
Máme 60 studentů Matematické biologie a mezi nimi 17 s modrýma očima,
11 je současných a 6 je již vystudovaných. Testujeme nezávislost.
Testová statistika:
Výpočet:
Kritická hodnota:
∑∑= =
−
=Χ
r
i
c
j ij
ijij
e
en
1 1
2
2 )(
32,0
9,12
)9,1212(
1,5
)1,56(
1,30
)1,3031(
9,11
)9,1111( 2222
2
=
−
+
−
+
−
+
−
=Χ
)1(2
)95,0(
2
χ<Χ Nezamítáme H0 o nezávislosti.
84,3)1()1)(1( 2
)95,0(
2
)1( ==−−− χχ α cr
4. Čtyřpolní tabulky
Tomáš Pavlík Biostatistika
Co je čtyřpolní tabulka
Nejjednodušší možná kontingenčí tabulka, kdy obě sledované veličiny mají
pouze dvě kategorie.
Příklad z 2. přednášky: Zajímá nás přesnost vyšetření jater ultrazvukem, tedy
schopnost vyšetření UTZ identifikovat maligní ložisko v pacientových játrech.
Přesnost je vztažena k histologickému ověření odebrané tkáně.
Zde jsme závislost neověřovali, ale dokonce předpokládali!
Vyšetření
UTZ
Histologické ověření
Maligní Benigní Celkem
Maligní 32 2 34
Benigní 3 24 27
Celkem 35 26 61
Tomáš Pavlík Biostatistika
Asociace ve čtyřpolní tabulce
Můžeme rozhodovat o závislosti/nezávislosti dvou sledovaných veličin – nyní.
Můžeme rozhodovat i o míře (těsnosti) této závislosti – příští přednáška.
Při rozhodování o nezávislosti můžeme použít Pearsonův chí-kvadrát test, ale
pro malá n je standardem v klinických analýzách tzv. Fisherův exaktní test
(„Fisher exact test“).
Veličina X
Veličina Y
Y = 1 Y = 2 Celkem
X = 1 a b a + b
X = 2 c d c + d
Celkem a + c b + d n
Tomáš Pavlík Biostatistika
Fisherův exaktní test
Určen zejména pro čtyřpolní tabulky, je vhodný i pro tabulku s malými
četnostmi – pro ty, které nesplňují předpoklad Pearsonova testu.
Založen na výpočtu „přesné“ p-hodnoty, která zde hraje roli testové statistiky.
Pointa je ve výpočtu pravděpodobnosti, se kterou bychom získali čtyřpolní
tabulky stejně nebo více „odchýlené“ od nulové hypotézy při zachování
marginálních četností.
Pravděpodobnost konkrétní tabulky (s pevně zvolenou hodnotou a při
zachování marginálních četností) lze získat:
Pointa = spočítáme pa všech možných tabulek při zachování marginálních
četností a výsledná p-hodnota je součtem pa menších nebo stejných jako pa,
která přísluší pozorované tabulce.
!!!!!
)!()!()!()!(
dcban
dbdccaba
p
ba
n
b
db
a
ca
a
++++
==






+





 +





 +
Tomáš Pavlík Biostatistika
Příklad s modrýma očima
Sledujeme vztah modrých očí a období studia matematické biologie.
Pomocí Fisherova exaktního testu chceme testovat H0 o nezávislosti.
Pravděpodobnost pozorované tabulky:
Tento výsledek sám o sobě znamená, že nezamítáme H0, protože pa > 0,05.
205,0
!12!6!31!11!60
!43!18!17!42
!!!!!
)!()!()!()!(
==
++++
=
dcban
dbdccaba
pa
Studenti BIMAT Modrá barva očí Jiná barva očí Celkem
Současní 11 31 42
Bývalí 6 12 18
Celkem 17 43 60
Tomáš Pavlík Biostatistika
Příklad s modrýma očima
Vypočítejme pravděpodobnosti pro jednotlivé možnosti kontingenční tabulky:
Studenti BIMAT Modrá barva očí Jiná barva očí Celkem
Současní a b 42
Bývalí c d 18
Celkem 17 43 60
!!!!!
)!()!()!()!(
dcban
dbdccaba
p
ba
n
b
db
a
ca
a
++++
==






+





 +





 +
Tomáš Pavlík Biostatistika
Příklad s modrýma očima
Možnosti a b c d pa
1. 0 42 17 1 4,6 × 10-14
2. 1 41 16 2 1,7 × 10-11
3. 2 40 15 3 1,8 × 10-9
4. 3 39 14 4 9,1 × 10-8
5. 4 38 13 5 2,5 × 10-6
6. 5 37 12 6 4,1 × 10-5
7. 6 36 11 7 4,3 × 10-4
8. 7 35 10 8 0,003
9. 8 34 9 9 0,015
10. 9 33 8 10 0,050
11. 10 32 7 11 0,121
12. 11 31 6 12 0,205
13. 12 30 5 13 0,245
14. 13 29 4 14 0,202
15. 14 28 3 15 0,111
16. 15 27 2 16 0,039
17. 16 26 1 17 0,008
18. 17 25 0 18 6,6 × 10-4
p = 1 – 0,245 = 0,755
Nezamítáme H0
Tomáš Pavlík Biostatistika
Fisherův × Pearsonův test
Pearsonův chí-kvadrát test lze použít na jakoukoliv kontingenční tabulku,
ALE je nutné hlídat předpoklady: 80 % eij větších než 5 – u čtyřpolní tabulky
to znamená 100 %.
Nedodržení předpokladů pro Pearsonův chí-kvadrát test může stejně jako u
t-testu a analýzy rozptylu vést k nesmyslným závěrům!
Situace s malými nij a tedy i eij jsou ale v medicíně i biologii velmi časté –
Fisherův exaktní test je klíčový pro hodnocení čtyřpolních tabulek.
Tomáš Pavlík Biostatistika
Test hypotézy o symetrii – McNemarův test
Mám 20 pacientů, u každého opakovaně sleduji výskyt otoků před podáním
a po podání léku.
Která tabulka je správně?
Před podáním léku Po podání léku Celkem
Bez otoku (úspěch) 7 12 19
S otokem (neúspěch) 13 8 21
Celkem 20 20 40
Po podání bez otoku Po podání s otokem Celkem
Před podáním bez otoku 5 2 7
Před podáním s otokem 7 6 13
Celkem 12 8 20
Tomáš Pavlík Biostatistika
McNemarův test
Je to obdoba párového testu (test symetrie pro čtyřpolní tabulku).
Zaměřuje se pouze na pozorování, u kterých jsme při opakovaném měření
zaznamenali rozdílné výsledky – za platnosti H0 by jejich četnosti
(označeny b a c) měly být stejné.
Testová statistika pro čtyřpolní tabulku:
Za platnosti H0 má statistika chí-kvadrát rozdělení s 1 stupněm volnosti.
Nulovou hypotézu o nezávislosti X a Y zamítáme na hladině významnosti α,
když
Testová statistika pro obecnou kontingenční tabulku:
cb
cb
+
−
=Χ
2
2 )(
∑< +
−
=Χ
ji jiij
jiij
nn
nn 2
2 )(
)1(2
)1(
2
αχ −≥Χ
Tomáš Pavlík Biostatistika
Příklad – McNemarův test
Mám 20 pacientů, u každého opakovaně sleduji ústup otoků po podání léku
A a léku B. Zajímá mě rozdíl v četnosti otoků.
Testová statistika pro čtyřpolní tabulku:
Kritická hodnota:
78,2
72
)72()( 22
2
=
+
−
=
+
−
=Χ
cb
cb
)1(2
)95,0(
2
χ<Χ
84,3)1()1( 2
)95,0(
2
)1( ==− χχ α
Nezamítáme H0 o tom, že není rozdíl
ve výskytu otoků před a po podání léku.
Po podání B bez otoku Po podání B s otokem Celkem
Po podání A bez otoku 5 2 7
Po podání A s otokem 7 6 13
Celkem 12 8 20
5. Testy o rozdělení náhodné veličiny
Tomáš Pavlík Biostatistika
Testy o rozdělení náhodné veličiny
Kolmogorovův-Smirnovovův test – založen na srovnání výběrové distribuční
funkce s teoretickou distribuční funkcí odpovídající rozdělení, které chceme
testovat. K-S test hodnotí maximální vzdálenost mezi těmito dvěma
distribučními funkcemi.
Pearsonův chí-kvadrát test = chí-kvadrát test dobré shody – i pro testování
shody s teoretickým rozdělením je založen na myšlence srovnání
pozorovaných a očekávaných četností jednotlivých hodnot, kterých nabývá
náhodná veličina X.
Q-Q plot – zobrazuje proti sobě kvantily pozorovaných hodnot a kvantily
teoretického rozdělení pravděpodobnosti.
Tomáš Pavlík Biostatistika
Chí-kvadrát test dobré shody
Předpokládejme, že náhodná veličina X může nabývat r různých hodnot B1,
B2, … ,Br, každé s pravděpodobností p1, p2, … , pr – s tím, že
Uvažujme n pozorování náhodné veličiny X: pokud je pravděpodobnostní
model správný, měl by se počet pozorování jednotlivých variant, νi, blížit
hodnotě npi – s tím, že
11
=∑=
r
i ip
n
r
i i =∑=1
ν
Tomáš Pavlík Biostatistika
Chí-kvadrát test dobré shody
Označme pozorovanou četnost ité varianty náhodné veličiny oi („observed“)
a očekávanou četnost ité varianty náhodné veličiny ei („expected“).
Opět platí, že statistika
má za platnosti H0 chí-kvadrát rozdělení s r-1 stupni volnosti:
Nulovou hypotézu o shodě rozdělení veličiny X s předpokládaným
rozdělením zamítáme na hladině významnosti α, když
Když H0 specifikuje pouze typ rozdělení, ale ne jeho parametry, pak musí být
tyto parametry odhadnuty z pozorovaných hodnot. Za každý takto
odhadnutý parametr se počet stupňů volnosti testové statistiky snižuje o 1.
∑=
−
=Χ
r
i i
ii
e
eo
1
2
2 )(
2
)1(
2
~ −Χ rχ
)1(2
)1(
2
−≥Χ − rαχ
Tomáš Pavlík Biostatistika
Chí-kvadrát test pro spojité veličiny
Spojitá veličina samozřejmě může
nabývat nespočetně mnoho hodnot
v určitém intervalu.
Chí-kvadrát test dobré shody lze
použít i pro spojité veličiny, které
však musíme kategorizovat →
rozdělit obor možných hodnot do r
disjunktních intervalů.
B1 B2 Br-1 Br
Tomáš Pavlík Biostatistika
Příklad – melanom a normální rozdělení
Chceme zjistit, jestli věk u pacientů s melanomem vykazuje normální rozdělení.
Věk – i-tý interval oi ei oi – ei
0,0 – 8,3 0 0.30 -0.30
8,3 – 16,7 5 2.30 2.70
16,7 – 25,0 20 13.30 6.70
25,0 – 33,3 67 53.09 13.91
33,3 – 41,7 139 146.42 -7.42
41,7 – 50,0 243 279.13 -36.13
50,0 – 58,3 336 367.95 -31.95
58,3 – 66,7 357 335.43 21.57
66,7 – 75,0 267 211.46 55.54
75,0 – 83,3 96 92.16 3.84
83,3 – 91,7 6 27.76 -21.76
91,7 – 100,0 0 6.70 -6.70
)4,182,2,56( 2
== σµN
8.3 16.7 25.0 33.3 41.7 50.0 58.3 66.7 75.0 83.3 91.7
0
50
100
150
200
250
300
350
400
Věk (roky)
Tomáš Pavlík Biostatistika
Příklad – melanom a normální rozdělení
Chceme zjistit, jestli věk u pacientů s melanomem vykazuje normální rozdělení.
)4,182,2,56( 2
== σµN
8.3 16.7 25.0 33.3 41.7 50.0 58.3 66.7 75.0 83.3 91.7
0
50
100
150
200
250
300
350
400
Věk (roky)
9211221
6,56
)(
1
2
2
=−−=−−=
=
−
=Χ ∑=
rdf
e
eor
i i
ii
001,0
92,16)9()21(6,56 2
)95,0(
2
)1(
2
<
==−−≥=Χ −
p
r χχ α
Zamítáme H0 o normalitě rozdělení
věku pacientů s melanomem.
Odhad parametrů μ a σ2 z dat.
Tomáš Pavlík Biostatistika
Příklad – Poissonovo rozdělení
Chceme ověřit, že počet pacientů, kteří přijdou ve všední den na zubní
pohotovost se řídí Poissonovým rozdělením. Jednotkou času bude 30 minut.
Celkem byly zaznamenány údaje za 1200 půlhodinových úseků.
H0: Počet příchodů pacientů během 30 minut má Poissonovo rozdělení.
H1: Počet příchodů pacientů během 30 minut nemá Poissonovo rozdělení.
Neznáme parametr λ, je třeba ho odhadnout z dat:
S odhadem λ lze vypočítat pravděpodobnosti pro jednotlivé hodnoty X:
Kvůli splnění předpokladu pro aproximaci na normální rozdělení sloučíme
kategorie 8, 9, 10 a 11 pacientů.
!
)(
i
x
ii
x
e
xXPp
i λ
λ −
===
80,2
1200
3364
)1101188079(
1200
11ˆ
1
==⋅++⋅+⋅=== ∑=

r
i ii xn
n
xλ
Tomáš Pavlík Biostatistika
Příklad – Poissonovo rozdělení
Počet
pacientů
Pozorovaná
četnost
Očekávaná
četnost
xi oi ei = npi
0 79 72,97
1 188 204,32
2 282 286,05
3 275 266,98
4 196 186,89
5 114 104,66
6 45 48,84
7 10 19,54
8 a více 11 9,75
Celkem 1200 1200
711
9
50,8
)(
1
2
2
=−−=
=
=
−
=Χ ∑=
rdf
r
e
eor
i i
ii
07,14)7()11(50,8 2
)95,0(
2
)1(
2
==−−<=Χ − χχ α r
Nezamítáme H0 o tom, že
data pochází z výběru s
Poissonovým rozdělením
pravděpodobnosti.
Tomáš Pavlík Biostatistika
Poděkování…
Rozvoj studijního oboru „Matematická biologie“ PřF MU
Brno je finančně podporován prostředky projektu ESF č.
CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia
Matematické biologie“ a státním rozpočtem České republiky