Přednáška VIII. Testování hypotéz o  kvantitativních proměnných Úvodní poznámky Testy o parametrech 1 rozdělení Testy o parametrech 2 rozdělení Permutační testy Tomáš Pavlík Biostatistika Opakování – hypotézy Co jsou to hypotézy a jak je stanovujeme? Nulová hypotéza Alternativní hypotéza Tomáš Pavlík Biostatistika Opakování – co se při rozhodování může stát Popište možné výsledky testování hypotéz a uveďte, jak označujeme jejich  pravděpodobnosti. Rozhodnutí Skutečnost H0 platí H0 neplatí H0 nezamítneme A B H0 zamítneme C D Tomáš Pavlík Biostatistika Opakování – z‐test pro jeden výběr Při populačním epidemiologickém průzkumu se zjistilo, že průměrný objem  prostaty u mužů je 32,73 ml (SD = 18,12 ml). Na hladině významnosti testu α = 0,05 chceme ověřit, jestli se muži nad 70 let liší od celé populace. Máme  náhodný výběr o velikosti n = 100 a výběrový průměr 36,60 ml. Chceme ověřit platnost proti Platí‐li H0, pak  (předpokládáme, že známe σ) Z CLV víme, že by mělo platit:  Pokud tedy výběrový průměr patří do rozdělení neměla by jeho hodnota být vzhledem k tomuto rozdělení nijak extrémní. 73,32:0 H 73,32:1 H )1,0(~/ 0 Nn X   )812,1,73,32(  nN  )812,1,73,32(~  nNX  1. Úvodní poznámky Tomáš Pavlík Biostatistika Spojité × diskrétní náhodné veličiny  Budeme se zabývat hodnocením spojitých náhodných veličin (mohou  nabývat jakýchkoliv hodnot v určitém rozmezí).  Příklady: výška, váha, vzdálenost, čas, teplota.  Uvedené testy lze ale použít i pro hodnocení diskrétních náhodných veličin  – ale musí to být odůvodnitelné (např. velký počet možných hodnot). Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých epizod  za rok. Tomáš Pavlík Biostatistika Parametrické a neparametrické testy Parametrické testy – zabývají se testováním tvrzení o neznámých  parametrech rozdělení pravděpodobnosti, kterým se řídí uvažovaná náhodná  veličina . Vyžadují různé předpoklady, minimálně specifikaci rozdělení.  Neparametrické testy – tyto procedury jsou nezávislé (nebo téměř nezávislé)  na konkrétním rozdělení pravděpodobnosti náhodné veličiny. Vyžadují méně  předpokladů – např. symetrii rozdělení. Na druhou stranu mají menší sílu („no  free lunch“). Testování v případě chybně určeného rozdělení pravděpodobnosti testové  statistiky může vést k mylným závěrům z důvodu nerelevantní p‐hodnoty,  respektive p‐hodnoty stanovené chybnou úvahou. Tomáš Pavlík Biostatistika Postup při statistickém testování 1. Formulujeme nulovou hypotézu H0. 2. Formulujeme alternativní hypotézu H1. Alternativní hypotéza u  parametrických testů může být oboustranná nebo jednostranná. 3. Zvolíme testovou statistiku jako kritérium pro rozhodnutí o nulové  hypotéze (statistiku volíme tak, abychom byli schopni odvodit rozdělení  pravděpodobnosti této statistiky při platnosti nulové hypotézy).  4. Hodnotu testové statistiky vypočítáme na základě pozorovaných hodnot:  x1, x2, … , xn. 5. Na základě rozdělení testové statistiky určíme kritický obor (obor hodnot,  kdy zamítáme H0). 6. Zjistíme, zda hodnota testové statistiky leží v oboru kritických hodnot:  pokud ano, zamítáme nulovou hypotézu, pokud ne, nezamítáme nulovou  hypotézu. Alternativně můžeme zjistit p‐hodnotu výsledku. 2. Testy o parametrech 1 rozdělení Tomáš Pavlík Biostatistika O co jde? Chceme srovnat sledovanou charakteristiku náhodné veličiny s předem  danou hodnotou (konstantou, předpokladem).  Test o průměru při známém rozptylu – z‐test Test o průměru při neznámém rozptylu – t‐test Neparametrický test pro 1 výběr – Wilcoxonův test Test o rozdílu párových (závislých) pozorování – párový t‐test Test o rozptylu normálního rozdělení Spolu s výsledkem testu by měly být reportovány i intervaly spolehlivosti  pro sledovanou charakteristiku (průměr/rozptyl). Tomáš Pavlík Biostatistika Test o průměru při známém rozptylu – z‐test Předpokládáme realizaci náhodného výběru o rozsahu n: x1, x2, … , xn. Předpokládáme normalitu dat: ‐ velmi silný předpoklad  (silnější než CLV, neřeší totiž n jdoucí do nekonečna). Testujeme, zda data náhodného výběru pochazí z rozdělení se stejnou  střední hodnotou jako je předpokládaná hodnota μ0 (konstanta). Předpokládáme, že známe parametr σ. Víme, že za platnosti H0 platí:  Testová statistika: ),(~ 2 NXi 00 :  H 01 :  H 01 :  H 01 :  H ),(~ 2 0 nNX  )1,0(~/ 0 NZ n X    Tomáš Pavlík Biostatistika Test o průměru při známém rozptylu – z‐test Nulovou hypotézu zamítáme na hladině významnosti α, když výsledná  hodnota Z statistiky je větší (nebo menší) než kritická hodnota (příslušný  kvantil) rozdělení N(0,1). „Větší nebo menší“ závisí na předem zvolené alternativě. Alternativa Zamítáme H0 když Alternativa Zamítáme H0 když Alternativa Zamítáme H0 když 01 :  H 01 :  H 01 :  H 2/1||  zZ  1zZ zZ  z0,025 = ‐1,96 z0,050 = ‐1,64 1,96 = z0,975 1,64 = z0,950 z0,005 = ‐2,58 2,58 = z0,995 1 ‐ α α / 2α / 2 90 % 95 % 99 % Tomáš Pavlík Biostatistika Test o průměru při neznámém rozptylu – t‐test Předpokládáme realizaci náhodného výběru o rozsahu n: x1, x2, … , xn. Předpokládáme normalitu dat: ‐ velmi silný předpoklad  (silnější než CLV, neřeší totiž n jdoucí do nekonečna). Testujeme, zda data náhodného výběru pochazí z rozdělení se stejnou  střední hodnotou jako je předpokládaná hodnota μ0 (konstanta). Neznáme hodnotu parametru σ – musíme ho odhadnout pomocí výběrové  směrodatné odchylky (s). Víme, že za platnosti H0 platí:  Dále využijeme statistiku K: Testová statistika: ),(~ NXi 00 :  H 01 :  H 01 :  H 01 :  H )1,0(~/ 0 NZ n X    )1(~)( 221 2   nsK n  ),(~ 2 0 nNX  )1(~ /)1/( 0      nt ns X nK Z T  Tomáš Pavlík Biostatistika Test o průměru při neznámém rozptylu – t‐test Nulovou hypotézu zamítáme na hladině významnosti α, když výsledná  hodnota T statistiky je větší (nebo menší) než kritická hodnota (příslušný  kvantil) rozdělení t(n ‐1). „Větší nebo menší“ závisí na předem zvolené alternativě. Alternativa Zamítáme H0 když Alternativa Zamítáme H0 když Alternativa Zamítáme H0 když 01 :  H 01 :  H 01 :  H )1( 2/1||   n tT  )1( 1   n tT  )1(   n tT  1 ‐ α α / 2α / 2 90 % 95 % 99 % Kvantily t rozdělení závisí kromě α i na velikosti vzorku (n‐1). Tomáš Pavlík Biostatistika Příklad – t‐test pro jeden výběr Chceme srovnat průměrný energetický příjem skupiny 11 žen ve věku 22 – 30 let s doporučenou hodnotou (7725 kJ). Průměrný energetický příjem  skupiny žen byl 6753,6 kJ se směrodatnou odchylkou s = 1142,1 kJ.  Přibližná normalita dat byla ověřena graficky. Nulovou a alternativní hypotézu vyjádříme jako: Testová statistika: Její realizace: Absolutní hodnotu t srovnáme s kvantilem t rozdělení s 10 stupni volnosti. 00 :  H 01 :  H )1(~)//()( 0  ntnsXT  821,2)11/1,1142/()77256,6753( t 1 2/1 10 975,0228,2821,2||   n ttt  Zamítáme H0 Tomáš Pavlík Biostatistika Příklad – interpretace výsledku Na hladině významnosti α = 0,05 můžeme říci, že sledovaná skupina žen  měla statisticky významně nižší energetický příjem než je doporučená denní  hodnota 7725 kJ. 1 2/1 10 975,0228,2821,2||   n ttt  Zamítáme H0 Tomáš Pavlík Biostatistika Neparametrický test pro 1 výběr – Wilcoxonův test Předpokládáme realizaci náhodného výběru o rozsahu n: x1, x2, … , xn. Předpokládáme symetrii dat (daleko slabší předpoklad než normalita dat)  → nulová hypotéza se týká mediánu Princip Wilcoxonova testu je takový, že spočítáme diference x1, x2, … , xn od  x0 a podíváme se, jestli je zhruba ½ diferencí kladných a ½ záporných. To je ekvivalentní s tím, že zhruba polovina hodnot x1, x2, … , xn je menších  než x0 a polovina hodnot x1, x2, … , xn je větších než x0. Spočítáme diference (nulové vyhodíme): Diference seřadíme podle velikosti absolutních hodnot: |||||| )()2()1( 0 n ii yyy xxy    00 ~: xxH  01 ~: xxH  Tomáš Pavlík Biostatistika Neparametrický test pro 1 výběr – Wilcoxonův test Spočítáme diference (nulové vyhodíme): Diference seřadíme podle velikosti absolutních hodnot: Jako Ri označíme pořadí diference yi. Testovací statistika: kde Pro malá n (cca do 30) lze kritickou hodnotu pro statistiku min(S+,S‐)  odpovídající zvolenému α najít v tabulkách – je‐li výsledná hodnota min(S+,S‐)  menší nebo rovna kritické hodnotě, zamítáme H0. Pro větší n lze rozdělení testové statistiky min(S+,S‐) aproximovat normálním  rozdělením s parametry: |||||| )()2()1( 0 n ii yyy xxy           00 a ),min( ii y i y i RSRS SS 24/)12)(1()),(min( 4/)1()),(min(     nnnSSD nnSSE Tomáš Pavlík Biostatistika Příklad – Wilcoxonův test pro jeden výběr Chceme srovnat průměrný energetický příjem skupiny 11 žen ve věku 22 – 30 let s doporučenou hodnotou (7725 kJ).  Nulovou a alternativní hypotézu vyjádříme jako: Zamítáme H0 00 ~: xxH  01 ~: xxH  Žena Denní energetický  příjem v kJ Diference od hodnoty  7725 kJ Pořadí absolutní  hodnoty diference 1 5260 ‐2465 11 2 5470 ‐2255 10 3 5640 ‐2085 9 4 6180 ‐1545 8 5 6390 ‐1335 7 6 6515 ‐1210 6 7 6805 ‐920 4 8 7515 ‐210 1,5 9 7515 ‐210 1,5 10 8230 505 3 11 8770 1045 5 Tomáš Pavlík Biostatistika Příklad – Wilcoxonův test pro jeden výběr Výpočet testové statistiky: Kritická hodnota z tabulek pro n = 11: Výsledná hodnota statistiky min(S+,S‐) je menší než 10: Zamítáme H0 58a8 00       ii y i y i RSRS 8),min(  SS 10)05,0()( 11  wwn  Tomáš Pavlík Biostatistika Poznámka Parametrické a neparametrické testy nemusí vycházet stejně. Důvody: 1. Nesplněné předpoklady parametrického testu. 2. Malá síla neparametrického testu. Je‐li však dobře specifikován pravděpodobnostní model a je‐li dostatek dat,  bude to vycházet stejně. Měli bychom preferovat parametrické testy, ALE pouze po důkladném  ověření jejich předpokladů! Tomáš Pavlík Biostatistika Párový t‐test Předpokládáme realizaci dvourozměrného náhodného vektoru o rozsahu n: (máme dvojice hodnot, které patří k sobě) Předpokládáme dvourozměrné normální rozdělení: Nulovou a alternativní hypotézu vyjádříme jako: Párový problém převedeme na případ jednoho výběru – nebudeme počítat s  dvojicemi hodnot, ale s rozdíly: Následně testujeme, zda je průměr hodnot d1, d2, … , dn různý od  předpokládané hodnoty d0.                   n n y x y x y x ,,, 2 2 1 1  0210 : dH                               2 2 2 1 2 1 2 ,~     N Y X i i 0211 : dH   0211 : dH   0211 : dH   iii yxd  Tomáš Pavlík Biostatistika Párový t‐test Dále postupujeme jako při t‐testu pro jeden výběr. Testová statistika má tvar: Nulovou hypotézu zamítáme na hladině významnosti α, když výsledná hodnota T statistiky je větší (nebo menší) než kritická hodnota (příslušný kvantil) rozdělení t(n ‐1). Alternativa Zamítáme H0 když Alternativa Zamítáme H0 když Alternativa Zamítáme H0 když )1(~ / 0    nt ns dd T d 0211 : dH   0211 : dH   0211 : dH   )1( 2/1||   n tT  )1( 1   n tT  )1(   n tT  01 : dH d  01 : dH d  01 : dH d  Tomáš Pavlík Biostatistika Příklad – párový t‐test Wiebe a Bortolotti (2002) zkoumali  žluté zbarvení ocasního peří datlů  zlatých. Všimli si, že někteří ptáci mají jedno  ocasní pero jinak zbarvené než ta  ostatní → chtěli vědět, jestli je  odchylka ve žlutém zbarvení  statisticky významná. Měřenou veličinou byl yellowness index („index žlutosti“) Pták Index pro  typické pero Index pro  atypické pero Rozdíl (d) A ‐0.255 ‐0.324 0.069 B ‐0.213 ‐0.185 ‐0.028 C ‐0.19 ‐0.299 0.109 D ‐0.185 ‐0.144 ‐0.041 E ‐0.045 ‐0.027 ‐0.018 F ‐0.025 ‐0.039 0.014 G ‐0.015 ‐0.264 0.249 H 0.003 ‐0.077 0.080 I 0.015 ‐0.017 0.032 J 0.020 ‐0.169 0.189 K 0.023 ‐0.096 0.119 L 0.040 ‐0.330 0.370 M 0.040 ‐0.346 0.386 N 0.050 ‐0.191 0.241 O 0.055 ‐0.128 0.183 P 0.058 ‐0.182 0.240 Tomáš Pavlík Biostatistika Příklad – párový t‐test Pracovní hypotéza: „Je odchylka ve žlutém zbarvení statisticky významná?“. Nulová hypotéza a alternativa: Za platnosti H0 předpokládáme:  Vypočtené statistiky: Testová statistika: Absolutní hodnotu t srovnáme s kvantilem t rozdělení s 15 stupni volnosti. 0:0 H 0:1 H ),0(~ 2 nNd  06,4 16/135,0 0137,0 / 0      ns dd t 135,0a137,0  dsd 1 1 15 95,075,106,4||   n ttt  Zamítáme H0 3. Testy o parametrech 2 rozdělení Tomáš Pavlík Biostatistika Testy pro dva výběry Chceme srovnat sledovanou charakteristiku náhodné veličiny ve dvou  nezávislých skupinách.  Test o rozdílu průměru dvou nezávislých výběrů – t‐test pro dva výběry (při  stejných rozptylech) Test o shodnosti rozptylů dvou nezávislých výběrů – F‐test Welchova korekce pro t‐test při nestejných rozptylech Neparametrický test pro 2 výběry – Mann‐Whitneyho test Spolu s výsledkem testu by měly být reportovány i intervaly spolehlivosti  pro pozorované rozdíly v průměrech/mediánech či podíl rozptylů. Tomáš Pavlík Biostatistika T‐test pro dva výběry při stejných rozptylech Máme realizaci 1. náhodného výběru o rozsahu n1: x1, x2, … , xn1 a na ní  nezávislou realizaci 2. náhodného výběru o rozsahu n2: y1, y2, … , yn2 . Předpokládáme normalitu dat: … a stejný rozptyl (i když neznámý) Testujeme, zda náhodné výběry pochazí z rozdělení se středními  hodnotami, které se liší o předpokládanou hodnotu c (konstanta). Neznáme hodnotu parametru σ2, ale předpokládáme, že je stejný pro oba  výběry – parametr musíme odhadnout pomocí váženého průměru odhadů  rozptylu v jednotlivých výběrech: ),(~ ),(~ 2 2 2 1   NY NX i i cH  210 :  cH  211 :  cH  211 :  cH  211 :  2 )1()1( 21 2 22 2 112 *    nn snsn s Tomáš Pavlík Biostatistika T‐test pro dva výběry při stejných rozptylech Víme, že za platnosti H0 platí:  Testová statistika: „Větší nebo menší“ závisí na předem zvolené alternativě. Alternativa Zamítáme H0 když Alternativa Zamítáme H0 když Alternativa Zamítáme H0 když ))(,(~ 21 112 nncNYX   )2(~ 2111 * 21     nnt s cYX T nn cH  211 :  cH  211 :  cH  211 :  )2( 2/1 21 ||   nn tT  )2( 1 21   nn tT  )2( 21   nn tT  Tomáš Pavlík Biostatistika Příklad – t‐test pro dva výběry  Máme pacienty se špatně kontrolovanou hypertenzí – sledujeme účinek ACE  inhibitoru (ACE‐I) a antagonisty pro angiotensin II receptor (AIIA) na snížení  diastolického tlaku (TKd) těchto pacientů po 6 měsících od zahájení léčby. Nulová a alternativní hypotéza:  Nulová hypotéza vyjadřuje stejný účinek obou léků na snížení TKd. Pacienti léčení ACE‐I: Pacienti léčení AIIA: Vážený odhad parametru σ2: 0: 210  H 0: 211  H mmHg96,9mmHg7,121926 11  sxn mmHg79,9mmHg8,121887 22  syn 88,9 54,97 * 218871926 79,9)11887(96,9)11926( 2 )1()1(2 * 22 21 2 22 2 11       s s nn snsn Tomáš Pavlík Biostatistika Příklad – t‐test pro dva výběry  Víme, že za platnosti H0 platí:  Testová statistika: Absolutní hodnotu t srovnáme s kvantilem t rozdělení s 3811 stupni  volnosti (zde již klidně můžeme použít kvantil rozdělení N(0,1)). Na hladině významnosti α = 0,05 nelze prokázat rozdíl mezi ACE‐I a AIIA ve  snížení diastolického tlaku u pacientů se špatně kontrolovanou hypertenzí.  ))(,0(~ 1887 1 1926 12  NYX 31,0 88,9 08,127,12 1887 1 1926 111 * 21        nns cyx t 2/1975,096,131,0||  zzt Nezamítáme H0 Tomáš Pavlík Biostatistika Předpoklady t‐testu pro dva výběry  Normalita pozorovaných hodnot obou náhodných výběrů – velmi silný  předpoklad. Nutno otestovat nebo alespoň graficky ověřit (histogram, box plot). Stejný rozptyl náhodné veličiny v obou srovnávaných skupinách – také silný  předpoklad. Opět nutno otestovat nebo alespoň graficky ověřit (histogram, box plot). Tomáš Pavlík Biostatistika Ověření předpokladu o stejných rozptylech – F‐test Máme realizaci 1. náhodného výběru o rozsahu n1: x1, x2, … , xn1 a na ní  nezávislou realizaci 2. náhodného výběru o rozsahu n2: y1, y2, … , yn2 . Předpokládáme normalitu dat: (střední hodnoty neznáme) Testujeme, zda náhodné výběry pochazí z rozdělení se stejným rozptylem. Testová statistika: Za platnosti H0 má F statistika Fisherovo rozdělení se stupni volnosti (n1 – 1)  a (n2 – 1).  ),(~ ),(~ 2 22 2 11   NY NX i i 2 2 2 10 :  H 2 2 2 11 :  H 2 2 2 11 :  H 2 2 2 11 :  H 2 2 2 1 s s F  Tomáš Pavlík Biostatistika Ověření předpokladu o stejných rozptylech – F‐test Víme, že za platnosti H0 platí:  Hodnotu F statistiky tedy srovnáváme s kvantily „Větší nebo menší“ závisí na předem zvolené alternativě. Alternativa Zamítáme H0 když Alternativa Zamítáme H0 když Alternativa Zamítáme H0 když )1,1(~ 21  nnFF )1,1( 2/1 )1,1( 2/ 2121 nebo     nnnn FFFF  )1,1( 1 21   nn FF  )1,1( 21   nn FF  )1,1( 2/1 )1,1( 2/ 2121 a    nnnn FF  2 2 2 11 :  H 2 2 2 11 :  H 2 2 2 11 :  H Tomáš Pavlík Biostatistika Příklad – F‐test Máme dvě skupiny dětí s hypotyreózou: první skupina jsou děti s mírnými  symptomy, druhá skupina jsou děti s výraznými symptomy.  Chceme srovnat hladinu tyroxinu v séru. Můžeme si dovolit použít t‐test pro dva výběry? Hladina tyroxinu  v séru (nmol/l) Mírné symptomy  (n1 = 9) Výrazné symptomy (n2 = 7) 34 5 45 8 49 18 55 24 58 60 59 84 60 96 62 86 Průměr 56,4 42,1 SD 14,22 37,48 2 2 2 10 :  H 2 2 2 11 :  H Tomáš Pavlík Biostatistika Příklad – F‐test Testová statistika: Hodnotu F srovnáme s α kvantilem F rozdělení s 8 a 6 stupni volnosti. Hladina tyroxinu  v séru (nmol/l) Mírné symptomy  (n1 = 9) Výrazné symptomy (n2 = 7) Průměr 56,4 42,1 SD 14,22 37,48 144,0 )48,37( )22,14( 2 2 2 2 2 1  s s F )1,1()6,8( 05,0 21 279,0144,0   nn FFF  Zamítáme H0 Tomáš Pavlík Biostatistika Stejné rozptyly? Myslíte si, že jsou stejné rozptyly obou souborů v praxi časté? Pokud ne, zkuste vymyslet příklad… Tomáš Pavlík Biostatistika Welchova korekce pro nestejné rozptyly Welch (1937) navrhl korekci pro výpočet T statistiky se zohledněním  nestejných rozptylů. Víme, že za platnosti H0 platí:  Testová statistika: Počet stupňů volnosti NENÍ roven n1+n2–2,  ale třeba ho stanovit následovně: Kritické hodnoty pro zamítnutí H0 lze odvodit stejně, jako v případě t‐testu  pro dva výběry se stejným rozptylem. 1 )/( 1 )/( )]/()/[( 2 2 2 2 2 1 2 1 2 1 2 2 2 21 2 1      n ns n ns nsns  ),(~ 2 2 2 1 2 1 nncNYX   )(~ 2 2 2 1 2 1 t cYX T n s n s    Tomáš Pavlík Biostatistika Neparametrický test pro 2 výběry – Mann‐Whitneyho test Máme realizaci 1. náhodného výběru o rozsahu n1: x1, x2, … , xn1 a na ní  nezávislou realizaci 2. náhodného výběru o rozsahu n2: y1, y2, … , yn2 . Předpokládáme stejné rozdělení dat v obou souborech (slabší předpoklad  než normalita dat) → nulová hypotéza se týká distribučních funkcí. Pointa Mann‐Whitneyho testu: pokud xi a yj pochází ze stejného  rozdělení, pak by pravděpodobnost P(xi > yj) měla být zhruba 50 %. To je ekvivalentní tomu, že při srovnání všech dvojic xi a yj bude v případě  cca 50 % dvojic menší xi a naopak. )()(:0 yFxFH  )()(:1 yFxFH  )(~ xFXi )(~ yFYi Tomáš Pavlík Biostatistika Neparametrický test pro 2 výběry – Mann‐Whitneyho test Pro výpočet nejprve seřadíme všechna pozorování podle velikosti (jako by  byly z jednoho vzorku) a přiřadíme jednotlivým hodnotám jejich pořadí. Statistikou T1 označíme součet pořadí v 1. skupině. Testové statistiky: Větší z hodnot U a U´ následně srovnáme s kritickou hodnotou z tabulek (v  případě oboustranného testu). Je‐li kritická hodnota menší, H0 zamítáme.  Pro jednostranný test uvažujeme dle nulové hypotézy pouze buď statistiku  U nebo U´. Pro vzorky s n1 > 10 a n2 > 10 lze rozdělení statistiky U aproximovat  normálním rozdělením s charakteristikami: 1 11 21 2 )1( T nn nnU    UnnU  21´ 12)1()( 2)( 2121 21   nnnnUD nnUE Tomáš Pavlík Biostatistika Příklad – Mann‐Whitneyho test Máme dvě skupiny dětí s hypotyreózou: první skupina jsou děti s mírnými  symptomy, druhá skupina jsou děti s výraznými symptomy.  Chceme srovnat hladinu tyroxinu v séru (t‐test pro dva výběry není vhodný) Hladina tyroxinu  v séru (nmol/l) Mírné symptomy  (n1 = 9) Výrazné symptomy (n2 = 7) 34 5 45 8 49 18 55 24 58 60 59 84 60 96 62 86 Průměr 56,4 42,1 SD 14,22 37,48 )()(:0 yFxFH  )()(:1 yFxFH  Tomáš Pavlík Biostatistika Příklad – Mann‐Whitneyho test Seřadíme všechna pozorování podle velikosti a přiřadíme jednotlivým  hodnotám jejich pořadí. Součet pořadí v 1. skupině: T1 = 84,5. Skupina n1 = 9 Skupina n2 = 7 Pořadí 5 1 8 2 18 3 24 4 34 5 45 6 49 7 55 8 58 9 59 10 60 11,5 60 11,5 62 13 84 14 86 15 96 16 5,235,8445635,84 2 )19(9 7*9   U 5,395,237*9´ U max(U,U´) = 39,5. Srovnáme s kritickou hodnotou z tabulek  (pozor na správné tabulky): ),( )2/1( )7,9( )2(05,0 21 515,39´),max( nn UUUU  Nezamítáme H0 Tomáš Pavlík Biostatistika Příklad – Mann‐Whitneyho test Zdá se vám ten výsledek správný? Pokud ne, čemu to lze přisoudit? 4. Permutační testy Tomáš Pavlík Biostatistika Princip permutačních testů Permutační testy jsou neparametrickými testy, ale místo pořadí pracují s  pozorovanými hodnotami. Principem permutačního testování je srovnání pozorované testové statistiky  s testovými statistikami, které by bylo možno teoreticky získat ze stejného  datového souboru, když by přiřazení jednotlivých pozorovaných hodnot do  sledovaných skupin bylo náhodné.  Permutační test je tedy založen na výpočtu všech možných hodnot testové  statistiky, které lze získat opakovaným přeskupením původního souboru dat  tak, že v rámci každého opakování zůstane zachován jak celkový počet  pozorování (celkové n), tak počet pozorování náležících do jednotlivých  skupin (např. n1 a n2). Tomáš Pavlík Biostatistika Výpočet permutačních testů Výslednou p‐hodnotu pak odhadneme jako podíl počtu testových statistik,  které byly v absolutní hodnotě větší než původní pozorovaná testová  statistika (tedy představují extrémnější výsledky experimentu), k celkovému  počtu provedených permutací. Tedy odhad p‐hodnoty lze vyjádřit následovně: Permutační testy jsou velmi oblíbené v hodnocení genomických a  proteomických dat. Mi M m M ttt p ii ,,1, :#    Tomáš Pavlík Biostatistika Příklad – permutační test pro dva výběry Srovnání hmotnosti dvou skupin pacientů. Pro permutační test použijeme T statistiku  pro dva výběry. Zvolíme hladinu významnosti testu: α = 0,05. Pro n1 = 7 a n2 = 8 je možnost provést celkem  6435 jedinečných permutací. Kategorie  pacienta Hmotnost  pacienta (kg) A 91,5 A 79,8 A 66,2 A 70,7 A 63,4 A 77,7 A 71,9 B 83,9 B 92,2 B 85,4 B 99,2 B 77,5 B 80,8 B 91,6 B 86,2 kg49,9kg5,7471  AA sxn kg95,6kg1,8782  BB sxn cH  210 :  cH  211 :  Tomáš Pavlík Biostatistika Příklad – permutační test pro dva výběry Kategorie  pacienta Hmotnost  pacienta (kg) Pořadí permutace 1 2 3 … 6435 A 91,5 A B B … B A 79,8 B B B … B A 66,2 A A A … A A 70,7 A B A … B A 63,4 B B A … A A 77,7 B B B … A A 71,9 B A A … B B 83,9 A B A … A B 92,2 B B A … A B 85,4 A A B … A B 99,2 A A B … A B 77,5 A A A … B B 80,8 B A B … B B 91,6 B B B … B B 86,2 B A B … B Testová statistika 2,900 0,429 0,341 3,106 … 0,798 Tomáš Pavlík Biostatistika Příklad – permutační test pro dva výběry Srovnání hmotnosti dvou skupin pacientů: A a B. Pro výpočet p‐hodnoty permutačního testu je potřeba následující: 1. Hodnota původní testové statistiky: t = 2,900 2. Celkový počet provedených permutací: M = 6435 3. Počet permutací, kdy je absolutní hodnota testové statistiky ti, i = 1, …,  M, větší nebo rovna původní testové statistice t = 2,900. Zde je m = 59. Pak p‐hodnotu můžeme odhadnout následovně: 009,0 6435 59  M m p Zamítáme H0 Výsledná p‐hodnota je menší než zvolená  hladina významnosti testu α = 0,05. Tomáš Pavlík Biostatistika Permutační test pro dva výběry Interpretace výsledné p‐hodnoty je zde stejná jako pro klasický t‐test. Velkou výhodou permutačního testování je fakt, že jej lze použít pro  jakoukoliv testovou statistiku. Klíčovým předpokladem je zaměnitelnosti pozorovaných hodnot v obou  srovnávaných skupinách – oba soubory by neměly mít výrazně odlišnou  variabilitu (proto bychom neměli permutační test použít na příklad s  hypotyreózou). Při malém n (cca 10 – 20) je poměrně malý také počet dostupných  permutací, což může vést k nepřesnému odhadu p‐hodnoty.  Při 1000 permutacích je nejmenší dosažitelná p‐hodnota 0,001, 100 000  permutací umožňuje dosáhnout p‐hodnoty až 0,00001. Tomáš Pavlík Biostatistika Poděkování… Rozvoj studijního oboru „Matematická biologie“ PřF MU  Brno je finančně podporován prostředky projektu ESF č.  CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia  Matematické biologie“ a státním rozpočtem České republiky