Neparametrické testy o mediánech Motivace: Při aplikaci t-testů či analýzy rozptylu by měly být splněny určité předpoklady: - normalita dat (pro výběry větších rozsahů (n ≥ 30) nemá mírné porušení normality závažný dopad na výsledky) - homogenita rozptylů - intervalový či poměrový charakter dat Pokud nejsou tyto předpoklady splněny, použijeme tzv. neparametrické testy, které nevyžadují předpoklad o konkrétním typu rozložení (např. normálním), stačí např. předpokládat, že distribuční funkce rozložení, z něhož náhodný výběr pochází, je spojitá. Nevýhoda - ve srovnání s klasickými parametrickými testy jsou neparametrické testy slabší, tzn., že nepravdivou hypotézu zamítají s menší pravděpodobností než testy parametrické. V této kapitole se omezíme na ty neparametrické testy, které jsou založeny na pořadí a týkají se mediánů. Nazývají se pořadové testy. Pojem pořadí a průměrného pořadí Nechť X[1], ..., X[n] je náhodný výběr. Vektor (X[(1)], ...., X[(n)]), kde X[(1)] ≤ ... ≤ X[(n)] se nazývá uspořádaný náhodný výběr a statistika X[(i)] se nazývá i-tá pořádková statistika, i = 1, ..., n. Pořadím R[i] statistiky X[i] rozumíme počet těch náhodných veličin X[1], ..., X[n], které nabývají hodnoty menší nebo rovné X[i], tj. . V praxi se může stát, že některá pozorování jsou si rovna a vytvářejí skupiny shodných čísel. Pak těmto shodným číslům přiřadíme průměrné pořadí odpovídající takové skupině. Příklad: Máme čísla 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Stanovte jejich pořadí. Řešení: usp.hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4 pořadí 1 2 3 4 5 6 7 8 9 10 průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10 Jednovýběrový znaménkový test a jeho asymptotická varianta Nechť X[1], ..., X[n] je náhodný výběr ze spojitého rozložení se spojitou distribuční funkcí Φ(x). Nechť x[0,50 ] je mediánem tohoto rozložení, tj. Φ(x[0,50]) = 0,5. Nechť c je reálná konstanta. Testujeme hypotézu H[0]: x[0,50] = c proti oboustranné alternativě H[1]: x[0,50] ≠ c (resp. proti levostranné alternativě H[1]: x[0,50] < c resp. proti pravostranné alternativě H[1]: x[0,50] > c). Postup provedení testu: a) Utvoříme rozdíly Y[i] = X[i] – c, i = 1, ..., n. (Jsou-li některé rozdíly nulové, pak za n bereme jen počet nenulových hodnot.) b) Zavedeme statistiku S[Z]^+, která udává počet těch rozdílů, které jsou kladné. Platí-li H[0], pak S[Z]^+ ~ Bi(n,1/2), tedy E(S[Z]^+) = n/2, D(S[Z]^+) = n/4. c) Stanovíme kritický obor. Pro oboustrannou alternativu ho budou tvořit ty hodnoty testové statistiky S[Z]^+, které jsou blízké 0 nebo n, tedy , kde nezáporná celá čísla k[1], k[2], splňují podmínky , Pro levostrannou alternativu: , kde nezáporné celé číslo k[1] splňuje podmínku Pro pravostrannou alternativu: , kde nezáporné celé číslo k[2] splňuje podmínku (Čísla k[1], k[2] pro oboustranný test i pro jednostranné testy lze najít ve statistických tabulkách.) d) H[0] zamítáme na hladině významnosti α, když . Asymptotická varianta testu: Pro velká n (prakticky n > 20) lze využít asymptotické normality statistiky S[Z]^+. Testová statistika má za platnosti H[0 ] asymptoticky rozložení N(0,1). Kritický obor - pro oboustrannou alternativu: W = , - pro levostrannou alternativu: W = , - pro pravostrannou alternativu: W = . H[0] zamítáme na asymptotické hladině významnosti α, když . Aproximace rozložením N(0,1) se zlepší, když použijeme tzv. korekci na nespojitost. Testová statistika pak má tvar , přičemž 1/2 přičteme, když S[Z]^+ < n/2 a odečteme v opačném případě. Příklad: U 10 náhodně vybraných vzorků benzínu byly zjištěny následující hodnoty oktanového čísla: 98,2 96,8 96,3 99,8 96,9 98,6 95,6 97,1 97,7 98,0. Na hladině významnosti 0,05 testujte hypotézu, že medián oktanového čísla je 98 proti oboustranné alternativě. Řešení: rozdíly x[i] – 98: 0,2 -1,2 -1,7 1,8 -1,1 0,6 -2,4 -0,9 -0,3 0,0 S[Z]^+ = 3, nenulových rozdílů je 9. Ve statistických tabulkách najdeme pro n = 9 a α = 0,05 kritické hodnoty k[1] = 1, k[2] = 8. Protože kritický obor neobsahuje hodnotu 3, nemůžeme H[0] zamítnout na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor se dvěma proměnnými a 10 případy. Do proměnné X napíšeme hodnoty oktanového čísla a do proměnné konst uložíme číslo 98. Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných X, 2. seznam proměnných konst – OK – Znaménkový test. Vidíme, že nenulových hodnot n = 9. Z nich záporných je 66,7%, tj. 6. Hodnota testové statistiky S[Z]^+ = 9 – 6 = 3. Asymptotická testová statistika U[0] (zde označená jako Z) se realizuje hodnotou 0,6667. Odpovídající asymptotická p-hodnota je 0,505, tedy na asymptotické hladině významnosti 0,05 nezamítáme hypotézu, že medián oktanového čísla je 98. Upozornění: V tomto případě není splněna podmínka pro využití asymptotické normality statistiky S[Z]^+, tj. n > 20. Je tedy vhodnější najít v tabulkách kritické hodnoty pro znaménkový test. Pro n = 9 a α = 0,05 jsou kritické hodnoty k[1] = 1, k[2] = 8. Protože kritický obor neobsahuje hodnotu 3, nezamítáme H[0] na hladině významnosti 0,05. Dostáváme týž výsledek jako při použití asymptotického testu. Párový znaménkový test Nechť (X[1], Y[1]), ..., (X[n], Y[n]) je náhodný výběr ze spojitého dvourozměrného rozložení. Testujeme H[0]: x[0,50] - y[0,50] = c proti H[1]: x[0,50] - y[0,50] ≠ c (resp. proti jednostranným alternativám). Utvoříme rozdíly Z[i] = X[i] – Y[i], i = 1, ..., n a testujeme hypotézu o mediánu z[0,50], tj. H[0]: z[0,50] = c proti H[1]: z[0,50] ≠ c. Příklad: U 8 osob byl změřen systolický krevní tlak před pokusem a po něm. č. osoby 1 2 3 4 5 6 7 8 tlak před 130 185 162 136 147 181 138 139 tlak po 139 190 175 135 155 175 158 149 Na hladině významnosti 0,05 testujte hypotézu, že pokus neovlivní systolický krevní tlak Řešení: Testujeme H[0]: z[0,50] = 0 proti oboustranné alternativě H[1]: z[0,50] ≠ 0, kde z[0,50] je medián rozložení, z něhož pochází rozdílový náhodný výběr Z[1] = X[1] – Y[1], … Z[15] = X[8] – Y[8]. Vypočteme rozdíly mezi tlakem před pokusem a po pokusu, čímž úlohu převedeme na jednovýběrový test. rozdíly x[i] – y[i]: -9 -5 -13 1 -8 6 -30 -10 Testová statistika S[Z]^+ = 2.Ve statistických tabulkách najdeme pro n = 8 a α = 0,05 kritické hodnoty k[1] = 0, k[2] = 8. Protože kritický obor neobsahuje hodnotu 2, nemůžeme H0 zamítnout na hladině významnosti 0,05. Znamená to, že s rizikem omylu nejvýše 0,05 je zvýšení krevního tlaku stejně pravvděpodobné jako jeho pokles. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor se dvěma proměnnými a 8 případy. Do proměnné X napíšeme hodnoty tlaku před pokusem, do proměnné Y hodnoty tlaku po pokusu. Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných X, 2. seznam proměnných Y – OK – Znaménkový test. Vidíme, že nenulových hodnot n = 8. Z nich záporných je 75%, tj. 6. Hodnota testové statistiky S[Z]^+ = 8 – 6 = 2. Asymptotická testová statistika U[0] (zde označená jako Z) se realizuje hodnotou 1,06066. Odpovídající asymptotická p-hodnota je 0,2888, tedy na asymptotické hladině významnosti 0,05 nezamítáme hypotézu, že zvýšení krevního tlaku stejně pravděpodobné jako jeho pokles. Grafické znázornění výsledků: Návrat do Porovnání dvou proměnných – Krabicový graf všech proměnných – Proměnné X, Y – OK – ponecháme implicitní nastavení krabicového diagramu – OK. Vidíme, že hodnoty tlaku před pokusem a po pokusu se poněkud liší v mediánech, variabilita je přibližně stejná. Rozložení hodnot tlaku před pokusem je nesymetrické, medián je posunut k dolnímu kvartilu. 10.7. Jednovýběrový Wilcoxonův test a jeho asymptotická varianta Frank Wilcoxon (1892 – 1965): Americký statistik a chemik Nechť X[1], ..., X[n] je náhodný výběr ze spojitého rozložení s hustotou φ(x), která je symetrická kolem mediánu x[0,50], tj. φ(x[0,50 ]+[ ]x) = φ(x[0,50 ]-[ ]x). Nechť c je reálná konstanta. Testujeme hypotézu H[0]: x[0,50] = c proti oboustranné alternativě H[1]: x[0,50] ≠ c nebo proti levostranné alternativě H[1]: x[0,50] < c nebo proti pravostranné alternativě H[1]: x[0,50] > c. Postup provedení testu: a) Utvoříme rozdíly Y[i] = X[i] – c, i = 1, ..., n. (Jsou-li některé rozdíly nulové, pak za n bereme jen počet nenulových hodnot.) b) Absolutní hodnoty │Y[i]│uspořádáme vzestupně podle velikosti a spočteme pořadí R[i]. c) Zavedeme statistiky , což je součet pořadí přes kladné hodnoty Y[i], , což je součet pořadí přes záporné hodnoty Y[i]. Přitom platí, že součet S[W]^+ + S[W]^- = n(n+1)/2. Je-li H[0] pravdivá, pak E(S[W]^+) = n(n+1)/4 a D(S[W]^+) = n(n+1)(2n+1)/24. d) Testová statistika = min(S[W]^+, S[W]^-) pro oboustrannou alternativu, = S[W]^+ pro levostrannou alternativu, = S[W]^- pro pravostrannou alternativu. e) H[0] zamítáme na hladině významnosti α, když testová statistika je menší nebo rovna tabelované kritické hodnotě. Asymptotická varianta jednovýběrového Wilcoxonova testu: Pro n ≥ 30 lze využít asymptotické normality statistiky S[W]^+. Platí-li H[0], pak ≈ N(0,1). Kritický obor: pro oboustrannou alternativu W = , pro levostrannou alternativu W = , pro pravostrannou alternativu W = H[0] zamítáme na asymptotické hladině významnosti α, když . Předpoklady použití jednovýběrového Wilcoxonova testu: - rozložení, z něhož daný náhodný výběr pochází, je spojité - hustota tohoto rozložení je symetrická kolem mediánu - sledovaná veličina X má aspoň ordinální charakter (Není-li splněn předpoklad o symetrii hustoty kolem mediánu, lze použít např. znaménkový test.) Příklad: U 12 náhodně vybraných zemí bylo zjištěno procento populace starší 60 let: 4,9 6,0 6,9 17,6 4,5 12,3 5,7 5,3 9,6 13,5 15,7 7,7. Na hladině významnosti 0,05 testujte hypotézu, že medián procenta populace starší 60 let je 12 proti oboustranné alternativě. Řešení: Testujeme hypotézu H[0]: x[0,50] = 12 proti oboustranné alternativě H[1]: x[0,50] ≠ 12. Vypočteme rozdíly pozorovaných hodnot od čísla 12: -7,1 -6,0 -5,1 5,6 -7,5 0,3 -6,3 -6,7 -2,4 1,5 3,7 -4,3. Absolutní hodnoty těchto rozdílů uspořádáme vzestupně podle velikosti. Kladné rozdíly přitom označíme červeně: usp. │ x[i] – 12│ 0,3 1,5 2,4 3,7 4,3 5,1 5,6 6 6,3 6,7 7,1 7,5 pořadí 1 2 3 4 5 6 7 8 9 10 11 12 S[W]^+ = 1 + 2 + 4 + 7 =14, S[W]^- = 3 + 5 + 6 + 8 + 9 + 10 + 11 + 12 = 64, n = 12, α = 0,05, tabelovaná kritická hodnota pro n = 12 a α = 0,05 je 13, testová statistika = min(S[W]^+, S[W]^-) = min(14,64) = 14. Protože 14 > 13, H[0] nezamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Utvoříme nový datový soubor se dvěma proměnnými a 12 případy. Do proměnné procento napíšeme zjištěné hodnoty a do proměnné konst uložíme číslo 12. Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných rozdil, Druhý seznam proměnných konst – OK – Wilcoxonův párový test. Výstupní tabulka poskytne hodnotu testové statistiky SW^+ (zde označena T), hodnotu asymptotické testové statistiky U[0] a p-hodnotu pro U[0]. V tomto případě je p-hodnota 0,049861, tedy nulová hypotéza se zamítá na asymptotické hladině významnosti 0,05. Tento výsledek je v rozporu s výsledkem, ke kterému jsme dospěli při přesném výpočtu. Je to způsobeno tím, že není splněna podmínka pro využití asymptotické normality statistiky SW^+, tj. n ≥ 30. Párový Wilcoxonův test Nechť (X[1], Y[1]), ..., (X[n], Y[n]) je náhodný výběr ze spojitého dvourozměrného rozložení. Testujeme H[0]: x[0,50] - y[0,50] = c proti H[1]: x[0,50] - y[0,50] ≠ c (resp. proti jednostranným alternativám). Utvoříme rozdíly Z[i] = X[i] – Y[i], i = 1, ..., n a testujeme hypotézu o mediánu z[0,50], tj. H[0]: z[0,50] = c proti H[1]: z[0,50] ≠ c. Příklad: K zjištění cenových rozdílů mezi určitými dvěma druhy zboží bylo náhodně vybráno 15 prodejen a byly zjištěny ceny zboží A a ceny zboží B: (11,10), (14,11), (11,9), (13,9), (11,9), (10,9), (12,10), (10,8), (12,11), (11,9), (13,10), (14,10), (14,12), (19,15), (14,12). Na hladině významnosti 0,05 je třeba testovat hypotézu, že medián cenových rozdílů činí 3 Kč. Řešení: Testujeme H[0]: z[0,50] = 3 proti oboustranné alternativě H[1]: z[0,50] ≠ 3, kde z[0,50] je medián rozložení, z něhož pochází rozdílový náhodný výběr Z[1] = X[1] – Y[1], … Z[15] = X[15] – Y[15]. Vypočteme rozdíly mezi cenou zboží A a cenou zboží B, čímž úlohu převedeme na jednovýběrový test. Výpočty uspořádáme do tabulky: č. prodejny cena zboží A cena zboží B rozdíl |rozdíl-medián| pořadí 1 11 10 1 2 12 2 14 11 3 0 - 3 11 9 2 1 5,5 4 13 9 4 1 5,5 5 11 9 2 1 5,5 6 10 9 1 2 12 7 12 10 2 1 5,5 8 10 8 2 1 5,5 9 12 11 1 2 12 10 11 9 2 1 5,5 11 13 10 3 0 - 12 14 10 4 1 5,5 13 14 12 2 1 5,5 14 19 15 4 1 5,5 15 14 12 2 1 5,5 (Tučně jsou vytištěna pořadí pro kladné hodnoty rozdíl - medián. ) S[W]^+ = 5,5 + 5,5 + 5,5 = 16,5, S[W]^- = 12 + 5,5 + 5,5 + 12 + 5,5 + 5,5 + 12 + 5,5 + 5,5 + 5,5 = 74,5, n = 13, α = 0,05, tabelovaná kritická hodnota = 17, testová statistika = min(S[W]^+, S[W]^-) = min(16,5; 74,5) = 16,5. Protože 16,5 ≤ 17, H[0] zamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor se čtyřmi proměnnými A, B, rozdíl, konst a 15 případy. Do proměnných A, B napíšeme ceny zboží A a B, do proměnné rozdíl uložíme rozdíl cen A a B a do proměnné konst uložíme číslo 3. Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných rozdil, 2. seznam proměnných konst – OK – Wilcoxonův párový test. Testová statistika (zde označená jako T) nabývá hodnoty 16,5, asymptotická testová statistika (označená jako Z) nabývá hodnoty 2,026684, odpovídající asymptotická p-hodnota je 0,042696, tedy na asymptotické hladině významnosti 0,05 nulovou hypotézu zamítáme. Příklad (na asymptotickou variantu Wilcoxonova testu): 30 náhodně vybraných osob mělo nezávisle na sobě bez předchozího nácviku odhadnout, kdy od daného signálu uplyne 1 minuta. Byly získány následující výsledky (v sekundách): 53 48 45 55 63 51 66 56 50 58 61 51 64 63 59 47 46 58 52 56 61 57 48 62 54 49 51 46 53 58. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že medián rozložení, z něhož daný náhodný výběr pochází, je 60 sekund proti oboustranné alternativě (nulová hypotéza vlastně tvrdí, že polovina osob délku jedné minuty podhodnotí a druhá nadhodnotí). Řešení: Testujeme H[0]: x[0,50] = 60 proti oboustranné alternativě H[1]: x[0,50] ≠ 60. Obvyklým způsobem stanovíme statistiku S[W]^+ = 55. Asymptotická testová statistika: Kritický obor: W = . Testová statistika se realizuje v kritickém oboru, tedy H[0] zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Utvoříme nový datový soubor se dvěma proměnnými a 30 případy. Do proměnné odhad napíšeme zjištěné hodnoty a do proměnné konst uložíme číslo 60. Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných odhad, 2. seznam proměnných konst – OK – Wilcoxonův párový test. Testová statistika (zde označená jako T) nabývá hodnoty 55, asymptotická testová statistika (označená jako Z) nabývá hodnoty 3,65088, odpovídající asymptotická p-hodnota je 0,000261, tedy na asymptotické hladině významnosti 0,05 nulovou hypotézu zamítáme. Dvouvýběrový Wilcoxonův test a jeho asymptotická varianta Nechť X[1], ..., X[n][ ]a Y[1], ..., Y[m] jsou dva nezávislé náhodné výběry ze dvou spojitých rozložení, jejichž distribuční funkce se mohou lišit pouze posunutím. Označme x[0,50] medián prvního rozložení a y[0,50] medián druhého rozložení. Testujeme hypotézu, že distribuční funkce těchto rozložení jsou shodné neboli mediány jsou shodné proti alternativě, že jsou rozdílné, tj. H[0]: x[0,50] - y[0,50] = 0 proti H[1]: x[0,50] - y[0,50] ≠ 0. Postup provedení testu: a) Všech n + m hodnot X[1], ..., X[n][ ]a Y[1], ..., Y[m] uspořádáme vzestupně podle velikosti. b) Zjistíme součet pořadí hodnot X[1], ..., X[n][ ]a označíme ho T[1]. Součet pořadí hodnot Y[1], ..., Y[m] označíme T[2]. c) Vypočteme statistiky U[1] = mn + n(n+1)/2 – T[1] , U[2] = mn + m(m+1)/2 - T[2]. Přitom platí U[1] + U[2] = mn. d) Pokud min(U[1],U[2]) ≤ tabelovaná kritická hodnota (pro dané rozsahy výběrů m, n a dané α), pak nulovou hypotézu o totožnosti obou distribučních funkcí zamítáme na hladině významnosti α. V tabulkách: n = min{m,n} a m = max{m,n}. Asymptotická varianta dvouvýběrového Wilcoxonova testu: Pro velká n, m (n, m > 30) lze využít asymptotické normality statistiky U[1]. Platí-li H[0], pak ≈ N(0,1), kde U[1] = min(U[1],U[2]). Kritický obor: pro oboustrannou alternativu W = , pro levostrannou alternativu W = , pro pravostrannou alternativu W = H[0] zamítáme na asymptotické hladině významnosti α, když . Předpoklady použití dvouvýběrového Wilcoxonova testu: - dané dva náhodné výběry jsou nezávislé - rozložení, z nichž dané dva náhodné výběry pocházejí, jsou spojitá - distribuční funkce těchto rozložení se mohou lišit pouze posunutím - sledovaná veličina má aspoň ordinální charakter (Není-li splněn předpoklad, že distribuční funkce se mohou lišit pouze posunutím, lze použít např. dvouvýběrový Kolmogorovův – Smirnovův test.) Příklad: Bylo vybráno 10 polí stejné kvality. Na čtyřech z nich se zkoušel nový způsob hnojení, zbylých šest bylo ošetřeno starým způsobem. Pole byla oseta pšenicí a sledoval se její hektarový výnos. Je třeba zjistit, zda nový způsob hnojení má týž vliv na průměrné hektarové výnosy pšenice jako starý způsob hnojení. hektarové výnosy při novém způsobu: 51 52 49 55 hektarové výnosy při starém způsobu: 45 54 48 44 53 50 Test proveďte na hladině významnosti 0,05. Řešení: Na hladině významnosti 0,05 testujeme H[0]: x[0,50] - y[0,50] = 0 proti oboustranné alternativě H[1]: x[0,50] - y[0,50] ≠ 0. usp. hodnoty 44 45 48 49 50 51 52 53 54 55 pořadí x-ových hodnot 4 6 7 10 pořadí y-ových hodnot 1 2 3 5 8 9 T[1] = 4 + 6 + 7 + 10 = 27, T[2] = 1 + 2 + 3 + 5 + 8 + 9 = 28 U[1] = 4.6 + 4.5/2 - 27 = 7, U[2] = 4.6 + 6.7/2 - 28 = 17 Kritická hodnota pro α = 0,05, min(4,6) = 4, max(4,6) = 6 je 2. Protože min(7,17) = 7 > 2, nemůžeme na hladině významnosti 0,05 zamítnout hypotézu, že nový způsob hnojení má na hektarové výnosy pšenice stejný vliv jako starý způsob. Výpočet pomocí systému STATISTICA: Utvoříme nový datový soubor se dvěma proměnnými a 10 případy. Do proměnné vynos napíšeme zjištěné hodnoty a do proměnné hnojeni napíšeme 4x číslo 1 pro nový způsob hnojení a 6x číslo 2 pro starý způsob hnojení. Statistiky – Neparametrická statistika – Porovnání dvou nezávislých vzorků – OK – Proměnné – Seznam závislých proměnných vynos, Nezáv. (grupov.) proměnná hnojeni – OK – M-W U test. Upozornění: Ve STATISTICE je dvouvýběrový Wilcoxonův test uveden pod názvem Mannův – Whitneyův test. Ve výstupní tabulce jsou součty pořadí T[1], T[2], hodnota testové statistiky min(U[1], U[2]) označená U, hodnota asymptotické testové statistiky U[0] (označená Z), asymptotická p-hodnota pro U[0 ]a přesná p-hodnota (ozn. 2*1str. přesné p – ta se používá pro rozsahy výběrů pod 30). V našem případě přesná p-hodnota = 0,352381, tedy H[0] nezamítáme na hladině významnosti 0,05. Výpočet je vhodné doplnit krabicovým diagramem. Je zřejmé, že výnosy při novém způsobu hnojení jsou vesměs nižší než při starém způsobu a také vykazují mnohem větší variabilitu. Kruskalův - Wallisův test William Kruskal (1919 – 2005): Americký matematik Wilson Allen Wallis (1912 – 1988): Americký matematik Nechť je dáno r ≥ 3 nezávislých náhodných výběrů o rozsazích n[1], ... , n[r]. Předpokládáme, že tyto výběry pocházejí ze spojitých rozložení. Označme n = n[1] + ... + n[r]. Na asymptotické hladině významnosti α chceme testovat hypotézu, že všechny tyto výběry pocházejí z téhož rozložení. Postup testu: a) Všech n hodnot seřadíme do rostoucí posloupnosti. b) Určíme pořadí každé hodnoty v tomto sdruženém výběru. c) Označme Tj součet pořadí těch hodnot, které patří do j-tého výběru, j = 1, ..., r (kontrola: musí platit T[1] + ... + T[r] = n(n+1)/2). d) Testová statistika má tvar: . Platí-li H[0], má statistika Q asymptoticky rozložení χ^2(r-1). e) Kritický obor: . f) H[0] zamítneme na asymptotické hladině významnosti α, když Q ≥ χ[1-α] ^2(r-1). Příklad: V roce 1980 byly získány tři nezávislé výběry obsahující údaje o průměrných ročních příjmech (v tisících dolarů) čtyř sociálních skupin ve třech různých oblastech USA. jižní oblast: 6 10 15 29 pacifická oblast: 11 13 17 131 severovýchodní oblast: 7 14 28 25 Na hladině významnosti 0,05 testujte hypotézu, že příjmy v těchto oblastech se neliší. Řešení: Výpočty uspořádáme do tabulky Usp. hodnoty 6 7 10 11 13 14 15 17 25 28 29 131 Pořadí 1.výběru[] 1 3 7 11 Pořadí 2.výběru 4 5 8 12 Pořadí 3.výběru 2 6 9 10 T[1] = 1 + 3 + 7 + 11 = 22, T[2] = 4 + 5 + 8 + 12 = 29, T[3] = 2 + 6 + 9 + 10 = 27 , , Protože Q < 5,991, H[0] nezamítáme na asymptotické hladině významnosti 0,05. Rozdíly mezi průměrnými ročními příjmy v uvedených třech oblastech se neprokázaly. Mediánový test Výchozí situace je stejná jako u K-W testu Postup testu: a) Všech n hodnot uspořádáme do rostoucí posloupnosti. b) Najdeme medián x[0,50] těchto n hodnot. c) Označme P[j] počet hodnot v j-tém výběru, které jsou větší nebo rovny mediánu x[0,50]. d) Testová statistika má tvar . Platí-li H[0], má statistika Q[M] asymptoticky rozložení χ^2(r-1). e) Kritický obor: . f) H[0] zamítneme na asymptotické hladině významnosti α, když Q[M] ≥ χ[1-α] ^2(r-1). Příklad: Pro data o průměrných ročních příjmech proveďte mediánový test. Hladinu významnosti volte 0,05. Řešení: Usp. hodnoty 6 7 10 11 13 14 15 17 25 28 29 131 Medián je průměr 6. a 7. uspořádané hodnoty: . V prvním výběru existují 2 hodnoty, které jsou větší nebo rovny 14,5, stejně tak i ve druhém a třetím výběru, tedy P[1] = P[2] = P[3] = 2. Testová statistika: Kritický obor: Protože Q[M] < 5,991, H[0] nezamítáme na asymptotické hladině významnosti 0,05. Metody mnohonásobného porovnávání Zamítneme-li hypotézu, že všechny náhodné výběry pocházejí z téhož rozložení, zajímá nás, které dvojice náhodných výběrů se liší na zvolené hladině významnosti. Testujeme H[0]: k-tý a l-tý náhodný výběr pocházejí z téhož rozložení, k, l = 1, .., r, k ≠ l proti H[1]: aspoň jedna dvojice výběrů pochází z různých rozložení. a) Neményiho metoda (Peter Neményi 1927 – 2002: Americký matematik maďarského původu) - Všechny výběry mají týž rozsah p (třídění je vyvážené). - Vypočteme │T[l] - T[k]│. - V tabulkách najdeme kritickou hodnotu (pro dané p, r, α ). - Pokud│T[l] - T[k]│≥ tabelovaná kritická hodnota, pak na hladině významnosti α zamítáme hypotézu, že l-tý a k-tý výběr pocházejí z téhož rozložení. b) Obecná metoda mnohonásobného porovnávání - Vypočteme . - Ve speciálních statistických tabulkách najdeme kritickou hodnotu h[KW](α ). Při větších rozsazích výběrů je možno ji nahradit kvantilem χ[1-α] ^2(r-1). - Jestliže , pak na hladině významnosti α zamítáme hypotézu, že l-tý a k-tý výběr pocházejí z téhož rozložení. Příklad: Čtyři laboranti provedli analytické stanovení procenta niklu v oceli. Každý hodnotil pět vzorků. Laborant A: 4,15 4,26 4,10 4,30 4,25 Laborant B: 4,38 4,40 4,29 4,39 4,45 Laborant C: 4,23 4,16 4,20 4,24 4,27 Laborant D: 4,41 4,31 4,42 4,37 4,43 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že všechny čtyři náhodné výběry pocházejí ze stejného rozložení. Pokud nulovou hypotézu zamítnete, zjistěte, které dvojice výběrů se liší. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o dvou proměnných a 20 případech. Do proměnné nikl napíšeme změřené hodnoty, do proměnné laborant napíšeme 5x1 pro 1. laboranta atd. až 5x4 pro 4. laboranta. Statistiky – Neparametrická statistika – Porovnání více nezávislých vzorků - OK – Seznam závislých proměnných nikl, Nezáv. (grupovací) proměnná laborant – OK – Summary: Kruskal-Wallis ANOVA & Median test. Ve dvou výstupních tabulkách se objeví výsledky K-W testu a mediánového testu. Oba testy zamítají hypotézu o shodě mediánů v daných čtyřech skupinách, ale K-W test je poněkud silnější (p-hodnota = 0,0032, zatímco p-hodnota pro mediánový test je 0,0035). Nyní provedeme mnohonásobné porovnávání, abychom zjistili, které dvojice laborantů se liší. Zvolíme Vícenás. porovnání průměrného pořadí pro vš. skupiny. Tabulka obsahuje p-hodnoty pro porovnání dvojic skupin. Vidíme, že na hladině významnosti 0,05 se liší laboranti A, D a laboranti C, D. Grafické znázornění výsledků