9. Neparametrické testy o mediánech 9.1. Motivace Při používání t-testů či analýzy rozptylu by měl být splněn předpoklad normality dat. Pro výběry větších rozsahů (n ? 30) nemá mírné porušení normality závažný dopad na výsledky. Někdy se však setkáváme s výběry malých rozsahů, které pocházejí z výrazně nenormálních rozložení. Pro práci s nimi byly vytvořeny tzv. neparametrické testy, které nevyžadují předpoklad o konkrétním typu rozložení (např. normálním), stačí např. předpokládat, že distribuční funkce rozložení, z něhož náhodný výběr pochází, je spojitá. Tyto neparametrické testy se rovněž používají v situacích, kdy zkoumaná data nemají intervalový či poměrový charakter, ale pouze ordinální charakter. Ve srovnání s klasickými parametrickými testy jsou však neparametrické testy slabší, tzn., že nepravdivou hypotézu zamítají s menší pravděpodobností než testy parametrické. V této kapitole se omezíme na ty neparametrické testy, které jsou založeny na pořadí a týkají se mediánů. Nazývají se pořadové testy. 9.2. Uspořádaný náhodný výběr, vektor pořadí a jeho vlastnosti Nechť X1, ..., Xn je náhodný výběr. a) Vektor (X(1), ...., X(n)), kde X(1) ? ... ? X(n) se nazývá uspořádaný náhodný výběr a statistika X(i) se nazývá i-tá pořádková statistika, i = 1, ..., n. b) Pořadím Ri statistiky Xi rozumíme počet těch náhodných veličin X1, ..., Xn, které nabývají hodnoty menší nebo rovné Xi, tj. . Zavedeme-li funkci , pak . Náhodný vektor R = (R1, ..., Rn) se nazývá vektor pořadí. c) Pokud neuvažujeme shodná pozorování (tj. když náhodný výběr pochází ze spojitého rozložení -- pak se shodná pozorování vyskytují s pravděpodobností 0), je vektor pořadí permutací posloupnosti (1, ..., n) a má rovnoměrné diskrétní rozložení na množině všech permutací posloupnosti (1, ..., n). Náhodná veličina Ri má rovnoměrné diskrétní rozložení na množině {1, ..., n}, tedy E(Ri) = (n+1)/2, D(Ri) = (n2-1)/12. Upozornění: V praxi se může stát, že některá pozorování jsou si rovna a vytvářejí skupiny shodných čísel. Pak těmto shodným číslům přiřadíme průměrné pořadí odpovídající takové skupině. 9.3. Jednovýběrové pořadové testy (neparametrické obdoby jednovýběrových a párových t-testů) 9.3.1. Znaménkový test Nechť X1, ..., Xn je náhodný výběr ze spojitého rozložení se spojitou distribuční funkcí Ö(x). Nechť x0,50 je mediánem tohoto rozložení, tj. Ö(x0,50) = 0,5. Nechť c je reálná konstanta. Testujeme hypotézu H0: x0,50 = c proti oboustranné alternativě H1: x0,50 ? c (resp. proti levostranné alternativě H1: x0,50 < c resp. proti pravostranné alternativě H1: x0,50 > c). Utvoříme rozdíly Yi = Xi -- c, i = 1, ..., n. (Jsou-li některé rozdíly nulové, pak za n bereme jen počet nenulových hodnot.) Zavedeme statistiku SZ+, která udává počet těch rozdílů, které jsou kladné. Platí-li H0, pak SZ+ ~ Bi(n,˝), tedy E(SZ+) = n/2, D(SZ+) = n/4. Kritický obor budou tvořit ty hodnoty testové statistiky SZ+, které jsou blízké 0 nebo n, tedy . Pro n ? 20 a á = 0,05 či 0,01 jsou tabelované kritické hodnoty k1, k2. H0 zamítáme na hladině významnosti á, když . Pro velká n (prakticky n > 20) lze využít asymptotické normality statistiky SZ+. Testová statistika má za platnosti H0 asymptoticky rozložení N(0,1). Kritický obor pro oboustrannou alternativu má tvar W = . (Analogicky pro jednostranné alternativy.) H0 zamítáme na asymptotické hladině významnosti á, když . Aproximace rozložením N(0,1) se zlepší, když použijeme tzv. korekci na nespojitost. Testová statistika pak má tvar, přičemž ˝ přičteme, když SZ+ < n/2 a odečteme v opačném případě. Postup při párovém testu: Nechť (X1, Y1), ..., (Xn Yn) je náhodný výběr ze spojitého dvourozměrného rozložení. Testujeme H0: x0,50 - y,50 = c proti H1: x0,50 - y0,50 ? c (resp. proti jednostranným alternativám). Utvoříme rozdíly Zi = Xi -- Yi, i = 1, ..., n a testujeme hypotézu o mediánu z0,50, tj. H0: z0,50 = c proti H1: z0,50 ? c. Příklad: K zjištění cenových rozdílů mezi určitými dvěma druhy zboží bylo náhodně vybráno 15 prodejen. Na hladině významnosti 0,05 je třeba testovat hypotézu, že medián cenových rozdílů činí 3 Kč. č. prodejny cena zboží A cena zboží B rozdíl rozdíl- medián 1 10,00 11,00 1,00 -2,00 2 11,00 14,00 3,00 0,00 3 8,60 11,40 2,80 -0,20 4 9,50 13,00 3,50 0,50 5 8,50 11,00 2,50 -0,50 6 9,00 10,00 1,00 -2,00 7 9,00 11,90 2,90 -0,10 8 8,50 10,50 2,00 -1,00 9 11,00 12,00 1,00 -2,00 10 9,40 11,50 2,10-0,90 11 10,50 13,50 3,00 0,00 12 10,20 13,60 3,40 0,40 13 12,00 14,70 2,70 -0,30 14 15,00 18,60 3,60 0,60 15 12,20 14,40 2,20 -0,80 Řešení: Jedná se o párový test. Testová statistika SZ+nabývá hodnoty 3, počet nenulových rozdílů je 13. Ve statistických tabulkách najdeme pro n = 13 a á = 0,05 kritické hodnoty k1 = 2, k2 = 11. Protože kritický obor neobsahuje hodnotu 3, nemůžeme H0 zamítnout na hladině významnosti 0,05. 9.3.2. Jednovýběrový Wilcoxonův test Nechť X1, ..., Xn je náhodný výběr ze spojitého rozložení s hustotou ö(x), která je symetrická kolem mediánu x0,50, tj. ö(x0,50 + x) = ö(x0,50 - x). Nechť c je reálná konstanta. Testujeme hypotézu H0: x0,50 = c proti oboustranné alternativě H1: x0,50 ? c (resp. proti levostranné alternativě H1: x0,50 < c resp. proti pravostranné alternativě H1: x0,50 > c). Utvoříme rozdíly Yi = Xi -- c, i = 1, ..., n. (Jsou-li některé rozdíly nulové, pak za n bereme jen počet nenulových hodnot.) Absolutní hodnoty -Yi-uspořádáme vzestupně podle velikosti a spočteme pořadí Ri. Zavedeme statistiku , což je součet pořadí přes kladné hodnoty Yi. Analogicky zavedeme statistiku , což je součet pořadí přes záporné hodnoty Yi. Přitom platí, že součet SW+ + SW- = n(n+1)/2. Za platnosti H0 statistika SW+ má střední hodnotu E(SW+) = n(n+1)/4 a rozptyl D(SW+) = n(n+1)(2n+1)/24. H0 zamítáme na hladině významnosti á, když testová statistika je menší nebo rovna tabelované kritické hodnotě. Testová statistika = min(SW+, SW-) pro oboustrannou alternativu, = SW+ pro levostrannou alternativu, = SW- pro pravostrannou alternativu. Pro n ? 30 lze využít asymptotické normality statistiky SW+. Platí-li H0, pak ? N(0,1). Kritický obor pro oboustrannou alternativu má tvar: W = . (Analogicky pro jednostranné alternativy.) H0 zamítáme na asymptotické hladině významnosti á, když . Jednovýběrový Wilcoxonův test lze snadno modifikovat i na test párový stejným způsobem jak bylo popsáno u znaménkového testu. Ve srovnání se znaménkovým testem je Wilcoxonův test silnější. Hodí se však jen pro výběr ze symetrického rozložení. Příklad: Pro data z předešlého příkladu použijte párový Wilcoxonův test. Řešení: č. prodejny cena zboží A cena zboží B rozdíl -rozdíl-medián- pořadí 1 10,00 11,00 1,00 2,00 12 2 11,00 14,00 3,00 0,00 - 3 8,60 11,40 2,80 0,20 2 4 9,50 13,00 3,50 0,50 5,5 5 8,50 11,00 2,50 0,50 5,5 6 9,00 10,00 1,00 2,00 12 7 9,00 11,90 2,90 0,10 1 8 8,50 10,50 2,00 1,00 10 9 11,00 12,00 1,00 2,00 12 10 9,40 11,50 2,10 0,90 9 11 10,50 13,50 3,00 0,00 - 12 10,20 13,60 3,40 0,40 4 13 12,00 14,70 2,70 0,30 3 14 15,00 18,60 3,60 0,60 7 15 12,20 14,40 2,20 0,80 8 Tučně jsou vytištěna pořadí pro kladné hodnoty rozdíl-medián. SW+ = 16,5, SW- = 74,5, n = 13, á = 0,05, tabelovaná kritická hodnota = 17, testová statistika = min(SW+, SW-) = min(16,5; 74,5) = 16,5. Protože 16,5 ? 17, H0 zamítáme na hladině významnosti 0,05. 9.4. Dvouvýběrové pořadové testy (neparametrické obdoby dvouvýběrového t-testu) 9.4.1. Dvouvýběrový Wilcoxonův test Nechť X1, ..., Xn a Y1, ..., Ym jsou dva nezávislé náhodné výběry ze dvou spojitých rozložení, jejichž distribuční funkce se mohou lišit pouze posunutím. Označme x0,50 medián prvního rozložení a y0,50 medián druhého rozložení. Testujeme hypotézu, že distribuční funkce těchto rozložení jsou shodné neboli mediány jsou shodné proti alternativě, že jsou rozdílné. Všech n + m hodnot X1, ..., Xn a Y1, ..., Ym uspořádáme vzestupně podle velikosti. Zjistíme součet pořadí hodnot X1, ..., Xn a označíme ho T1. Součet pořadí hodnot Y1, ..., Ym označíme T2. Vypočteme statistiky U1 = mn + n(n+1)/2 -- T1 , U2 = mn + m(m+1)/2 - T2. Přitom platí U1 + U2 = mn. Pokud min(U1,U2) ? tabelovaná kritická hodnota (pro dané rozsahy výběrů m, n a dané á), pak nulovou hypotézu o totožnosti obou distribučních funkcí zamítáme na hladině významnosti á. Pro velká n, m (prakticky n, m > 30) lze využít asymptotické normality statistiky U1. V případě platnosti H0 má statistika asymptoticky rozložení N(0,1). Kritický obor pro oboustrannou alternativu má tvar: W = . (Analogicky pro jednostranné alternativy.) H0 zamítáme na asymptotické hladině významnosti á, když . Příklad: Bylo vybráno 10 polí stejné kvality. Na čtyřech z nich se zkoušel nový způsob hnojení, zbylých šest bylo ošetřeno starým způsobem. Pole byla oseta pšenicí a sledoval se její hektarový výnos. Je třeba zjistit, zda nový způsob hnojení má týž vliv na průměrné hektarové výnosy pšenice jako starý způsob hnojení. hektarové výnosy při novém způsobu: 51 52 49 55 hektarové výnosy při starém způsobu: 45 54 48 44 53 50 Řešení: usp. hodnoty 44 45 48 49 50 51 52 53 54 55 pořadí x-ových hodnot 4 6 7 10 pořadí y-ových hodnot 1 2 3 5 8 9 T1 = 4 + 6 + 7 + 10 = 27, T2 = 1 + 2 + 3 + 5 + 8 + 9 = 28 U1 = 4.6 + 4.5/2 - 27 = 7, U2 = 4.6 + 6.7/2 - 28 = 17 Kritická hodnota pro á = 0,05, min(4,6) = 4, max(4,6) = 6 je 2. Protože min(7,17) > 2, nemůžeme na hladině významnosti 0,05 zamítnout hypotézu, že nový způsob hnojení má na hektarové výnosy pšenice stejný vliv jako starý způsob. Upozornění: Ve STATISTICE je dvouvýběrový Wilcoxonův test uveden pod názvem Mannův -- Whitneyův test. 9.4.2. Waldův -- Wolfowitzův test Nechť X1, ..., Xn a Y1, ..., Ym jsou dva nezávislé náhodné výběry ze dvou spojitých rozložení. Testujeme hypotézu, že oba výběry pocházejí z téhož rozložení proti alternativě, že pocházejí z různých rozložení. Všech n + m hodnot X1, ..., Xn a Y1, ..., Ym uspořádáme vzestupně podle velikosti. Testovou statistikou je počet itercí R, tj. počet posloupností za sebou následujících hodnot patřících do téhož výběru. Jestliže R ? tabelovaná kritická hodnota (pro dané n,m a á), pak nulovou hypotézu zamítáme na hladině významnosti á. Pro větší rozsahy výběrů (n, m > 20) lze využít asymptotické normality statistiky R. Platí-li nulová hypotéza, pak . Nulovou hypotézu zamítáme na asymptotické hladině významnosti á, když U0 ? u1-á/2. Ve srovnání s dvouvýběrovým Wilcoxonovým testwm je Waldův -- Wolfowitzův test slabší, ale dá se použít i v situacích, kdy se obě rozložení liší nejenom posunutím, ale např. také variabilitou, šikmostí či špičatostí. Příklad: Jsou dány dva nezávislé náhodné výběry o rozsazích 10 a 12. Hodnoty 1. výběru: 5 5 7 7 8 10 11 15 18 101 Hodnoty 2. výběru: 12 12 13 13 13 14 17 22 23 24 28 30. Na hladině významnosti 0,05 rozhodněte Waldovým -- Wolfowitzovým testem, zda oba výběry pocházejí z téhož rozložení. Řešení: Usp. 5 5 7 7 8 10 11 12 12 13 13 13 14 h. Č.vý 1 1 1 1 1 1 1 2 2 2 2 2 2 b. Č.it 1 2 er. Usp.h 15 17 18 22 23 24 28 30 101 . Č.výb 1 2 1 2 2 2 2 2 1 . Č.ite 3 4 5 6 7 r. Počet iterací: R = 7, n =10, m = 12, á = 0,05, tabelovaná kritická hodnota = 7. Protože testová statistika je rovna kritické hodnotě, zamítáme na hladině významnosti 0,05 hypotézu, že oba výběry pocházejí z téhož rozložení. 9.4.3. Dvouvýběrový Kolmogorovův - Smirnovův test Nechť X1, ..., Xn a Y1, ..., Ym jsou dva nezávislé náhodné výběry ze dvou spojitých rozložení, jejichž distribuční funkce se mohou lišit nejenom posunutím, ale také tvarem. Testujeme hypotézu, že distribuční funkce těchto rozložení jsou shodné, tj., že všech n+m veličin pochází z téhož rozložení proti alternativě, že distribuční funkce jsou rozdílné. Nechť je empirická distribuční funkce 1. výběru a je empirická distribuční funkce 2. výběru. Jako testová statistika slouží . H0 zamítáme na hladině významnosti á, když D ? Dn,m(á), kde Dn,m(á) je tabelovaná kritická hodnota. Pro větší rozsahy n,m lze kritickou hodnotu aproximovat vzorcem . 9.5. Kruskalův -- Wallisův test a mediánový test (neparametrické obdoby analýzy rozptylu jednoduchého třídění) 9.5.1. Formulace problému Nechť je dáno r nezávislých náhodných výběrů o rozsazích n1, ... , nr. Předpokládáme, že tyto výběry pocházejí ze spojitých rozložení. Označme n = n1 + ... + nr. Chceme testovat hypotézu, že všechny tyto výběry pocházejí z téhož rozložení. 9.5.2. Kruskalův -- Wallisův test Všech n hodnot seřadíme do rostoucí posloupnosti a určíme pořadí každé hodnoty. Označme Tj součet pořadí těch hodnot, které patří do j-tého výběru, j = 1, ..., r (kontrola: musí platit T1 + ... + Tr = n(n+1)/2). Testová statistika má tvar: . Platí-li H0, má statistika Q asymptoticky rozložení ÷2(r-1). H0 tedy zamítneme na asymptotické hladině významnosti á, když Q ? ÷1-á 2(r-1). 9.5.3. Mediánový test Testová statistika má tvar , kde Pj je počet hodnot v j- tém výběru, které jsou větší nebo rovny mediánu vypočtenému ze všech n hodnot. Platí-li H0, má statistika QM asymptoticky rozložení ÷2(r-1). H0 tedy zamítneme na asymptotické hladině významnosti á, když QM ? ÷1-á 2(r-1). 9.5.4. Metody mnohonásobného porovnávání Zamítneme-li H0, zajímá nás, které dvojice náhodných výběrů se liší na zvolené hladině významnosti. a) Neményiho metoda Používá se v případě, že všechny výběry mají týž rozsah p. Je- li -Tl - Tk-? tabelovaná kritická hodnota (pro dané p, r, á ), pak na hladině významnosti á zamítáme hypotézu, že l-tý a k-tý výběr pocházejí z téhož rozložení. b) Obecná metoda mnohonásobného porovnávání Jestliže , pak na hladině významnosti á zamítáme hypotézu, že l- tý a k-tý výběr pocházejí z téhož rozložení. Kritickou hodnotu hKW(á) najdeme ve speciálních statistických tabulkách. Při větších rozsazích výběrů je možno ji nahradit kvantilem ÷1-á 2(r-1). 9.5.5. Příklad V roce 1980 byly získány tři nezávislé výběry obsahující údaje o průměrných ročních příjmech (v tisících dolarů) čtyř sociálních skupin ve třech různých oblastech USA. jižní oblast: 6 10 15 29 pacifická oblast: 11 13 17 131 severovýchodní oblast: 7 14 28 25 Na hladině významnosti 0,05 testujte hypotézu, že příjmy v těchto oblastech se neliší. Zamítnete-li nulovou hypotézu, vyšetřete, které dvojice výběrů se od sebe liší na hladině významnosti 0,05. Řešení: Kruskalův -- Wallisův test Usp.hodnoty 6 7 10 11 13 14 15 17 25 28 29 131 Pořadí 1 3 7 11 1.výběru Pořadí 4 5 8 12 2.výběru Pořadí 2 6 9 10 3.výběru T1 = 22, T2 = 29, T3 = 27 , , ÷0,95 2(2) = 5,991. Protože Q < 5,991, H0 nezamítáme na asymptotické hladině významnosti 0,05. Rozdíly mezi průměrnými ročními příjmy v uvedených třech oblastech se neprokázaly. Mediánový test Medián všech 12 hodnot je 14,5. V 1. výběru leží nad mediánem 2 hodnoty, ve 2. výběru 2 hodnoty, ve 3. výběru 2 hodnoty. , ÷0,95 2(2) = 5,991. Protože QM < 5,991, H0 nezamítáme na asymptotické hladině významnosti 0,05. Příklady k 9. kapitole Příklad 1.: U 10 náhodně vybraných vzorků benzínu byly zjištěny následující hodnoty oktanového čísla: 98,2 96,8 96,3 99,8 96,9 98,6 95,6 97,1 97,7 98,0. Na hladině významnosti 0,05 testujte hypotézu, že medián oktanového čísla je 98 proti oboustranné alternativě. Řešení: Znaménkový test rozdíly xi -- 98: 0,2 -1,2 -1,7 1,8 -1,1 0,6 -2,4 -0,9 -0,3 0,0 SZ+ = 3, nenulových rozdílů je 9. Ve statistických tabulkách najdeme pro n = 9 a á = 0,05 kritické hodnoty k1 = 1, k2 = 8. Protože kritický obor neobsahuje hodnotu 3, nemůžeme H0 zamítnout na hladině významnosti 0,05. Wilcoxonův test usp. - xi -- 98- 0,2 0,3 0,6 0,9 1,1 1,2 1,7 1,8 2,4 pořadí 1 2 3 4 5 6 7 8 9 SW+ = 12, SW- = 33, n = 9, á = 0,05, tabelovaná kritická hodnota = 5, testová statistika = min(SW+, SW-) = min(12,33) = 12. Protože 12 > 5, H0 nezamítáme na hladině významnosti 0,05. Příklad 2.: Výrobce určitého výrobku se má rozhodnout mezi dvěma dodavateli polotovarů vyrábějících je různými technologiemi. Rozhodující je procentní obsah určité látky. 1. technologie: 1,52 1,57 1,71 1,34 1,68 2. technologie: 1,75 1,67 1,56 1,66 1,72 1,79 1,64 1,55 Na hladině významnosti 0,05 posuďte pomocí dvouvýběrového Wilcoxonova testu, zda je oprávněný předpoklad, že obě technologie poskytují stejné procento účinné látky. Řešení: usp.h. 1,34 1,52 1,55 1,56 1,57 1,64 1,66 1,67 1,68 1,71 1,72 1,75 1,79 pořadí 1 2 3 4 5 6 7 8 9 10 11 12 13 T1 = 1 + 2 + 5 + 9 + 10 = 27, T2 = 3 + 4 + 6 + 7 + 8 + 11 + 12 + 13 = 64 U1 = 5.8 + 5.6/2 - 27 = 28, U2 = 5.8 + 8.9/2 - 64 = 12 Kritická hodnota pro á = 0,05, min(5,8) = 5, max(5,8) = 8 je 6. Protože min(28,12) > 2, nemůžeme na hladině významnosti 0,05 zamítnout hypotézu, že obě technologie poskytují stejné procento účinné látky. Příklad 3.: Výrobce koláčů v prášku má 4 nové recepty a chce zjistit, zda se jejich kvalita liší. Upekl proto 5 koláčů z každého druhu a dal je porotě k ohodnocení. recept A: 72 88 70 87 71, recept B: 85 89 86 82 88, recept C: 94 94 88 87 89, recept D: 91 93 92 95 94. Na hladině významnosti 0,05 testujte hypotézu, že recepty se neliší. Řešení: Použijeme Kruskalův -- Wallisův test. Všech 20 hodnot uspořádáme vzestupně podle velikosti a stanovíme součet pořadí pro recepty A, B, C, D: T1 = 23,5, T2 = 37,5, T3 = 66, T4 = 83. Testová statistika: , ÷0,95 2(3) = 7,81. Protože Q ? 7,81, H0 zamítáme na asymptotické hladině významnosti 0,05. Práce se systémem STATISTICA Téma: Neparametrické úlohy o mediánech Příklad 1.: Párový znaménkový test a párový Wilcoxonův test Při zjišťování kvality jedné složky půdy se používají dvě metody označené A a B. Výsledky: Vzore 1 2 3 4 5 6 7 8 9 10 11 12 k A 0,2 0,3 0,2 0,3 0,3 0,2 0,3 0,3 0,2 0,3 0,3 0,3 75 12 84 65 98 12 15 42 21 35 07 B 0,2 0,3 0,2 0,2 0,3 0,3 0,3 0,3 0,2 0,3 0,3 0,3 8 12 88 98 61 07 19 15 42 23 41 15 Na hladině významnosti 0,05 testujte hypotézu, že metody A a B dávají stejné výsledky. Návod: Vytvořte datový soubor se dvěma proměnnými A a B a 12 případy. Statistics --Nonparametrics - Comparing two dependent samples(variables) -- OK -- First variable list A, Second variable list B -- OK -- Sign test. Ve výstupní tabulce se objeví p-hodnota 0,182422, tedy nulová hypotéza se nezamítá na hladině významnosti 0,05. Grafické znázornění výsledků: Návrat do Comparing two variables - Box & Whisker plots for all variables -- OK - Box & Whisker Type: Median/Quart/Range -- OK. Z krabicových diagramů je vidět, že obě metody se poněkud liší v úrovni, ale neliší se ve variabilitě. Provedení Wilcoxonova testu: Návrat do Comparing two variables Wilcoxon matched pair test. Výstupní tabulka poskytne hodnotu testové statistiky (ozn. T), hodnotu asymptotické testové statistiky U0 a p-hodnotu pro U0. (STATISTICA tedy nezohledňuje omezení n ? 30 pro použití U0.) V tomto případě je p-hodnota 0,038153, tedy nulová hypotéza se zamítá na hladině významnosti 0,05. Ze srovnání p-hodnot pro znaménkový test a pro Wilcoxonův test plyne, že Wilcoxonův test je silnější. Příklad 2.: Znaménkový test a jednovýběrový Wilcoxonův test Vyráběné ocelové tyče mají kolísavou délku s předpokládanou hodnotou mediánu 10 m. Náhodný výběr 10 tyčí poskytl tyto výsledky: 9,83 10,10 9,72 9,91 10,04 9,95 9,82 9,73 9,81 9,90 Na hladině významnosti 0,05 testujte hypotézu, že předpoklad o mediánu délky tyčí je oprávněný. Návod: Vytvořte datový soubor se dvěma proměnnými X a Y a 10 případy. Do proměnné X napište změřené hodnoty, proměnná Y bude obsahovat konstantu 10. Provedení znaménkového a Wilcoxonova testu je nyní stejné jako v předešlém případě. Znaménkový test: p-hodnota = 0,113846, tedy nulová hypotéza se nezamítá na hladině významnosti 0,05. Wilcoxonův test: p-hodnota = 0,024933, tedy nulová hypotéza se zamítá na hladině významnosti 0,05. Příklad 3.: Dvouvýběrový Wilcoxonův test, Waldův -- Wolfowitzův test, dvouvýběrový K-S test Bylo vybráno 10 polí stejné kvality. Na čtyřech z nich se zkoušel nový způsob hnojení, zbylých šest bylo ošetřeno starým způsobem. Pole byla oseta pšenicí a sledoval se její hektarový výnos. Je třeba testovat na hladině významnosti 0,05, zda nový způsob hnojení má týž vliv na průměrné hektarové výnosy pšenice jako starý způsob hnojení. hektarové výnosy při novém způsobu: 51 52 49 55 hektarové výnosy při starém způsobu: 45 54 48 44 53 50 Návod: Vytvořte datový soubor o dvou proměnných (X a ID) a deseti případech. Do X napište výnosy pšenice při obou způsobech hnojení, do ID čtyřikrát jedničku a šestkrát dvojku. Statistics -- Nonparametric -- Comparing two independent samples (groups) -- OK - Dependent variable X, Grouping variable ID, OK - Mann -- Whitney U test. Ve výstupní tabulce jsou součty pořadí T1, T2, hodnota testové statistiky min(U1, U2) ozn. U, hodnota asymptotické testové statistiky U0 (ozn. Z), p-hodnota pro U0 a přesná p-hodnota (ozn. 2*1 sided exact p -- ta se používá pro rozsahy výběrů pod 30). V našem případě přesná p-hodnota = 0,352381, tedy H0 nezamítáme na hladině významnosti 0,05. Výpočet je vhodné doplnit krabicovým diagramem typu Median/Quart/Range. Provedeme-li Waldův -- Wolfowitzův test, dostaneme ve výstupní tabulce rozsahy a průměry obou výběrů, hodnotu asymptotické testové statistiky U0 (ozn. Z), p-hodnotu pro U0 (p = 0,888275), hodnotu asymptotické testové statistiky s opravou na spojitost (Zadj), p-hodnotu pro Zadj, (p = 0,833097), počet iterací (No. of Runs) a počet shodných pozorování. Ani tento test nezamítá na asymptotické hladině významnosti nulovou hypotézu. Ve výstupní tabulce pro dvouvýběrový K-S test dostaneme maximální záporný a maximální kladný rozdíl mezi hodnotami obou výběrových distribučních funkcí, dolní omezení pro p-hodnotu (p > 0,1), průměry, směrodatné odchylky a rozsahy obou výběrů. Protože p > 0,05, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Příklad 4.: Kruskalův -- Wallisův test a mediánový test Voda po holení jisté značky se prodává ve čtyřech různých lahvičkách stejného obsahu. Údaje o počtu prodaných lahviček za týden v různých obchodech: 1.typ: 50 35 43 30 62 52 43 57 33 70 64 58 53 65 39 2.typ: 31 37 59 67 44 49 54 62 34 42 40 3.typ: 27 19 32 20 18 23 4.typ: 35 39 37 38 28 33. Posuďte na 5% hladině významnosti, zda typ lahvičky ovlivňuje úroveň prodeje vyjádřenou mediánem. Návod: Vytvořte nový datový soubor o dvou proměnných X a ID a 38 případech. Do proměnné X napište zjištěné údaje o prodeji, do proměnné ID 15 x jedničku, 11 x dvojku, 6 x trojku a 6 x čtyřku. Statistics -- Nonparametrics -- Comparing multiple independent samples(groups) -- OK -- Dependent varaible VÝKON, Grouping varaible SKUPINA -- OK -- Summary: Kruskal-Wallis ANOVA & Median test. Ve dvou výstupních tabulkách se objeví výsledky mediánového testu a K-W testu. Oba testy zamítají hypotézu o shodě mediánů v daných čtyřech skupinách, ale K-W test je poněkud silnější (p-hodnota = 0,0003, zatímco p-hodnota pro mediánový test je 0,0005). Grafické znázornění výsledků: návrat do Kruskal-Wallis ANOVA & Median test -- Box & Whisker -- Select variable X -- OK - Box & Whisker Type: Median/Quart/Range -- OK. Je vidět, že úroveň prodeje pro 1. typ je nevyšší, zatímco pro 3. typ nejnižší. Dále je možno vytvořit histogramy proměnné X ve všech čtyřech skupinách: návrat do Kruskal-Wallis ANOVA & Median test -- Categorized histogram - Select variable X -- OK. Poznámka: STATISTICA neumožňuje provedení metody mnohonásobného porovnávání. Lze zjistit, že na hladině významnosti 0,05 se liší 1. a 3. typ, 1. a 4. typ a 2. a 3. typ. Příklady k samostatnému řešení 1. U osmi osob byl změřen systolický krevní tlak před pokusem a po něm. č. osoby 1 2 3 4 5 6 7 8 tlak před 130 185 162 136 147 181 128 139 tlak po 139 190 175 135 155 175 158 149 Na hladině významnosti 0,05 testujte hypotézu, že pokus neovlivní systolický krevní tlak 2. Majitel obchodu chtěl zjistit, zda velikost nákupů (v dolarech) placených kreditními kartami Master/EuroCard a Visa jsou přibližně stejné. Náhodně vybral 7 nákupů placených Master/EuroCard: 42 77 46 73 78 33 37 a 9 placených Visou: 39 10 119 68 76 126 53 79 102. Lze na hladině významnosti 0,05 tvrdit, že nákupů placených těmito dvěma typy karet se shodují? 3. Z produkce tří podniků vyrábějících televizory bylo vylosováno 10, 8 a 12 kusů. Byly získány následující výsledky zjišťování citlivosti těchto televizorů v mikrovoltech: 1.podnik: 420 560 600 490 550 570 340 480 510 460 2.podnik: 400 420 580 470 470 500 520 530 3.podnik: 450 700 630 590 420 590 610 540 740 690 540 670 Ověřte na hladině významnosti 0,05 hypotézu o shodě úrovně citlivosti televizorů v jednotlivých podnicích.