10. Neparametrické testy o mediánech


10.1. Motivace: Při aplikaci t-testů či analýzy rozptylu by měly být splněny určité předpoklady:

-         normalita dat (pro výběry větších rozsahů (n ≥ 30) nemá mírné porušení normality závažný
dopad na výsledky)

-         homogenita rozptylů

-         intervalový či poměrový charakter dat

Pokud nejsou tyto předpoklady splněny, použijeme tzv. neparametrické testy, které nevyžadují
předpoklad o konkrétním typu rozložení (např. normálním), stačí např. předpokládat, že distribuční
funkce rozložení, z něhož náhodný výběr pochází, je spojitá.

Nevýhoda - ve srovnání s klasickými parametrickými testy jsou neparametrické testy slabší, tzn., že
nepravdivou hypotézu zamítají s menší pravděpodobností než testy parametrické.

V této kapitole se omezíme na ty neparametrické testy, které jsou založeny na pořadí a týkají se
mediánů. Nazývají se pořadové testy.


10.2. Pojem pořadí a průměrného pořadí

Nechť X[1], ..., X[n] je náhodný výběr.

Vektor (X[(1)], ...., X[(n)]), kde X[(1)] ≤ ... ≤ X[(n)] se nazývá uspořádaný náhodný výběr a
statistika X[(i)] se nazývá i-tá pořádková statistika, i = 1, ..., n.

Pořadím R[i] statistiky X[i] rozumíme počet těch náhodných veličin X[1], ..., X[n], které nabývají
hodnoty menší nebo rovné X[i], tj. .

V praxi se může stát, že některá pozorování jsou si rovna a vytvářejí skupiny shodných čísel. Pak
těmto shodným číslům přiřadíme průměrné pořadí odpovídající takové skupině.


Příklad: Máme čísla 2  1,8  2,1  2,4  1,9  2,1  2  1,8  2,3  2,2. Stanovte jejich pořadí.

Řešení:

                           usp.hodnoty

                                          1,8

                                             1,8

                                                1,9

                                                   2

                                                      2

                                                         2,1

                                                            2,1

                                                               2,2

                                                                  2,3

                                                                     2,4

                           pořadí

                                          1

                                             2

                                                3

                                                   4

                                                      5

                                                         6

                                                            7

                                                               8

                                                                  9

                                                                     10

                           průměrné pořadí

                                          1,5

                                             1,5

                                                3

                                                   4,5

                                                      4,5

                                                         6,5

                                                            6,5

                                                               8

                                                                  9

                                                                     10


10.3. Jednovýběrový znaménkový test a jeho asymptotická varianta

Nechť X[1], ..., X[n] je náhodný výběr ze spojitého rozložení se spojitou distribuční funkcí Φ(x).
Nechť  x[0,50 ] je mediánem tohoto rozložení, tj. Φ(x[0,50]) = 0,5. Nechť c je reálná konstanta.
Testujeme hypotézu H[0]: x[0,50] = c proti oboustranné alternativě H[1]: x[0,50] ≠ c (resp. proti
levostranné alternativě H[1]: x[0,50] < c resp. proti pravostranné alternativě H[1]: x[0,50] > c).


Postup provedení testu:

a) Utvoříme rozdíly Y[i] = X[i] – c, i = 1, ..., n. (Jsou-li některé rozdíly nulové, pak za n
bereme jen počet nenulových hodnot.)

b) Zavedeme statistiku S[Z]^+, která udává počet těch rozdílů, které jsou kladné. Platí-li H[0],
pak S[Z]^+ ~ Bi(n,1/2), tedy E(S[Z]^+) = n/2, D(S[Z]^+) = n/4.

c) Stanovíme kritický obor.

Pro oboustrannou alternativu ho budou tvořit ty hodnoty testové statistiky S[Z]^+, které jsou
blízké 0 nebo n, tedy , kde nezáporná celá čísla k[1], k[2], splňují podmínky

,

Pro levostrannou alternativu: , kde nezáporné celé číslo k[1] splňuje podmínku

Pro pravostrannou alternativu: , kde nezáporné celé číslo k[2] splňuje podmínku

(Čísla k[1], k[2] pro oboustranný test i pro jednostranné testy lze najít ve statistických
tabulkách.)

d) H[0] zamítáme na hladině významnosti α, když .


Asymptotická varianta testu:

Pro velká n (prakticky n > 20) lze využít asymptotické normality statistiky S[Z]^+. Testová
statistika  má za platnosti H[0 ] asymptoticky rozložení N(0,1).

Kritický obor

- pro oboustrannou alternativu: W = ,

- pro levostrannou alternativu: W = ,

- pro pravostrannou alternativu: W = .

H[0] zamítáme na asymptotické hladině významnosti α, když .


Aproximace rozložením N(0,1) se zlepší, když použijeme tzv. korekci na nespojitost. Testová
statistika pak má tvar , přičemž 1/2 přičteme, když S[Z]^+ < n/2 a odečteme v opačném případě.


10.4. Příklad: U 10 náhodně vybraných vzorků benzínu byly zjištěny následující hodnoty oktanového
čísla: 98,2   96,8   96,3   99,8   96,9   98,6   95,6   97,1   97,7   98,0. Na hladině významnosti
0,05 testujte hypotézu, že medián oktanového čísla je 98 proti oboustranné alternativě.


Řešení:

Testujeme H[0]: x[0,50] = 98 proti oboustranné alternativě H[1]: x[0,50] ≠ 98, kde x[0,50] je
medián rozložení, z něhož pochází náhodný výběr X[1], …, X[10].

rozdíly x[i] – 98: 0,2   -1,2   -1,7   1,8   -1,1   0,6   -2,4   -0,9   -0,3   0,0

S[Z]^+ = 3, nenulových rozdílů je 9. Ve statistických tabulkách najdeme pro n = 9 a α = 0,05
kritické hodnoty k[1] = 1, k[2] = 8. Protože kritický obor  neobsahuje hodnotu 3, nemůžeme H[0]
zamítnout na hladině významnosti 0,05.


Výpočet pomocí systému STATISTICA:

Vytvoříme nový datový soubor se dvěma proměnnými a 10 případy. Do proměnné X napíšeme hodnoty
oktanového čísla a do proměnné konst uložíme číslo 98.

Statistiky –Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných
X, Druhý seznam proměnných konst – OK – Znaménkový test.

Vidíme, že nenulových hodnot n = 9. Z nich záporných je 66,7%, tj. 6. Hodnota testové statistiky
S[Z]^+ = 9 – 6 = 3. Asymptotická testová statistika U[0] (zde označená jako Z) se realizuje
hodnotou 0,6667. Odpovídající asymptotická p-hodnota je 0,505, tedy na asymptotické hladině
významnosti 0,05 nezamítáme hypotézu, že medián oktanového čísla je 98.


Upozornění: V tomto případě není splněna podmínka pro využití asymptotické normality statistiky
S[Z]^+, tj. n > 20. Je tedy vhodnější najít v tabulkách kritické hodnoty pro znaménkový test. Pro n
= 9 a α = 0,05 jsou kritické hodnoty  k[1] = 1, k[2] = 8. Protože kritický obor  neobsahuje hodnotu
3, nezamítáme H[0] na hladině významnosti 0,05. Dostáváme týž výsledek jako při použití
asymptotického testu.


10.5. Párový znaménkový test

Nechť (X[1], Y[1]), ..., (X[n], Y[n]) je náhodný výběr ze spojitého dvourozměrného rozložení.
Testujeme  H[0]: x[0,50] - y[0,50] = c proti H[1]: x[0,50] - y[0,50] ≠ c (resp. proti jednostranným
alternativám). Utvoříme rozdíly Z[i] = X[i] – Y[i], i = 1, ..., n a testujeme hypotézu o mediánu
z[0,50], tj. H[0]: z[0,50]  = c proti H[1]: z[0,50] ≠ c.


10.6. Příklad: U osmi osob byl změřen systolický krevní tlak před pokusem a po něm.

č. osoby     1        2        3        4        5        6        7        8

tlak před    130     185    162    136    147    181    138    139

tlak po       139     190    175    135    155    175    158    149

Na hladině významnosti 0,05 testujte hypotézu, že pokus neovlivní systolický krevní tlak

Řešení:

Testujeme H[0]: z[0,50] = 0 proti oboustranné alternativě H[1]: z[0,50] ≠ 0, kde z[0,50] je medián
rozložení, z něhož pochází rozdílový náhodný výběr  Z[1] = X[1] – Y[1], … Z[8] = X[8] – Y[8].
Vypočteme rozdíly mezi tlakem před pokusem a po pokusu, čímž úlohu převedeme na jednovýběrový test.

rozdíly x[i] – y[i]: -9   -5   -13   1   -8   6   -30   -10

Testová statistika S[Z]^+ = 2.Ve statistických tabulkách najdeme pro n = 8 a α = 0,05 kritické
hodnoty k[1] = 0, k[2] = 8. Protože kritický obor  neobsahuje hodnotu 2, nemůžeme H0 zamítnout na
hladině významnosti 0,05. Znamená to, že s rizikem omylu nejvýše 0,05 je zvýšení krevního tlaku
stejně pravvděpodobné jako jeho pokles.


Výpočet pomocí systému STATISTICA:

Vytvoříme nový datový soubor se dvěma proměnnými a 8 případy. Do proměnné X napíšeme hodnoty tlaku
před pokusem, do proměnné Y hodnoty tlaku po pokusu.

Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam
proměnných X, 2. seznam proměnných Y – OK – Znaménkový test.


Vidíme, že nenulových hodnot n = 8. Z nich záporných je 75%, tj. 6. Hodnota testové statistiky
S[Z]^+ = 8 – 6 = 2. Asymptotická testová statistika U[0] (zde označená jako Z) se realizuje
hodnotou 1,06066. Odpovídající asymptotická p-hodnota je 0,2888, tedy na asymptotické hladině
významnosti 0,05 nezamítáme hypotézu, že zvýšení krevního tlaku stejně pravděpodobné jako jeho
pokles.


10.7. Jednovýběrový Wilcoxonův test a jeho asymptotická varianta

Frank Wilcoxon (1892 – 1965): Americký statistik a chemik


Nechť X[1], ..., X[n] je náhodný výběr ze spojitého rozložení s hustotou φ(x), která je symetrická
kolem mediánu x[0,50], tj. φ(x[0,50 ]+[ ]x) = φ(x[0,50 ]-[ ]x). Nechť c je reálná konstanta.

Testujeme hypotézu H[0]: x[0,50] = c

proti  oboustranné alternativě H[1]: x[0,50] ≠ c nebo

proti levostranné alternativě H[1]: x[0,50] < c nebo

proti pravostranné alternativě H[1]: x[0,50] > c.


Postup provedení testu:

a) Utvoříme rozdíly Y[i] = X[i] – c, i = 1, ..., n. (Jsou-li některé rozdíly nulové, pak za n
bereme jen počet nenulových hodnot.)


b) Absolutní hodnoty │Y[i]│uspořádáme vzestupně podle velikosti a spočteme pořadí R[i].


c) Zavedeme statistiky

, což je součet pořadí přes kladné hodnoty Y[i],

, což je součet pořadí přes záporné hodnoty Y[i].

Přitom platí, že součet  S[W]^+ +  S[W]^- = n(n+1)/2.

Je-li H[0] pravdivá, pak E(S[W]^+) = n(n+1)/4 a D(S[W]^+) = n(n+1)(2n+1)/24.


d) Testová statistika = min(S[W]^+, S[W]^-) pro oboustrannou alternativu,

                                 = S[W]^+ pro levostrannou alternativu,

                                 = S[W]^- pro pravostrannou alternativu.


e)  H[0] zamítáme na hladině významnosti α, když testová statistika je menší nebo rovna tabelované
kritické hodnotě.


Asymptotická varianta jednovýběrového Wilcoxonova testu:

Pro n ≥ 30 lze využít asymptotické normality statistiky S[W]^+.

Platí-li H[0], pak  ≈ N(0,1).

Kritický obor:

pro oboustrannou alternativu W = ,

pro levostrannou alternativu W = ,

pro pravostrannou alternativu W =

H[0] zamítáme na asymptotické hladině významnosti α, když .


Předpoklady použití jednovýběrového Wilcoxonova testu:

-         rozložení, z něhož daný náhodný výběr pochází, je spojité

-         hustota tohoto rozložení je symetrická kolem mediánu

-         sledovaná veličina X má aspoň ordinální charakter

(Není-li splněn předpoklad o symetrii hustoty kolem mediánu, lze použít např. znaménkový test.)


10.8. Příklad: Pro zadání příkladu 10.4. proveďte jednovýběrový Wilcoxonův test.

Řešení:

Testujeme hypotézu H[0]: x[0,50] = 98 proti oboustranné alternativě H[1]: x[0,50] ≠ 98.

Absolutní hodnoty rozdílů x[i] – 98 setřídíme vzestupně podle velikosti (přitom vynecháme nulový
rozdíl a kladné rozdíly značíme tučně):

abs (x[i] – 98)  0,2  0,3  0,6  0,9  1,1  1,2  1,7  1,8  2,4

pořadí R[i]          1     2     3     4     5     6     7     8     9

Součet pořadí přes kladné hodnoty rozdílů: S[W]^+ = 12

Součet pořadí přes záporné hodnoty rozdílů: S[W]^- = 33

Testová statistika = min(12,33) = 12, tabelovaná kritická hodnota pro α = 0,05 a n = 9 je 5.
Protože 12 > 5, H[0] nezamítáme na hladině významnosti 0,05.


Výpočet pomocí systému STATISTICA:

Utvoříme nový datový soubor se dvěma proměnnými a 10 případy. Do proměnné oktan napíšeme zjištěné
hodnoty a do proměnné konst uložíme číslo 98.

Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam
proměnných oktan, 2. seznam proměnných konst – OK – Wilcoxonův párový test.


Výstupní tabulka poskytne hodnotu testové statistiky SW^+ (zde označena T), hodnotu asymptotické
testové statistiky U[0] a p-hodnotu pro U[0]. V tomto případě je p-hodnota 0,213525, tedy nulová
hypotéza se nezamítá na asymptotické hladině významnosti 0,05.


10.9. Párový Wilcoxonův test

Nechť (X[1], Y[1]), ..., (X[n] Y[n]) je náhodný výběr ze spojitého dvourozměrného rozložení.
Testujeme  H[0]: x[0,50] - y[,50] = c proti H[1]: x[0,50] - y[0,50] ≠ c (resp. proti jednostranným
alternativám). Utvoříme rozdíly Z[i] = X[i] – Y[i], i = 1, ..., n a testujeme hypotézu o mediánu
z[0,50], tj. H[0]: z[0,50]  = c proti H[1]: z[0,50] ≠ c.


10.10. Příklad: Pro data z příkladu 10.6. proveďte párový Wilcoxonův test.

Řešení:

Testujeme H[0]: z[0,50] = 0 proti oboustranné alternativě H[1]: z[0,50] ≠ 0, kde z[0,50] je medián
rozložení, z něhož pochází rozdílový náhodný výběr Z[1] = X[1] – Y[1], … Z[8] = X[8] – Y[8].

Absolutní hodnoty rozdílů x[i] – y[i] setřídíme vzestupně podle velikosti (kladné rozdíly značíme
tučně):

abs (x[i] – y[i])   1    5    6    8    9    10    13    20

pořadí R[i]       1    2    3    4    5     6      7      8

Součet pořadí přes kladné hodnoty rozdílů: S[W]^+ = 4

Součet pořadí přes záporné hodnoty rozdílů: S[W]^- = 32

Testová statistika  =  min(4,32)  =  4, tabelovaná kritická hodnota pro α = 0,05 a n = 8 je 3.
Protože 4 > 3, H[0] nezamítáme na hladině významnosti 0,05.


Výpočet pomocí systému STATISTICA:

Použijeme datový soubor, který jsme již vytvořili pro aplikaci znaménkového testu.

Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam
proměnných X, 2. seznam proměnných Y – OK – Wilcoxonův párový test.


Testová statistika (zde označená jako T) nabývá hodnoty 4, asymptotická testová statistika
(označená jako Z) nabývá hodnoty 1,960392, odpovídající asymptotická p-hodnota je 0,049951, tedy na
asymptotické hladině významnosti 0,05 nulovou hypotézu zamítáme. To je v rozporu s výsledkem,
k němuž jsme dospěli při ručním výpočtu. Je to způsobeno tím, že není dodržena podmínka pro použití
asymptotické varianty Wilcoxonova testu – rozsah výběru má být aspoň 30.


10.11. Příklad (na asymptotickou variantu Wilcoxonova testu):

30 náhodně vybraných osob mělo nezávisle na sobě bez předchozího nácviku odhadnout, kdy od daného
signálu uplyne 1 minuta. Byly získány následující výsledky (v sekundách): 53  48  45  55  63  51
66  56  50  58  61  51  64  63  59  47  46  58  52  56  61  57 48  62  54  49  51  46  53  58.

Na asymptotické hladině významnosti 0,05 testujte hypotézu, že medián rozložení, z něhož daný
náhodný výběr pochází, je 60 sekund proti oboustranné alternativě (nulová hypotéza vlastně tvrdí,
že polovina osob délku jedné minuty podhodnotí a druhá nadhodnotí).


Řešení:

Testujeme H[0]: x[0,50] = 60 proti oboustranné alternativě H[1]: x[0,50] ≠ 60.

Obvyklým způsobem stanovíme statistiku S[W]^+ = 55.

Asymptotická testová statistika:


Kritický obor:


W = .

Testová statistika se realizuje v kritickém oboru, tedy H[0] zamítáme na asymptotické hladině
významnosti 0,05.


Výpočet pomocí systému STATISTICA:

Utvoříme nový datový soubor se dvěma proměnnými a 30 případy. Do proměnné odhad napíšeme zjištěné
hodnoty a do proměnné konst uložíme číslo 60.

Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam
proměnných odhad, Druhý seznam proměnných konst – OK – Wilcoxonův párový test.


Testová statistika (zde označená jako T) nabývá hodnoty 55, asymptotická testová statistika
(označená jako Z) nabývá hodnoty 3,65088, odpovídající asymptotická p-hodnota je 0,000261, tedy na
asymptotické hladině významnosti 0,05 nulovou hypotézu zamítáme.

10.12. Dvouvýběrový Wilcoxonův test a jeho asymptotická varianta

Nechť X[1], ..., X[n ]a Y[1], ..., Y[m] jsou dva nezávislé náhodné výběry ze dvou spojitých
rozložení, jejichž distribuční funkce se mohou lišit pouze posunutím. Označme x[0,50] medián
prvního rozložení a y[0,50] medián druhého rozložení. Testujeme hypotézu, že distribuční funkce
těchto rozložení jsou shodné neboli mediány jsou shodné proti alternativě, že jsou rozdílné, tj.

H[0]: x[0,50] - y[0,50] = 0 proti H[1]: x[0,50] - y[0,50]  ≠ 0.


Postup provedení testu:

a)     Všech n + m hodnot X[1], ..., X[n ]a Y[1], ..., Y[m] uspořádáme vzestupně podle velikosti.

b)    Zjistíme součet pořadí hodnot X[1], ..., X[n ]a označíme ho T[1].

      Součet pořadí hodnot Y[1], ..., Y[m] označíme T[2].

c)     Vypočteme statistiky U[1] = mn + n(n+1)/2 – T[1] , U[2] = mn + m(m+1)/2 - T[2].

       Přitom platí U[1] + U[2] = mn.

d)     Pokud min(U[1],U[2]) ≤ tabelovaná kritická hodnota (pro dané rozsahy výběrů m, n a dané α),
pak nulovou hypotézu o totožnosti obou distribučních funkcí zamítáme na hladině významnosti α.
V tabulkách: n = min{m,n} a m = max{m,n}.


Asymptotická varianta dvouvýběrového Wilcoxonova testu:

Pro velká n, m (n, m > 30) lze využít asymptotické normality statistiky U[1].

Platí-li H[0], pak  ≈ N(0,1), kde U[1] = min(U[1],U[2]).

Kritický obor:

pro oboustrannou alternativu W = ,


pro levostrannou alternativu W = ,


pro pravostrannou alternativu W =


H[0] zamítáme na asymptotické hladině významnosti α, když .


Předpoklady použití dvouvýběrového Wilcoxonova testu:

-         dané dva náhodné výběry jsou nezávislé

-         rozložení, z nichž dané dva náhodné výběry pocházejí, jsou spojitá

-         distribuční funkce těchto rozložení se mohou lišit pouze posunutím

-         sledovaná veličina má aspoň ordinální charakter

(Není-li splněn předpoklad, že distribuční funkce se mohou lišit pouze posunutím, lze použít např.
dvouvýběrový Kolmogorovův – Smirnovův test.)


10.13. Příklad:Výrobce určitého výrobku se má rozhodnout mezi dvěma dodavateli polotovarů
vyrábějících je různými technologiemi. Rozhodující je procentní obsah určité látky.

1. technologie: 1,52   1,57   1,71   1,34   1,68

2. technologie:  1,75  1,67   1,56   1,66   1,72   1,79   1,64   1,55

Na hladině významnosti 0,05 posuďte pomocí dvouvýběrového Wilcoxonova testu, zda je oprávněný
předpoklad, že obě technologie poskytují stejné procento účinné látky.

Řešení:

Na hladině významnosti 0,05 testujeme H[0]: x[0,50] - y[0,50] = 0 proti oboustranné alternativě
H[1]: x[0,50] - y[0,50]  ≠ 0.

usp.h. 1,34   1,52   1,55   1,56   1,57   1,64   1,66   1,67   1,68   1,71   1,72   1,75   1,79

pořadí 1        2        3        4        5        6        7        8        9        10
11      12      13

T[1] = 1 + 2 + 5 + 9 + 10 = 27, T[2] = 3 + 4 + 6 + 7 + 8 + 11 + 12 + 13 = 64

U[1] = 5.8 + 5.6/2 - 27 = 28, U[2] = 5.8 + 8.9/2 - 64 = 12

Kritická hodnota pro α = 0,05, min(5,8) = 5, max(5,8) = 8 je 6. Protože min(28,12) = 12 > 6,
nemůžeme na hladině významnosti 0,05 zamítnout hypotézu, že obě technologie poskytují stejné
procento účinné látky.


Výpočet pomocí systému STATISTICA:

Utvoříme nový datový soubor se dvěma proměnnými a 13 případy. Do proměnné X napíšeme zjištěné
hodnoty a do proměnné ID napíšeme 5x číslo 1 pro první technologii a 8x číslo 2 pro starý druhou
technologii.

Statistiky – Neparametrická statistika – Porovnání dvou nezávislých vzorků – OK – Proměnné – Seznam
závislých proměnných X, Nezáv. (grupov.) proměnná ID – OK – M-W U test.

Upozornění: Ve STATISTICE je dvouvýběrový Wilcoxonův test uveden pod názvem Mannův – Whitneyův
test.


Ve výstupní tabulce jsou součty pořadí T[1], T[2], hodnota testové statistiky  min(U[1], U[2])
označená U, hodnota asymptotické testové statistiky U[0] (označená Z), asymptotická p-hodnota pro
U[0 ]a přesná p-hodnota (ozn. 2*1str. přesné p – ta se používá pro rozsahy výběrů pod 30). V našem
případě přesná p-hodnota = 0,284382, tedy H[0] nezamítáme na hladině významnosti 0,05.

Výpočet je vhodné doplnit krabicovým diagramem.

Je zřejmé, že první technologie poskytuje vesměs nižší procento účinné látky než druhá technologie
a také vykazuje poněkud větší variabilitu.


10.14. Kruskalův - Wallisův test


        William Kruskal (1919 – 2005):

        Americký matematik

                                      Wilson Allen Wallis (1912 – 1988): Americký matematik


Nechť je dáno r ≥ 3 nezávislých náhodných výběrů o rozsazích n[1], ... , n[r]. Předpokládáme, že
tyto výběry pocházejí ze spojitých rozložení. Označme

n = n[1] + ... + n[r]. Na asymptotické hladině významnosti α chceme testovat hypotézu, že všechny
tyto výběry pocházejí z téhož rozložení.


Postup testu:

a)     Všech n hodnot seřadíme do rostoucí posloupnosti.

b)    Určíme pořadí každé hodnoty v tomto sdruženém výběru.

c)      Označme Tj součet pořadí těch hodnot, které patří do j-tého výběru, j = 1, ..., r
(kontrola: musí platit T[1] + ... + T[r] = n(n+1)/2).

d)    Testová statistika má tvar: . Platí-li H[0], má statistika Q asymptoticky rozložení χ^2(r-1).

e)     Kritický obor: .

f)      H[0] zamítneme na asymptotické hladině významnosti α, když Q ≥ χ[1-α] ^2(r-1).


10.15. Příklad: V roce 1980 byly získány tři nezávislé výběry obsahující údaje o průměrných ročních
příjmech (v tisících dolarů) čtyř sociálních skupin ve třech různých oblastech USA.

jižní oblast: 6 10 15 29

pacifická oblast: 11 13 17 131

severovýchodní oblast: 7 14 28 25

Na hladině významnosti 0,05 testujte hypotézu, že příjmy v těchto oblastech se neliší.

Řešení:

Výpočty uspořádáme do tabulky


                             Usp. hodnoty

                                               6

                                                7

                                                 10

                                                   11

                                                     13

                                                       14

                                                         15

                                                           17

                                                             25

                                                               28

                                                                 29

                                                                   131

                             Pořadí  1.výběru[]

                                               1


                                                 3


                                                         7


                                                                 11


                             Pořadí  2.výběru


                                                   4

                                                     5


                                                           8


                                                                   12

                             Pořadí  3.výběru


                                                2


                                                       6


                                                             9

                                                               10


T[1] = 1 + 3 + 7 + 11 = 22,

T[2] = 4 + 5 + 8 + 12 = 29,

T[3] = 2 + 6 + 9 + 10 = 27 ,


,


Protože Q < 5,991, H[0] nezamítáme na asymptotické hladině významnosti 0,05.

Rozdíly mezi průměrnými ročními příjmy v uvedených třech oblastech se neprokázaly.

10.16. Mediánový test

Výchozí situace je stejná jako u K-W testu

Postup testu:

a)     Všech n hodnot uspořádáme do rostoucí posloupnosti.

b)    Najdeme medián x[0,50] těchto n hodnot.

c)     Označme P[j] počet hodnot v j-tém výběru, které jsou větší nebo rovny mediánu x[0,50].

d)    Testová statistika má tvar . Platí-li H[0], má statistika Q[M] asymptoticky rozložení
χ^2(r-1).

e)      Kritický obor: .

f)       H[0] zamítneme na asymptotické hladině významnosti α, když Q[M] ≥ χ[1-α] ^2(r-1).


10.17. Příklad:

Pro data o průměrných ročních příjmech proveďte mediánový test. Hladinu významnosti volte 0,05.

Řešení:

Usp. hodnoty        6  7 10 11 13 14  15 17  25 28  29  131

Medián je průměr 6. a 7. uspořádané hodnoty: .

V prvním výběru existují 2 hodnoty, které jsou větší nebo rovny 14,5, stejně tak i ve druhém a
třetím výběru, tedy P[1] = P[2] = P[3] = 2.

Testová statistika:

Kritický obor:

Protože Q[M] < 5,991, H[0] nezamítáme na asymptotické hladině významnosti 0,05.


10.18. Metody mnohonásobného porovnávání

Zamítneme-li hypotézu, že všechny náhodné výběry pocházejí z téhož rozložení, zajímá nás, které
dvojice náhodných výběrů se liší na zvolené hladině významnosti. Testujeme H[0]: k-tý a l-tý
náhodný výběr pocházejí z téhož rozložení, k, l = 1, .., r, k ≠ l proti H[1]: aspoň jedna dvojice
výběrů pochází z různých rozložení.


a) Neményiho metoda (Peter Neményi 1927 – 2002: Americký matematik maďarského původu)

-         Všechny výběry mají týž rozsah p (třídění je vyvážené).

-         Vypočteme │T[l] - T[k]│.

-         V tabulkách najdeme  kritickou hodnotu (pro dané p, r, α ).

-         Pokud│T[l] - T[k]│≥ tabelovaná kritická hodnota, pak na hladině významnosti α zamítáme
hypotézu, že l-tý a k-tý výběr pocházejí z téhož rozložení.


b) Obecná metoda mnohonásobného porovnávání

-         Vypočteme .

-         Ve speciálních statistických tabulkách najdeme kritickou hodnotu h[KW](α ). Při větších
rozsazích výběrů je možno ji nahradit kvantilem χ[1-α] ^2(r-1).


-         Jestliže , pak na hladině významnosti α zamítáme hypotézu, že l-tý a k-tý výběr pocházejí
z téhož rozložení.


10.19. Příklad:

 Čtyři laboranti provedli analytické stanovení procenta niklu v oceli. Každý hodnotil pět vzorků.

Laborant A:  4,15  4,26  4,10  4,30  4,25

Laborant B:  4,38  4,40  4,29  4,39  4,45

Laborant C:  4,23  4,16  4,20  4,24  4,27

Laborant D:  4,41  4,31  4,42  4,37  4,43

Na asymptotické hladině významnosti 0,05 testujte hypotézu, že všechny čtyři náhodné výběry
pocházejí ze stejného rozložení. Pokud nulovou hypotézu zamítnete, zjistěte, které dvojice výběrů
se liší.


Výpočet pomocí systému STATISTICA:

Vytvoříme nový datový soubor o dvou proměnných a 20 případech. Do proměnné nikl napíšeme změřené
hodnoty, do proměnné laborant napíšeme 5x1 pro 1. laboranta atd. až 5x4 pro 4. laboranta.

Statistiky – Neparametrická statistika – Porovnání více nezávislých vzorků - OK – Seznam závislých
proměnných nikl, Nezáv. (grupovací) proměnná laborant – OK – Summary: Kruskal-Wallis ANOVA & Median
test. Ve dvou výstupních tabulkách se objeví výsledky K-W testu a mediánového testu.


Oba testy zamítají hypotézu o shodě mediánů v daných čtyřech skupinách, ale K-W test je poněkud
silnější (p-hodnota = 0,0032, zatímco  p-hodnota pro mediánový test je 0,0035).

Nyní provedeme mnohonásobné porovnávání, abychom zjistili, které dvojice laborantů se liší. Zvolíme
Vícenás. porovnání průměrného pořadí pro vš. skupiny.


Tabulka obsahuje p-hodnoty pro porovnání dvojic skupin. Vidíme, že na hladině významnosti 0,05 se
liší laboranti A, D a laboranti C, D.


                                   Grafické znázornění výsledků

Kritické hodnoty znaménkového testu pro n = 6, 7, .., 20, α = 0,05 a α = 0,01


n

  α = 0,05

          α = 0,01

  k[1]

      k[2]

          k[1]

              k[2]

6

  0

      6

          -

              -

7

  0

      7

          -

              -

8

  0

      8

          0

              8

9

  1

      8

          0

              9

10

  1

      9

          0

              10

11

  1

      10

          0

              11

12

  2

      10

          1

              11

13

  2

      11

          1

              12

14

  2

      12

          1

              13

15

  3

      12

          2

              13

16

  3

      13

          2

              14

17

  4

      13

          2

              15

18

  4

      14

          3

              15

19

  4

      15

          3

              16

20

  5

      15

          3

              17


Zdroj: Anděl, J.: Matematická statistika. (Tabulka XVIII.8).


Kritické hodnoty jednovýběrového Wilcoxonova testu pro n = 6, 7, .., 30, α = 0,05 a α = 0,01


n

  α = 0,05

               α = 0,01

  krit. hodnota

               krit. hodnota

6

  0

               -

7

  2

               -

8

  3

               0

9

  5

               1

10

  8

               3

11

  10

               5

12

  13

               7

13

  17

               9

14

  21

               12

15

  25

               15

16

  29

               19

17

  34

               23

18

  40

               27

19

  46

               32

20

  52

               37

21

  58

               42

22

  65

               48

23

  73

               54

24

  81

               61

25

  89

               68

26

  98

               75

27

  107

               83

28

  116

               91

29

  126

               100

30

  137

               109


Zdroj: Anděl, J.: Matematická statistika. (Tabulka XVIII.9).


Kritické hodnoty Neményiho metody, r = 3, 4, .., 10, n = 1, 2, …, 25, α = 0,05


  r

n

  3

       4

            5

                 6

                      7

                            8

                                  9

                                        10

1

  3,3

       4,7

            6,1

                 7,5

                      9,0

                            10,5

                                  12,0

                                        13,5

2

  8,8

       12,6

            16,5

                 20,5

                      24,7

                            28,9

                                  33,1

                                        37,4

3

  15,7

       22,7

            29,9

                 37,3

                      44,8

                            52,5

                                  60,3

                                        68,2

4

  23,9

       34,6

            45,6

                 57,0

                      68,6

                            80,4

                                  92,4

                                        104,6

5

  33,1

       48,1

            63,5

                 79,3

                      95,5

                            112,0

                                  128,8

                                        145,8

6

  43,3

       62,9

            83,2

                 104,0

                      125,3

                            147,0

                                  169,1

                                        191,4

7

  54,4

       79,1

            104,6

                 130,8

                      157,6

                            184,9

                                  212,8

                                        240,9

8

  66,3

       96,4

            127,6

                 159,6

                      192,4

                            225,7

                                  259,7

                                        294,1

9

  75,9

       114,8

            152,0

                 190,2

                      229,3

                            269,1

                                  309,6

                                        350,6

10

  92,3

       134,3

            177,8

                 222,6

                      268,4

                            315,0

                                  362,4

                                        410,5

11

  106,3

       154,8

            205,0

                 256,6

                      309,4

                            363,2

                                  417,9

                                        473,3

12

  120,9

       176,2

            233,4

                 292,2

                      352,4

                            413,6

                                  476,0

                                        539,1

13

  136,2

       198,5

            263,0

                 329,3

                      397,1

                            466,2

                                  536,5

                                        607,7

14

  152,1

       221,7

            293,8

                 367,8

                      443,6

                            520,8

                                  599,4

                                        679,0

15

  168,6

       245,7

            325,7

                 407,8

                      491,9

                            577,4

                                  664,6

                                        752,8

16

  185,6

       270,6

            358,6

                 449,1

                      541,7

                            635,9

                                  732,0

                                        829,2

17

  203,1

       296,2

            392,6

                 491,7

                      593,1

                            696,3

                                  801,5

                                        907,9

18

  221,2

       322,6

            427,6

                 535,5

                      646,1

                            758,5

                                  873,1

                                        989,0

19

  239,8

       349,7

            463,6

                 580,6

                      700,5

                            822,4

                                  946,7

                                        1072,4

20

  258,8

       377,6

            500,5

                 626,9

                      756,4

                            888,1

                                  1022,3

                                        1158,1

21

  278,4

       406,1

            538,4

                 674,4

                      813,7

                            955,4

                                  1099,8

                                        1245,9

22

  298,4

       435,3

            577,2

                 723,0

                      872,3

                            1024,3

                                  1179,1

                                        1335,7

23

  318,9

       465,2

            616,9

                 772,7

                      932,4

                            1094,8

                                  1260,3

                                        1427,7

24

  339,8

       495,8

            657,4

                 823,5

                      993,7

                            1166,8

                                  1343,2

                                        1521,7

25

  361,1

       527,0

            698,8

                 875,4

                      1056,3

                            1240,4

                                  1427,9

                                        1611,6


Zdroj: Blatná, Dagmar: Neparametrické metody. Tabulka T21/1.

Kritické hodnoty dvouvýběrového Wilcoxonova testu pro m = 1, 2, .., 30, n = 1, 2, …, 30, α = 0,05


  n

m

  1

    2

     3

       4

         5

           6

             7

               8

                 9

                   10

                     11

                       12

                          13

                             14

                                15

                                   16

                                      17

                                         18

                                            19

                                               20

1

  -


2

  -

    -


3

  -

    -

     -


4

  -

    -

     -

       0


5

  -

    -

     0

       1

         2


6

  -

    -

     1

       2

         3

           5


7

  -

    -

     1

       3

         5

           6

             8


8

  -

    0

     2

       4

         6

           8

             10

               13


9

  -

    0

     2

       4

         7

           10

             12

               15

                 17


10

  -

    0

     3

       5

         8

           11

             14

               17

                 20

                   23


11

  --

    0

     3

       6

         9

           13

             16

               19

                 23

                   26

                     30


12

  -

    1

     4

       7

         11

           14

             18

               22

                 26

                   29

                     33

                       37


13

  -

    1

     4

       8

         12

           16

             20

               24

                 28

                   33

                     37

                       41

                          45


14

  -

    1

     5

       9

         13

           17

             22

               26

                 31

                   36

                     40

                       45

                          50

                             55


15

  -

    1

     5

       10

         14

           19

             24

               29

                 34

                   39

                     44

                       49

                          54

                             59

                                64


16

  -

    1

     6

       11

         15

           21

             26

               31

                 37

                   42

                     47

                       53

                          59

                             64

                                70

                                   75


17

  -

    2

     6

       11

         17

           22

             28

               34

                 39

                   45

                     51

                       57

                          63

                             69

                                75

                                   81

                                      87


18

  -

    2

     7

       12

         18

           24

             30

               36

                 42

                   48

                     55

                       61

                          67

                             74

                                80

                                   86

                                      93

                                         99


19

  -

    2

     7

       13

         19

           25

             32

               38

                 45

                   52

                     58

                       65

                          72

                             78

                                85

                                   92

                                      99

                                         106

                                            113


20

  -

    2

     8

       14

         20

           27

             34

               41

                 48

                   55

                     62

                       69

                          76

                             83

                                90

                                   98

                                      105

                                         112

                                            119

                                               127

21

  -

    2

     8

       15

         22

           29

             36

               43

                 50

                   58

                     65

                       73

                          80

                             88

                                96

                                   103

                                      111

                                         119

                                            126

                                               134

22

  -

    3

     9

       16

         23

           30

             38

               45

                 53

                   61

                     69

                       77

                          85

                             93

                                101

                                   109

                                      117

                                         125

                                            133

                                               141

23

  -

    3

     9

       17

         24

           32

             40

               48

                 56

                   64

                     73

                       81

                          89

                             98

                                106

                                   115

                                      123

                                         132

                                            140

                                               149

24

  -

    3

     10

       17

         25

           33

             42

               50

                 59

                   67

                     76

                       85

                          94

                             102

                                111

                                   120

                                      129

                                         138

                                            147

                                               156

25

  -

    3

     10

       18

         27

           35

             44

               53

                 62

                   71

                     80

                       89

                          98

                             107

                                117

                                   126

                                      135

                                         145

                                            154

                                               161

26

  -

    4

     11

       19

         28

           37

             46

               55

                 64

                   74

                     83

                       93

                          102

                             112

                                122

                                   132

                                      141

                                         151

                                            161

                                               171

27

  -

    4

     11

       20

         29

           38

             48

               57

                 67

                   77

                     87

                       97

                          107

                             117

                                127

                                   137

                                      147

                                         158

                                            168

                                               178

28

  -

    4

     12

       21

         30

           40

             50

               60

                 70

                   80

                     90

                       101

                          111

                             122

                                132

                                   143

                                      154

                                         164

                                            175

                                               186

29

  -

    4

     13

       22

         32

           42

             52

               62

                 73

                   83

                     94

                       105

                          116

                             127

                                138

                                   149

                                      160

                                         171

                                            182

                                               193

30

  -

    5

     13

       23

         33

           43

             54

               65

                 76

                   87

                     98

                       109

                          120

                             131

                                143

                                   154

                                      166

                                         177

                                            189

                                               200


Zdroj: Anděl, J.: Matematická statistika. (Tabulka XVIII.10a).