Masarykova Univerzita
Přírodovědecká fakulta
Testovanie hypotéz o parametroch
polohy a variability v systéme
STATISTICA
Bakalárska práca
Brno 2008 Stanislav Abaffy
Prehlásenie
Prehlasujem, že som bakalársku prácu vypracoval samostatne podľa pokynov vedúcej
bakalárskej práce a všetky použité materiály sú uvedené v zozname literatúry.
V Brne dňa ............... ..........................
Stanislav Abaffy
Poďakovanie
Ďakujem vedúcej bakalárskej práce RNDr. Marii Budíkovej, Dr. za ústretovosť, cenné
rady a odborné vedenie, ktoré mi poskytla pri spracovaní témy bakalárskej práce.
Obsah
Úvod 6
1 Testy hypotéz o parametroch jedného náhodného výberu 7
1.1 Testy s náhodným výberom pochádzajúcim z normálneho rozloženia . . . . 7
1.1.1 Jednovýberový t-test . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 Test o rozptyle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Testy s náhodným výberom nepochádzajúcim z normálneho rozloženia . . 9
1.2.1 Znamienkový test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Jednovýberový Wilcoxonov test . . . . . . . . . . . . . . . . . . . . 11
2 Testy hypotéz o parametroch dvojrozmerného náhodného výberu 14
2.1 Testy s náhodným výberom pochádzajúcim z dvojrozmerného normálneho
rozloženia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.1 Párový t-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.2 Morgan-Pitmanov test . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Testy s náhodným výberom nepochádzajúcim z dvojrozmerného normálneho
rozloženia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 Párový znamienkový test . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2 Párový Wilcoxonov test . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Testy hypotéz o parametroch 2 nezávislých náhodných výberov 20
3.1 Testy s náhodnými výbermi pochádzajúcimi z normálneho rozloženia . . . 20
3.1.1 Dvojvýberový t-test . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.2 F-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Testy s náhodnými výbermi nepochádzajúcimi z normálneho rozloženia . . 23
3.2.1 Dvojvýberový Wilcoxonov test . . . . . . . . . . . . . . . . . . . . . 23
3.2.2 Wald-Wolfowitzov test . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.3 Dvojvýberový Kolmogorov-Smirnovov test . . . . . . . . . . . . . . 26
4 Testy homogenity rozptylov viacerých nezávislých náhodných výberov 29
4.1 Levenov test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Brown-Forsythov test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4
OBSAH 5
Záver 33
Použitá literatúra 34
Prílohy 36
Úvod
Testovanie hypotéz o parametroch polohy (stredná hodnota) a variability (rozptyl) je dôležitou
súčasťou štatistiky, má široké využitie pri riešení praktických úloh v ľubovoľnej
oblasti. Spočíva v zamietnutí, resp. nezamietnutí nulovej hypotézy, t.j. určitého predpokladu,
ktorý si stanovíme dopredu bez akéhokoľvek ovplyvnenia základným súborom, teda
nameranými hodnotami.
V tejto práci sa čitateľoboznámi s najdôležitejšími testami s jedným, dvoma a viacerými
náhodnými výbermi a ich vykonaním v štatistickom systéme STATISTICA s využitím
rôznorodých príkladov. Vo výsledkoch testov vyriešených v tomto systéme je najpodstatnejšou
hodnotou dosiahnutá hladina zodpovedajúcej testovej štatistiky, tzv. p-hodnota
(anglicky P-value, significance value), čo je najmenšia hladina testu, pri ktorej by sme ešte
nulovú hypotézu zamietli [7, str.6]. Dáta sa ešte môžu testovať pomocou diagnostických
grafov a testov normality, avšak vzhľadom na rozsah práce som tieto testy vynechal.
Práca je rozdelená do 4 kapitol, na konci sa nachádzajú ešte prílohy s 2 testami.
Prvá kapitola sa venuje testom hypotéz s jedným jednorozmerným náhodným výberom
vrátane najpoužívanejšieho z týchto testov - jednovýberového t-testu. Druhá sa zaoberá
dvojrozmerným náhodným výberom, obsahuje okrem iného aj Morgan-Pitmanov test,
ktorý je veľmi náročné nájsť, existuje malé množstvo publikácií, ktoré ho opisujú, z nich
uvediem napríklad [1]. Tretia kapitola popisuje testy s dvoma náhodnými výbermi. Všetky
tieto kapitoly sa členia na 2 časti podľa toho, či náhodný výber pochádza z normálneho
rozloženia alebo nie. Vo štvrtej kapitole sú uvedené 2 testy s viacerými náhodnými výbermi
- Levenov a Brown-Forsythov. V prílohách uvádzam mnou vytvorené zdrojové kódy testu
o rozptyle a Morgan-Pitmanovho testu.
6
Kapitola 1
Testy hypotéz o parametroch jedného
náhodného výberu
1.1 Testy s náhodným výberom pochádzajúcim
z normálneho rozloženia
1.1.1 Jednovýberový t-test
Definícia. Nech X1, . . . , Xn je náhodný výber z N(, 2
), kde 2
nepoznáme. Nech n  2
a c je konštanta. Test H0 :  = c proti H1 :  = c (v prípade jednostranných alternatív
H1 :  < c alebo H1 :  > c) sa nazýva jednovýberový t-test.
Návod.
Nulovú hypotézu H0 :  = c proti H1 :  = c (H1 :  < c, H1 :  > c) zamietame na
hladine významnosti , ak:
m - c
s
n
 t1-/2(n - 1) (1.1)
resp.
m - c
s
n
 -t1-(n - 1), resp.
m - c
s
n
 t1-(n - 1) . (1.2)
Príklad. Systematická chyba meracieho prístroja sa eliminuje jeho nastavením a meraním
etalónu, ktorého správnou nameranou hodnotou je  = 10, 00. Nezávislými meraniami za
rovnakých podmienok boli získané hodnoty 10,24; 10,12; 9,91; 10,19; 9,78; 10,14; 9,86; 10,17
a 10,05, ktoré považujeme za realizácie náhodného výberu z N(, 2
). Je možné pri riziku
 = 0, 05 vysvetliť odchýlky od hodnoty 10,00 náhodnými vplyvmi?
Riešenie.
m = 10, 0511, s = 0, 1627, na hladine významnosti  = 0, 05 testujeme hypotézu
7
KAPITOLA 1. TESTY HYPOTÉZ O PARAMETROCH JEDNÉHO
NÁHODNÉHO VÝBERU 8
H0 :  = 10, 00 proti obojstrannej alternatíve H1 :  = 10, 00. Testové kritérium
m - c
s
n
=
10, 0511 - 10
0,1627
9
= 0, 9426.
Absolútnu hodnotu testového kritéria porovnáme s kvantilom t0,975(8) = 2, 3040. Keďže
0, 9426  2, 3040, nezamietame nulovú hypotézu na hladine významnosti 0,05 a teda
odchýlky je možné vysvetliť iba náhodnými vplyvmi.
Postup v programe STATISTICA.
Vytvoríme dátový súbor o jednej premennej a 9 prípadoch a vložíme namerané hodnoty.
V Basic Statistics/Tables vyberieme možnosť t-test, single sample, do Reference values
zadáme hodnotu 10, danú zo zadania. V tabuľke, ktorá vznikne po otestovaní, nás zaujíma
najmä p-hodnota testu, prípadne hodnota testovej štatistiky.
Vidíme, že hodnota testovej štatistiky je t = 0, 942611 a p-hodnota testu p = 0, 37347.
Pretože p-hodnota je väčšia ako hladina významnosti 0,05, nulovú hypotézu nemôžeme na
tejto hladine zamietnuť.
1.1.2 Test o rozptyle
Definícia. Nech X1, . . . , Xn je náhodný výber z N(, 2
), kde  nepoznáme. Nech n  2
a c je konštanta. Test H0 : 2
= c proti H1 : 2
= c (príp. H1 : 2
< c alebo H1 : 2
> c)
sa nazýva test o rozptyle.
Nulovú hypotézu H0 : 2
= c proti H1 : 2
= c (H1 : 2
< c, H1 : 2
> c) zamietame na
hladine významnosti , ak:
(n - 1)s2
c
 -, 2
/2(n - 1)  2
1-/2(n - 1),  (1.3)
resp.
(n - 1)s2
c
 2
(n - 1) alebo
(n - 1)s2
c
 2
1-(n - 1) . (1.4)
Príklad. Do obchodu sú dodávané balíčky cukríkov, ktoré sú plnené automaticky. Automat
bol skonštruovaný tak, aby smerodatná odchýlka hmotnosti balíčka činila 10 g. Predpokladáme,
že hmotnosť automaticky plnených balíčkov je náhodná veličina s normálnym
rozdelením. Chceme zistiť, či v priebehu času nedošlo k zhoršeniu presnosti pri plnení
balíčkov (teda k zväčšeniu smerodatnej odchýlky ), ak bolo nameraných týchto 10 hodnôt:
489 473 507 498 492 477 488 503 482 491.
KAPITOLA 1. TESTY HYPOTÉZ O PARAMETROCH JEDNÉHO
NÁHODNÉHO VÝBERU 9
Riešenie.
Testujeme hypotézu H0 : 2
= 100 proti pravostrannej alternatíve H1 : 2
> 100. m = 490,
s = 10, 8218, testovým kritériom je (n-1)s2
c
= 9.10,82182
100
= 10, 54, kvantil Pearsonovho rozloženia
zistíme z tabuliek 2
1-(n-1) = 2
0,95(9) = 16, 919. Pretože 10, 54 < 16, 919, nulovú
hypotézu nezamietame na hladine významnosti 0,05. Test nepreukázal zníženú presnosť
hmotnosti pripravovaných balíčkov.
Postup v programe STATISTICA.
Vytvoríme dátový súbor o 1 premennej a 10 prípadoch, načítame namerané hodnoty.
Tento test nie je implementovaný v systéme STATISTICA, preto som vytvoril makro
testorozptyle.svb, ktoré nám tento test pomôže vyriešiť. Jeho zdrojový kód sa nachádza
v prílohách na konci práce. Otvoríme ho klasickým spôsobom ako akýkoľvek dátový súbor
a pomocou klávesy F5 ho spustíme. Postupne sme vyzvaní k výberu premennej, zvoleniu
hladiny významnosti a výberu typu alternatívy. Vznikne nám nasledujúca tabuľka:
Nájdeme v nej výberový priemer a výberovú smerodatnú odchýlku daného výberu,
hodnotu testovej štatistiky K, 100(1-)% kvantil Pearsonovho rozloženia o n-1 stupňoch
voľnosti a prislúchajúcu p-hodnotu. Keďže hodnota testovej štatistiky K je menšia ako
príslušný kvantil, nulovú hypotézu o zhode rozptylu a danej konštanty nezamietame na
danej hladine významnosti. To nám potvrdzuje aj p-hodnota p = 0, 30856 > hladina
významnosti  = 0, 05.
1.2 Testy s náhodným výberom nepochádzajúcim
z normálneho rozloženia
1.2.1 Znamienkový test
Nech X1, . . . , Xn je náhodný výber zo spojitého rozloženia so spojitou distribučnou funkciou
(x). Nech x0,50 je medián tohto rozloženia, t.j. (x0,50) = 0, 5. Nech c je reálna
konštanta. Testujeme hypotézu H0 : x0,50 = c proti obojstrannej alternatíve
H1 : x0,50 = c (resp. proti ľavostrannej alternatíve H1 : x0,50 < c alebo pravostrannej
alternatíve H1 : x0,50 > c).
Návod.
Vytvoríme rozdiely Yi = Xi - c, i = 1, . . ., n. Ak sú niektoré rozdiely nulové, potom za
n berieme len počet nenulových hodnôt.
Zavedieme štatistiku S+
Z , ktorá udáva počet kladných rozdielov. Ak platí H0, potom
S+
Z  Bi(n, 1/2), teda E(S+
Z ) = n/2, D(S+
Z ) = n/4. Kritický obor budú tvoriť hodnoty
KAPITOLA 1. TESTY HYPOTÉZ O PARAMETROCH JEDNÉHO
NÁHODNÉHO VÝBERU 10
testovej štatistiky S+
Z , ktoré sú blízke 0 alebo n, teda W = 0, k1  k2, n . Pre n  20
a  = 0, 05 resp. 0, 01 sú tabelované kritické hodnoty k1, k2. H0 zamietame na hladine
významnosti , keď S+
Z  W.
Pre veľké n (v tomto prípade n > 20) možno využiť asymptotickú normalitu štatistiky
S+
Z . Ak platí nulová hypotéza H0, potom testová štatistika
U0 =
S+
Z - E(S+
Z )
D(S+
Z )
=
S+
Z - n
2
n
4
 N(0, 1). (1.5)
Kritickým oborom pre obojstrannú alternatívu je
W = (-, -u1-/2  u1-/2, ). (1.6)
Analogicky pre jednostranné alternatívy. H0 zamietame na asympotickej hladine významnosti
, ak U0  W.
Poznámka. Aproximácia normálnym rozložením N(0, 1) sa zlepší, ak použijeme tzv. korekciu
na nespojitosť. Testová štatistika U0 má potom tvar
U0 =
S+
Z - n
2
 1
2
n
4
, (1.7)
pričom 1
2
pričítame, keď S+
Z < n
2
, odpočítame v opačnom prípade.
Príklad. Trinásť laboratórnych zvierat bolo od narodenia do 12 mesiacov veku k´rmených
špeciálnou stravou. Prírastky ich hmotnosti (v gramoch) boli: 64, 69, 80, 66, 65, 77, 75,
67, 67, 68, 74, 70, 77. Môžeme z týchto hodnôt na hladine významnosti 0,05 usúdiť, že
výsledky k´rmenia znamenajú v priemere prírastok váhy 70 g?
Riešenie.
Testujeme hypotézu H0 : x0,50 = 70 proti obojstrannej alternatíve H1 : x0,50 = 70.
xi 64 69 80 66 65 77 75 67 67 68 74 70 77
xi - c -6 -1 10 -4 -5 7 5 -3 -3 -2 4 0 7
S+
Z = 5, počet nenulových rozdielov n = 12. V tabuľkách nájdeme pre n = 12,  = 0, 05
kritické hodnoty 2 a 10  kritický obor W = 0, 2  10, 12 . Pretože S+
Z / W, nulovú
hypotézu nezamietame na hladine významnosti 0,05. Preto môžeme usúdiť, že priemerný
prírastok váhy bol 70 g.
Postup v programe STATISTICA.
Vytvoríme dátový súbor o 2 premenných a 13 prípadoch, prvá premenná obsahuje namerané
hodnoty, druhá konštantu zo zadania. Postupujeme cez Statistics, v Nonparametrics
vyberieme možnosť Comparing two dependent samples, zvolíme premenné a otestujeme
pomocou Sign test. Vo výslednej tabuľke nás zaujíma najmä p-hodnota testu.
KAPITOLA 1. TESTY HYPOTÉZ O PARAMETROCH JEDNÉHO
NÁHODNÉHO VÝBERU 11
V tabuľke máme uvedené 4 hodnoty, a to počet nenulových rozdielov, ďalej percentuálne
vyjadrenie počtu kladných rozdielov (58, 3 % z 12 = 7), hodnotu realizácie testovej štatistiky
U0 (v tabuľke označená ako Z) a p-hodnotu. Vidíme, že p-hodnota = 0, 77283 je väčšia
ako hladina významnosti 0,05, čo znamená, že nulovú hypotézu nemôžeme na tejto hladine
zamietnuť.
Druhou možnosťou by bolo porovnanie hodnoty testového kritéria, ktorá sa tiež v tabuľke
nachádza, s príslušným kvantilom štandardizovaného normálneho rozloženia. Avšak
v tomto prípade je vhodnejšie použiť kritické hodnoty z tabuliek, pretože rozsah výberu
nesp´lňa podmienku asymptotickej normality štatistiky S+
Z , t.j. n > 20.
1.2.2 Jednovýberový Wilcoxonov test
Nech X1, . . ., Xn je náhodný výber zo spojitého rozloženia s hustotou (x), ktorá je symetrická
okolo mediánu x0,50, t.j. (x0,50 + x) = (x0,50 - x). Nech c je reálna konštanta.
Testujeme hypotézu H0 : x0,50 = c proti obojstrannej alternatíve H1 : x0,50 = c (resp. proti
ľavostrannej alternatíve H1 : x0,50 < c alebo pravostrannej alternatíve H1 : x0,50 > c).
Návod.
Vytvoríme rozdiely Yi = Xi - c, i = 1, . . ., n. Ak sú niektoré rozdiely nulové, potom za
n berieme len počet nenulových hodnôt. Absolútne hodnoty |Yi| usporiadame vzostupne
podľa veľkosti a spočítame poradie Ri.
Zavedieme štatistiku S+
W =
Yi>0
R+
i , čo je súčet poradí cez kladné hodnoty Yi, analogicky
SW
=
Yi<0
Ri
je súčet poradí cez záporné hodnoty Yi. Zároveň platí S+
W +SW
= n(n+1)/2.
Za platnosti nulovej hypotézy H0 má štatistika S+
W strednú hodnotu E(S+
W ) = n(n + 1)/4
a rozptyl D(S+
W ) = n(n + 1)(2n + 1)/24.
H0 zamietame na hladine významnosti , ak je testová štatistika min(S+
W , SW
) (pre
obojstrannú alternatívu), S+
W (pre ľavostrannú alternatívu), resp. SW
(pre pravostrannú
alternatívu) menšia alebo rovná tabelovanej kritickej hodnote.
Pre veľké n (v tomto prípade n > 30) možno využiť asymptotickú normalitu štatistiky
S+
W . V prípade platnosti H0
U0 =
S+
W - E(S+
W )
D(S+
W )
=
S+
Z - n(n+1)
4
n(n+1)(2n+1)
24
 N(0, 1) (1.8)
Kritickým oborom pre obojstrannú alternatívu je
W = (-, -u1-/2  u1-/2, ). (1.9)
KAPITOLA 1. TESTY HYPOTÉZ O PARAMETROCH JEDNÉHO
NÁHODNÉHO VÝBERU 12
Analogicky pre jednostranné alternatívy. H0 zamietame na asympotickej hladine významnosti
, ak U0  W.
Poznámka. Jednovýberový Wilcoxonov test je silnejší ako znamienkový test, avšak je
vhodný len pre náhodný výber zo symetrického rozloženia.
Príklad. Americkí vedci skúmali mladých ľudí, ktorí opustili školu v 16 rokoch a začali
pracovať. Zistili, že ich priemerný výsledok určitého testu bol 60 bodov. Potom zadali rovnaký
test náhodnému výberu ľudí, ktorí študujú i po svojich 16 rokoch a zistili nasledujúce
hodnoty: 72 62 52 57 91 78 74 67 51 62 84 59 51 57 89 64 80 72 92 64 57. Môžeme na
základe tohto výberu a na hladine významnosti  = 0, 05 tvrdiť, že ľudia študujúci po
svojich šestnástich narodeninách majú lepší výsledok v tomto teste?
Riešenie.
Testujeme hypotézu H0 : x0,50 = 60 proti pravostrannej alternatíve H1 : x0,50 > 60.
xi 72 62 52 57 78 74 67 51 62 84 59 51 57 89
xi - c 12 2 -8 -3 18 14 7 -9 2 24 -1 -9 -3 29
|xi - c| 12 2 8 3 18 14 7 9 2 24 1 9 3 29
Poradie 13,5 2,5 10 5 16 15 9 11,5 2,5 18 1 11,5 5 19
xi 64 80 72 92 64 57
xi - c 4 20 12 32 4 -3
|xi - c| 4 20 12 32 4 3
poradie 7,5 17 13,5 20 7,5 5
S+
W = 161, SW
= 49, počet nenulových rozdielov n = 20. V štatistických tabuľkách
pre n = 20,  = 0, 05 je kritická hodnota rovná 149. Hodnota testovej štatistiky pre
pravostrannú alternatívu SW
= 49  61, preto nulovú hypotézu zamietame na hladine
významnosti 0,05, a teda z toho môžeme vyvodiť záver, že ľudia študujúci aj po svojich
16. narodeninách majú lepší výsledok v teste.
Postup v programe STATISTICA.
Vytvoríme dátový súbor o 2 premenných a 20 prípadoch, do prvej premennej zadáme
namerané hodnoty, do druhej konštantu 60 zo zadania. Postupujeme cez Statistics - Nonparametrics
- Comparing two dependent samples. Zvolíme premenné a pomocou Wilcoxon
matched pairs test tento test vykonáme. Vznikne nám nasledujúca tabuľka:
V tomto príklade počítame s jednostrannou alternatívou, systém STATISTICA udáva
vo výslednej tabuľke p-hodnotu pre obojstranný test, a teda min(S+
W , SW
) ako hodnotu
testovej štatistiky. Jednostranné testy nie sú implementované, preto môže byť p-hodnota
aj hodnota testovej štatistiky odlišná od tej, ktorú očakávame. V našom prípade je teda
KAPITOLA 1. TESTY HYPOTÉZ O PARAMETROCH JEDNÉHO
NÁHODNÉHO VÝBERU 13
vhodnejšie použiť ručný výpočet. Pre obojstrannú alternatívu by sme nulovú hypotézu
zamietli na hladine významnosti 0,05.
Kapitola 2
Testy hypotéz o parametroch
dvojrozmerného náhodného výberu
2.1 Testy s náhodným výberom pochádzajúcim
z dvojrozmerného normálneho rozloženia
2.1.1 Párový t-test
Definícia. Nech X1
Y1
, . . . , Xn
Yn
je náhodný výber z rozloženia N2
1
2
, 2
1 12
12 2
2
, pričom
n  2. Označíme  = 1 - 2 a zavedieme rozdielový náhodný výber
Z1 = X1 - Y1, . . . , Zn = Xn - Yn. (2.1)
Odtiaľ M = 1
n
n
i=1
Zi, S2
= 1
n-1
n
i=1
(Zi - M)2
.
Testujeme H0 : 1 - 2 = 0 (čiže  = 0) proti H1 : 1 - 2 = 0 (čiže  = 0), prípadne
proti jednostranným alternatívam H1 : 1 - 2 < 0 alebo H1 : 1 - 2 > 0. Ďalej už
postupujeme ako pri jednovýberovom t-teste.
Príklad. Nakoľko ovplyvňuje zaujímavé prostredie skutočný fyzický rozvoj mozgu? Pre
rozriešenie tejto otázky, zatiaľ aspoň pre pokusné krysy, podnikol v roku 1964 Rosenzweig
pokusy s 10 vrhmi čistokrvných laboratorných krýs. Z každého vrhu bola vždy jedna krysa
vybraná do pokusnej skupiny a jedna do kontrolnej skupiny. Obe skupiny boli potom
chované v úplne rovnakých podmienkach iba s výnimkou, že pokusné krysy žili pohromade
v teráriu s mnohými zaujímavými hračkami, kdežto krysy z kontrolnej skupiny žili
v totálnej izolácii. Po mesiaci boli krysy zabité a ich mozgová kôra (najvyvinutejšia časť
mozgu) zvážená s nasledujúcimi výsledkami (v centigramoch) pre 10 párov:
Vrh 1 2 3 4 5 6 7 8 9 10
Pokus 68 65 66 66 67 66 66 64 69 63
Kontrola 65 62 64 65 65 64 59 63 65 58
14
KAPITOLA 2. TESTY HYPOTÉZ O PARAMETROCH
DVOJROZMERNÉHO NÁHODNÉHO VÝBERU 15
Riešenie.
Označme  = 1 - 2, testujeme hypotézu H0 :  = 0 proti obojstrannej alternatíve
H1 :  = 0. Vypočítame m = 2, 7, s = 1, 3375 a testové kritérium t0 = m-
s

n = 6, 38.
Absolútnu hodnotu testového kritéria porovnáme s kvantilom t0,975(9) = 2, 2622. Pretože
6, 38  2, 2622, zamietame nulovú hypotézu na hladine významnosti 0,05, teda s rizikom
omylu najviac 5 % môžeme tvrdiť, že zaujímavé prostredie ovplyvňuje fyzický vývoj mozgu.
Postup v programe STATISTICA.
Vytvoríme dátový súbor o 2 premenných a 10 prípadoch, do prvej premennej zadáme
namerané hodnoty pokusnej skupiny, do druhej hodnoty kontrolnej skupiny. Postupujeme
cez Statistics - Basic Statistics/Tables - t-test, dependent samples. Zvolíme premenné a
pomocou Summary: T-tests tento test vykonáme. Vznikne nám nasledujúca tabuľka:
V tabuľke nás zaujíma predovšetkým p-hodnota, ktorá je veľmi blízka nule a menšia
než 0,05, preto zamietame nulovú hypotézu. Vidíme, že by sme ju zamietli aj pri oveľa
nižšej hladine významnosti.
2.1.2 Morgan-Pitmanov test
Definícia. Nech X1
Y1
, . . ., Xn
Yn
je náhodný výber z rozloženia N2
1
2
, 2
1 12
12 2
2
. Nech
2
1 > 0, 2
2 > 0,   (-1, 1) (12 = 12) a n  3. Test hypotézy H0 : 2
1 = 2
2 proti
H1 : 2
1 = 2
2 (resp. proti jednostranným alternatívam H1 : 2
1 < 2
2 či H1 : 2
1 > 2
2) sa
nazýva Morgan-Pitmanov test.
Návod.
Postupne označíme
M1 =
1
n
n
i=1
Xi, M2 =
1
n
n
i=1
Yi
S2
1 =
1
n - 1
n
i=1
(Xi - M1)2
, S2
2 =
1
n - 1
n
i=1
(Yi - M2)2
.
Vypočítame výberový korelačný koeficient
R =
n
i=1
XiYi - nM1M2
(
n
i=1
X2
i - nM2
1 )(
n
i=1
Y 2
i - nM2
2 )
(2.2)
KAPITOLA 2. TESTY HYPOTÉZ O PARAMETROCH
DVOJROZMERNÉHO NÁHODNÉHO VÝBERU 16
a následne testovú štatistiku T0 položíme rovnú
T0 =
S2
1 - S2
2
2S1S2
n - 2
1 - R2
(2.3)
Nulovú hypotézu H0 zamietame v prípade, že |T0|  t1-/2(n-2), resp. T0  -t1-(n-2)
a T0  t1-(n - 2) pri jednostranných alternatívach.
Príklad. U 10 vzorkov železnej rudy bol stanovovaný obsah železa. Použili sa pritom 2
metódy. Jedna z nich je klasická a jej výsledky sú označené Xi. Druhá z nich je nová, jej
výsledkami sú Yi. Máme porovnať rozptyly oboch metód na základe uvedených dát.
Xi 36,1 40,6 35,0 39,3 31,2 38,6 31,8 36,1 36,9 35,2
Yi 35,2 49,6 38,3 48,6 27,6 39,9 28,5 37,3 35,8 34,3
Riešenie.
Najskôr si vypočítame výberové priemery a smerodatné odchýlky dvojrozmerného výberu.
Zistíme, že m1 = 36, 08, m2 = 37, 51, s1 = 3, 0165, s2 = 7, 2533. Hodnota výberového
korelačného koeficientu činí r = 0, 9335, hodnota testovej štatistiky t0 = -7, 8426, kvantil
Studentovho rozloženia t0,975(8) = 2, 306. Keď porovnáme absolútnu hodnotu testovej
štatistiky s kvantilom, vidíme, že 7, 8426  2, 306, teda zamietame nulovú hypotézu o zhode
rozptylov daného dvojrozmerného výberu.
Poznámka. Tento príklad je riešený v [1, str.79], vyskytla sa tam však chyba pri výpočte
hodnoty výberového korelačného koeficientu, preto na tomto mieste uvádzam správne
riešenie.
Postup v programe STATISTICA.
Tento test nie je implementovaný v systéme STATISTICA, preto je na riešenie použité
makro MorganPitman.svb, zdrojový kód je uvedený v prílohách na konci práce.
Vytvoríme dátový súbor o 2 premenných a 10 prípadoch. Do prvej premennej načítame
výsledky klasickej metódy, do druhej výsledky novej metódy. Otvoríme makro, spustíme
ho pomocou klávesy F5. Po zadaní premenných, hladiny významnosti a typu alternatívy
nám vznikne nasledujúca tabuľka:
V tabuľke máme možnosť vidieť výberové priemery a výberové smerodatné odchýlky
oboch výberov, hodnotu výberového korelačného koeficientu, hodnotu testovej štatistiky
t0 = -7, 84259, kvantil Studentovho rozloženia t0,975(8) = 2, 306 a prislúchajúcu p-hodnotu.
Absolútna hodnota testového kritéria je väčšia ako kvantil, preto nulovú hypotézu
o zhode rozptylov zamietame na hladine významnosti 0,05. Zamietnutie nulovej hypotézy
nám potvrdzuje aj p-hodnota p = 0, 00005, ktorá je oveľa menšia ako zvolená hladina
významnosti 0,05.
KAPITOLA 2. TESTY HYPOTÉZ O PARAMETROCH
DVOJROZMERNÉHO NÁHODNÉHO VÝBERU 17
2.2 Testy s náhodným výberom nepochádzajúcim
z dvojrozmerného normálneho rozloženia
2.2.1 Párový znamienkový test
Nech (X1, Y1), . . ., (Xn, Yn) je náhodný výber zo spojitého dvojrozmerného rozloženia. Nech
x0,50 a y0,50 sú mediány tohto rozloženia, t.j. (x0,50) = 0, 5, resp. (y0,50) = 0, 5. Nech c
je reálna konštanta. Testujeme hypotézu H0 : x0,50 - y0,50 = c proti H1 : x0,50 - y0,50 = c
(resp. proti ľavostrannej alternatíve H1 : x0,50 - y0,50 < c alebo pravostrannej alternatíve
H1 : x0,50 - y0,50 > c).
Návod.
Vytvoríme rozdiely Zi = Xi - Yi, i = 1, . . . , n a testujeme hypotézu o mediáne
H0 : z0,50 = c proti H1 : z0,50 = c, resp. H1 : z0,50 < c alebo H1 : z0,50 > c.
Zavedieme štatistiku S+
Z , ktorá udáva počet kladných rozdielov. Kritický obor budú
tvoriť hodnoty testovej štatistiky S+
Z , ktoré sú blízke 0 alebo n, teda W = 0, k1  k2, n .
Pre n  20 a  = 0, 05 resp. 0, 01 sú tabelované kritické hodnoty k1, k2. H0 zamietame na
hladine významnosti , keď S+
Z  W.
Pre veľké n > 20 postupujeme podobne ako pri znamienkovom teste.
Príklad. Pre overenie účinnosti dvoch pracích prostriedkov bol vykonaný nasledujúci experiment.
12 rôzne špinavých kusov látky bolo rozpolených. Pre prvú polovicu látok bol
vyskúšaný jeden prací prostriedok a pre druhú polovicu druhý. Po usušení boli vyprané
vzorky ohodnotené stupnicou do 10 bodov podľa kvality vyprania. Výsledky testu sú
v nasledujúcej tabuľke:
Číslo kusu 1 2 3 4 5 6 7 8 9 10 11 12
Body po použití 1. prostr. 9 8 7 9 7 7 7 8 7 9 7 8
Body po použití 2. prostr. 8 10 8 8 9 9 8 10 9 9 8 9
Môžeme tvrdiť na 5 % hladine významnosti, že medián rozdielov bodov nie je nulový?
Riešenie.
Všetky rozdiely si prehľadne zapíšeme do tabuľky:
Číslo kusu 1 2 3 4 5 6 7 8 9 10 11 12
Body po použití 1. prostr. 9 8 7 9 7 7 7 8 7 9 7 8
Body po použití 2. prostr. 8 10 8 8 9 9 8 10 9 9 8 9
2. - 1. -1 2 1 -1 2 2 1 2 2 0 1 1
2. - 1. - c -1 2 1 -1 2 2 1 2 2 0 1 1
Testová štatistika S+
Z nadobúda hodnotu 9, počet nenulových rozdielov je 11. V štatistických
tabuľkách pre n = 11,  = 0, 05 nájdeme kritické hodnoty k1 = 1, k2 = 10.
Kritickým oborom je teda W = 0, 1  10, 11 . S+
Z / W, nezamietame nulovú hypotézu,
nepreukázali sme výrazné rozdiely medzi mediánmi rozdielov oboch metód.
KAPITOLA 2. TESTY HYPOTÉZ O PARAMETROCH
DVOJROZMERNÉHO NÁHODNÉHO VÝBERU 18
Postup v programe STATISTICA.
Vytvoríme dátový súbor o 2 premenných a 12 prípadoch. Prvá premenná obsahuje
body po použití 1. prostriedku, druhá premenná body po použití 2. prostriedku. Ďalej
postupujeme cez Statistics - Nonparametrics - Comparing two dependent samples, zvolíme
premenné a otestujeme pomocou Sign test. Vo výslednej tabuľke nás zaujíma predovšetkým
p-hodnota testu.
V tabuľke máme uvedené 4 hodnoty: počet nenulových rozdielov, percentuálne vyjadrenie
počtu kladných rozdielov (81, 81 % z 11 = 9), hodnotu realizácie testovej štatistiky
U0 (v tabuľke označená ako Z) a p-hodnotu. Vidíme, že p-hodnota = 0, 070440 je väčšia
ako hladina významnosti 0,05, čo znamená, že nulovú hypotézu nemôžeme na tejto hladine
zamietnuť.
Druhou možnosťou by bolo porovnanie hodnoty testovej štatistiky s príslušným kvantilom
štandardizovaného normálneho rozloženia. Podobne ako pri znamienkovom teste je
vhodnejšie použiť kritické hodnoty z tabuliek, pretože rozsah výberu nesp´lňa podmienku
asymptotickej normality štatistiky S+
Z , t.j. n > 20.
2.2.2 Párový Wilcoxonov test
Nech (X1, Y1), . . . , (Xn, Yn) je náhodný výber zo spojitého rozloženia. Nech c je reálna
konštanta. Testujeme hypotézu H0 : x0,50 - y0,50 = c proti obojstrannej alternatíve
H1 : x0,50 - y0,50 = c (resp. proti ľavostrannej alternatíve H1 : x0,50 - y0,50 < c alebo
pravostrannej alternatíve H1 : x0,50 - y0,50 > c).
Návod.
Vytvoríme rozdiely Zi = Xi - Yi, i = 1, . . . , n. Za n berieme len počet nenulových
rozdielov. Absolútne hodnoty |Zi| usporiadame vzostupne podľa veľkosti a spočítame poradie
Ri. Ďalej postupujeme podobne ako pri jednovýberovom Wilcoxonovom teste.
Príklad. Zoberme si rovnaký príklad ako pri párovom znamienkovom teste, aby sme
dokázali, že párový Wilcoxonov test je silnejší.
Riešenie.
Číslo kusu 1 2 3 4 5 6 7 8 9 10 11 12
Body po použití 1. prostr. 9 8 7 9 7 7 7 8 7 9 7 8
Body po použití 2. prostr. 8 10 8 8 9 9 8 10 9 9 8 9
2. - 1. -1 2 1 -1 2 2 1 2 2 0 1 1
|2. - 1. - c| 1 2 1 1 2 2 1 2 2 0 1 1
Poradie 3,5 9 3,5 3,5 9 9 3,5 9 9 - 3,5 3,5
KAPITOLA 2. TESTY HYPOTÉZ O PARAMETROCH
DVOJROZMERNÉHO NÁHODNÉHO VÝBERU 19
S+
W = 59, SW
= 7, n = 11,  = 0, 05. Kritická hodnota z tabuliek = 10, testová
štatistika je rovná min(59, 7) = 7. Pretože hodnota testovej štatistiky je menšia ako kritická
hodnota, zamietame nulovú hypotézu na hladine významnosti 0,05. Vidíme, že Wilcoxonov
test nám zamietol hypotézu o rovnosti mediánov, je preto silnejší ako znamienkový.
Postup v programe STATISTICA.
Vytvoríme dátový súbor o 2 premenných a 12 prípadoch, do prvej premennej zadáme
body po použití 1. prostriedku, do druhej body po použití druhého prostriedku. Postupujeme
cez Statistics - Nonparametrics - Comparing two dependent samples. Zvolíme
premenné a pomocou Wilcoxon matched pairs test tento test vykonáme. Vznikne nám
nasledujúca tabuľka:
Je to ten istý typ tabuľky ako pri jednovýberovom Wilcoxonovom teste, premenná T
udáva hodnotu testovej štatistiky, teda min(S+
W , SW
), premenná Z reprezentuje asymptotickú
testovú štatistiku U0 (použiteľná pri väčších výberoch) a ako posledná je daná zodpovedajúca
p-hodnota. Keďže je menšia ako hladina významnosti 0,05, nulovú hypotézu
o rovnosti mediánov zamietame.
Kapitola 3
Testy hypotéz o parametroch
2 nezávislých náhodných výberov
3.1 Testy s náhodnými výbermi pochádzajúcimi
z normálneho rozloženia
3.1.1 Dvojvýberový t-test
Definícia. Nech X11, . . . , X1n1 je náhodný výber pochádzajúci z rozloženia N(1, 2
),
X21, . . ., X2n2 je na ňom nezávislý náhodný výber z rozloženia N(2, 2
), pričom n1  2 a
n2  2. Nech c je konštanta. Test H0 : 1 -2 = c proti H1 : 1 -2 = c, resp. proti jednostranným
alternatívam H1 : 1 - 2 < c alebo H1 : 1 - 2 > c, sa nazýva dvojvýberový
t-test.
Návod.
Nulovú hypotézu H0 : 1 - 2 = c proti H1 : 1 - 2 = c zamietame na hladine
významnosti , ak:
m1 - m2 - c
s
1
n1
+ 1
n2
 t1-/2(n1 + n2 - 2) (3.1)
Pri jednostranných alternatívach
m1 - m2 - c
s
1
n1
+ 1
n2
 -t1-(n1 + n2 - 2), resp.
m1 - m2 - c
s
1
n1
+ 1
n2
 t1-(n1 + n2 - 2). (3.2)
Poznámka. V prípade, že nie je splnený predpoklad o rovnosti rozptylov, možno zostrojiť
aspoň 100(1 - )% interval spoľahlivosti pre 1 - 2. V tomto prípade má štatistika
T =
1 - 2 - c
S2
1
n1
+
S2
2
n2
20
KAPITOLA 3. TESTY HYPOTÉZ O PARAMETROCH 2 NEZÁVISLÝCH
NÁHODNÝCH VÝBEROV 21
približne rozloženie t(), kde počet stupňov voľnosti  je daný vzťahom1
 =
(s2
1/n1 + s2
2/n2)
2
(s2
1/n1)
2
n1-1
+
(s2
2/n2)
2
n2-1
.
Ak  nie je celé číslo, použijeme v tabuľkách kvantilov Studentovho rozloženia lineárnu
interpoláciu.
Poznámka. Možno sa stretnúť ešte s inou variantou, napr. v [10, str.392] alebo [12, str.84]:
 =
(s2
1/n1 + s2
2/n2)
2
(s2
1/n1)
2
n1+1
+
(s2
2/n2)
2
n2+1
- 2
Príklad. Sú analyzované 2 katalyzátory, aby sa zistilo, ako ovplyvňujú priemerný výnos
chemického procesu. Katalyzátor 1 je momentálne v prevádzke, katalyzátor 2 je k dispozícii.
Vzhľadom na to, že je lacnejší, mal by byť zavedený, za predpokladu, že nezmení výnos
procesu. Výsledky testu sú uvedené v nasledujúcej tabuľke.
Rastlina 1 2 3 4 5 6 7 8
Katalyzátor 1 91,5 94,18 92,18 95,39 91,79 89,07 94,72 89,21
Katalyzátor 2 89,19 90,95 90,46 93,21 97,19 97,04 91,07 92,75
Je nejaký rozdiel medzi priemernými výnosmi po použití katalyzátorov? Predpokladajme
rovnosť rozptylov a hladinu významnosti  = 0, 05.
Riešenie.
Testujeme H0 : 1-2 = 0 proti H1 : 1-2 = 0. Vypočítame m1 = 92, 255, m2 = 92, 7325,
s1 = 2, 385, s2 = 2, 98345. Pretože predpokladáme rovnosť rozptylov 2
1 = 2
2, za ich
odhad vezmeme vážený priemer výberových rozptylov s2
 =
(n1-1)s2
1+(n2-1)s2
2
n1+n2-2
= 7, 2947,
teda s = 2, 70086. Testové kritérium
t0 =
m1 - m2 - c
s
1
n1
+ 1
n2
=
92, 255 - 92, 7325 - 0
2, 70086 1
8
+ 1
8
= -0, 3536
Absolútnu hodnotu testového kritéria porovnáme s kvantilom t0,975(14) = 2, 1448.
Pretože 0, 3536 < 2, 1448, nulovú hypotézu nezamietame na hladine významnosti 0,05.
Teda medzi priemernými výnosmi po použití katalyzátorov nie je významný rozdiel, druhý
katalyzátor môže byť zavedený.
Postup v programe STATISTICA.
Vytvoríme dátový súbor o 2 premenných a 8 prípadoch. Hodnoty namerané po použití
prvého katalyzátora tvoria prvky prvej premennej, hodnoty namerané po použití druhého
katalyzátora sú obsiahnuté v druhej premennej. Postupujeme cez Statistics - Basic Statistics/Tables
- t-test, independent, by variables. Zvolíme premenné a pomocou Summary:
T-tests vykonáme test. Vznikne nasledujúca tabuľka:
1
napr. podľa [3, str.86] alebo [6, str.87]
KAPITOLA 3. TESTY HYPOTÉZ O PARAMETROCH 2 NEZÁVISLÝCH
NÁHODNÝCH VÝBEROV 22
V nej nás zaujíma hodnota testového kritéria t0 = -0, 353591, prislúchajúca p-hodnota
p = 0, 728914 je väčšia než hladina významnosti 0,05, nulovú hypotézu nezamietame.
3.1.2 F-test
Definícia. Nech X11, . . . , X1n1 je náhodný výber pochádzajúci z rozloženia N(1, 2
1),
X21, . . ., X2n2 je na ňom nezávislý náhodný výber z rozloženia N(2, 2
2), pričom n1  2,
n2  2. Nech c je konštanta. Test H0 :
2
1
2
2
= 1 proti H1 :
2
1
2
2
= 1, resp. proti jednostranným
alternatívam H1 :
2
1
2
2
< 1 alebo H1 :
2
1
2
2
> 1 sa nazýva F-test.
Návod.
Hypotézu H0 :
2
1
2
2
= 1 proti H1 :
2
1
2
2
= 1 (resp. H1 :
2
1
2
2
< 1 alebo H1 :
2
1
2
2
> 1)
zamietame na hladine významnosti , ak
s2
1
s2
2
 0, F/2(n1 - 1, n2 - 1)  F1-/2(n1 - 1, n2 - 1),  (3.3)
resp.
s2
1
s2
2
 0, F(n1 - 1, n2 - 1) alebo
s2
1
s2
2
 F1-(n1 - 1, n2 - 1),  . (3.4)
Príklad. Máme k dispozícii dva výberové súbory nameraných údajov rozmeru odliatku
v mm.
Výberový súbor č.1: 3,7 3,6 4,0 3,8 4,0 3,2 3,7 4,0 3,5 4,1.
Výberový súbor č.2: 3,9 4,6 3,9 4,9 4,7 3,7 4,8 5,5.
Máme otestovať, či tieto výberové súbory pochádzajú z rovnakého základného súboru.
Riešenie.
Testujeme teda hypotézu o zhode rozptylov H0 :
2
1
2
2
= 1 proti alternatíve H1 :
2
1
2
2
= 1.
Určíme si výberové smerodatné odchýlky s1 = 0, 2797, s2 = 0, 6164. Testovým kritériom
je podiel
s2
1
s2
2
= 0,27972
0,61642 = 0,0782
0,38
= 0, 2058. K riešeniu úlohy potrebujeme ešte kvantily FisherSnedecorovho
rozloženia F0,025(9, 7) = 0, 2383 a F0,975(9, 7) = 4, 8232. Pretože hodnota
testového kritéria 0, 2058  0; 0, 2383  4, 8232,  , zamietame nulovú hypotézu o zhode
rozptylov.
Postup v programe STATISTICA.
Vytvoríme dátový súbor o 2 premenných a 10 prípadoch. Hodnoty výberového súboru
č.1 budú zahrnuté v prvej premennej, hodnoty súboru č.2 v druhej premennej. Postupujeme
cez Statistics - Basic Statistics/Tables - t-test, independent, by variables. Zvolíme premenné
a pomocou Summary: T-tests vykonáme test. Vznikne nasledujúca tabuľka:
KAPITOLA 3. TESTY HYPOTÉZ O PARAMETROCH 2 NEZÁVISLÝCH
NÁHODNÝCH VÝBEROV 23
Zaujíma nás hlavne hodnota testovej štatistiky F-testu, v tomto prípade 4,857955, a
príslušná p-hodnota 0, 031882  0, 05, nulovú hypotézu zamietame na hladine významnosti
0,05. Hodnota testovej štatistiky sa líši oproti ručnému výpočtu z dôvodu, že systém
STATISTICA berie pri podiele
s2
1
s2
2
za s2
1 vždy väčšiu z hodnôt výberových smerodatných
odchýlok, teda tieto výsledky sú si navzájom prevrátené hodnoty.
Pri prevrátení smerodatných odchýlok prichádza aj k menšej korekcii kritického oboru,
v kvantile dochádza k prevráteniu stupňov voľnosti, t.j. namiesto F0,975(9, 7) počítame
s F0,975(7, 9) a namiesto F0,025(9, 7) počítame s F0,025(7, 9).
3.2 Testy s náhodnými výbermi nepochádzajúcimi
z normálneho rozloženia
3.2.1 Dvojvýberový Wilcoxonov test
Nech X1, . . . , Xn a Y1, . . . , Ym sú 2 nezávislé náhodné výbery z dvoch spojitých rozložení,
ktorých distribučné funkcie sa môžu líšiť len posunutím. Označme x0,50 medián prvého
rozloženia a y0,50 medián druhého rozloženia. Testujeme hypotézu o rovnosti distribučných
funkcií oboch rozložení H0 : (x) = (y) alebo o rovnosti mediánov H0 : x0,50 = y0,50 proti
alternatíve ich nerovnosti H1 : (x) = (y), resp. H1 : x0,50 = y0,50.
Návod.
Všetkých n+m hodnôt X1, . . ., Xn a Y1, . . ., Ym usporiadame vzostupne podľa veľkosti.
Súčet poradí X1, . . . , Xn označme T1, súčet poradí Y1, . . . , Ym označme T2. Určíme štatistiky
U1 = mn + n(n + 1)/2 - T1 a U2 = mn + m(m + 1)/2 - T2. Platí rovnosť U1 + U2 = mn,
ktorá sa dá jednoducho dokázať.
Nulovú hypotézu zamietame na hladine významnosti , ak min(U1, U2)  tabelovaná
kritická hodnota pre dané m, n a .
Pre veľké hodnoty n, m (n, m > 30) sa využíva asymptotická normalita štatistiky U1.
V prípade platnosti nulovej hypotézy platí
U0 =
U1 - mn
2
mn(m+n+1)
12
(3.5)
Kritickým oborom pre obojstrannú alternatívu je
W = (-, -u1-/2  u1-/2, ). (3.6)
Analogicky pre jednostranné alternatívy. H0 zamietame na asympotickej hladine významnosti
, ak U0  W.
KAPITOLA 3. TESTY HYPOTÉZ O PARAMETROCH 2 NEZÁVISLÝCH
NÁHODNÝCH VÝBEROV 24
Príklad. Majiteľ obchodu chcel zistiť, či veľkosti nákupov v USD platených kreditnými
kartami MasterCard a Visa sú v priemere rovnaké. Náhodne vybral 7 nákupov platených
MasterCard a 9 platených Visou.
MasterCard 42 77 46 73 78 33 37
Visa 39 10 119 68 76 126 53 79 102
Môžeme na hladine významnosti 5 % tvrdiť, že mediány nákupov platených týmito dvoma
kartami sa zhodujú?
Riešenie.
Všetky hodnoty si usporiadame do tabuľky vzostupne podľa veľkosti a určíme ich poradie
vzhľadom na zjednotenie oboch výberov.
usporiadané hodnoty 10 33 37 39 42 46 53 68 73 76 77 78 79 102
poradie MasterCard - 2 3 - 5 6 - - 9 - 11 12 - poradie
Visa 1 - - 4 - - 7 8 - 10 - - 13 14
usporiadané hodnoty 119 126
poradie MasterCard - poradie
Visa 15 16
T1 = 2 + 3 + 5 + 6 + 9 + 11 + 12 = 48, T2 = 1 + 4 + 7 + 8 + 10 + 13 + 14 + 15 + 16 = 88
U1 = 7.9 + 7.8/2 - 48 = 43, U2 = 7.9 + 9.10/2 - 88 = 20
Kritická hodnota pre  = 0, 05, n = 7 a m = 9 je 12. Pretože min(43, 20) = 20 > 12,
môžeme s 5 % rizikom omylu tvrdiť, že mediány nákupov platených kartami MasterCard
a Visa sa zhodujú.
Postup v programe STATISTICA.
Vytvoríme dátový súbor o 2 premenných a 16 prípadoch, do prvej premennej načítame
v ľubovoľnom poradí prvky oboch výberov, druhá premenná obsahuje hodnoty 1 alebo 2
v závislosti od príslušnosti daného prvku k prvému alebo druhému náhodnému výberu.
K testu sa dostaneme cez Statistics - Nonparametrics - Comparing two independent samples
(groups), zadáme premenné, ako závislú zvolíme premennú 1 s nameranými hodnotami,
ako grupujúcu premennú 2 s indexami oboch výberov. Test vykonáme pomocou
Mann-Whitney U Test.
V tabuľke nájdeme súčty T1 a T2, hodnotu testovej štatistiky min(U1, U2) označenú ako
U, hodnotu asymptotickej testovej štatistiky U0 (označená Z), p-hodnotu príslušnú tejto
štatistike, ale nás zaujíma predovšetkým p-hodnota označená 2*1 one sided exact p, ktorá
sa používa pre rozsahy náhodných výberov menšie ako 30. Keďže je väčšia ako hladina
významnosti  = 0, 05, nulovú hypotézu nezamietame.
KAPITOLA 3. TESTY HYPOTÉZ O PARAMETROCH 2 NEZÁVISLÝCH
NÁHODNÝCH VÝBEROV 25
3.2.2 Wald-Wolfowitzov test
Nech X1, . . . , Xn a Y1, . . . , Ym sú 2 nezávislé náhodné výbery z dvoch spojitých rozložení.
Testujeme hypotézu, že oba výbery pochádzajú z rovnakého rozloženia proti alternatíve,
že pochádzajú z 2 rôznych rozložení.
Návod.
Všetkých n+m hodnôt X1, . . ., Xn a Y1, . . ., Ym usporiadame vzostupne podľa veľkosti.
Testovou hypotézou je počet iterácií R, tzn. počet postupností za sebou nasledujúcich
hodnôt patriacich do toho istého výberu. Ak je R  tabelovaná kritická hodnota pre dané
n, m a , H0 zamietame na hladine významnosti .
Pre rozsahy výberov n, m > 20 možno využiť asymptotickú normalitu štatistiky R.
V tomto prípade sa platnosť nulovej hypotézy overuje pomocou testovej štatistiky
U0 =
R - E(R)
D(R)
, (3.7)
ktorá má pri platnosti H0 asympotické rozloženie N(0, 1), t.j. U0  N(0, 1). Pritom platí
E(R) =
2nm
n + m
+ 1 (3.8)
D(R) =
2nm(2nm - n - m)
(n + m)2(n + m - 1)
(3.9)
Nulovú hypotézu zamietame na asymptotickej hladine významnosti , ak |U0|  u1-/2.
Príklad. Pre nasledujúce náhodné výbery z dvoch populácií použime 5% hladinu významnosti
a testujme hypotézu H0 : x0,50 = y0,50 proti H1 : x0,50 = y0,50.
Výber 1 40 34 53 28 41
Výber 2 29 31 52 29 20 31 26
Riešenie.
Všetky hodnoty si vzostupne usporiadame podľa veľkosti, ku každej určíme výber, z ktorého
pochádza a zistíme počet iterácií. Prehľadnejšie je zapísať všetko do tabuľky:
Usp.hodn. 20 26 28 29 29 31 31 34 40 41 52 53
Č.výb. 2 2 1 2 2 2 2 1 1 1 2 1
Č.iter. 1 2 3 4 5 6
Počet iterácií: R = 6, n = 5, m = 7,  = 0, 05.
Vzhľadom na to, že nebolo možné zo žiadneho zdroja získať kritické hodnoty pre tento
test, ďalej pokračovať vo výpočte nemôžem, výsledok testu je preto určený iba pomocou
systému STATISTICA.
Postup v programe STATISTICA.
Vytvoríme dátový súbor o 2 premenných a 16 prípadoch, do prvej premennej načítame
KAPITOLA 3. TESTY HYPOTÉZ O PARAMETROCH 2 NEZÁVISLÝCH
NÁHODNÝCH VÝBEROV 26
v ľubovoľnom poradí prvky oboch výberov, druhá premenná obsahuje hodnoty 1 alebo 2
v závislosti od príslušnosti daného prvku k prvému alebo druhému náhodnému výberu.
K testu sa dostaneme cez Statistics - Nonparametrics - Comparing two independent samples
(groups), zadáme premenné, ako závislú zvolíme premennú 1 s nameranými hodnotami,
ako grupujúcu premennú 2 s indexami oboch výberov. Test vykonáme pomocou
Wald-Wolfowitz runs test.
Tabuľka obsahuje rozsahy a priemery oboch výberobv, hodnotu asymptotickej testovej
štatistiky U0 (označenú ako Z) a príslušnú p-hodnotu, hodnotu asymptotickej testovej
štatistiky s opravou na spojitosť (Z adjstd) a tiež jej príslušnú p-hodnotu, ako posledné
dve hodnoty sú uvedené počet iterácií a počet zhodných pozorovaní. Vidíme, že p-hodnota
je väčšia ako 0,05, preto nulovú hypotézu o zhode mediánov nezamietame.
3.2.3 Dvojvýberový Kolmogorov-Smirnovov test
Nech X1, . . . , Xn a Y1, . . . , Ym sú 2 nezávislé náhodné výbery z dvoch spojitých rozložení,
ktorých distribučné funkcie sa môžu líšiť nielen posunutím, ale aj tvarom. Testujeme hypotézu,
že tieto distribučné funkcie sú zhodné, tzn. všetky náhodné veličiny pochádzajú
z rovnakého rozloženia, proti alternatíve, že sú rozdielne.
Návod.
Nech F1(x) = 1
n
card {i; Xi  x} je výberová distribučná funkcia prvého náhodného
výberu a F2(x) = 1
m
card {i; Yi  y} je výberová distribučná funkcia druhého náhodného
výberu. Testovou štatistikou je pri tomto teste
D = max
-<x<
|F1(x) - F2(x)| . (3.10)
a kritickou hodnotou Dn,m(), je udávaná v tabuľkách. Nulovú hypotézu zamietame na
hladine významnosti  v prípade, že D  Dn,m().
Pre veľké rozsahy n, m je možné kritickú hodnotu aproximovať podľa vzorca
n + m
2nm
ln
2

(3.11)
Príklad. Testujme na 5% hladine významnosti hypotézu, že predpovede rastu životných
nákladov (v %) v budúcom roku oproti tomuto roku univerzitných ekonómov X2 sú rovnaké
ako predpovede X1 vládnych ekonómov.
X1 4,4 5,8 3,9 6,7 1,3 10,5 4,9
X2 3,1 4,8 2,3 5,6 0,0 2,9
KAPITOLA 3. TESTY HYPOTÉZ O PARAMETROCH 2 NEZÁVISLÝCH
NÁHODNÝCH VÝBEROV 27
Riešenie.
Hodnoty výberovej distribučnej funkcie 1. výberu:
1. x < 1, 3 : F1(x) = 0
2. 1, 3  x < 3, 9 : F1(x) = 1
7
3. 3, 9  x < 4, 4 : F1(x) = 2
7
4. 4, 4  x < 4, 9 : F1(x) = 3
7
5. 4, 9  x < 5, 8 : F1(x) = 4
7
6. 5, 8  x < 6, 7 : F1(x) = 5
7
7. 6, 7  x < 10, 5 : F1(x) = 6
7
8. x > 10, 5 : F1(x) = 1
Hodnoty výberovej distribučnej funkcie 2. výberu:
1. x < 0, 0 : F2(x) = 0
2. 0, 0  x < 2, 3 : F2(x) = 1
6
3. 2, 3  x < 2, 9 : F2(x) = 2
6
4. 2, 9  x < 3, 1 : F2(x) = 3
6
5. 3, 1  x < 4, 8 : F2(x) = 4
6
6. 4, 8  x < 5, 6 : F2(x) = 5
6
7. x > 5, 6 : F2(x) = 1
Hodnota testovej štatistiky D = max
-<x<
|F1(x) - F2(x)| = 1
7
- 4
6
= 0, 52381, kritická
hodnota z tabuliek pre n = 7, m = 6 a  = 0, 05 je D7,6(0, 05) = 0, 714; keďže D < Dn,m(),
nulovú hypotézu o rovnosti predpovedí vládnych a univerzitných ekonómov nezamietame
na hladine významnosti 0,05.
Postup v programe STATISTICA.
Vytvoríme dátový súbor o 2 premenných a 13 prípadoch, v prvej premennej sú načítané
všetky predpovede, druhá premenná nadobúda hodnotu 1 pre predpoveď vládnych ekonómov,
resp. 2 pre predpoveď univerzitných ekonómov. Testujeme cez Statistics - Nonparametrics
- Comparing two independent samples (groups), zadáme premenné, ako závislú
zvolíme premennú 1 s hodnotami predpovedí, ako grupujúcu premennú 2 s indexami oboch
výberov. Test vykonáme pomocou Kolmogorov-Smirnov two-sample test.
KAPITOLA 3. TESTY HYPOTÉZ O PARAMETROCH 2 NEZÁVISLÝCH
NÁHODNÝCH VÝBEROV 28
V tabuľke máme možnosť vidieť maximálny záporný a kladný rozdiel hodnôt oboch
výberových distribučných funkcií, výberové priemery, smerodatné odchýlky, rozsahy a
hlavne p-hodnotu, ktorá je v tomto prípade > 0, 05, nulovú hypotézu nezamietame na
hladine významnosti  = 0, 05.
Kapitola 4
Testy homogenity rozptylov
viacerých nezávislých náhodných
výberov
Predpokladajme, že faktor A, t.j. náhodná veličina nominálneho charakteru, má r  3
úrovní a i-tej úrovni zodpovedá ni výsledkov Xi1, . . ., Xini
tvoriacich náhodný výber z rozloženia
N(i, 2
), i = 1, . . . , r, pričom tieto náhodné výbery sú stochasticky nezávislé, teda
Xij = i + ij, kde ij sú stochasticky nezávislé náhodné veličiny s rozložením N(0, 2
),
kde i = 1, . . . , r a j = 1, . . . , ni.
4.1 Levenov test
Položme Zij = |Xij - Mi.|, kde Mi. = 1
ni
ni
j=1
Xij a označme
MZi. =
1
ni
ni
j=1
Zij MZ.. =
1
n
r
i=1
ni
j=1
Zij
SZE =
r
i=1
ni
j=1
(Zij - MZi.)2
SZA =
r
i=1
ni (MZi. - MZ..)2
Ak platí nulová hypotéza o zhode rozptylov, potom
FZ =
SZA
(r-1)
SZE
(n-r)
 F(r - 1, n - r) (4.1)
H0 potom zamietame na hladine významnosti  v prípade, že FZ  F1-(r - 1, n - r).
Jednotlivé výsledky môžeme zosumarizovať v modifikovanej ANOVA tabuľke:
29
KAPITOLA 4. TESTY HOMOGENITY ROZPTYLOV VIACERÝCH
NEZÁVISLÝCH NÁHODNÝCH VÝBEROV 30
Zdroj variability Súčet štvorcov Stupne voľnosti Podiel FZ
skupiny SZA fZA = r - 1 SZA
fZA
SZA/fZA
SZE/fZE
reziduálny SZE fZE = n - r SZE
fZE
--­
celkový SZT fZT = n - 1 --­ --­
Príklad. Na 50 pozemkoch rozmiestnených v skúmanej poľnohospodárskej oblasti boli
vykonané pokusy so štyrmi druhmi olejnatých rastlín. Výsledky, udávajúce množstvo získaného
oleja v tonách na hektár, sú uvedené podľa jednotlivých druhov rastlín.
Horčica:
0,188 0,067 0,232 0,124 0,285 0,300 0,387 0,184 0,155 0,031
Repka olejka:
0,415 0,291 0,113 0,114 0,062 0,270 0,068 0,196 0,308 0,365 0,230 0,262 0,050 0,127 0,078
Ľaničník maloplodý (Lnička maloplodá):
0,382 0,199 0,473 0,262 0,152 0,293 0,428 0,241 0,390 0,195
Sója:
0,227 0,357 0,402 0,267 0,017 0,240 0,167 0,321 0,179 0,086 0,020 0,280 0,384 0,214 0,168
Máme overiť na 5% hladine významnosti hypotézu o rovnosti rozptylov množstva získaného
oleja u týchto 4 druhov rastlín.
Riešenie.
Výberové priemery: m1 = 0, 1953, m2 = 0, 1966, m3 = 0, 3015, m4 = 0, 221933. Tabuľku
hodnôt Zij neuvádzam, podľa vzorca sa dá ľahko zostaviť z vyššie uvedených nameraných
hodnôt. Vypočítame: mZ1. = 0, 08456, mZ2. = 0, 101973, mZ3. = 0, 0934, mZ4. = 0, 0937,
mZ.. = 0, 0943, SZA = 0, 001846, SZE = 0, 16895. Hodnota testovej štatistiky FZ = 0, 1675
a kvantil F0,95(3, 46) = 2, 8068. Pretože 0, 167528 < 2, 8068, nulovú hypotézu o zhode
rozptylov množstva získaného oleja u 4 druhov rastlín nezamietame na hladine významnosti
0,05.
Postup v programe STATISTICA.
Vytvoríme dátový súbor o 2 premenných a 50 prípadoch. Prvá premenná obsahuje
všetky namerané hodnoty, druhá indexy 1-4 podľa príslušnosti výsledku k danému druhu
rastliny. Postupujeme cez Statistics - Basic Statistics/Tables - Breakdown & one-way ANOVA,
v záložke Lists of tables zvolíme premennú 1 ako závislú, premennú 2 ako grupujúcu
a zaškrtneme Levene test. Vznikne nasledovná tabuľka:
V nej vidíme hodnotu skupinového (SZA = 0, 001846) a reziduálneho (SZE = 0, 168949)
súčtu štvorcov, počet stupňov voľnosti fZA = 3 a fZE = 46, testová štatistika nadobúda
hodnotu FZ = 0, 167528 a zodpovedajúca p-hodnota = 0, 917739. Keďže p-hodnota je
väčšia ako hladina významnosti 0,05, hypotézu o rovnosti rozptylov nemôžeme na tejto
hladine zamietnuť.
KAPITOLA 4. TESTY HOMOGENITY ROZPTYLOV VIACERÝCH
NEZÁVISLÝCH NÁHODNÝCH VÝBEROV 31
Poznámka. Nevýhodou Levenovho testu je, že jednotlivé náhodné výbery môžu byť ovplyvnené
odchýlkami od normality. Tento problém rieši nasledujúci test.
4.2 Brown-Forsythov test
Položme Z
ij = |Xij - Mi|, kde Mi je medián i-teho výberu a označme
MZi. =
1
ni
ni
j=1
Z
ij MZ.. =
1
n
r
i=1
ni
j=1
Z
ij
SZE =
r
i=1
ni
j=1
Z
ij - MZi.
2
SZA =
r
i=1
ni (MZi. - MZ..)2
Ak platí nulová hypotéza o zhode rozptylov, potom
FZ =
SZA
(r-1)
SZE
(n-r)
 F(r - 1, n - r) (4.2)
H0 zamietame na hladine významnosti , ak FZ  F1-(r -1, n-r). Jednotlivé výsledky
môžeme zosumarizovať v modifikovanej ANOVA tabuľke:
Zdroj variability Súčet štvorcov Stupne voľnosti podiel FZ
skupiny SZA fZA = r - 1
SZA
fZA
SZA/fZA
SZE/fZE
reziduálny SZE fZE = n - r
SZE
fZE
--­
celkový SZT fZT = n - 1 --­ --­
Príklad. Prebehol experiment, aby sa zistilo, či 4 špecifické teploty ohňa ovplyvnia hustotu
určitého typu tehly. Experiment viedol k týmto výsledkom:
Teplota (
C) Hustota
37,78 21,8 21,9 21,7 21,6 21,7 21,5 21,8
51,67 21,7 21,4 21,5 21,5 - - 65,56
21,9 21,8 21,8 21,6 21,5 - 79,44
21,9 21,7 21,8 21,9 21,6 21,8 Máme
overiť zhodu rozptylov meraní pri 4 rôznych teplotách.
Riešenie.
Mediány jednotlivých výberov: m1 = 0, 1953, m2 = 0, 1966, m3 = 0, 3015, m4 = 0, 221933.
Opäť tabuľku hodnôt Z
ij neuvádzam, podľa vzorca sa dá ľahko zostaviť. Ďalej výpočtom
získame: mZ1. = 0, 1, mZ2. = 0, 075, mZ3. = 0, 12, mZ4. = 0, 0833, mZ.. = 0, 09545,
SZA = 0, 005712, SZE = 0, 16383. Hodnota testovej štatistiky je FZ = 0, 209193 a
kvantil Fisher-Snedecorovho rozloženia F0,95(3, 18) = 3, 1599. Pretože 0, 209193 < 3, 1599,
nulovú hypotézu o zhode rozptylov meraní pri 4 rôznych teplotách nezamietame na hladine
významnosti 0,05.
KAPITOLA 4. TESTY HOMOGENITY ROZPTYLOV VIACERÝCH
NEZÁVISLÝCH NÁHODNÝCH VÝBEROV 32
Postup v programe STATISTICA.
Vytvoríme dátový súbor o 2 premenných a 22 prípadoch. Prvá premenná obsahuje
všetky namerané hodnoty, druhá indexy 1-4 podľa príslušnosti výsledku k danej teplote.
Postupujeme cez Statistics - Basic Statistics/Tables - Breakdown & one-way ANOVA,
v záložke Lists of tables zvolíme premennú 1 ako závislú, premennú 2 ako grupujúcu a
zaškrtneme Brown & Forsythe. Vznikne nasledujúca tabuľka:
Vyčítame hodnotu skupinového (SZA = 0, 005712) a reziduálneho (SZE = 0, 163833)
súčtu štvorcov, počet stupňov voľnosti fZA = 3 a fZE = 18, testová štatistika nadobúda
hodnotu FZ = 0, 209193 a zodpovedajúca p-hodnota = 0, 888702. Keďže p-hodnota je
väčšia ako hladina významnosti 0,05, hypotézu o rovnosti rozptylov nemôžeme na tejto
hladine zamietnuť.
Poznámka. Ak by sme Brown-Forsythovým testom riešili príklad z časti 4.1, p-hodnota
by nám vyšla trošku nižšia, z čoho môžeme usudzovať, že B-F test je o čosi silnejší ako
Levenov, lebo berie do úvahy aj odchýlky náhodného výberu od normality.
Záver
Testovanie hypotéz má a vždy aj bude mať veľké využitie v praxi. Stále sa vyskytujú
otázky a problémy v ktorejkoľvek oblasti, ktoré nám práve táto časť štatistiky pomôže
vyriešiť.
Cieľom tejto práce bolo popísať najdôležitejšie testy, ukázať ich riešenie v systéme STATISTICA,
aby čitateľ nemusel všetko počítať ručne, čo v prípade niektorých testov veľmi
ocení. V prvej kapitole som sa sústredil na testy s jedným jednorozmerným náhodným
výberom, teda aj na jednovýberový t-test, jeden z najpoužívanejších v praxi. Druhá kapitola
bola zameraná na párové testy, kde existoval vzťah medzi náhodnými výbermi v tom
zmysle, že každá náhodná veličina bola testovaná v 2 rôznych podmienkach, a teda v konečnom
dôsledku boli tieto 2 výsledky na sebe závislé. Tretia kapitola sa venovala testom
dvoch nezávislých náhodných výberov. Vo štvrtej som uviedol 2 testy viacerých nezávislých
náhodných výberov, keďže nemusíme mať vždy výber len jeden alebo dva. Verím aj, že
vytvorené makrá prispejú k rýchlejšiemu vyriešeniu príkladov na testy, ktoré zatiaľv tomto
systéme implementované nie sú.
33
Použitá literatúra
[1] ANDĚL, J. Statistické metody. 1. vyd. Praha: Matfyzpress, 1993.
[2] ARTLOVÁ, M.; BÍLKOVÁ, D.; JAROŠOVÁ, E.; POUROVÁ, Z. Sbírka příkladů ze
statistiky (Statistika A). 1. dotlač. Praha: Vysoká škola ekonomická, 1996. ISBN 80-
7079-727-4.
[3] BLATNÁ, D. Statistika a pravděpodobnost. 1. vyd. Praha: Bankovní institut vysoká
škola, 2003. ISBN 80-7265-059-0.
[4] BUDÍKOVÁ M. Interné materiály k predmetu Základní statistické metody.
[5] BUDÍKOVÁ, M.; MIKOLÁŠ, Š.; OSECKÝ, P. Teorie pravděpodobnosti a matematická
statistika - sbírka příkladů. 3. vyd. Brno: Masarykova univerzita, 2004. ISBN 80-210-
3313-4.
[6] BUDÍKOVÁ M.; LERCH T.; MIKOLÁŠ Š. Základní statistické metody. 1. vyd. Brno:
Masarykova univerzita, 2005. ISBN 80-210-3886-1.
[7] FORBELSKÁ M. Interné materiály k predmetu Lineární statistické modely I: M5120
- 9. cvičení: Normální náhodné výběry.
[8] HEBÁK P.; BÍLKOVÁ D.; SVOBODOVÁ A. Praktikum k výuce matematické statistiky:
Testování hypotéz. 1. vyd. Praha: Vysoká škola ekonomická, 2000. ISBN 80-245-
0082-5.
[9] KOŽÍŠEK J. Statistická analýza: Příklady. 3., prepracované vyd. Praha: Vydavatelství
ČVUT, 1997. ISBN 80-01-01617-X.
[10] MONTGOMERY D.C.; RUNGER G.C. Applied statistics and probability for engineers.
2nd ed. New York: John Wiley & Sons, 1999. ISBN 0471170275.
[11] Statsoft, Inc. STATISTICA Electronic Manual (Užívateľská príručka systému STATISTICA).
2007.
[12] SVATOŠOVÁ L.; KÁBA B. Statistické metody I. 1. vyd. Praha: Česká zemědělská
univerzita, 2007. ISBN 978-80-213-1672-0.
34
POUŽITÁ LITERATÚRA 35
[13] UPTON G.; COOK I. A Dictionary of Statistics. 2nd ed. Oxford University Press,
2004. ISBN 0198614314.
Prílohy
Test o rozptyle - zdrojový kód
Option Base 1
Sub Main
Dim alpha As Double 'hladina vyznamnosti
Dim mean As Double 'priemer
Dim stdev As Double 'vyberova smerodatna odchylka
Dim C As Double 'ocakavana hodnota rozptylu
Dim alt As Double ťyp alternativnej hypotezy
Dim Matrix() As Double 'matica nameranych hodnot
Dim i As Double 'forcyklovske premenne
Dim pom1 As Double 'pomocna premenna vo for cykle vypoctu vyberoveho
rozptylu
Dim VarList () As Long 'zoznam vybranych premennych vyberu
Dim pmen As Double 'P(T0 <= t0)
Dim pvac As Double 'P(T0 >= t0)
Dim K~As Double 'hodnota testovej statistiky
Const SelOneVar As String = "Zvolťe jednu premennú"
Const SelVar As String = "Výber premennej"
Const SelTypeOfAltHyp As String = "Zvolťe typ alternatívnej hypotézy"
Const TypeOfAltHyp As String = "Obojstranná alternatíva|Ľavostranná
alternatíva|Pravostranná alternatíva"
Const SprHead As String = "Test of Variance Against Reference Constant"
Const SprC1 As String = "Summary"
Const SprV1 As String = "Mean"
Const SprV2 As String = "St. Dev."
Const SprV3 As String = "K"
Const SprV4 As String = "Chi_alpha/2 (n-1)"
Const SprV5 As String = "Chi_1-alpha/2 (n-1)"
Const SprV6 As String = "Chi_alpha (n-1)"
36
PRÍLOHY 37
Const SprV7 As String = "Chi_1-alpha (n-1)"
Const SprV8 As String = "p-value"
numvar=ActiveSpreadsheet.NumberOfVariables
numcas=ActiveSpreadsheet.NumberOfCases
ReDim VarList(1 To numvar)
ReDim Preserve Matrix(numcas,numvar) As Double
Matrix = ActiveSpreadsheet.Data
'Volba premennej
If 0=SelectVariables1(ActiveDataSet,SelVar,1,1,VarList,Count,SelOneVar)
Then
End
End If
LevOfSign=InputBox("Zadajte hladinu významnosti, na ktorej bude testovaná
hypotéza:","Hladina významnosti")
alpha=CDbl(LevOfSign) 'prevod stringu na Double
Konst=InputBox("Zadajte očakávanú hodnotu rozptylu:","Zadanie rozptylu")
C = CDbl(Konst)
'Vyber alternativy
alt = DisplayListBox(SelTypeOfAltHyp,TypeOfAltHyp,1)
'do stl priradime index premennej,ktoru sme si vybrali
stl = VarList(1)
mean = 0
For i = 1 To numcas
mean = mean + Matrix (i,stl)
Next i
mean = mean / numcas
pom1 = 0
For i = 1 To numcas
pom1 = pom1 + (Matrix (i,stl) - mean)^2
Next i
stdev = Sqrt(1/(numcas-1) * pom1)
K~= (numcas - 1) * stdev^2 / C
PRÍLOHY 38
If alt = 0 Then End
If alt = 1 Then
ChiAlphaPol = VChi2(alpha/2,numcas-1)
Chi_1 = ChiAlphaPol
Chi1MinusAlphaPol = VChi2(1-alpha/2,numcas-1)
Chi_2 = Chi1MinusAlphaPol
pmen = IChi2(K,numcas-1) 'vypocet p-hodnoty
pvac = 1-IChi2(K,numcas-1)
If (pmen <= pvac) Then
pv = 2 * pmen
Else
pv = 2 * pvac
End If
ReDim Preserve A(6) As Double
A(1) = mean
A(2) = stdev
A(3) =
K~A(4) = Chi_1
A(5) = Chi_2
A(6) = pv
'Vysledna tabulka
Set Summary = Spreadsheets.New
Summary.SetSize(1,6)
Summary.Header=SprHead
Summary.CaseName(1) = SprC1
Summary.AutoFitCase
Summary.VariableName(1) = SprV1
Summary.VariableName(2) = SprV2
Summary.VariableName(3) = SprV3
Summary.VariableName(4) = SprV4
Summary.VariableName(5) = SprV5
Summary.VariableName(6) = SprV8
Summary.Variable(1).ColumnWidth=0.6
Summary.Value(1,1) = A(1)
Summary.Variable(2).ColumnWidth=0.7
Summary.Value(1,2) = A(2)
Summary.Variable(3).ColumnWidth=0.6
Summary.Value(1,3) = A(3)
Summary.Variable(4).ColumnWidth=1.2
Summary.Value(1,4) = A(4)
PRÍLOHY 39
Summary.Variable(5).ColumnWidth=1.3
Summary.Value(1,5) = A(5)
Summary.Variable(6).ColumnWidth=1
Summary.Value(1,6) = A(6)
'Ak je p-hodnota mensia alebo rovna ako zadana hladina vyznamnosti,
zamietame nulovu hypotezu, vsetko sa zobrazi na cerveno.
If (pv <= alpha) Then
For i = 1 To 6
Summary.Cells(1,i).Font.Color = RGB(255,0,0)
Next i
End If
Summary.Visible=True
End If
If alt = 2 Then
Chialpha = VChi2(alpha,numcas-1)
pv = IChi2(K,numcas-1) 'p-hodnota
ReDim Preserve A(5) As Double
A(1) = mean
A(2) = stdev
A(3) =
K~A(4) = Chialpha
A(5) = pv
'Vysledna tabulka
Set Summary = Spreadsheets.New
Summary.SetSize(1,5)
Summary.Header=SprHead
Summary.CaseName(1) = SprC1
Summary.AutoFitCase
Summary.VariableName(1) = SprV1
Summary.VariableName(2) = SprV2
Summary.VariableName(3) = SprV3
Summary.VariableName(4) = SprV6
Summary.VariableName(5) = SprV8
Summary.Variable(1).ColumnWidth=0.6
Summary.Value(1,1) = A(1)
Summary.Variable(2).ColumnWidth=0.7
Summary.Value(1,2) = A(2)
Summary.Variable(3).ColumnWidth=0.6
Summary.Value(1,3) = A(3)
Summary.Variable(4).ColumnWidth=1.2
PRÍLOHY 40
Summary.Value(1,4) = A(4)
Summary.Variable(5).ColumnWidth=1
Summary.Value(1,5) = A(5)
'Ak je p-hodnota mensia alebo rovna ako alpha, vsetko sa zobrazi na
cerveno (zamietame H0).
If (pv <= alpha) Then
For i = 1 To 5
Summary.Cells(1,i).Font.Color = RGB(255,0,0)
Next i
End If
Summary.Visible=True
End If
If alt = 3 Then
Chi1Minusalpha = VChi2(1-alpha,numcas-1)
pv = 1 - IChi2(K,numcas-1) 'p-hodnota
ReDim Preserve A(5) As Double
A(1) = mean
A(2) = stdev
A(3) =
K~A(4) = Chi1Minusalpha
A(5) = pv
'Vysledna tabulka
Set Summary = Spreadsheets.New
Summary.SetSize(1,5)
Summary.Header=SprHead
Summary.CaseName(1) = SprC1
Summary.AutoFitCase
Summary.VariableName(1) = SprV1
Summary.VariableName(2) = SprV2
Summary.VariableName(3) = SprV3
Summary.VariableName(4) = SprV7
Summary.VariableName(5) = SprV8
Summary.Variable(1).ColumnWidth=0.6
Summary.Value(1,1) = A(1)
Summary.Variable(2).ColumnWidth=0.7
Summary.Value(1,2) = A(2)
Summary.Variable(3).ColumnWidth=0.6
Summary.Value(1,3) = A(3)
Summary.Variable(4).ColumnWidth=1.2
Summary.Value(1,4) = A(4)
PRÍLOHY 41
Summary.Variable(5).ColumnWidth=1
Summary.Value(1,5) = A(5)
'Ak je p-hodnota mensia alebo ako alpha, vsetko sa zobrazi na cerveno
(zamietame H0).
If (pv <= alpha) Then
For i = 1 To 5
Summary.Cells(1,i).Font.Color = RGB(255,0,0)
Next i
End If
Summary.Visible=True
End If
End Sub
Morgan-Pitmanov test - zdrojový kód
Option Base 1
Sub Main
Dim alpha As Double 'hladina vyznamnosti
Dim mean1 As Double 'priemer Xn
Dim mean2 As Double 'priemer Yn
Dim stdev1 As Double 'vyberova smerodatna odchylka Xn
Dim stdev2 As Double 'vyberova smerodatna odchylka Yn
Dim alt As Double
Dim Matrix() As Double 'matica nameranych hodnot
Dim i As Integer 'forcyklovske premenne
Dim pom1 As Double 'pomocna premenna vo for cykle vypoctu vyberovej
sm.odch. Xn
Dim pom2 As Double 'pomocna premenna vo for cykle vypoctu vyberovej
sm.odch. Yn
Dim pom3 As Double 'pomocna premenna vo for cykle pomocneho vyrazu pre
korel.koef.
Dim pom4 As Double ' ---||---
Dim pom5 As Double ' ---||---
Dim t1MinusAlphaPol As Double 'kvantil Studentovho rozlozenia
t_1-alpha/2 (n-2)
Dim t_1 As Double ' ---||---
Dim t1MinusAlpha As Double 'kvantil Studentovho rozlozenia t_1-alpha (n-2)
PRÍLOHY 42
Dim t_2 As Double '---||---
Dim pmen As Double 'P(T0 <= t0)
Dim pvac As Double 'P(T0 >= t0)
Dim VarList1 () As Long 'zoznam vybranych premennych prveho vyberu
Dim VarList2 () As Long 'zoznam vybranych premennych druheho vyberu
Const SelTwoVar1 As String = "Zvolťe premennú"
Const SelTwoVar2 As String = "Zvolťe závislú premennú"
Const SelVar As String = "Výber premenných"
Const SelTypeOfAltHyp As String = "Zvolťe typ alternatívnej hypotézy"
Const TypeOfAltHyp As String = "Obojstranná alternatíva|Ľavostranná
alternatíva|Pravostranná alternatíva"
Const SprHead As String = "Morgan-Pitman Test of Homogeneity of Variances"
Const SprC1 As String = "Summary"
Const SprV1 As String = "Mean1"
Const SprV2 As String = "Mean2"
Const SprV3 As String = "St. Dev.1"
Const SprV4 As String = "St. Dev.2"
Const SprV5 As String = "Coef. of corr."
Const SprV6 As String = "T"
Const SprV7 As String = "t_1-alpha/2 (n-2)"
Const SprV8 As String = "-t_1-alpha (n-2)"
Const SprV9 As String = "t_1-alpha (n-2)"
Const SprV10 As String = "p-value"
numvar=ActiveSpreadsheet.NumberOfVariables
numcas=ActiveSpreadsheet.NumberOfCases
ReDim VarList1(1 To numvar)
ReDim VarList2(1 To numvar)
ReDim Preserve Matrix(numcas,numvar) As Double
Matrix = ActiveSpreadsheet.Data
'Volba premennych
If 0=SelectVariables2(ActiveDataSet,SelVar,1,1,VarList1,Count1,SelTwoVar1,
1,1,VarList2,Count2,SelTwoVar2) Then
End
End If
LevOfSign=InputBox("Zadajte hladinu významnosti, na ktorej bude testovaná
hypotéza:","Hladina významnosti")
alpha=CDbl(LevOfSign) 'prevod stringu na Double
PRÍLOHY 43
'Vyber alternativy
alt = DisplayListBox(SelTypeOfAltHyp,TypeOfAltHyp,1)
'do stl1 priradime index premennej,ktoru sme si vybrali z~prveho vyberu
stl1 = VarList1(1)
'do stl2 priradime index premennej,ktoru sme si vybrali z~druheho vyberu
stl2 = VarList2(1)
mean1 = 0
For i = 1 To numcas
mean1 = mean1 + Matrix (i,stl1)
Next i
mean1 = mean1 / numcas
mean2 = 0
For i = 1 To numcas
mean2 = mean2 + Matrix (i,stl2)
Next i
mean2 = mean2 / numcas
'Vypocet vyb.sm.odch.Xn
pom1 = 0
For i = 1 To numcas
pom1 = pom1 + (Matrix (i,stl1) - mean1)^2
Next i
stdev1 = Sqrt(1/(numcas-1) * pom1)
'Vypocet vyb.sm.odch.Yn
pom2 = 0
For i = 1 To numcas
pom2 = pom2 + (Matrix (i,stl2) - mean2)^2
Next i
stdev2 = Sqrt(1/(numcas-1) * pom2)
pom3 = 0
For i = 1 To numcas
pom3 = pom3 + (Matrix (i,stl1) * Matrix (i,stl2))
Next i
pom4 = 0
For i = 1 To numcas
pom4 = pom4 + (Matrix (i,stl1))^2
PRÍLOHY 44
Next i
pom5 = 0
For i = 1 To numcas
pom5 = pom5 + (Matrix (i,stl2))^2
Next i
If (Sqrt((pom4 - numcas*mean1^2)*(pom5 - numcas*mean2^2))) = 0 Then
MsgBox("Výberový korelačný koeficient nemožno spočítať, menovateľ je
rovný 0","Chyba")
End
Else
r = (pom3 - numcas*mean1*mean2) / Sqrt((pom4 - numcas*mean1^2)*(pom5 -
numcas*mean2^2))
End If
T_0 = (stdev1^2-stdev2^2) / (2*stdev1*stdev2) * Sqrt((numcas-2)/(1-r^2))
If alt = 0 Then End
If alt = 1 Then
t1MinusAlphaPol = VStudent(1-alpha/2,numcas-2)
t_1 = t1MinusAlphaPol
pmen = IStudent(T_0,numcas-2) 'vypocet p-hodnoty
pvac = 1-IStudent(T_0,numcas-2)
If (pmen <= pvac) Then
pv = 2 * pmen
Else
pv = 2 * pvac
End If
ReDim Preserve A(8) As Double
A(1) = mean1
A(2) = mean2
A(3) = stdev1
A(4) = stdev2
A(5) = r
A(6) = T_0
A(7) = t_1
A(8) = pv
'Vysledna tabulka
Set Summary = Spreadsheets.New
PRÍLOHY 45
Summary.SetSize(1,8)
Summary.Header=SprHead
Summary.CaseName(1) = SprC1
Summary.AutoFitCase
Summary.VariableName(1) = SprV1
Summary.VariableName(2) = SprV2
Summary.VariableName(3) = SprV3
Summary.VariableName(4) = SprV4
Summary.VariableName(5) = SprV5
Summary.VariableName(6) = SprV6
Summary.VariableName(7) = SprV7
Summary.VariableName(8) = SprV10
Summary.Variable(1).ColumnWidth=0.6
Summary.Value(1,1) = A(1)
Summary.Variable(2).ColumnWidth=0.6
Summary.Value(1,2) = A(2)
Summary.Variable(3).ColumnWidth=0.7
Summary.Value(1,3) = A(3)
Summary.Variable(4).ColumnWidth=0.7
Summary.Value(1,4) = A(4)
Summary.Variable(5).ColumnWidth=0.95
Summary.Value(1,5) = A(5)
Summary.Variable(6).ColumnWidth=0.6
Summary.Value(1,6) = A(6)
Summary.Variable(7).ColumnWidth=1.2
Summary.Value(1,7) = A(7)
Summary.Variable(8).ColumnWidth=0.8
Summary.Value(1,8) = A(8)
'Ak je p-hodnota mensia alebo rovna ako zadana hladina vyznamnosti,
zamietame hypotézu o~zhode rozptylov a vsetko sa zobrazi na cerveno.
If (pv <= alpha) Then
For i = 1 To 8
Summary.Cells(1,i).Font.Color = RGB(255,0,0)
Next i
End If
Summary.Visible=True
End If
If alt = 2 Then
t1MinusAlpha = VStudent(1-alpha,numcas-2)
t_2 = t1MinusAlpha
PRÍLOHY 46
pv = IStudent(T_0,numcas-2) 'vypocet p-hodnoty
ReDim Preserve A(8) As Double
A(1) = mean1
A(2) = mean2
A(3) = stdev1
A(4) = stdev2
A(5) = r
A(6) = T_0
A(7) = -t_2
A(8) = pv
'Vysledna tabulka
Set Summary = Spreadsheets.New
Summary.SetSize(1,8)
Summary.Header=SprHead
Summary.CaseName(1) = SprC1
Summary.AutoFitCase
Summary.VariableName(1) = SprV1
Summary.VariableName(2) = SprV2
Summary.VariableName(3) = SprV3
Summary.VariableName(4) = SprV4
Summary.VariableName(5) = SprV5
Summary.VariableName(6) = SprV6
Summary.VariableName(7) = SprV8
Summary.VariableName(8) = SprV10
Summary.Variable(1).ColumnWidth=0.6
Summary.Value(1,1) = A(1)
Summary.Variable(2).ColumnWidth=0.6
Summary.Value(1,2) = A(2)
Summary.Variable(3).ColumnWidth=0.7
Summary.Value(1,3) = A(3)
Summary.Variable(4).ColumnWidth=0.7
Summary.Value(1,4) = A(4)
Summary.Variable(5).ColumnWidth=0.95
Summary.Value(1,5) = A(5)
Summary.Variable(6).ColumnWidth=0.6
Summary.Value(1,6) = A(6)
Summary.Variable(7).ColumnWidth=1.2
Summary.Value(1,7) = A(7)
Summary.Variable(8).ColumnWidth=0.8
Summary.Value(1,8) = A(8)
'Ak je p-hodnota mensia alebo rovna ako zadana hladina vyznamnosti,
PRÍLOHY 47
zamietame hypotézu o~zhode rozptylov a vsetko sa zobrazi na cerveno.
If (pv <= alpha) Then
For i = 1 To 8
Summary.Cells(1,i).Font.Color = RGB(255,0,0)
Next i
End If
Summary.Visible=True
End If
If alt = 3 Then
t1MinusAlpha = VStudent(1-alpha,numcas-2)
t_2 = t1MinusAlpha
pv = 1-IStudent(T_0,numcas-2) 'vypocet p-hodnoty
ReDim Preserve A(8) As Double
A(1) = mean1
A(2) = mean2
A(3) = stdev1
A(4) = stdev2
A(5) = r
A(6) = T_0
A(7) = t_2
A(8) = pv
'Vysledna tabulka
Set Summary = Spreadsheets.New
Summary.SetSize(1,8)
Summary.Header=SprHead
Summary.CaseName(1) = SprC1
Summary.AutoFitCase
Summary.VariableName(1) = SprV1
Summary.VariableName(2) = SprV2
Summary.VariableName(3) = SprV3
Summary.VariableName(4) = SprV4
Summary.VariableName(5) = SprV5
Summary.VariableName(6) = SprV6
Summary.VariableName(7) = SprV9
Summary.VariableName(8) = SprV10
Summary.Variable(1).ColumnWidth=0.6
Summary.Value(1,1) = A(1)
Summary.Variable(2).ColumnWidth=0.6
Summary.Value(1,2) = A(2)
Summary.Variable(3).ColumnWidth=0.7
Summary.Value(1,3) = A(3)
PRÍLOHY 48
Summary.Variable(4).ColumnWidth=0.7
Summary.Value(1,4) = A(4)
Summary.Variable(5).ColumnWidth=0.95
Summary.Value(1,5) = A(5)
Summary.Variable(6).ColumnWidth=0.6
Summary.Value(1,6) = A(6)
Summary.Variable(7).ColumnWidth=1.2
Summary.Value(1,7) = A(7)
Summary.Variable(8).ColumnWidth=0.8
Summary.Value(1,8) = A(8)
'Ak je p-hodnota mensia alebo rovna ako zadana hladina vyznamnosti,
zamietame hypotézu o~zhode rozptylov a vsetko sa zobrazi na cerveno.
If (pv <= alpha) Then
For i = 1 To 8
Summary.Cells(1,i).Font.Color = RGB(255,0,0)
Next i
End If
Summary.Visible=True
End If
End Sub