Masarykova Univerzita Přírodovědecká fakulta Testovanie hypotéz o parametroch polohy a variability v systéme STATISTICA Bakalárska práca Brno 2008 Stanislav Abaffy Prehlásenie Prehlasujem, že som bakalársku prácu vypracoval samostatne podľa pokynov vedúcej bakalárskej práce a všetky použité materiály sú uvedené v zozname literatúry. V Brne dňa ............... .......................... Stanislav Abaffy Poďakovanie Ďakujem vedúcej bakalárskej práce RNDr. Marii Budíkovej, Dr. za ústretovosť, cenné rady a odborné vedenie, ktoré mi poskytla pri spracovaní témy bakalárskej práce. Obsah Úvod 6 1 Testy hypotéz o parametroch jedného náhodného výberu 7 1.1 Testy s náhodným výberom pochádzajúcim z normálneho rozloženia . . . . 7 1.1.1 Jednovýberový t-test . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1.2 Test o rozptyle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.2 Testy s náhodným výberom nepochádzajúcim z normálneho rozloženia . . 9 1.2.1 Znamienkový test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2.2 Jednovýberový Wilcoxonov test . . . . . . . . . . . . . . . . . . . . 11 2 Testy hypotéz o parametroch dvojrozmerného náhodného výberu 14 2.1 Testy s náhodným výberom pochádzajúcim z dvojrozmerného normálneho rozloženia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.1.1 Párový t-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.1.2 Morgan-Pitmanov test . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2 Testy s náhodným výberom nepochádzajúcim z dvojrozmerného normálneho rozloženia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2.1 Párový znamienkový test . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2.2 Párový Wilcoxonov test . . . . . . . . . . . . . . . . . . . . . . . . 18 3 Testy hypotéz o parametroch 2 nezávislých náhodných výberov 20 3.1 Testy s náhodnými výbermi pochádzajúcimi z normálneho rozloženia . . . 20 3.1.1 Dvojvýberový t-test . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.1.2 F-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2 Testy s náhodnými výbermi nepochádzajúcimi z normálneho rozloženia . . 23 3.2.1 Dvojvýberový Wilcoxonov test . . . . . . . . . . . . . . . . . . . . . 23 3.2.2 Wald-Wolfowitzov test . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2.3 Dvojvýberový Kolmogorov-Smirnovov test . . . . . . . . . . . . . . 26 4 Testy homogenity rozptylov viacerých nezávislých náhodných výberov 29 4.1 Levenov test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.2 Brown-Forsythov test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4 OBSAH 5 Záver 33 Použitá literatúra 34 Prílohy 36 Úvod Testovanie hypotéz o parametroch polohy (stredná hodnota) a variability (rozptyl) je dôležitou súčasťou štatistiky, má široké využitie pri riešení praktických úloh v ľubovoľnej oblasti. Spočíva v zamietnutí, resp. nezamietnutí nulovej hypotézy, t.j. určitého predpokladu, ktorý si stanovíme dopredu bez akéhokoľvek ovplyvnenia základným súborom, teda nameranými hodnotami. V tejto práci sa čitateľoboznámi s najdôležitejšími testami s jedným, dvoma a viacerými náhodnými výbermi a ich vykonaním v štatistickom systéme STATISTICA s využitím rôznorodých príkladov. Vo výsledkoch testov vyriešených v tomto systéme je najpodstatnejšou hodnotou dosiahnutá hladina zodpovedajúcej testovej štatistiky, tzv. p-hodnota (anglicky P-value, significance value), čo je najmenšia hladina testu, pri ktorej by sme ešte nulovú hypotézu zamietli [7, str.6]. Dáta sa ešte môžu testovať pomocou diagnostických grafov a testov normality, avšak vzhľadom na rozsah práce som tieto testy vynechal. Práca je rozdelená do 4 kapitol, na konci sa nachádzajú ešte prílohy s 2 testami. Prvá kapitola sa venuje testom hypotéz s jedným jednorozmerným náhodným výberom vrátane najpoužívanejšieho z týchto testov - jednovýberového t-testu. Druhá sa zaoberá dvojrozmerným náhodným výberom, obsahuje okrem iného aj Morgan-Pitmanov test, ktorý je veľmi náročné nájsť, existuje malé množstvo publikácií, ktoré ho opisujú, z nich uvediem napríklad [1]. Tretia kapitola popisuje testy s dvoma náhodnými výbermi. Všetky tieto kapitoly sa členia na 2 časti podľa toho, či náhodný výber pochádza z normálneho rozloženia alebo nie. Vo štvrtej kapitole sú uvedené 2 testy s viacerými náhodnými výbermi - Levenov a Brown-Forsythov. V prílohách uvádzam mnou vytvorené zdrojové kódy testu o rozptyle a Morgan-Pitmanovho testu. 6 Kapitola 1 Testy hypotéz o parametroch jedného náhodného výberu 1.1 Testy s náhodným výberom pochádzajúcim z normálneho rozloženia 1.1.1 Jednovýberový t-test Definícia. Nech X1, . . . , Xn je náhodný výber z N(, 2 ), kde 2 nepoznáme. Nech n 2 a c je konštanta. Test H0 : = c proti H1 : = c (v prípade jednostranných alternatív H1 : < c alebo H1 : > c) sa nazýva jednovýberový t-test. Návod. Nulovú hypotézu H0 : = c proti H1 : = c (H1 : < c, H1 : > c) zamietame na hladine významnosti , ak: m - c s n t1-/2(n - 1) (1.1) resp. m - c s n -t1-(n - 1), resp. m - c s n t1-(n - 1) . (1.2) Príklad. Systematická chyba meracieho prístroja sa eliminuje jeho nastavením a meraním etalónu, ktorého správnou nameranou hodnotou je = 10, 00. Nezávislými meraniami za rovnakých podmienok boli získané hodnoty 10,24; 10,12; 9,91; 10,19; 9,78; 10,14; 9,86; 10,17 a 10,05, ktoré považujeme za realizácie náhodného výberu z N(, 2 ). Je možné pri riziku = 0, 05 vysvetliť odchýlky od hodnoty 10,00 náhodnými vplyvmi? Riešenie. m = 10, 0511, s = 0, 1627, na hladine významnosti = 0, 05 testujeme hypotézu 7 KAPITOLA 1. TESTY HYPOTÉZ O PARAMETROCH JEDNÉHO NÁHODNÉHO VÝBERU 8 H0 : = 10, 00 proti obojstrannej alternatíve H1 : = 10, 00. Testové kritérium m - c s n = 10, 0511 - 10 0,1627 9 = 0, 9426. Absolútnu hodnotu testového kritéria porovnáme s kvantilom t0,975(8) = 2, 3040. Keďže 0, 9426 2, 3040, nezamietame nulovú hypotézu na hladine významnosti 0,05 a teda odchýlky je možné vysvetliť iba náhodnými vplyvmi. Postup v programe STATISTICA. Vytvoríme dátový súbor o jednej premennej a 9 prípadoch a vložíme namerané hodnoty. V Basic Statistics/Tables vyberieme možnosť t-test, single sample, do Reference values zadáme hodnotu 10, danú zo zadania. V tabuľke, ktorá vznikne po otestovaní, nás zaujíma najmä p-hodnota testu, prípadne hodnota testovej štatistiky. Vidíme, že hodnota testovej štatistiky je t = 0, 942611 a p-hodnota testu p = 0, 37347. Pretože p-hodnota je väčšia ako hladina významnosti 0,05, nulovú hypotézu nemôžeme na tejto hladine zamietnuť. 1.1.2 Test o rozptyle Definícia. Nech X1, . . . , Xn je náhodný výber z N(, 2 ), kde nepoznáme. Nech n 2 a c je konštanta. Test H0 : 2 = c proti H1 : 2 = c (príp. H1 : 2 < c alebo H1 : 2 > c) sa nazýva test o rozptyle. Nulovú hypotézu H0 : 2 = c proti H1 : 2 = c (H1 : 2 < c, H1 : 2 > c) zamietame na hladine významnosti , ak: (n - 1)s2 c -, 2 /2(n - 1) 2 1-/2(n - 1), (1.3) resp. (n - 1)s2 c 2 (n - 1) alebo (n - 1)s2 c 2 1-(n - 1) . (1.4) Príklad. Do obchodu sú dodávané balíčky cukríkov, ktoré sú plnené automaticky. Automat bol skonštruovaný tak, aby smerodatná odchýlka hmotnosti balíčka činila 10 g. Predpokladáme, že hmotnosť automaticky plnených balíčkov je náhodná veličina s normálnym rozdelením. Chceme zistiť, či v priebehu času nedošlo k zhoršeniu presnosti pri plnení balíčkov (teda k zväčšeniu smerodatnej odchýlky ), ak bolo nameraných týchto 10 hodnôt: 489 473 507 498 492 477 488 503 482 491. KAPITOLA 1. TESTY HYPOTÉZ O PARAMETROCH JEDNÉHO NÁHODNÉHO VÝBERU 9 Riešenie. Testujeme hypotézu H0 : 2 = 100 proti pravostrannej alternatíve H1 : 2 > 100. m = 490, s = 10, 8218, testovým kritériom je (n-1)s2 c = 9.10,82182 100 = 10, 54, kvantil Pearsonovho rozloženia zistíme z tabuliek 2 1-(n-1) = 2 0,95(9) = 16, 919. Pretože 10, 54 < 16, 919, nulovú hypotézu nezamietame na hladine významnosti 0,05. Test nepreukázal zníženú presnosť hmotnosti pripravovaných balíčkov. Postup v programe STATISTICA. Vytvoríme dátový súbor o 1 premennej a 10 prípadoch, načítame namerané hodnoty. Tento test nie je implementovaný v systéme STATISTICA, preto som vytvoril makro testorozptyle.svb, ktoré nám tento test pomôže vyriešiť. Jeho zdrojový kód sa nachádza v prílohách na konci práce. Otvoríme ho klasickým spôsobom ako akýkoľvek dátový súbor a pomocou klávesy F5 ho spustíme. Postupne sme vyzvaní k výberu premennej, zvoleniu hladiny významnosti a výberu typu alternatívy. Vznikne nám nasledujúca tabuľka: Nájdeme v nej výberový priemer a výberovú smerodatnú odchýlku daného výberu, hodnotu testovej štatistiky K, 100(1-)% kvantil Pearsonovho rozloženia o n-1 stupňoch voľnosti a prislúchajúcu p-hodnotu. Keďže hodnota testovej štatistiky K je menšia ako príslušný kvantil, nulovú hypotézu o zhode rozptylu a danej konštanty nezamietame na danej hladine významnosti. To nám potvrdzuje aj p-hodnota p = 0, 30856 > hladina významnosti = 0, 05. 1.2 Testy s náhodným výberom nepochádzajúcim z normálneho rozloženia 1.2.1 Znamienkový test Nech X1, . . . , Xn je náhodný výber zo spojitého rozloženia so spojitou distribučnou funkciou (x). Nech x0,50 je medián tohto rozloženia, t.j. (x0,50) = 0, 5. Nech c je reálna konštanta. Testujeme hypotézu H0 : x0,50 = c proti obojstrannej alternatíve H1 : x0,50 = c (resp. proti ľavostrannej alternatíve H1 : x0,50 < c alebo pravostrannej alternatíve H1 : x0,50 > c). Návod. Vytvoríme rozdiely Yi = Xi - c, i = 1, . . ., n. Ak sú niektoré rozdiely nulové, potom za n berieme len počet nenulových hodnôt. Zavedieme štatistiku S+ Z , ktorá udáva počet kladných rozdielov. Ak platí H0, potom S+ Z Bi(n, 1/2), teda E(S+ Z ) = n/2, D(S+ Z ) = n/4. Kritický obor budú tvoriť hodnoty KAPITOLA 1. TESTY HYPOTÉZ O PARAMETROCH JEDNÉHO NÁHODNÉHO VÝBERU 10 testovej štatistiky S+ Z , ktoré sú blízke 0 alebo n, teda W = 0, k1 k2, n . Pre n 20 a = 0, 05 resp. 0, 01 sú tabelované kritické hodnoty k1, k2. H0 zamietame na hladine významnosti , keď S+ Z W. Pre veľké n (v tomto prípade n > 20) možno využiť asymptotickú normalitu štatistiky S+ Z . Ak platí nulová hypotéza H0, potom testová štatistika U0 = S+ Z - E(S+ Z ) D(S+ Z ) = S+ Z - n 2 n 4 N(0, 1). (1.5) Kritickým oborom pre obojstrannú alternatívu je W = (-, -u1-/2 u1-/2, ). (1.6) Analogicky pre jednostranné alternatívy. H0 zamietame na asympotickej hladine významnosti , ak U0 W. Poznámka. Aproximácia normálnym rozložením N(0, 1) sa zlepší, ak použijeme tzv. korekciu na nespojitosť. Testová štatistika U0 má potom tvar U0 = S+ Z - n 2 1 2 n 4 , (1.7) pričom 1 2 pričítame, keď S+ Z < n 2 , odpočítame v opačnom prípade. Príklad. Trinásť laboratórnych zvierat bolo od narodenia do 12 mesiacov veku k´rmených špeciálnou stravou. Prírastky ich hmotnosti (v gramoch) boli: 64, 69, 80, 66, 65, 77, 75, 67, 67, 68, 74, 70, 77. Môžeme z týchto hodnôt na hladine významnosti 0,05 usúdiť, že výsledky k´rmenia znamenajú v priemere prírastok váhy 70 g? Riešenie. Testujeme hypotézu H0 : x0,50 = 70 proti obojstrannej alternatíve H1 : x0,50 = 70. xi 64 69 80 66 65 77 75 67 67 68 74 70 77 xi - c -6 -1 10 -4 -5 7 5 -3 -3 -2 4 0 7 S+ Z = 5, počet nenulových rozdielov n = 12. V tabuľkách nájdeme pre n = 12, = 0, 05 kritické hodnoty 2 a 10 kritický obor W = 0, 2 10, 12 . Pretože S+ Z / W, nulovú hypotézu nezamietame na hladine významnosti 0,05. Preto môžeme usúdiť, že priemerný prírastok váhy bol 70 g. Postup v programe STATISTICA. Vytvoríme dátový súbor o 2 premenných a 13 prípadoch, prvá premenná obsahuje namerané hodnoty, druhá konštantu zo zadania. Postupujeme cez Statistics, v Nonparametrics vyberieme možnosť Comparing two dependent samples, zvolíme premenné a otestujeme pomocou Sign test. Vo výslednej tabuľke nás zaujíma najmä p-hodnota testu. KAPITOLA 1. TESTY HYPOTÉZ O PARAMETROCH JEDNÉHO NÁHODNÉHO VÝBERU 11 V tabuľke máme uvedené 4 hodnoty, a to počet nenulových rozdielov, ďalej percentuálne vyjadrenie počtu kladných rozdielov (58, 3 % z 12 = 7), hodnotu realizácie testovej štatistiky U0 (v tabuľke označená ako Z) a p-hodnotu. Vidíme, že p-hodnota = 0, 77283 je väčšia ako hladina významnosti 0,05, čo znamená, že nulovú hypotézu nemôžeme na tejto hladine zamietnuť. Druhou možnosťou by bolo porovnanie hodnoty testového kritéria, ktorá sa tiež v tabuľke nachádza, s príslušným kvantilom štandardizovaného normálneho rozloženia. Avšak v tomto prípade je vhodnejšie použiť kritické hodnoty z tabuliek, pretože rozsah výberu nesp´lňa podmienku asymptotickej normality štatistiky S+ Z , t.j. n > 20. 1.2.2 Jednovýberový Wilcoxonov test Nech X1, . . ., Xn je náhodný výber zo spojitého rozloženia s hustotou (x), ktorá je symetrická okolo mediánu x0,50, t.j. (x0,50 + x) = (x0,50 - x). Nech c je reálna konštanta. Testujeme hypotézu H0 : x0,50 = c proti obojstrannej alternatíve H1 : x0,50 = c (resp. proti ľavostrannej alternatíve H1 : x0,50 < c alebo pravostrannej alternatíve H1 : x0,50 > c). Návod. Vytvoríme rozdiely Yi = Xi - c, i = 1, . . ., n. Ak sú niektoré rozdiely nulové, potom za n berieme len počet nenulových hodnôt. Absolútne hodnoty |Yi| usporiadame vzostupne podľa veľkosti a spočítame poradie Ri. Zavedieme štatistiku S+ W = Yi>0 R+ i , čo je súčet poradí cez kladné hodnoty Yi, analogicky SW = Yi<0 Ri je súčet poradí cez záporné hodnoty Yi. Zároveň platí S+ W +SW = n(n+1)/2. Za platnosti nulovej hypotézy H0 má štatistika S+ W strednú hodnotu E(S+ W ) = n(n + 1)/4 a rozptyl D(S+ W ) = n(n + 1)(2n + 1)/24. H0 zamietame na hladine významnosti , ak je testová štatistika min(S+ W , SW ) (pre obojstrannú alternatívu), S+ W (pre ľavostrannú alternatívu), resp. SW (pre pravostrannú alternatívu) menšia alebo rovná tabelovanej kritickej hodnote. Pre veľké n (v tomto prípade n > 30) možno využiť asymptotickú normalitu štatistiky S+ W . V prípade platnosti H0 U0 = S+ W - E(S+ W ) D(S+ W ) = S+ Z - n(n+1) 4 n(n+1)(2n+1) 24 N(0, 1) (1.8) Kritickým oborom pre obojstrannú alternatívu je W = (-, -u1-/2 u1-/2, ). (1.9) KAPITOLA 1. TESTY HYPOTÉZ O PARAMETROCH JEDNÉHO NÁHODNÉHO VÝBERU 12 Analogicky pre jednostranné alternatívy. H0 zamietame na asympotickej hladine významnosti , ak U0 W. Poznámka. Jednovýberový Wilcoxonov test je silnejší ako znamienkový test, avšak je vhodný len pre náhodný výber zo symetrického rozloženia. Príklad. Americkí vedci skúmali mladých ľudí, ktorí opustili školu v 16 rokoch a začali pracovať. Zistili, že ich priemerný výsledok určitého testu bol 60 bodov. Potom zadali rovnaký test náhodnému výberu ľudí, ktorí študujú i po svojich 16 rokoch a zistili nasledujúce hodnoty: 72 62 52 57 91 78 74 67 51 62 84 59 51 57 89 64 80 72 92 64 57. Môžeme na základe tohto výberu a na hladine významnosti = 0, 05 tvrdiť, že ľudia študujúci po svojich šestnástich narodeninách majú lepší výsledok v tomto teste? Riešenie. Testujeme hypotézu H0 : x0,50 = 60 proti pravostrannej alternatíve H1 : x0,50 > 60. xi 72 62 52 57 78 74 67 51 62 84 59 51 57 89 xi - c 12 2 -8 -3 18 14 7 -9 2 24 -1 -9 -3 29 |xi - c| 12 2 8 3 18 14 7 9 2 24 1 9 3 29 Poradie 13,5 2,5 10 5 16 15 9 11,5 2,5 18 1 11,5 5 19 xi 64 80 72 92 64 57 xi - c 4 20 12 32 4 -3 |xi - c| 4 20 12 32 4 3 poradie 7,5 17 13,5 20 7,5 5 S+ W = 161, SW = 49, počet nenulových rozdielov n = 20. V štatistických tabuľkách pre n = 20, = 0, 05 je kritická hodnota rovná 149. Hodnota testovej štatistiky pre pravostrannú alternatívu SW = 49 61, preto nulovú hypotézu zamietame na hladine významnosti 0,05, a teda z toho môžeme vyvodiť záver, že ľudia študujúci aj po svojich 16. narodeninách majú lepší výsledok v teste. Postup v programe STATISTICA. Vytvoríme dátový súbor o 2 premenných a 20 prípadoch, do prvej premennej zadáme namerané hodnoty, do druhej konštantu 60 zo zadania. Postupujeme cez Statistics - Nonparametrics - Comparing two dependent samples. Zvolíme premenné a pomocou Wilcoxon matched pairs test tento test vykonáme. Vznikne nám nasledujúca tabuľka: V tomto príklade počítame s jednostrannou alternatívou, systém STATISTICA udáva vo výslednej tabuľke p-hodnotu pre obojstranný test, a teda min(S+ W , SW ) ako hodnotu testovej štatistiky. Jednostranné testy nie sú implementované, preto môže byť p-hodnota aj hodnota testovej štatistiky odlišná od tej, ktorú očakávame. V našom prípade je teda KAPITOLA 1. TESTY HYPOTÉZ O PARAMETROCH JEDNÉHO NÁHODNÉHO VÝBERU 13 vhodnejšie použiť ručný výpočet. Pre obojstrannú alternatívu by sme nulovú hypotézu zamietli na hladine významnosti 0,05. Kapitola 2 Testy hypotéz o parametroch dvojrozmerného náhodného výberu 2.1 Testy s náhodným výberom pochádzajúcim z dvojrozmerného normálneho rozloženia 2.1.1 Párový t-test Definícia. Nech X1 Y1 , . . . , Xn Yn je náhodný výber z rozloženia N2 1 2 , 2 1 12 12 2 2 , pričom n 2. Označíme = 1 - 2 a zavedieme rozdielový náhodný výber Z1 = X1 - Y1, . . . , Zn = Xn - Yn. (2.1) Odtiaľ M = 1 n n i=1 Zi, S2 = 1 n-1 n i=1 (Zi - M)2 . Testujeme H0 : 1 - 2 = 0 (čiže = 0) proti H1 : 1 - 2 = 0 (čiže = 0), prípadne proti jednostranným alternatívam H1 : 1 - 2 < 0 alebo H1 : 1 - 2 > 0. Ďalej už postupujeme ako pri jednovýberovom t-teste. Príklad. Nakoľko ovplyvňuje zaujímavé prostredie skutočný fyzický rozvoj mozgu? Pre rozriešenie tejto otázky, zatiaľ aspoň pre pokusné krysy, podnikol v roku 1964 Rosenzweig pokusy s 10 vrhmi čistokrvných laboratorných krýs. Z každého vrhu bola vždy jedna krysa vybraná do pokusnej skupiny a jedna do kontrolnej skupiny. Obe skupiny boli potom chované v úplne rovnakých podmienkach iba s výnimkou, že pokusné krysy žili pohromade v teráriu s mnohými zaujímavými hračkami, kdežto krysy z kontrolnej skupiny žili v totálnej izolácii. Po mesiaci boli krysy zabité a ich mozgová kôra (najvyvinutejšia časť mozgu) zvážená s nasledujúcimi výsledkami (v centigramoch) pre 10 párov: Vrh 1 2 3 4 5 6 7 8 9 10 Pokus 68 65 66 66 67 66 66 64 69 63 Kontrola 65 62 64 65 65 64 59 63 65 58 14 KAPITOLA 2. TESTY HYPOTÉZ O PARAMETROCH DVOJROZMERNÉHO NÁHODNÉHO VÝBERU 15 Riešenie. Označme = 1 - 2, testujeme hypotézu H0 : = 0 proti obojstrannej alternatíve H1 : = 0. Vypočítame m = 2, 7, s = 1, 3375 a testové kritérium t0 = m- s n = 6, 38. Absolútnu hodnotu testového kritéria porovnáme s kvantilom t0,975(9) = 2, 2622. Pretože 6, 38 2, 2622, zamietame nulovú hypotézu na hladine významnosti 0,05, teda s rizikom omylu najviac 5 % môžeme tvrdiť, že zaujímavé prostredie ovplyvňuje fyzický vývoj mozgu. Postup v programe STATISTICA. Vytvoríme dátový súbor o 2 premenných a 10 prípadoch, do prvej premennej zadáme namerané hodnoty pokusnej skupiny, do druhej hodnoty kontrolnej skupiny. Postupujeme cez Statistics - Basic Statistics/Tables - t-test, dependent samples. Zvolíme premenné a pomocou Summary: T-tests tento test vykonáme. Vznikne nám nasledujúca tabuľka: V tabuľke nás zaujíma predovšetkým p-hodnota, ktorá je veľmi blízka nule a menšia než 0,05, preto zamietame nulovú hypotézu. Vidíme, že by sme ju zamietli aj pri oveľa nižšej hladine významnosti. 2.1.2 Morgan-Pitmanov test Definícia. Nech X1 Y1 , . . ., Xn Yn je náhodný výber z rozloženia N2 1 2 , 2 1 12 12 2 2 . Nech 2 1 > 0, 2 2 > 0, (-1, 1) (12 = 12) a n 3. Test hypotézy H0 : 2 1 = 2 2 proti H1 : 2 1 = 2 2 (resp. proti jednostranným alternatívam H1 : 2 1 < 2 2 či H1 : 2 1 > 2 2) sa nazýva Morgan-Pitmanov test. Návod. Postupne označíme M1 = 1 n n i=1 Xi, M2 = 1 n n i=1 Yi S2 1 = 1 n - 1 n i=1 (Xi - M1)2 , S2 2 = 1 n - 1 n i=1 (Yi - M2)2 . Vypočítame výberový korelačný koeficient R = n i=1 XiYi - nM1M2 ( n i=1 X2 i - nM2 1 )( n i=1 Y 2 i - nM2 2 ) (2.2) KAPITOLA 2. TESTY HYPOTÉZ O PARAMETROCH DVOJROZMERNÉHO NÁHODNÉHO VÝBERU 16 a následne testovú štatistiku T0 položíme rovnú T0 = S2 1 - S2 2 2S1S2 n - 2 1 - R2 (2.3) Nulovú hypotézu H0 zamietame v prípade, že |T0| t1-/2(n-2), resp. T0 -t1-(n-2) a T0 t1-(n - 2) pri jednostranných alternatívach. Príklad. U 10 vzorkov železnej rudy bol stanovovaný obsah železa. Použili sa pritom 2 metódy. Jedna z nich je klasická a jej výsledky sú označené Xi. Druhá z nich je nová, jej výsledkami sú Yi. Máme porovnať rozptyly oboch metód na základe uvedených dát. Xi 36,1 40,6 35,0 39,3 31,2 38,6 31,8 36,1 36,9 35,2 Yi 35,2 49,6 38,3 48,6 27,6 39,9 28,5 37,3 35,8 34,3 Riešenie. Najskôr si vypočítame výberové priemery a smerodatné odchýlky dvojrozmerného výberu. Zistíme, že m1 = 36, 08, m2 = 37, 51, s1 = 3, 0165, s2 = 7, 2533. Hodnota výberového korelačného koeficientu činí r = 0, 9335, hodnota testovej štatistiky t0 = -7, 8426, kvantil Studentovho rozloženia t0,975(8) = 2, 306. Keď porovnáme absolútnu hodnotu testovej štatistiky s kvantilom, vidíme, že 7, 8426 2, 306, teda zamietame nulovú hypotézu o zhode rozptylov daného dvojrozmerného výberu. Poznámka. Tento príklad je riešený v [1, str.79], vyskytla sa tam však chyba pri výpočte hodnoty výberového korelačného koeficientu, preto na tomto mieste uvádzam správne riešenie. Postup v programe STATISTICA. Tento test nie je implementovaný v systéme STATISTICA, preto je na riešenie použité makro MorganPitman.svb, zdrojový kód je uvedený v prílohách na konci práce. Vytvoríme dátový súbor o 2 premenných a 10 prípadoch. Do prvej premennej načítame výsledky klasickej metódy, do druhej výsledky novej metódy. Otvoríme makro, spustíme ho pomocou klávesy F5. Po zadaní premenných, hladiny významnosti a typu alternatívy nám vznikne nasledujúca tabuľka: V tabuľke máme možnosť vidieť výberové priemery a výberové smerodatné odchýlky oboch výberov, hodnotu výberového korelačného koeficientu, hodnotu testovej štatistiky t0 = -7, 84259, kvantil Studentovho rozloženia t0,975(8) = 2, 306 a prislúchajúcu p-hodnotu. Absolútna hodnota testového kritéria je väčšia ako kvantil, preto nulovú hypotézu o zhode rozptylov zamietame na hladine významnosti 0,05. Zamietnutie nulovej hypotézy nám potvrdzuje aj p-hodnota p = 0, 00005, ktorá je oveľa menšia ako zvolená hladina významnosti 0,05. KAPITOLA 2. TESTY HYPOTÉZ O PARAMETROCH DVOJROZMERNÉHO NÁHODNÉHO VÝBERU 17 2.2 Testy s náhodným výberom nepochádzajúcim z dvojrozmerného normálneho rozloženia 2.2.1 Párový znamienkový test Nech (X1, Y1), . . ., (Xn, Yn) je náhodný výber zo spojitého dvojrozmerného rozloženia. Nech x0,50 a y0,50 sú mediány tohto rozloženia, t.j. (x0,50) = 0, 5, resp. (y0,50) = 0, 5. Nech c je reálna konštanta. Testujeme hypotézu H0 : x0,50 - y0,50 = c proti H1 : x0,50 - y0,50 = c (resp. proti ľavostrannej alternatíve H1 : x0,50 - y0,50 < c alebo pravostrannej alternatíve H1 : x0,50 - y0,50 > c). Návod. Vytvoríme rozdiely Zi = Xi - Yi, i = 1, . . . , n a testujeme hypotézu o mediáne H0 : z0,50 = c proti H1 : z0,50 = c, resp. H1 : z0,50 < c alebo H1 : z0,50 > c. Zavedieme štatistiku S+ Z , ktorá udáva počet kladných rozdielov. Kritický obor budú tvoriť hodnoty testovej štatistiky S+ Z , ktoré sú blízke 0 alebo n, teda W = 0, k1 k2, n . Pre n 20 a = 0, 05 resp. 0, 01 sú tabelované kritické hodnoty k1, k2. H0 zamietame na hladine významnosti , keď S+ Z W. Pre veľké n > 20 postupujeme podobne ako pri znamienkovom teste. Príklad. Pre overenie účinnosti dvoch pracích prostriedkov bol vykonaný nasledujúci experiment. 12 rôzne špinavých kusov látky bolo rozpolených. Pre prvú polovicu látok bol vyskúšaný jeden prací prostriedok a pre druhú polovicu druhý. Po usušení boli vyprané vzorky ohodnotené stupnicou do 10 bodov podľa kvality vyprania. Výsledky testu sú v nasledujúcej tabuľke: Číslo kusu 1 2 3 4 5 6 7 8 9 10 11 12 Body po použití 1. prostr. 9 8 7 9 7 7 7 8 7 9 7 8 Body po použití 2. prostr. 8 10 8 8 9 9 8 10 9 9 8 9 Môžeme tvrdiť na 5 % hladine významnosti, že medián rozdielov bodov nie je nulový? Riešenie. Všetky rozdiely si prehľadne zapíšeme do tabuľky: Číslo kusu 1 2 3 4 5 6 7 8 9 10 11 12 Body po použití 1. prostr. 9 8 7 9 7 7 7 8 7 9 7 8 Body po použití 2. prostr. 8 10 8 8 9 9 8 10 9 9 8 9 2. - 1. -1 2 1 -1 2 2 1 2 2 0 1 1 2. - 1. - c -1 2 1 -1 2 2 1 2 2 0 1 1 Testová štatistika S+ Z nadobúda hodnotu 9, počet nenulových rozdielov je 11. V štatistických tabuľkách pre n = 11, = 0, 05 nájdeme kritické hodnoty k1 = 1, k2 = 10. Kritickým oborom je teda W = 0, 1 10, 11 . S+ Z / W, nezamietame nulovú hypotézu, nepreukázali sme výrazné rozdiely medzi mediánmi rozdielov oboch metód. KAPITOLA 2. TESTY HYPOTÉZ O PARAMETROCH DVOJROZMERNÉHO NÁHODNÉHO VÝBERU 18 Postup v programe STATISTICA. Vytvoríme dátový súbor o 2 premenných a 12 prípadoch. Prvá premenná obsahuje body po použití 1. prostriedku, druhá premenná body po použití 2. prostriedku. Ďalej postupujeme cez Statistics - Nonparametrics - Comparing two dependent samples, zvolíme premenné a otestujeme pomocou Sign test. Vo výslednej tabuľke nás zaujíma predovšetkým p-hodnota testu. V tabuľke máme uvedené 4 hodnoty: počet nenulových rozdielov, percentuálne vyjadrenie počtu kladných rozdielov (81, 81 % z 11 = 9), hodnotu realizácie testovej štatistiky U0 (v tabuľke označená ako Z) a p-hodnotu. Vidíme, že p-hodnota = 0, 070440 je väčšia ako hladina významnosti 0,05, čo znamená, že nulovú hypotézu nemôžeme na tejto hladine zamietnuť. Druhou možnosťou by bolo porovnanie hodnoty testovej štatistiky s príslušným kvantilom štandardizovaného normálneho rozloženia. Podobne ako pri znamienkovom teste je vhodnejšie použiť kritické hodnoty z tabuliek, pretože rozsah výberu nesp´lňa podmienku asymptotickej normality štatistiky S+ Z , t.j. n > 20. 2.2.2 Párový Wilcoxonov test Nech (X1, Y1), . . . , (Xn, Yn) je náhodný výber zo spojitého rozloženia. Nech c je reálna konštanta. Testujeme hypotézu H0 : x0,50 - y0,50 = c proti obojstrannej alternatíve H1 : x0,50 - y0,50 = c (resp. proti ľavostrannej alternatíve H1 : x0,50 - y0,50 < c alebo pravostrannej alternatíve H1 : x0,50 - y0,50 > c). Návod. Vytvoríme rozdiely Zi = Xi - Yi, i = 1, . . . , n. Za n berieme len počet nenulových rozdielov. Absolútne hodnoty |Zi| usporiadame vzostupne podľa veľkosti a spočítame poradie Ri. Ďalej postupujeme podobne ako pri jednovýberovom Wilcoxonovom teste. Príklad. Zoberme si rovnaký príklad ako pri párovom znamienkovom teste, aby sme dokázali, že párový Wilcoxonov test je silnejší. Riešenie. Číslo kusu 1 2 3 4 5 6 7 8 9 10 11 12 Body po použití 1. prostr. 9 8 7 9 7 7 7 8 7 9 7 8 Body po použití 2. prostr. 8 10 8 8 9 9 8 10 9 9 8 9 2. - 1. -1 2 1 -1 2 2 1 2 2 0 1 1 |2. - 1. - c| 1 2 1 1 2 2 1 2 2 0 1 1 Poradie 3,5 9 3,5 3,5 9 9 3,5 9 9 - 3,5 3,5 KAPITOLA 2. TESTY HYPOTÉZ O PARAMETROCH DVOJROZMERNÉHO NÁHODNÉHO VÝBERU 19 S+ W = 59, SW = 7, n = 11, = 0, 05. Kritická hodnota z tabuliek = 10, testová štatistika je rovná min(59, 7) = 7. Pretože hodnota testovej štatistiky je menšia ako kritická hodnota, zamietame nulovú hypotézu na hladine významnosti 0,05. Vidíme, že Wilcoxonov test nám zamietol hypotézu o rovnosti mediánov, je preto silnejší ako znamienkový. Postup v programe STATISTICA. Vytvoríme dátový súbor o 2 premenných a 12 prípadoch, do prvej premennej zadáme body po použití 1. prostriedku, do druhej body po použití druhého prostriedku. Postupujeme cez Statistics - Nonparametrics - Comparing two dependent samples. Zvolíme premenné a pomocou Wilcoxon matched pairs test tento test vykonáme. Vznikne nám nasledujúca tabuľka: Je to ten istý typ tabuľky ako pri jednovýberovom Wilcoxonovom teste, premenná T udáva hodnotu testovej štatistiky, teda min(S+ W , SW ), premenná Z reprezentuje asymptotickú testovú štatistiku U0 (použiteľná pri väčších výberoch) a ako posledná je daná zodpovedajúca p-hodnota. Keďže je menšia ako hladina významnosti 0,05, nulovú hypotézu o rovnosti mediánov zamietame. Kapitola 3 Testy hypotéz o parametroch 2 nezávislých náhodných výberov 3.1 Testy s náhodnými výbermi pochádzajúcimi z normálneho rozloženia 3.1.1 Dvojvýberový t-test Definícia. Nech X11, . . . , X1n1 je náhodný výber pochádzajúci z rozloženia N(1, 2 ), X21, . . ., X2n2 je na ňom nezávislý náhodný výber z rozloženia N(2, 2 ), pričom n1 2 a n2 2. Nech c je konštanta. Test H0 : 1 -2 = c proti H1 : 1 -2 = c, resp. proti jednostranným alternatívam H1 : 1 - 2 < c alebo H1 : 1 - 2 > c, sa nazýva dvojvýberový t-test. Návod. Nulovú hypotézu H0 : 1 - 2 = c proti H1 : 1 - 2 = c zamietame na hladine významnosti , ak: m1 - m2 - c s 1 n1 + 1 n2 t1-/2(n1 + n2 - 2) (3.1) Pri jednostranných alternatívach m1 - m2 - c s 1 n1 + 1 n2 -t1-(n1 + n2 - 2), resp. m1 - m2 - c s 1 n1 + 1 n2 t1-(n1 + n2 - 2). (3.2) Poznámka. V prípade, že nie je splnený predpoklad o rovnosti rozptylov, možno zostrojiť aspoň 100(1 - )% interval spoľahlivosti pre 1 - 2. V tomto prípade má štatistika T = 1 - 2 - c S2 1 n1 + S2 2 n2 20 KAPITOLA 3. TESTY HYPOTÉZ O PARAMETROCH 2 NEZÁVISLÝCH NÁHODNÝCH VÝBEROV 21 približne rozloženie t(), kde počet stupňov voľnosti je daný vzťahom1 = (s2 1/n1 + s2 2/n2) 2 (s2 1/n1) 2 n1-1 + (s2 2/n2) 2 n2-1 . Ak nie je celé číslo, použijeme v tabuľkách kvantilov Studentovho rozloženia lineárnu interpoláciu. Poznámka. Možno sa stretnúť ešte s inou variantou, napr. v [10, str.392] alebo [12, str.84]: = (s2 1/n1 + s2 2/n2) 2 (s2 1/n1) 2 n1+1 + (s2 2/n2) 2 n2+1 - 2 Príklad. Sú analyzované 2 katalyzátory, aby sa zistilo, ako ovplyvňujú priemerný výnos chemického procesu. Katalyzátor 1 je momentálne v prevádzke, katalyzátor 2 je k dispozícii. Vzhľadom na to, že je lacnejší, mal by byť zavedený, za predpokladu, že nezmení výnos procesu. Výsledky testu sú uvedené v nasledujúcej tabuľke. Rastlina 1 2 3 4 5 6 7 8 Katalyzátor 1 91,5 94,18 92,18 95,39 91,79 89,07 94,72 89,21 Katalyzátor 2 89,19 90,95 90,46 93,21 97,19 97,04 91,07 92,75 Je nejaký rozdiel medzi priemernými výnosmi po použití katalyzátorov? Predpokladajme rovnosť rozptylov a hladinu významnosti = 0, 05. Riešenie. Testujeme H0 : 1-2 = 0 proti H1 : 1-2 = 0. Vypočítame m1 = 92, 255, m2 = 92, 7325, s1 = 2, 385, s2 = 2, 98345. Pretože predpokladáme rovnosť rozptylov 2 1 = 2 2, za ich odhad vezmeme vážený priemer výberových rozptylov s2 = (n1-1)s2 1+(n2-1)s2 2 n1+n2-2 = 7, 2947, teda s = 2, 70086. Testové kritérium t0 = m1 - m2 - c s 1 n1 + 1 n2 = 92, 255 - 92, 7325 - 0 2, 70086 1 8 + 1 8 = -0, 3536 Absolútnu hodnotu testového kritéria porovnáme s kvantilom t0,975(14) = 2, 1448. Pretože 0, 3536 < 2, 1448, nulovú hypotézu nezamietame na hladine významnosti 0,05. Teda medzi priemernými výnosmi po použití katalyzátorov nie je významný rozdiel, druhý katalyzátor môže byť zavedený. Postup v programe STATISTICA. Vytvoríme dátový súbor o 2 premenných a 8 prípadoch. Hodnoty namerané po použití prvého katalyzátora tvoria prvky prvej premennej, hodnoty namerané po použití druhého katalyzátora sú obsiahnuté v druhej premennej. Postupujeme cez Statistics - Basic Statistics/Tables - t-test, independent, by variables. Zvolíme premenné a pomocou Summary: T-tests vykonáme test. Vznikne nasledujúca tabuľka: 1 napr. podľa [3, str.86] alebo [6, str.87] KAPITOLA 3. TESTY HYPOTÉZ O PARAMETROCH 2 NEZÁVISLÝCH NÁHODNÝCH VÝBEROV 22 V nej nás zaujíma hodnota testového kritéria t0 = -0, 353591, prislúchajúca p-hodnota p = 0, 728914 je väčšia než hladina významnosti 0,05, nulovú hypotézu nezamietame. 3.1.2 F-test Definícia. Nech X11, . . . , X1n1 je náhodný výber pochádzajúci z rozloženia N(1, 2 1), X21, . . ., X2n2 je na ňom nezávislý náhodný výber z rozloženia N(2, 2 2), pričom n1 2, n2 2. Nech c je konštanta. Test H0 : 2 1 2 2 = 1 proti H1 : 2 1 2 2 = 1, resp. proti jednostranným alternatívam H1 : 2 1 2 2 < 1 alebo H1 : 2 1 2 2 > 1 sa nazýva F-test. Návod. Hypotézu H0 : 2 1 2 2 = 1 proti H1 : 2 1 2 2 = 1 (resp. H1 : 2 1 2 2 < 1 alebo H1 : 2 1 2 2 > 1) zamietame na hladine významnosti , ak s2 1 s2 2 0, F/2(n1 - 1, n2 - 1) F1-/2(n1 - 1, n2 - 1), (3.3) resp. s2 1 s2 2 0, F(n1 - 1, n2 - 1) alebo s2 1 s2 2 F1-(n1 - 1, n2 - 1), . (3.4) Príklad. Máme k dispozícii dva výberové súbory nameraných údajov rozmeru odliatku v mm. Výberový súbor č.1: 3,7 3,6 4,0 3,8 4,0 3,2 3,7 4,0 3,5 4,1. Výberový súbor č.2: 3,9 4,6 3,9 4,9 4,7 3,7 4,8 5,5. Máme otestovať, či tieto výberové súbory pochádzajú z rovnakého základného súboru. Riešenie. Testujeme teda hypotézu o zhode rozptylov H0 : 2 1 2 2 = 1 proti alternatíve H1 : 2 1 2 2 = 1. Určíme si výberové smerodatné odchýlky s1 = 0, 2797, s2 = 0, 6164. Testovým kritériom je podiel s2 1 s2 2 = 0,27972 0,61642 = 0,0782 0,38 = 0, 2058. K riešeniu úlohy potrebujeme ešte kvantily FisherSnedecorovho rozloženia F0,025(9, 7) = 0, 2383 a F0,975(9, 7) = 4, 8232. Pretože hodnota testového kritéria 0, 2058 0; 0, 2383 4, 8232, , zamietame nulovú hypotézu o zhode rozptylov. Postup v programe STATISTICA. Vytvoríme dátový súbor o 2 premenných a 10 prípadoch. Hodnoty výberového súboru č.1 budú zahrnuté v prvej premennej, hodnoty súboru č.2 v druhej premennej. Postupujeme cez Statistics - Basic Statistics/Tables - t-test, independent, by variables. Zvolíme premenné a pomocou Summary: T-tests vykonáme test. Vznikne nasledujúca tabuľka: KAPITOLA 3. TESTY HYPOTÉZ O PARAMETROCH 2 NEZÁVISLÝCH NÁHODNÝCH VÝBEROV 23 Zaujíma nás hlavne hodnota testovej štatistiky F-testu, v tomto prípade 4,857955, a príslušná p-hodnota 0, 031882 0, 05, nulovú hypotézu zamietame na hladine významnosti 0,05. Hodnota testovej štatistiky sa líši oproti ručnému výpočtu z dôvodu, že systém STATISTICA berie pri podiele s2 1 s2 2 za s2 1 vždy väčšiu z hodnôt výberových smerodatných odchýlok, teda tieto výsledky sú si navzájom prevrátené hodnoty. Pri prevrátení smerodatných odchýlok prichádza aj k menšej korekcii kritického oboru, v kvantile dochádza k prevráteniu stupňov voľnosti, t.j. namiesto F0,975(9, 7) počítame s F0,975(7, 9) a namiesto F0,025(9, 7) počítame s F0,025(7, 9). 3.2 Testy s náhodnými výbermi nepochádzajúcimi z normálneho rozloženia 3.2.1 Dvojvýberový Wilcoxonov test Nech X1, . . . , Xn a Y1, . . . , Ym sú 2 nezávislé náhodné výbery z dvoch spojitých rozložení, ktorých distribučné funkcie sa môžu líšiť len posunutím. Označme x0,50 medián prvého rozloženia a y0,50 medián druhého rozloženia. Testujeme hypotézu o rovnosti distribučných funkcií oboch rozložení H0 : (x) = (y) alebo o rovnosti mediánov H0 : x0,50 = y0,50 proti alternatíve ich nerovnosti H1 : (x) = (y), resp. H1 : x0,50 = y0,50. Návod. Všetkých n+m hodnôt X1, . . ., Xn a Y1, . . ., Ym usporiadame vzostupne podľa veľkosti. Súčet poradí X1, . . . , Xn označme T1, súčet poradí Y1, . . . , Ym označme T2. Určíme štatistiky U1 = mn + n(n + 1)/2 - T1 a U2 = mn + m(m + 1)/2 - T2. Platí rovnosť U1 + U2 = mn, ktorá sa dá jednoducho dokázať. Nulovú hypotézu zamietame na hladine významnosti , ak min(U1, U2) tabelovaná kritická hodnota pre dané m, n a . Pre veľké hodnoty n, m (n, m > 30) sa využíva asymptotická normalita štatistiky U1. V prípade platnosti nulovej hypotézy platí U0 = U1 - mn 2 mn(m+n+1) 12 (3.5) Kritickým oborom pre obojstrannú alternatívu je W = (-, -u1-/2 u1-/2, ). (3.6) Analogicky pre jednostranné alternatívy. H0 zamietame na asympotickej hladine významnosti , ak U0 W. KAPITOLA 3. TESTY HYPOTÉZ O PARAMETROCH 2 NEZÁVISLÝCH NÁHODNÝCH VÝBEROV 24 Príklad. Majiteľ obchodu chcel zistiť, či veľkosti nákupov v USD platených kreditnými kartami MasterCard a Visa sú v priemere rovnaké. Náhodne vybral 7 nákupov platených MasterCard a 9 platených Visou. MasterCard 42 77 46 73 78 33 37 Visa 39 10 119 68 76 126 53 79 102 Môžeme na hladine významnosti 5 % tvrdiť, že mediány nákupov platených týmito dvoma kartami sa zhodujú? Riešenie. Všetky hodnoty si usporiadame do tabuľky vzostupne podľa veľkosti a určíme ich poradie vzhľadom na zjednotenie oboch výberov. usporiadané hodnoty 10 33 37 39 42 46 53 68 73 76 77 78 79 102 poradie MasterCard - 2 3 - 5 6 - - 9 - 11 12 - poradie Visa 1 - - 4 - - 7 8 - 10 - - 13 14 usporiadané hodnoty 119 126 poradie MasterCard - poradie Visa 15 16 T1 = 2 + 3 + 5 + 6 + 9 + 11 + 12 = 48, T2 = 1 + 4 + 7 + 8 + 10 + 13 + 14 + 15 + 16 = 88 U1 = 7.9 + 7.8/2 - 48 = 43, U2 = 7.9 + 9.10/2 - 88 = 20 Kritická hodnota pre = 0, 05, n = 7 a m = 9 je 12. Pretože min(43, 20) = 20 > 12, môžeme s 5 % rizikom omylu tvrdiť, že mediány nákupov platených kartami MasterCard a Visa sa zhodujú. Postup v programe STATISTICA. Vytvoríme dátový súbor o 2 premenných a 16 prípadoch, do prvej premennej načítame v ľubovoľnom poradí prvky oboch výberov, druhá premenná obsahuje hodnoty 1 alebo 2 v závislosti od príslušnosti daného prvku k prvému alebo druhému náhodnému výberu. K testu sa dostaneme cez Statistics - Nonparametrics - Comparing two independent samples (groups), zadáme premenné, ako závislú zvolíme premennú 1 s nameranými hodnotami, ako grupujúcu premennú 2 s indexami oboch výberov. Test vykonáme pomocou Mann-Whitney U Test. V tabuľke nájdeme súčty T1 a T2, hodnotu testovej štatistiky min(U1, U2) označenú ako U, hodnotu asymptotickej testovej štatistiky U0 (označená Z), p-hodnotu príslušnú tejto štatistike, ale nás zaujíma predovšetkým p-hodnota označená 2*1 one sided exact p, ktorá sa používa pre rozsahy náhodných výberov menšie ako 30. Keďže je väčšia ako hladina významnosti = 0, 05, nulovú hypotézu nezamietame. KAPITOLA 3. TESTY HYPOTÉZ O PARAMETROCH 2 NEZÁVISLÝCH NÁHODNÝCH VÝBEROV 25 3.2.2 Wald-Wolfowitzov test Nech X1, . . . , Xn a Y1, . . . , Ym sú 2 nezávislé náhodné výbery z dvoch spojitých rozložení. Testujeme hypotézu, že oba výbery pochádzajú z rovnakého rozloženia proti alternatíve, že pochádzajú z 2 rôznych rozložení. Návod. Všetkých n+m hodnôt X1, . . ., Xn a Y1, . . ., Ym usporiadame vzostupne podľa veľkosti. Testovou hypotézou je počet iterácií R, tzn. počet postupností za sebou nasledujúcich hodnôt patriacich do toho istého výberu. Ak je R tabelovaná kritická hodnota pre dané n, m a , H0 zamietame na hladine významnosti . Pre rozsahy výberov n, m > 20 možno využiť asymptotickú normalitu štatistiky R. V tomto prípade sa platnosť nulovej hypotézy overuje pomocou testovej štatistiky U0 = R - E(R) D(R) , (3.7) ktorá má pri platnosti H0 asympotické rozloženie N(0, 1), t.j. U0 N(0, 1). Pritom platí E(R) = 2nm n + m + 1 (3.8) D(R) = 2nm(2nm - n - m) (n + m)2(n + m - 1) (3.9) Nulovú hypotézu zamietame na asymptotickej hladine významnosti , ak |U0| u1-/2. Príklad. Pre nasledujúce náhodné výbery z dvoch populácií použime 5% hladinu významnosti a testujme hypotézu H0 : x0,50 = y0,50 proti H1 : x0,50 = y0,50. Výber 1 40 34 53 28 41 Výber 2 29 31 52 29 20 31 26 Riešenie. Všetky hodnoty si vzostupne usporiadame podľa veľkosti, ku každej určíme výber, z ktorého pochádza a zistíme počet iterácií. Prehľadnejšie je zapísať všetko do tabuľky: Usp.hodn. 20 26 28 29 29 31 31 34 40 41 52 53 Č.výb. 2 2 1 2 2 2 2 1 1 1 2 1 Č.iter. 1 2 3 4 5 6 Počet iterácií: R = 6, n = 5, m = 7, = 0, 05. Vzhľadom na to, že nebolo možné zo žiadneho zdroja získať kritické hodnoty pre tento test, ďalej pokračovať vo výpočte nemôžem, výsledok testu je preto určený iba pomocou systému STATISTICA. Postup v programe STATISTICA. Vytvoríme dátový súbor o 2 premenných a 16 prípadoch, do prvej premennej načítame KAPITOLA 3. TESTY HYPOTÉZ O PARAMETROCH 2 NEZÁVISLÝCH NÁHODNÝCH VÝBEROV 26 v ľubovoľnom poradí prvky oboch výberov, druhá premenná obsahuje hodnoty 1 alebo 2 v závislosti od príslušnosti daného prvku k prvému alebo druhému náhodnému výberu. K testu sa dostaneme cez Statistics - Nonparametrics - Comparing two independent samples (groups), zadáme premenné, ako závislú zvolíme premennú 1 s nameranými hodnotami, ako grupujúcu premennú 2 s indexami oboch výberov. Test vykonáme pomocou Wald-Wolfowitz runs test. Tabuľka obsahuje rozsahy a priemery oboch výberobv, hodnotu asymptotickej testovej štatistiky U0 (označenú ako Z) a príslušnú p-hodnotu, hodnotu asymptotickej testovej štatistiky s opravou na spojitosť (Z adjstd) a tiež jej príslušnú p-hodnotu, ako posledné dve hodnoty sú uvedené počet iterácií a počet zhodných pozorovaní. Vidíme, že p-hodnota je väčšia ako 0,05, preto nulovú hypotézu o zhode mediánov nezamietame. 3.2.3 Dvojvýberový Kolmogorov-Smirnovov test Nech X1, . . . , Xn a Y1, . . . , Ym sú 2 nezávislé náhodné výbery z dvoch spojitých rozložení, ktorých distribučné funkcie sa môžu líšiť nielen posunutím, ale aj tvarom. Testujeme hypotézu, že tieto distribučné funkcie sú zhodné, tzn. všetky náhodné veličiny pochádzajú z rovnakého rozloženia, proti alternatíve, že sú rozdielne. Návod. Nech F1(x) = 1 n card {i; Xi x} je výberová distribučná funkcia prvého náhodného výberu a F2(x) = 1 m card {i; Yi y} je výberová distribučná funkcia druhého náhodného výberu. Testovou štatistikou je pri tomto teste D = max - 10, 5 : F1(x) = 1 Hodnoty výberovej distribučnej funkcie 2. výberu: 1. x < 0, 0 : F2(x) = 0 2. 0, 0 x < 2, 3 : F2(x) = 1 6 3. 2, 3 x < 2, 9 : F2(x) = 2 6 4. 2, 9 x < 3, 1 : F2(x) = 3 6 5. 3, 1 x < 4, 8 : F2(x) = 4 6 6. 4, 8 x < 5, 6 : F2(x) = 5 6 7. x > 5, 6 : F2(x) = 1 Hodnota testovej štatistiky D = max - 0, 05, nulovú hypotézu nezamietame na hladine významnosti = 0, 05. Kapitola 4 Testy homogenity rozptylov viacerých nezávislých náhodných výberov Predpokladajme, že faktor A, t.j. náhodná veličina nominálneho charakteru, má r 3 úrovní a i-tej úrovni zodpovedá ni výsledkov Xi1, . . ., Xini tvoriacich náhodný výber z rozloženia N(i, 2 ), i = 1, . . . , r, pričom tieto náhodné výbery sú stochasticky nezávislé, teda Xij = i + ij, kde ij sú stochasticky nezávislé náhodné veličiny s rozložením N(0, 2 ), kde i = 1, . . . , r a j = 1, . . . , ni. 4.1 Levenov test Položme Zij = |Xij - Mi.|, kde Mi. = 1 ni ni j=1 Xij a označme MZi. = 1 ni ni j=1 Zij MZ.. = 1 n r i=1 ni j=1 Zij SZE = r i=1 ni j=1 (Zij - MZi.)2 SZA = r i=1 ni (MZi. - MZ..)2 Ak platí nulová hypotéza o zhode rozptylov, potom FZ = SZA (r-1) SZE (n-r) F(r - 1, n - r) (4.1) H0 potom zamietame na hladine významnosti v prípade, že FZ F1-(r - 1, n - r). Jednotlivé výsledky môžeme zosumarizovať v modifikovanej ANOVA tabuľke: 29 KAPITOLA 4. TESTY HOMOGENITY ROZPTYLOV VIACERÝCH NEZÁVISLÝCH NÁHODNÝCH VÝBEROV 30 Zdroj variability Súčet štvorcov Stupne voľnosti Podiel FZ skupiny SZA fZA = r - 1 SZA fZA SZA/fZA SZE/fZE reziduálny SZE fZE = n - r SZE fZE --­ celkový SZT fZT = n - 1 --­ --­ Príklad. Na 50 pozemkoch rozmiestnených v skúmanej poľnohospodárskej oblasti boli vykonané pokusy so štyrmi druhmi olejnatých rastlín. Výsledky, udávajúce množstvo získaného oleja v tonách na hektár, sú uvedené podľa jednotlivých druhov rastlín. Horčica: 0,188 0,067 0,232 0,124 0,285 0,300 0,387 0,184 0,155 0,031 Repka olejka: 0,415 0,291 0,113 0,114 0,062 0,270 0,068 0,196 0,308 0,365 0,230 0,262 0,050 0,127 0,078 Ľaničník maloplodý (Lnička maloplodá): 0,382 0,199 0,473 0,262 0,152 0,293 0,428 0,241 0,390 0,195 Sója: 0,227 0,357 0,402 0,267 0,017 0,240 0,167 0,321 0,179 0,086 0,020 0,280 0,384 0,214 0,168 Máme overiť na 5% hladine významnosti hypotézu o rovnosti rozptylov množstva získaného oleja u týchto 4 druhov rastlín. Riešenie. Výberové priemery: m1 = 0, 1953, m2 = 0, 1966, m3 = 0, 3015, m4 = 0, 221933. Tabuľku hodnôt Zij neuvádzam, podľa vzorca sa dá ľahko zostaviť z vyššie uvedených nameraných hodnôt. Vypočítame: mZ1. = 0, 08456, mZ2. = 0, 101973, mZ3. = 0, 0934, mZ4. = 0, 0937, mZ.. = 0, 0943, SZA = 0, 001846, SZE = 0, 16895. Hodnota testovej štatistiky FZ = 0, 1675 a kvantil F0,95(3, 46) = 2, 8068. Pretože 0, 167528 < 2, 8068, nulovú hypotézu o zhode rozptylov množstva získaného oleja u 4 druhov rastlín nezamietame na hladine významnosti 0,05. Postup v programe STATISTICA. Vytvoríme dátový súbor o 2 premenných a 50 prípadoch. Prvá premenná obsahuje všetky namerané hodnoty, druhá indexy 1-4 podľa príslušnosti výsledku k danému druhu rastliny. Postupujeme cez Statistics - Basic Statistics/Tables - Breakdown & one-way ANOVA, v záložke Lists of tables zvolíme premennú 1 ako závislú, premennú 2 ako grupujúcu a zaškrtneme Levene test. Vznikne nasledovná tabuľka: V nej vidíme hodnotu skupinového (SZA = 0, 001846) a reziduálneho (SZE = 0, 168949) súčtu štvorcov, počet stupňov voľnosti fZA = 3 a fZE = 46, testová štatistika nadobúda hodnotu FZ = 0, 167528 a zodpovedajúca p-hodnota = 0, 917739. Keďže p-hodnota je väčšia ako hladina významnosti 0,05, hypotézu o rovnosti rozptylov nemôžeme na tejto hladine zamietnuť. KAPITOLA 4. TESTY HOMOGENITY ROZPTYLOV VIACERÝCH NEZÁVISLÝCH NÁHODNÝCH VÝBEROV 31 Poznámka. Nevýhodou Levenovho testu je, že jednotlivé náhodné výbery môžu byť ovplyvnené odchýlkami od normality. Tento problém rieši nasledujúci test. 4.2 Brown-Forsythov test Položme Z ij = |Xij - Mi|, kde Mi je medián i-teho výberu a označme MZi. = 1 ni ni j=1 Z ij MZ.. = 1 n r i=1 ni j=1 Z ij SZE = r i=1 ni j=1 Z ij - MZi. 2 SZA = r i=1 ni (MZi. - MZ..)2 Ak platí nulová hypotéza o zhode rozptylov, potom FZ = SZA (r-1) SZE (n-r) F(r - 1, n - r) (4.2) H0 zamietame na hladine významnosti , ak FZ F1-(r -1, n-r). Jednotlivé výsledky môžeme zosumarizovať v modifikovanej ANOVA tabuľke: Zdroj variability Súčet štvorcov Stupne voľnosti podiel FZ skupiny SZA fZA = r - 1 SZA fZA SZA/fZA SZE/fZE reziduálny SZE fZE = n - r SZE fZE --­ celkový SZT fZT = n - 1 --­ --­ Príklad. Prebehol experiment, aby sa zistilo, či 4 špecifické teploty ohňa ovplyvnia hustotu určitého typu tehly. Experiment viedol k týmto výsledkom: Teplota ( C) Hustota 37,78 21,8 21,9 21,7 21,6 21,7 21,5 21,8 51,67 21,7 21,4 21,5 21,5 - - 65,56 21,9 21,8 21,8 21,6 21,5 - 79,44 21,9 21,7 21,8 21,9 21,6 21,8 Máme overiť zhodu rozptylov meraní pri 4 rôznych teplotách. Riešenie. Mediány jednotlivých výberov: m1 = 0, 1953, m2 = 0, 1966, m3 = 0, 3015, m4 = 0, 221933. Opäť tabuľku hodnôt Z ij neuvádzam, podľa vzorca sa dá ľahko zostaviť. Ďalej výpočtom získame: mZ1. = 0, 1, mZ2. = 0, 075, mZ3. = 0, 12, mZ4. = 0, 0833, mZ.. = 0, 09545, SZA = 0, 005712, SZE = 0, 16383. Hodnota testovej štatistiky je FZ = 0, 209193 a kvantil Fisher-Snedecorovho rozloženia F0,95(3, 18) = 3, 1599. Pretože 0, 209193 < 3, 1599, nulovú hypotézu o zhode rozptylov meraní pri 4 rôznych teplotách nezamietame na hladine významnosti 0,05. KAPITOLA 4. TESTY HOMOGENITY ROZPTYLOV VIACERÝCH NEZÁVISLÝCH NÁHODNÝCH VÝBEROV 32 Postup v programe STATISTICA. Vytvoríme dátový súbor o 2 premenných a 22 prípadoch. Prvá premenná obsahuje všetky namerané hodnoty, druhá indexy 1-4 podľa príslušnosti výsledku k danej teplote. Postupujeme cez Statistics - Basic Statistics/Tables - Breakdown & one-way ANOVA, v záložke Lists of tables zvolíme premennú 1 ako závislú, premennú 2 ako grupujúcu a zaškrtneme Brown & Forsythe. Vznikne nasledujúca tabuľka: Vyčítame hodnotu skupinového (SZA = 0, 005712) a reziduálneho (SZE = 0, 163833) súčtu štvorcov, počet stupňov voľnosti fZA = 3 a fZE = 18, testová štatistika nadobúda hodnotu FZ = 0, 209193 a zodpovedajúca p-hodnota = 0, 888702. Keďže p-hodnota je väčšia ako hladina významnosti 0,05, hypotézu o rovnosti rozptylov nemôžeme na tejto hladine zamietnuť. Poznámka. Ak by sme Brown-Forsythovým testom riešili príklad z časti 4.1, p-hodnota by nám vyšla trošku nižšia, z čoho môžeme usudzovať, že B-F test je o čosi silnejší ako Levenov, lebo berie do úvahy aj odchýlky náhodného výberu od normality. Záver Testovanie hypotéz má a vždy aj bude mať veľké využitie v praxi. Stále sa vyskytujú otázky a problémy v ktorejkoľvek oblasti, ktoré nám práve táto časť štatistiky pomôže vyriešiť. Cieľom tejto práce bolo popísať najdôležitejšie testy, ukázať ich riešenie v systéme STATISTICA, aby čitateľ nemusel všetko počítať ručne, čo v prípade niektorých testov veľmi ocení. V prvej kapitole som sa sústredil na testy s jedným jednorozmerným náhodným výberom, teda aj na jednovýberový t-test, jeden z najpoužívanejších v praxi. Druhá kapitola bola zameraná na párové testy, kde existoval vzťah medzi náhodnými výbermi v tom zmysle, že každá náhodná veličina bola testovaná v 2 rôznych podmienkach, a teda v konečnom dôsledku boli tieto 2 výsledky na sebe závislé. Tretia kapitola sa venovala testom dvoch nezávislých náhodných výberov. Vo štvrtej som uviedol 2 testy viacerých nezávislých náhodných výberov, keďže nemusíme mať vždy výber len jeden alebo dva. Verím aj, že vytvorené makrá prispejú k rýchlejšiemu vyriešeniu príkladov na testy, ktoré zatiaľv tomto systéme implementované nie sú. 33 Použitá literatúra [1] ANDĚL, J. Statistické metody. 1. vyd. Praha: Matfyzpress, 1993. [2] ARTLOVÁ, M.; BÍLKOVÁ, D.; JAROŠOVÁ, E.; POUROVÁ, Z. Sbírka příkladů ze statistiky (Statistika A). 1. dotlač. Praha: Vysoká škola ekonomická, 1996. ISBN 80- 7079-727-4. [3] BLATNÁ, D. Statistika a pravděpodobnost. 1. vyd. Praha: Bankovní institut vysoká škola, 2003. ISBN 80-7265-059-0. [4] BUDÍKOVÁ M. Interné materiály k predmetu Základní statistické metody. [5] BUDÍKOVÁ, M.; MIKOLÁŠ, Š.; OSECKÝ, P. Teorie pravděpodobnosti a matematická statistika - sbírka příkladů. 3. vyd. Brno: Masarykova univerzita, 2004. ISBN 80-210- 3313-4. [6] BUDÍKOVÁ M.; LERCH T.; MIKOLÁŠ Š. Základní statistické metody. 1. vyd. Brno: Masarykova univerzita, 2005. ISBN 80-210-3886-1. [7] FORBELSKÁ M. Interné materiály k predmetu Lineární statistické modely I: M5120 - 9. cvičení: Normální náhodné výběry. [8] HEBÁK P.; BÍLKOVÁ D.; SVOBODOVÁ A. Praktikum k výuce matematické statistiky: Testování hypotéz. 1. vyd. Praha: Vysoká škola ekonomická, 2000. ISBN 80-245- 0082-5. [9] KOŽÍŠEK J. Statistická analýza: Příklady. 3., prepracované vyd. Praha: Vydavatelství ČVUT, 1997. ISBN 80-01-01617-X. [10] MONTGOMERY D.C.; RUNGER G.C. Applied statistics and probability for engineers. 2nd ed. New York: John Wiley & Sons, 1999. ISBN 0471170275. [11] Statsoft, Inc. STATISTICA Electronic Manual (Užívateľská príručka systému STATISTICA). 2007. [12] SVATOŠOVÁ L.; KÁBA B. Statistické metody I. 1. vyd. Praha: Česká zemědělská univerzita, 2007. ISBN 978-80-213-1672-0. 34 POUŽITÁ LITERATÚRA 35 [13] UPTON G.; COOK I. A Dictionary of Statistics. 2nd ed. Oxford University Press, 2004. ISBN 0198614314. Prílohy Test o rozptyle - zdrojový kód Option Base 1 Sub Main Dim alpha As Double 'hladina vyznamnosti Dim mean As Double 'priemer Dim stdev As Double 'vyberova smerodatna odchylka Dim C As Double 'ocakavana hodnota rozptylu Dim alt As Double ťyp alternativnej hypotezy Dim Matrix() As Double 'matica nameranych hodnot Dim i As Double 'forcyklovske premenne Dim pom1 As Double 'pomocna premenna vo for cykle vypoctu vyberoveho rozptylu Dim VarList () As Long 'zoznam vybranych premennych vyberu Dim pmen As Double 'P(T0 <= t0) Dim pvac As Double 'P(T0 >= t0) Dim K~As Double 'hodnota testovej statistiky Const SelOneVar As String = "Zvolťe jednu premennú" Const SelVar As String = "Výber premennej" Const SelTypeOfAltHyp As String = "Zvolťe typ alternatívnej hypotézy" Const TypeOfAltHyp As String = "Obojstranná alternatíva|Ľavostranná alternatíva|Pravostranná alternatíva" Const SprHead As String = "Test of Variance Against Reference Constant" Const SprC1 As String = "Summary" Const SprV1 As String = "Mean" Const SprV2 As String = "St. Dev." Const SprV3 As String = "K" Const SprV4 As String = "Chi_alpha/2 (n-1)" Const SprV5 As String = "Chi_1-alpha/2 (n-1)" Const SprV6 As String = "Chi_alpha (n-1)" 36 PRÍLOHY 37 Const SprV7 As String = "Chi_1-alpha (n-1)" Const SprV8 As String = "p-value" numvar=ActiveSpreadsheet.NumberOfVariables numcas=ActiveSpreadsheet.NumberOfCases ReDim VarList(1 To numvar) ReDim Preserve Matrix(numcas,numvar) As Double Matrix = ActiveSpreadsheet.Data 'Volba premennej If 0=SelectVariables1(ActiveDataSet,SelVar,1,1,VarList,Count,SelOneVar) Then End End If LevOfSign=InputBox("Zadajte hladinu významnosti, na ktorej bude testovaná hypotéza:","Hladina významnosti") alpha=CDbl(LevOfSign) 'prevod stringu na Double Konst=InputBox("Zadajte očakávanú hodnotu rozptylu:","Zadanie rozptylu") C = CDbl(Konst) 'Vyber alternativy alt = DisplayListBox(SelTypeOfAltHyp,TypeOfAltHyp,1) 'do stl priradime index premennej,ktoru sme si vybrali stl = VarList(1) mean = 0 For i = 1 To numcas mean = mean + Matrix (i,stl) Next i mean = mean / numcas pom1 = 0 For i = 1 To numcas pom1 = pom1 + (Matrix (i,stl) - mean)^2 Next i stdev = Sqrt(1/(numcas-1) * pom1) K~= (numcas - 1) * stdev^2 / C PRÍLOHY 38 If alt = 0 Then End If alt = 1 Then ChiAlphaPol = VChi2(alpha/2,numcas-1) Chi_1 = ChiAlphaPol Chi1MinusAlphaPol = VChi2(1-alpha/2,numcas-1) Chi_2 = Chi1MinusAlphaPol pmen = IChi2(K,numcas-1) 'vypocet p-hodnoty pvac = 1-IChi2(K,numcas-1) If (pmen <= pvac) Then pv = 2 * pmen Else pv = 2 * pvac End If ReDim Preserve A(6) As Double A(1) = mean A(2) = stdev A(3) = K~A(4) = Chi_1 A(5) = Chi_2 A(6) = pv 'Vysledna tabulka Set Summary = Spreadsheets.New Summary.SetSize(1,6) Summary.Header=SprHead Summary.CaseName(1) = SprC1 Summary.AutoFitCase Summary.VariableName(1) = SprV1 Summary.VariableName(2) = SprV2 Summary.VariableName(3) = SprV3 Summary.VariableName(4) = SprV4 Summary.VariableName(5) = SprV5 Summary.VariableName(6) = SprV8 Summary.Variable(1).ColumnWidth=0.6 Summary.Value(1,1) = A(1) Summary.Variable(2).ColumnWidth=0.7 Summary.Value(1,2) = A(2) Summary.Variable(3).ColumnWidth=0.6 Summary.Value(1,3) = A(3) Summary.Variable(4).ColumnWidth=1.2 Summary.Value(1,4) = A(4) PRÍLOHY 39 Summary.Variable(5).ColumnWidth=1.3 Summary.Value(1,5) = A(5) Summary.Variable(6).ColumnWidth=1 Summary.Value(1,6) = A(6) 'Ak je p-hodnota mensia alebo rovna ako zadana hladina vyznamnosti, zamietame nulovu hypotezu, vsetko sa zobrazi na cerveno. If (pv <= alpha) Then For i = 1 To 6 Summary.Cells(1,i).Font.Color = RGB(255,0,0) Next i End If Summary.Visible=True End If If alt = 2 Then Chialpha = VChi2(alpha,numcas-1) pv = IChi2(K,numcas-1) 'p-hodnota ReDim Preserve A(5) As Double A(1) = mean A(2) = stdev A(3) = K~A(4) = Chialpha A(5) = pv 'Vysledna tabulka Set Summary = Spreadsheets.New Summary.SetSize(1,5) Summary.Header=SprHead Summary.CaseName(1) = SprC1 Summary.AutoFitCase Summary.VariableName(1) = SprV1 Summary.VariableName(2) = SprV2 Summary.VariableName(3) = SprV3 Summary.VariableName(4) = SprV6 Summary.VariableName(5) = SprV8 Summary.Variable(1).ColumnWidth=0.6 Summary.Value(1,1) = A(1) Summary.Variable(2).ColumnWidth=0.7 Summary.Value(1,2) = A(2) Summary.Variable(3).ColumnWidth=0.6 Summary.Value(1,3) = A(3) Summary.Variable(4).ColumnWidth=1.2 PRÍLOHY 40 Summary.Value(1,4) = A(4) Summary.Variable(5).ColumnWidth=1 Summary.Value(1,5) = A(5) 'Ak je p-hodnota mensia alebo rovna ako alpha, vsetko sa zobrazi na cerveno (zamietame H0). If (pv <= alpha) Then For i = 1 To 5 Summary.Cells(1,i).Font.Color = RGB(255,0,0) Next i End If Summary.Visible=True End If If alt = 3 Then Chi1Minusalpha = VChi2(1-alpha,numcas-1) pv = 1 - IChi2(K,numcas-1) 'p-hodnota ReDim Preserve A(5) As Double A(1) = mean A(2) = stdev A(3) = K~A(4) = Chi1Minusalpha A(5) = pv 'Vysledna tabulka Set Summary = Spreadsheets.New Summary.SetSize(1,5) Summary.Header=SprHead Summary.CaseName(1) = SprC1 Summary.AutoFitCase Summary.VariableName(1) = SprV1 Summary.VariableName(2) = SprV2 Summary.VariableName(3) = SprV3 Summary.VariableName(4) = SprV7 Summary.VariableName(5) = SprV8 Summary.Variable(1).ColumnWidth=0.6 Summary.Value(1,1) = A(1) Summary.Variable(2).ColumnWidth=0.7 Summary.Value(1,2) = A(2) Summary.Variable(3).ColumnWidth=0.6 Summary.Value(1,3) = A(3) Summary.Variable(4).ColumnWidth=1.2 Summary.Value(1,4) = A(4) PRÍLOHY 41 Summary.Variable(5).ColumnWidth=1 Summary.Value(1,5) = A(5) 'Ak je p-hodnota mensia alebo ako alpha, vsetko sa zobrazi na cerveno (zamietame H0). If (pv <= alpha) Then For i = 1 To 5 Summary.Cells(1,i).Font.Color = RGB(255,0,0) Next i End If Summary.Visible=True End If End Sub Morgan-Pitmanov test - zdrojový kód Option Base 1 Sub Main Dim alpha As Double 'hladina vyznamnosti Dim mean1 As Double 'priemer Xn Dim mean2 As Double 'priemer Yn Dim stdev1 As Double 'vyberova smerodatna odchylka Xn Dim stdev2 As Double 'vyberova smerodatna odchylka Yn Dim alt As Double Dim Matrix() As Double 'matica nameranych hodnot Dim i As Integer 'forcyklovske premenne Dim pom1 As Double 'pomocna premenna vo for cykle vypoctu vyberovej sm.odch. Xn Dim pom2 As Double 'pomocna premenna vo for cykle vypoctu vyberovej sm.odch. Yn Dim pom3 As Double 'pomocna premenna vo for cykle pomocneho vyrazu pre korel.koef. Dim pom4 As Double ' ---||--- Dim pom5 As Double ' ---||--- Dim t1MinusAlphaPol As Double 'kvantil Studentovho rozlozenia t_1-alpha/2 (n-2) Dim t_1 As Double ' ---||--- Dim t1MinusAlpha As Double 'kvantil Studentovho rozlozenia t_1-alpha (n-2) PRÍLOHY 42 Dim t_2 As Double '---||--- Dim pmen As Double 'P(T0 <= t0) Dim pvac As Double 'P(T0 >= t0) Dim VarList1 () As Long 'zoznam vybranych premennych prveho vyberu Dim VarList2 () As Long 'zoznam vybranych premennych druheho vyberu Const SelTwoVar1 As String = "Zvolťe premennú" Const SelTwoVar2 As String = "Zvolťe závislú premennú" Const SelVar As String = "Výber premenných" Const SelTypeOfAltHyp As String = "Zvolťe typ alternatívnej hypotézy" Const TypeOfAltHyp As String = "Obojstranná alternatíva|Ľavostranná alternatíva|Pravostranná alternatíva" Const SprHead As String = "Morgan-Pitman Test of Homogeneity of Variances" Const SprC1 As String = "Summary" Const SprV1 As String = "Mean1" Const SprV2 As String = "Mean2" Const SprV3 As String = "St. Dev.1" Const SprV4 As String = "St. Dev.2" Const SprV5 As String = "Coef. of corr." Const SprV6 As String = "T" Const SprV7 As String = "t_1-alpha/2 (n-2)" Const SprV8 As String = "-t_1-alpha (n-2)" Const SprV9 As String = "t_1-alpha (n-2)" Const SprV10 As String = "p-value" numvar=ActiveSpreadsheet.NumberOfVariables numcas=ActiveSpreadsheet.NumberOfCases ReDim VarList1(1 To numvar) ReDim VarList2(1 To numvar) ReDim Preserve Matrix(numcas,numvar) As Double Matrix = ActiveSpreadsheet.Data 'Volba premennych If 0=SelectVariables2(ActiveDataSet,SelVar,1,1,VarList1,Count1,SelTwoVar1, 1,1,VarList2,Count2,SelTwoVar2) Then End End If LevOfSign=InputBox("Zadajte hladinu významnosti, na ktorej bude testovaná hypotéza:","Hladina významnosti") alpha=CDbl(LevOfSign) 'prevod stringu na Double PRÍLOHY 43 'Vyber alternativy alt = DisplayListBox(SelTypeOfAltHyp,TypeOfAltHyp,1) 'do stl1 priradime index premennej,ktoru sme si vybrali z~prveho vyberu stl1 = VarList1(1) 'do stl2 priradime index premennej,ktoru sme si vybrali z~druheho vyberu stl2 = VarList2(1) mean1 = 0 For i = 1 To numcas mean1 = mean1 + Matrix (i,stl1) Next i mean1 = mean1 / numcas mean2 = 0 For i = 1 To numcas mean2 = mean2 + Matrix (i,stl2) Next i mean2 = mean2 / numcas 'Vypocet vyb.sm.odch.Xn pom1 = 0 For i = 1 To numcas pom1 = pom1 + (Matrix (i,stl1) - mean1)^2 Next i stdev1 = Sqrt(1/(numcas-1) * pom1) 'Vypocet vyb.sm.odch.Yn pom2 = 0 For i = 1 To numcas pom2 = pom2 + (Matrix (i,stl2) - mean2)^2 Next i stdev2 = Sqrt(1/(numcas-1) * pom2) pom3 = 0 For i = 1 To numcas pom3 = pom3 + (Matrix (i,stl1) * Matrix (i,stl2)) Next i pom4 = 0 For i = 1 To numcas pom4 = pom4 + (Matrix (i,stl1))^2 PRÍLOHY 44 Next i pom5 = 0 For i = 1 To numcas pom5 = pom5 + (Matrix (i,stl2))^2 Next i If (Sqrt((pom4 - numcas*mean1^2)*(pom5 - numcas*mean2^2))) = 0 Then MsgBox("Výberový korelačný koeficient nemožno spočítať, menovateľ je rovný 0","Chyba") End Else r = (pom3 - numcas*mean1*mean2) / Sqrt((pom4 - numcas*mean1^2)*(pom5 - numcas*mean2^2)) End If T_0 = (stdev1^2-stdev2^2) / (2*stdev1*stdev2) * Sqrt((numcas-2)/(1-r^2)) If alt = 0 Then End If alt = 1 Then t1MinusAlphaPol = VStudent(1-alpha/2,numcas-2) t_1 = t1MinusAlphaPol pmen = IStudent(T_0,numcas-2) 'vypocet p-hodnoty pvac = 1-IStudent(T_0,numcas-2) If (pmen <= pvac) Then pv = 2 * pmen Else pv = 2 * pvac End If ReDim Preserve A(8) As Double A(1) = mean1 A(2) = mean2 A(3) = stdev1 A(4) = stdev2 A(5) = r A(6) = T_0 A(7) = t_1 A(8) = pv 'Vysledna tabulka Set Summary = Spreadsheets.New PRÍLOHY 45 Summary.SetSize(1,8) Summary.Header=SprHead Summary.CaseName(1) = SprC1 Summary.AutoFitCase Summary.VariableName(1) = SprV1 Summary.VariableName(2) = SprV2 Summary.VariableName(3) = SprV3 Summary.VariableName(4) = SprV4 Summary.VariableName(5) = SprV5 Summary.VariableName(6) = SprV6 Summary.VariableName(7) = SprV7 Summary.VariableName(8) = SprV10 Summary.Variable(1).ColumnWidth=0.6 Summary.Value(1,1) = A(1) Summary.Variable(2).ColumnWidth=0.6 Summary.Value(1,2) = A(2) Summary.Variable(3).ColumnWidth=0.7 Summary.Value(1,3) = A(3) Summary.Variable(4).ColumnWidth=0.7 Summary.Value(1,4) = A(4) Summary.Variable(5).ColumnWidth=0.95 Summary.Value(1,5) = A(5) Summary.Variable(6).ColumnWidth=0.6 Summary.Value(1,6) = A(6) Summary.Variable(7).ColumnWidth=1.2 Summary.Value(1,7) = A(7) Summary.Variable(8).ColumnWidth=0.8 Summary.Value(1,8) = A(8) 'Ak je p-hodnota mensia alebo rovna ako zadana hladina vyznamnosti, zamietame hypotézu o~zhode rozptylov a vsetko sa zobrazi na cerveno. If (pv <= alpha) Then For i = 1 To 8 Summary.Cells(1,i).Font.Color = RGB(255,0,0) Next i End If Summary.Visible=True End If If alt = 2 Then t1MinusAlpha = VStudent(1-alpha,numcas-2) t_2 = t1MinusAlpha PRÍLOHY 46 pv = IStudent(T_0,numcas-2) 'vypocet p-hodnoty ReDim Preserve A(8) As Double A(1) = mean1 A(2) = mean2 A(3) = stdev1 A(4) = stdev2 A(5) = r A(6) = T_0 A(7) = -t_2 A(8) = pv 'Vysledna tabulka Set Summary = Spreadsheets.New Summary.SetSize(1,8) Summary.Header=SprHead Summary.CaseName(1) = SprC1 Summary.AutoFitCase Summary.VariableName(1) = SprV1 Summary.VariableName(2) = SprV2 Summary.VariableName(3) = SprV3 Summary.VariableName(4) = SprV4 Summary.VariableName(5) = SprV5 Summary.VariableName(6) = SprV6 Summary.VariableName(7) = SprV8 Summary.VariableName(8) = SprV10 Summary.Variable(1).ColumnWidth=0.6 Summary.Value(1,1) = A(1) Summary.Variable(2).ColumnWidth=0.6 Summary.Value(1,2) = A(2) Summary.Variable(3).ColumnWidth=0.7 Summary.Value(1,3) = A(3) Summary.Variable(4).ColumnWidth=0.7 Summary.Value(1,4) = A(4) Summary.Variable(5).ColumnWidth=0.95 Summary.Value(1,5) = A(5) Summary.Variable(6).ColumnWidth=0.6 Summary.Value(1,6) = A(6) Summary.Variable(7).ColumnWidth=1.2 Summary.Value(1,7) = A(7) Summary.Variable(8).ColumnWidth=0.8 Summary.Value(1,8) = A(8) 'Ak je p-hodnota mensia alebo rovna ako zadana hladina vyznamnosti, PRÍLOHY 47 zamietame hypotézu o~zhode rozptylov a vsetko sa zobrazi na cerveno. If (pv <= alpha) Then For i = 1 To 8 Summary.Cells(1,i).Font.Color = RGB(255,0,0) Next i End If Summary.Visible=True End If If alt = 3 Then t1MinusAlpha = VStudent(1-alpha,numcas-2) t_2 = t1MinusAlpha pv = 1-IStudent(T_0,numcas-2) 'vypocet p-hodnoty ReDim Preserve A(8) As Double A(1) = mean1 A(2) = mean2 A(3) = stdev1 A(4) = stdev2 A(5) = r A(6) = T_0 A(7) = t_2 A(8) = pv 'Vysledna tabulka Set Summary = Spreadsheets.New Summary.SetSize(1,8) Summary.Header=SprHead Summary.CaseName(1) = SprC1 Summary.AutoFitCase Summary.VariableName(1) = SprV1 Summary.VariableName(2) = SprV2 Summary.VariableName(3) = SprV3 Summary.VariableName(4) = SprV4 Summary.VariableName(5) = SprV5 Summary.VariableName(6) = SprV6 Summary.VariableName(7) = SprV9 Summary.VariableName(8) = SprV10 Summary.Variable(1).ColumnWidth=0.6 Summary.Value(1,1) = A(1) Summary.Variable(2).ColumnWidth=0.6 Summary.Value(1,2) = A(2) Summary.Variable(3).ColumnWidth=0.7 Summary.Value(1,3) = A(3) PRÍLOHY 48 Summary.Variable(4).ColumnWidth=0.7 Summary.Value(1,4) = A(4) Summary.Variable(5).ColumnWidth=0.95 Summary.Value(1,5) = A(5) Summary.Variable(6).ColumnWidth=0.6 Summary.Value(1,6) = A(6) Summary.Variable(7).ColumnWidth=1.2 Summary.Value(1,7) = A(7) Summary.Variable(8).ColumnWidth=0.8 Summary.Value(1,8) = A(8) 'Ak je p-hodnota mensia alebo rovna ako zadana hladina vyznamnosti, zamietame hypotézu o~zhode rozptylov a vsetko sa zobrazi na cerveno. If (pv <= alpha) Then For i = 1 To 8 Summary.Cells(1,i).Font.Color = RGB(255,0,0) Next i End If Summary.Visible=True End If End Sub