Obsah Úvod Parametrické a neparametrické modely ... 7 Kapitola 1. Opakovaní základů teorie testování hypotéz................................. 13 1.1. Formulace problému......................13 1.2. Princip invariance v testování hypotéz 19 Kapitola 2. Základní výběrové statistiky: pořadí a pořádkové statistiky .................. 25 Problémy a cvičení ......................33 Kapitola 3. Testy hypotézy o shodnosti dvou populací 35 3.1. Dvouvýběrový t-test.....................35 3.2. F-test..................................37 3.3. PermutaSní t-test.......................38 3.4. Pořadové testy rozdílu v poloze dvou populací...................-.............43 3.4.1.Klotzav test............................ 56 3.5.2.Kvertilový test......................... 57 3.6. Testy založené na empirických distribučních funkcích........................ 58 3.6.1.KolEogorov-Smirnovuv test...............60 3.6.2,Cramér-von Mieesův test.................63 3.7* Pořadové testy při výskytu shodných pozorování..............................64 3.7.1.Metoda znéhodnéní .......................66 3.7.2.Metoda průměrných pořadí ................ 67 Kapitola 4. Teety hypotézy o symetrii jednorozměrného a dvourozměrného rozdílení ... 71 4.1. Pérový t~test......*................. 72 4.2. Testy B^ založené na pořadích........ 72 4»2*1» Wilcoxonuv test eymetrie ....•..«•.••• 75 4.2.2. Zna&énkový test...................... 76 4.3. Problémy a cvičení ..*.*.............. 80 Kapitola 5» Testy hypotézy o shodnosti několika populací (ošetření).................. 83 5.1. Model Jednoduchého třídění........... 83 5.1.1. F-teet............................... 84 5.1.2. Kruskal-tfallisuv pořadový test ....... 84 5.1.3. Mediánový test.........•••••*•*••••«• 87 5.2. Model dvojného třídění (náhodné bloky) 87 5.2.1. F-teat............................... 89 5.2.2. Friedmanův pořadový test............. 89 5.3* Problémy a cvičení................... 91 Kapitola 6. Teety hypotézy nezávislosti ve dvourozměrné populaci ••«...•«•••••••. 93 6.1. t-test............................... 94 6.2. PermutaSnl t-test.................... 95 6.3. Pořadové testy nezávislosti.......... 97 6.3.1. Spearmanuv korelační koeficient ...... 98 6.3.2. Kvadrantový test..................... 100 6.3.3. Kendalluv pořadový korelační koeficient................................ 100 6.4. Problémy a cviCení ................... 101 Kapitola 7« Některé úvahy o vydatnosti e optima- litS testô.......................... 103 7.1. Lokálně nejsilnější pořadové testy .. 104 7.1.1. Lokálně nejsilnější pořadové teaty hypotézy nehodnosti ................. 105 7.1.2. Lokálně nejailnějěí pořadové teaty hypotézy symetrie ................... 114 7.1.3. Lokálně nejsilnější pořadové testy pro hypotézu nezávislosti........... 116 7.2« Asymptotická relativní vydatnost testů............................... 117 7.2.1. Pitmanova vydatnoet .,............... 118 Tabulka 1. Jednovýběroyý »ilcoxonův teat .. 128 Tabulka 2. Wilcoxonav test................ 129 Tabulka 3. Van der TKaerdenův test......... 137 Tabulka 4« Kolmogorov-Smirnovův test...... 138 Tabulka 5* Spearaanôv teat................ 140 Literatura........................................... 141 '- *?- 6vod i Parametrické g neparametrické modely Matematická statistika zpracovává data, která vznikla při realizaci nějakého náhodného pokusu* Z těchto dat pak odvozuje závěry o celé populaci, s to pokud možno optimálním způsobem. Dříve, než může statistik odvodit jakékoli závěry o populaci, muaí uvážit, co lze předpokládat o rozdělení pravděpodobnosti pozorovaných dat; závěry pak odvozuje v rámci těchto předpokladů. Silnějáí předpoklady umožňují použít objektivnější metody odhadu, testu,apod.; nejsou-li však tyto předpoklady splněny, je nebezpečí, že závěry, jakkoli za daných předpokladů správné, mohou být naprosto nevhodné pro danou ex perimentální situaci. Tento problém nejlépe objasníme na konkrétních příkladech. Příklad 1. Model měření. Experimentátor provede n nezávislých určení (měření) X1,...,XQ hodnoty určité fyzikální konstanty M' . Jeho měření podléhají náhodným fluktuacím (chybám), proto můžeme psát (1) Xi = M> + Eif i=l,...,n kde £ = (£*, ...,£) je vektor chyb. Co lze předpokládat o rozdělení pravděpodobností vektoru £ , které spolu s hodnotou /U- určuje sdružené rozdělení i,..«,X ? Obvykle přijímáme tyto minimální předpoklady : (1) Rozdělení £ nezávisí na f** . (.2) & ,, ••.,£„ jsou nezávislé. -8- (3) Eif*t£n mají stejné rozdělení. (4) Společné rozděleni £i»-*-»£n J* absolutně spojitá s hustotou sy;ü3trickou kolem O, Těmito předpoklady jsme již vymezili model, který se ve statistické praxi velmi čssto vyskytuje, a to nejen u měření, ale i v párových pokusech apod. Nazýváme ho jedncjvýběrový, model, polohy» Jakkoli se předpoklady (1),(2),(3),(4) zdají slabé, je třeba si uvědomit, Že jsou to jen predpoklady a i ty mohou být splněny pouze přibližně. ííapř. je-li AJL délka nějakého předmětu, jsou měření X-,,*#.,X nezáporná, což je v rozporu s předpokladem (1) a (4). Ovšem bez předpokladu bychom nemohli odvodit žádný závěr o skutečné hoanotě /£ Praxe je naopak taková, že předpokládáme dokonce unionem více« (5) Společné rozdělení chyb je N(0,o*2), kde o je neznámé; to znamená, že X, ,...,X je náhodný výběr z populace N(iK j se .ení v předpokladu (5) je známý. ový cpokla: : ) přípa- .- i - ální úvahy a přání. Výhodou před- správné, dovedeme o. n out /M* na zj kluč , *..,X ilmi vydatným způsobem« :- ých aplikacích .lemáme pochybnosti o teoretickém modelu, Z jsou-li pozorované náhodná veličiny diskrét- ního typu. Nepochybujeme o tom, že po6et zmetku v náhodném -9- výběru z konečne ^ace výrobků se řičí hy; rgdometrickym rozdělením; víme, kdy vzniká binomické rozdělení a že počet Ä-částic emitovaných radioaktivní látkou za krátký časový interval se řídí Poissonovým rozdělením. ilší příklad bude důležitý pro naše další úvahy. Přiklad 2. Srovnáni účinnosti dvou různých typů ošetření Chceme porovnat účinnost 2 různých postupů, např.: redukce úniku škodlivých látek do ovzduší, léčení choroby, výroby energie apod. Tyto postupy obvykle nazýváme ošetření a úlofru lze chápat jako srovnání účinnosti 2 typů ošetření aplikovaných na členy nijaké populace* K tomu účelu provedeme m+n nezávislých pokusů takto: náhodně zvolíme m+n členů populace, prvních m členů podrobíme prvnímu typu ošetření a zbývajících n členů druhému typu ošetření. Každý jednotlivý pokus dává určitou míru, kvantitativní nebo kvalitativní, účinnosti příslušného ošetření. Představme si např., že chceme teötovat vliv určité drogy na krevní tlak; je anámo, že droga buä ti . í nebo žuje. Označme ^i,"**Xm krevní tlak m terým j\a podána dro Y-,,...,X krevní - ' '.. kterým odána neu : lí látka. íme-li F polečnou distribuují funkci K, ,...(X a G distribuční funkci £*>••• ,X, pak hypotéza H ; F = G znamená, Že droga nepůsobí na jcrevaí tlak. Podle toho, jaké předpoklady, přijmeme o rozděleních F .a G, dostaneme různé alternativy hypotézy H : -11- i zde. Naším úkolem v dalších kapitolách bude mj. nalézt testy hypotézy H , vhodné za předpokladů (1) příp. (2). Nyní definujeme prvky statistického modelu : Uvažujme náhodný pokus se základním prostorem výsledků SI. m JI nechí je definován náhodný vektor X = (X, , ...,X l Vede-li pokus k výsledku CO , registrujeme hodnotu X(CO) (samotné Co obvykle nepozorujeme). jC(6J ) = (X, , ...,XL) pak nazýváme pozorování nebo data. Protože pozorujeme pouze ^ , stačí uvažovat rozdělení pravděpodobností X • 0 tomto roz-dělení předpokládáme, že je prvkem určitého systému (P rozdělení na (Rn,fin). Systém rozdělení (P nazveme model. Např. jsou-li v příkladě 1 splněny předpoklady (l)-(4), je (P systémem všech rozdělení náhodných vektorů (X,,...,X) , jejichž složky jsou nezávislé a mají stejné rozdělení s hustotou symetrickou kolem nějakého bodu/W' . Obvykle nás zajímají parametry systému (P ; např.střed symetrie M> v příkladě 1. V systému se mohou vyskytnou i další, rušivé parametry, které odpovídají dalším neznámým vlastnostem rozdělení X (např. neznámý rozptyl o* za předpokladu (5-V Obvykle zahrnujeme všecky parametry systému pod jediný společný parametr G ; je-li každý prvek systému v jednoznačně určen hodnotou Ô a 9 probíhá danou množinu §y , píšeme model ve tvaru v xp?g ' 9€fýL Model lze parametrizovat mnoha způsoby; je však třeba vždy dbát na to, aby parametr byl identifikovatelnýt tj.s aby 9^ f 92 implikovalo ?Q £ PQ pro vš. Op 92€ €> . Modely, u kterých je & vhodná, např. konvesií podmnožina R , označujeme jako p.ara&etrické. -11- i zde. Naším úkolem v dalších kapitolách bude mj. nalézt testy hypotézy H , vhodné za předpokladů (1) příp. (2). Nyní definujeme prvky statistického modelu : Uvažujme náhodný pokus se základním prostorem výsledků SI. Na-ft nechí je definován náhodný vektor X = (X1,...,Xnl Vede-li pokus k výsledku CO , registrujeme hodnotu j^(íO) (samotné 60 obvykle nepozorujeme). £(&)) = (X, ,...,X) pak nazýváme pozorování nebo data. Protože pozorujeme pouze ^ , stačí uvažovat rozdělení pravděpodobností X . 0 tomto roz-dělení předpokládáme, Že je prvkem určitého systému v rozdělení na (R ,