-71- KAPITOLA 4. Testy hypotézy o symetriijednorozměrného a dvourozměrného rozděleni Představme si, že chcené zjistit, zda nový druh ošetřeni má kladný efekt nebo zda je lepši než standardní ošetřen-Abychom co nejvíce vyloučili vlivy, které nesouvisí s ošetřením, uspořádáme náhodný pokus tak, že pokusné jednotky rozdělíme do dvojic; přitom dvojice volíme tak, aby byly co nejvíce homogenní. Na jednoho Siena dvojice aplikujeme zkoumané oěetření, zatímco druhý slouží ke kontrole (přiřazení uvniti dvojice Saato provádíme náhodně). Jindy pokus uspořádáme t&&, že téhož jedince pozorujeme např« před a po podání léku. Dvojice pozorování (X^T^...»^»^), kde X^^ odpovídá ošetření a X- slouží ke kontrole, můžeme považovat za náhodný výběr ze dvourozměrného rozdělení s distribuční funkcí F(x,y), Na tuto funkci neklademe žádné zvláštní prsa-* poklady kromě toho, že je spojitá. Hypotéza, že ošetření nemá významný vliv, je ekvivalente, předpokladu, že distribuční funkce F(x,y) je symetrická podle přímky y m x, tj. H^ : F(x,y) * P(y,x) pro všecka x£H , yéR1. Alternativa kledného vlivu ošetření obecně znamená, že rozděleni vektoru (X,X) je posunuto Barrett k polorovině y>í. or •72- 4»1. Pérová t-test Jestliže lze předpokládat, že F(x,y) je distribuční funkce dvourozměrného normálního rozdělení se středem ^A^\ M/z) a s kovarianční maticí í ° a P 1 , 0^0,-léf Él, \ o2f> a2/ pak problém testu významného vlivu oaetření se redukuje na test hypotézy ř^-x-f^z Pr<>ti alternativě /^ ^. Nejvhodnějším teatem pro tuto situaci je párový t-test. Ozna-číme-li Zj = Í£ - ^i isl,...,», pak test mé kritický ob kde t^íoíO je kritická hodnota t-rozdělení o (N-l) stupních volnosti. 4o29 Testy Hx založené na pořadích ProveSme transformaci 2i * W wi Ä VXi> i=X,.-.,N. Pak (Zj^.W,),» a.,ÍZN,W„) tvoří opět výběr z dvourozměného rozdělení ss spojitou distribuční funkcí» Za hypotézy H^ je toto rozdělení symetrické vzhledem k ose w , zatímco za alternativy jo posunuto ve směru kladné poloosy z. Problém je invariantní vzhledem k transformacím proměnných w, ,*..»Wjj typu w^ ■ S^wi^» kä* S J® vzájemně jednoznačná funkce, která má nejvýše konečně mnoho bodů nespojitosti. Maximální invariantou vzhledem k těmto teans^ormacím je vektor Z^,..., ...,Z^. Invariantní testy tedy budeu záviset jen na Z-p...^. -73- '1** ** tvoří náhodný výběr z nějakého jednorozměrné- ho rozdělení se spojitou distribuční funkcí D. problém tes tu H, je pak ekvivalentní testu hypotézy (4.2) H^ : D(z) + D(-z) = 1 pro vé. zfiR1, že rozdělení D je symetrické kolem 0, proti alternativě K^ : D(z+A) + D(-z+A) * 1 pro vě. z€tR1,A>0. Alternativa odpovídá tomu, že rozdělení D je posunuto smě*-rem ke kladným hodnotám z . Rozdělení D je jedno^načně určeno trojicí (p»^^*» kde p = P(Z<0), Fx(z) = P(|Z| O). Hypotéza H^ se pak dá ekvivalentně vyjádřit ve tvaru P2 =FX a chceme ji testovat proti alternativě Kl s p * I * P2 4 Fr Tento problém testu je invariantní vzhledem ke grupě G í z/i s gCZj,), i«l,...,N, kde g je spojitá, liché a rostoucí funkce« Najdeme maximální invariant©, vzhledem ke Q ; nechí »iji — l*ia< 0 kt2s ii-C.-^i, a j1<,..sn) Je niaxiaélní invarianta. Skutečně, nechí z*,.».,zH a 2{>-»»»aM jsou 2 body takové, že m'= m, n'=n a se stejnými Si a R.. Pak existuje spojitá rostoucí funkce g na kladné poloos« taksfcé, -74- že z^ = g^ ), i=l,...,N a g(O) ■ O, Jestliže dodefinujme g(-z) = -g(z), pak gčG a »£ ■ gí^), i-1,•••,&. Postačující statistikou pro vektor (S- :...rS $ R, ,..., ...fRn) jsou vektory uspořádaných pořadí S^< -•*<'sm absolutních hodnot záporných pozorování a R^.. = <;r' hladných pozorování mezi |zJ ,•••,|z«I; tyto vektor? jsou tiále jednoznačně určeny jedním z nich, např« R^ " (7> vn' H m - pro libovolnou z l (") ■ 2* n-tic (r^...,^) takových, n«o ze l*Tj<...4r * N. Kritický obor libovolného pořadového testu velikosti cC = ^« obsahuje právě k takových bodů (r,,...,r )• Mezi těmito testy neexistuje takový, který by byl stejnoměrně nejsilnější pro hypotézu H^ proti alter- š native K^. Obvykle se uvažují testy s kritickým oborem -75- (4.4) h(Hx + ... ♦ h(Rv )>C kde V už není konstanta jako a HQ , ale náhodné veličina, které závisí na pozorováních; b je vhodná neklesající funkce. 2 testů typu (4.4) probereme 2 nejběžnější. Budou se lišit volbou funkce h a budou vhodné proti různým alternativám. 4o20l Wilcoxonův test symetrie Ve (4o4) položme h(i) =i, iri,...,N. Výsledná testová státiatika (4.5) W* « 2 B, S i=l i Je rovna součtu pořadí kladných Z^ mezi Iz^j ..•.Jz^l. Statistiku Wg lze také vyjádřit v nesledujícím tvaru S (4.6) wJ5 * | Z sign Z^rJ + |n(N*1) kde R? je pořadí [Z-J mezi jzj ,... ,/Z^J . Wilcoxonův test zamítá Hx, jestliže W{J překrofií příslušnou kritickou hodnotu. Tabulky kritických hodnot lze nalézt např. v pracech: F0Wilcoxon(194í?): "Probability tables for individual comparisons by ranking methods". Biometrics 3,119-122.(N*6(l)20); J.Héjek(1955):"Některá pořadová rozdělení a jejich použití", čas.pro pěst.matematiky 80,17-31. R.L.MoCornack(1965):"Extended tables of the Wilcoxon matched pairs signed rank statistics".J.Aaier.Statist.Assoc.60,864-871* -76- Pro velké N použijeme normální aproximace rozdělení wj. Střední hodnotu a rozptyl W„ vypočteme např. ze (4*6) s použitím následujícího lemmatu: Lemma 4*1« Hechí náhodná veličina Z má spojitou distribuční funkci F takovou, že F(z)+F(-z)*l, zeR1* Pak Z a sign Z jsou nezávislé* Důkaz. Zřejmé platí P(sign Z*l) = P(sign Z=-l) = j. Déle platí P(sign Z=l,/z|*z) = P(0', i=l,...,N, kde f\ je spojitá, rostoucí a liché funkce. Maximální invarianta je počet n kladných pozorování. Mezi všemi invariantními testy (tj. mezi testy závislými jen na počtu kladných pozorování) existuje stejnoměrně nejsilnější, který mé tvar .1 ... n>C f ... n ■ C O ... nN + rN = oL. Test (4.8) zamítá, je-li počet kladných pozorování příliš velký; je to tzv. znaménkový test. Nejprve musíme ověřit, Že (4.8) je skutečně stejnoměrně nejsilnější mezi invariantními testy. Nechí p. « P(Z.? O) = ■ l~q* , i=l,..-,N. Pak P( V=n) = q1 % 'n qi. kde sčítáme přes všech (*]) kombinací ÍvC*». jt i=l,...fN m zamítá H pro takové n, pro která (q)"1 P^»nl p(,...řp')>C1, neboli kdy* platí -78- pi, pi. (4.9) tin)* K Z' -t1 ...-ra->Cp. Dokážeme-li, že f(n) je rostoucí v n, bude (4.9) ekvivalentní nerovnosti nXU pro nějaké C,, tedy kritickému oboru znaménkového testu. Označme lu« y > 1, ial,...,N. 0. -79- Froti těmto alternativám už znaménkový test není stejnoměrně nejsilnějším invariantním testem. Naproti tomu dovedeme vypočítat sílu testu proti pevné alternativě z K^ : za alternativy má V opět binomické rozdělení, tentokrát s parametrem P(Z>0) = 1 - D(0) a tedy /1(D) = Z (^)(l-D(0))n(D(0)N-n-M/(N)(1.D(0))C(D(0))C^ kde C je kritická hodnota testu* Později uvidíme, že znaménkový test je lokálně nejsilnějším pořadovým testem pro H^ proti K^, je-li D distribuční funkce dvojitě exponenciálního typu s hustotou d(x) = | e-íx'A' . »ca1. Poznámka. K provedení znaménkového testu není třeba znát přesné hodnoty Xi,Xi, i*l,««.,Hj ale stačí vědět, zdali je rozdíl Í^-X, kladný nebo záporný. Proto je znaménkový test použitelný i v případě, kdy jsou k dispozici pouze kvalitativní srovnání jednotlivých ošetření, např. výroky typu "droga B utišuje bolesti lépe než droga A". Při podobných kvalitativních srovnáních ve skutečnosti nemáme k dispozici jiný než znaménkový test. 4«2»3« Shody a nuly, v poiadových testech symetrie Shoda dvou nebo více diferencí Z. nemá vliv na hodnotu testové statistiky znaménkového testu; u Wilcoxonova testu řešíme tuto situaci podobně jako u dvouvýběrovóho Wilcoxonova testu. -80- U testů symetrie se však může vyskytnout další jev, kteří vede k nejednoznačnosti, a to jsou-li některé rozdíly Z. rovny nule. Napr«, u kvalitativních srovnání je Z.=0 tehdy, není-li subjekt schopen se rozhodnout, které z ošetření mělo příznivější vliv. Uvažujme nejprve znaménkový test. Nechí Z,,...,Z« jsou nezávislé a stejně rozdělené a nechí p+ = P(Z,> O), p_ = P(Zi< 0) a p0 = PtZ^O). Pak počet nul V0 mezi Z^,...,Z« je náhodné veličina s binomickým rozdělením b(p0>N). V zásadě jsou 3 možnosti jak upravit znaménkový test: (1) uvažovat modifikovanou testovou statistiku ve tvaru V+ j VQ; (2) každou nulovou hodnotu Zi považovat s pravděpodobností ^ za kladnou a s pravděpodobností ^ za zápornou; (3) nulové hodnoty Z. vynechat. Hemelrijk (1952) a Putter (1955) ukázali, že varianta (3) je z hlediska silofunkce nejlepší. Podobně postupujeme u Wilcoxonova testu. Zde ovšem musíme kombinovat zpracování nulových hodnot se zpracováním shodných hodnot (viz 3^7) • 4«3» fToblémy a cvičení (1) (R.F.Harell (1943):"Effect of Added Thiamine on Learning", Contrib.Educ.877,table 10). % skupině 24 dětí byl vyšetřován-dliv vitaminu B^ na pokroky v učení. Děti byly rozděleny do 12 homogenních dvojic; náhodně zvoleoé dítě v každé dvojici dostávalo pravidelné dávky vitaminu B,, druhé dítě dostávalo neutrální látku a sloužilo ke kontrole. Všechny děti prošly testem IQ před a po provedení pokutu» který trfal -81- 6 týdnů. Následující tabulka udává přírůstky iq u všech dětí. Dvojice 12 345 6789 10 11 12 Ošetřené 14 18 2 4 -5 14 -3 -1 1 6 3 3 Kontrolní 8 26 -7 -1 2 9 0 -4 13 3 3 4 Pomocí Wilcox on ova a znaménkového testu ověřte, zda vitamin B-* má prokazatelný vliv na pokrok v učení dětí* (2) Lehmann(1975). Vyšetřovala se účinnost nového proetřed-ku proti bolestem hlavy. 15 pacientů trpících bolestmi hlavy dostalo stejné množství tablet nového léku a standardního léku ve dvou lahvičkách označených náhodně A a B. Pacienti dostali pokyn, aby brali po jedné tabletě při každé bolesti hlavy, střídavě z lahviček A a B, až do využívaní všech tablet a pak sdělili lékaři, který z prostředků považují za účinnější (lékař mé zaznamenáno přidělení léků do lahviček A a B pro každého pacienta). 10 pacientu se vyjádřilo ve prospěch nového léku. Pomocí znaménkového testu ověřte, zda tento počet potvrzuje vyšší účinnost nového léku. (3) Ukažte, že pro velká N lze sílu znaménkového testu aproximovat hodnotou \c* +fíT(p-£> /p(l-p)' kde p=P(Zi>0), i=!,...,N; (b je distribuční funkce standardního normálního rozdělení. (4) Dokažte, Že pro Wilcoxonovu statistiku platí 29043 P6 -82- w+ « 2 z a(Z| * z.) M j=l i=l x J kde u(t) = 1 pro t ^ O a u(t) * O pro t<0. Pomocí tohoto vztahu dokažte, Že za platnosti H, je rozdělení statistiky W* symetrické kolem hodnoty i N(N+1). 29043 26 -83- KAPITOIiA 5. lesty hypotézy o shodnosti několika populaci (ošetřeni) 5+1» Model .jednoduchého tříděni Chceme porovnat p různých typů ošetření nebo populací na základě p nezávislých výběrů ^ii»#*»fXjn , i=l,...,p, po jednom z každé populace. Přesněji řečeno. X-t,...»X. je náhodný výběr z rozdělení s distribuční funkcí F^, o které předpokládáme, 2e je spojitá, i=l,...,p; výběry jsou vzá- P jemně nezávislé. Označme N * Z rw celkový počet pozorování. Chceme testovat hypotézu (5.1) H2 : F-^x) « F2(x) = ... = F > i=l,...,p ^i ^^j alQsP°» Pro J6<3nu dvojici i,j j která tvrdí, 2e ošetření mají lineární vliv na hodnotu pozorované veličiny a alespoň dvě ošetření se významně liší. -84- 5.1.1. F-test Jestliže můžeme předpokládat, že F^ je distribuční funkce normálního rozdělení NC^+cG^, a ), i*l,...,p, dostáváme obvyklý model analýzy rozptylu při .jednoduchém tříděni: fXij = /^+oí,i + Eij» j^l,...,^; i=l,...,p, 1 Eii Jsou oezévislé náhodné veličiny s rozdělením N(0,o2). ifypotéza H^ v tomto případě nabývá tvaru H^ : oí1 = 0Í2 ■ ... = ot s 0. Jak je známoj vhodným testem parametrické hypotézy H«, nejsilnějším v určité třídě invariantních testü, je F-test a kritickým oborem (5.5) F = — -*=L-jg------------------------->Ce6) P"1 í Z1 (X.. -x. )2 i=l j=l 1J ím kde kritickou hodnotu C^ najdeme v tabulkách F-rozdělení o (p-1, N-p) stupních volnosti; přitom 1 ni n P ni i j=l XJ •• M i=l j=l 5,1*2. Kruskal-Wallisův pořadový test Jestliže nemůžeme předpokládat, že rozdělení pozorování jsou normální, použijeme testu založeného na pořadích. Situace je podobné jako u testování shodnosti dvou populací založeného na dvou nezávislých výběrech. -85- Nechí Rii»'*->Rin. «Jsou pořadí ^»•••»3^0 j stanovená vzhledem k vektoru všech pozorování ^xU'"#*'Xn > X21,*"»X2n2i*"J Sl'""'^ *' uechí Rii^**«^Rin Jsou tatáž pořadí uspořádané podle velikosti, i=l,-..,p. Pak za platnosti Hp pro libovolnou permutaci ^rn»'**»rin » •••» rr>l,*"#,It)n ' čísel lf...,N takovou, že v*^ •••^rin » i=1»*«*»P» platí (5.6) P^CR^ = tu.....B^ = rlBi; ...; R;x = rpl,..., n,I ••• n ! ••••Rpnp = rpnp) = in-^ ' 1 ni Označme B.- = — S B. ., i=l,...,p a x* ni j=l 10 r =| ! I B^.aa . •• M i-l .1»! iJ 2 Dosadíme-li do testové statistiky (5-5) F-testu Ri * místo X- -, R. místo X- a R místo X , dostaneme ij * i• i• *• •• I n- (R- - R ) i. ± * • • p3ľ n. p » i=l j=l z čehož po úpravě a vynásobení vhodnou konstantou doataneme testovou statistiku Kruskal-Wallisova testu K * H(M+1) {Lx VRi. * 2 ) (5.7) -86- Jestliže je p=2, redukuje se statistika (5«7) na statistiku otoustranného Wilcoxonova testu« Test zamítá hypotézu H« , jestliže platí (5.8) KíC^j kde C^ je kritické hodnota. Kritické hodnoty lze stanovit z rozdělení pravděpodobností (5»6); jejich výpočet je věak velmi pracný. Kritické hodnoty Kruskal-Wallisova testu tabe-lovali W.H.Kruskal a W.A.Wallis(1952): "Use of ranks in one-criterion variance analysis". J.Amer.Statist.Assoc.47,582-612 (p=3, n-=5); C.Kraft a C.vanEeden(1968):MA Nonparametric Introduction to Statistics".Macmillan,N.York. Pro p>3 a n. - 5 používáme přibližných kritických hodnot stanovených na základě asymptotického rozdělení. Dá se ukázat, že za platnosti Hp a pro velké n,,...,n mají né-hodné veličiny y*2 nA wíff » i=l»-»«iP přibližně stejné sdružené rozdělení jako veličiny /rT(2- -Z ), i=l,...,p, kde Z- -, i=l,...,p; j=l,...,n, jsou nezávislé s rozdělením N(Q1)< i j i Z toho plyne, že K mé přibližně stejné rozdělení jako P _ 2 2 E n. (Z. -2 ) , což je rozdělení X o p-1 stupních i=l i !• •• * volnosti. Poznámka 1 . Jestliže platí H2 a společné rozdělení veličin X - - má konečný rozptyl, pak pro velká n-.,...,n mé i statistika (N-p) I n.(X. -X )2 i=l x l# •' -87- 2 přibližné rozděleni ř ^ To znamená, že velikost F-testu (5»5) zůstane přibližně zachována, i když skutečné rozdělení dat není normální. Poznámka 2. Jestliže se vyskytnou shodná pozorování, užijeme metody průměrných pořadí, podobně jako u Wilcoxonova testu. 5.1.3« Mediánový test Nechí U je medián spojeného výběru (%ii»»«*»%in XDl'***,XDn ^* Předpokládejme P^o jednoduchost, že N je sudé. 1 Označme A- počet pozorování j-tého výběru, která jsou J vÔtSí než U , j=l,...,p. Pak náhodný vektor (A,,...,A ) má za platnosti H~ rozdělení pravděpodobností 1p QO ■■■[:, (5.9) PH.Ul=al.....W* ----^» 2 x x v h (», i a- = 2" i=l Testová statistika mediánového testu má tvar p 1 n. 2 p A? (5.10) Q»4 I r^"^ =4 £ n "K i«l ni x 2 i=l ni a test zamítá H2 při velkých hodnotách Q. 5«2» Model dvojného tříděni (náhodné bloky) Chceme-li porovnávat účinnost p různých ošetření a pozorované data vykazují velkou variabilitu způsobenou různými -88- dalšími vlivy, je vhodné uspořádat experiment tak, že pozorované subjekty rozdělíme do n co nejvíce homogenních skupin, tzv. bloků, a srovnáváme účinnost ošetření pouze uvnitř bloků; jednotlivé ošetření přiřadíme jednotlivým členům bloku náhodné. Budeme uvažovat nejjednodušší z těchto modelů, ve kterém pozorované subjekty rozdělíme do n bloků o p členech a každé ošetření aplikujeme v každém bloku právě jednou.Předpokládáme, že bloky jsou vzájemně nezávislé. Formální popis modelu: máme n.p pozorování, která uspořádáme do tabulky: "^^^uáe tření Blok ^^\^ 1 2 P 1 *L1 h.2 Xlp (5.11) 2 • • *21 ■ • *22 • • - *2p n *nl Xn2 * " XnP Pozorování X. - odpovídá i-tému bloku a j-tému ošetření. Předpokládáme, že náhodné veličiny Xí ^ jsou vzájemně nezávislé a X- . mé spojitou distribuční funkci F- *, i=l,...,n; j=l,...,p. Naším úkolem je testovat hypotézu, že není významný rozdíl mezi ošetřeními, tedy <5.12) H3 : Fu(x) = Fi2(x) = ... = Fip(x)» xfeR1; i=l,...,n . proti alternativě (5.13) K. : Fi- ^ Fik alespoň pro jedno i a alespoň pro jednu dvojici j,k ; -89- nebo proti méně obecné alternativy (5.14) K3' : Fi.(x) =Fi(x-4j); j=l,...,p; i=l,...,n Áa f A ^ alespoň pro jednu dvojici j,k . 5*2,1, F-test Jestliže můžeme předpokládat, že veličiny X— vyhovují vztahům (5.15) Xiá s/ft+c^i +/3j +eíj; i=l,.--,n; j=l,...,p, kde E- • jsou nezávislé náhodné veličiny s rozdělením »(0,o ) a fÁ/ »^i»/3j jsou neznámé parametry (/ť-hlavní aditivní efekt, cC^ -efekt i-tého bloku a /3 . -efekt j-tého ošetření), pak hypotéza iU nabývá tvaru 45.16) /31 =/?2 = ... = ß p. Kritický obor testu, vhodného pře hypotézu (5.16), mé tvar (n-l)n Z (X * - X##>2 (5.17) F = p n'1=1-------------------------—z > C+ ■ Z £(X.,-X. -X.+X ) j=l i«l ^-J ^- *J kde C^ je kritická hodnota F-rozdělení o p-1 a (p-D(n-l) stupních volnosti* 5.3.2« Friedmanův pořadový test Uspořádejme pozorování v každém bloku podle velikosti a označme příslušná pořadí Rii»...íRip; i=l,--.,n. Pořadí -90- můžeme uspořádat do tabulky Ošetření Řádkové Blrtc^ 1 2 ... p průměry 1 Rll R12 •" Rlp ¥- 2 > • R21 • R22 • ... R2p • • n • Rnl • Rn2 • np ¥ Sloupcové průměry H.l R.2 • • • tt _ • P Celkový průměr kde R . a J Z R. ., i n p R = ^r Z Z R. , •• np i-1 j»l XJ Friedmanův test je založen na statistice (5.18) Q-pTFir A(r.ó-V> - a samíté H^» jestliže Q ^ G& . Kritické hodnoty Fried- manova testu tabelovali M.Friedman (1937): "The use of ranks to avoid the assumption of normality implicit in the analysis of variance". J.Amer. Statist.Assoc.32, 675-701; D.B.Owen (1962):" Handbook of Statistical Tables", Adiscn- Wesle^Mass.; C.Kraft aC.vanEeden (1968): "A Nonparametric Introduction to Statistics", Macmillan,N.York; M.G.Kendall (1970):"Rank Correlation Methods", 4.vydání; Griffin,London« -91- Pro větší hodnoty pan můžeme opět použít přibližných kritických hodnot. Jestliže n$oo , konverguje rozdělení statistiky (5.18) za platnosti H-, k rozdělení T o (p-1) stupních volnosti. Jestliže p=2, redukuje se model náhodných bloků na model párových srovnávání, který jsme uvažovali v kapitole 4* Friedmanův test se pak redukuje na oboustranný znaménkový test Podobně jako znaménkového testu pro porovnání 2 ošetření lze i Friedmanova testu pro porovnání p ošetření použít i tehdy, nejsou-li k dispozici přesné měření, ale jen uspořádání podle účinnosti. Podobně jako u znaménkového testu je výhodou i tohoto testu snadné provedení. Nevýhodou je, jak uvidíme, jeho nízká asymptotické vydatnost. 5«3. Problémy a cvičení (1) Kruska^Wallisův test při výskytu shodných pozorování. Necht mezi pozorováními ^xii»***»xin »"••»Xnl'***'^pn ^ ^e právě e hodnot různých, přičemž t± pozorování je rovno nejmenší z nich, atd., až t pozorovaní je rovno největší z nich. Necht **-n !•••»**. jsou průměrné pořadí i-tého vý- beru, IC = i- E1 iff .. Pak modifikovaná Kruskal-Walliso-i. nt j=1 ij va statistika má tvar z (t£ - t) ■ FöTFI) ±lx ni(Ŕi. - -2-) • [X------£T7^ J Podmíněné rozdělení K při daných tn,...,t_ je přibližně x e Kli' -92- (2) Srovnání 4 laboratoří (Mandel (1964):" The Statistical Analysis of Experimental Data", J.Wiley). 4 různé laboratoře měřily hladkost určitého typu papíru. Následující tabulka udává po 8 měřeních z každé laboratoře. laboratoř A 38.7 41.5 43.8 44-5 45.5 46.0 58.0 47.7 B 39.2 39.3 39.7 41.4 41.8 42.9 45.8 43.3 C 34.0 35.0 39.0 40.0 43.0 43.0 45-0 44.0 D 34.0 34.8 34.8 35.4 37-2 37.8 42.8 41.2 Pomocí Kruskal-Wallisova testu (modifikace uvedené ve cy.(l)) testujte hypotézu, že nejsou systematické rozdíly v práci jednotlivých laboratoří. (3) (Beecher (1959):"Measurement of Subjective Responses", Oxford University Press), 7 pacientů trpících kaSlem postupně obdrželo neutrální látku a 3 uklidňující prostředky. Následující tabulka udává počet zakašlání za den u jednotlivých pacientů při jednotlivých ošetřeních. """"^---Eacient OSetření^-^^ 1 2 3 4 5 6 7 Heroin, 5mg Dextromethorphan 10 mg 251 207 126 180 49 123 45 233 85 232 291 208 1385 1204 Codein,10mg 167 104 63 147 233 158 1611 Neutrální látka 301 120 186 100 250 183 1913 Pomocí Friedmanova testu rozhodněte, zda je významný rozdíl mezi jednotlivými typy ošetření. -93- KAPITOLA 6. Testy hypotézy nezávislosti ve dvourozměrné populaci Nechí (X1,Y1),...,(Xn,In) je náhodný výběr z dvourozměrného rozdělení pravděpodobností se spojitou distribuční funkcí F(x,y). Chceme testovat hypotézu (6.1) H5 ; F(x,y) = F-jUJF^y), kde F, a F~ jsou libovolné distribuční funkce, tj. že náhodné veličiny X a Y jsou nezávislé. Hypotézu Hc uvažujeme proti nejrůznějším alternativám závislosti X a X. Nejčastějáí je alternativa kladné (záporné) závislosti X a X. Nechí Xx značí náhodnou veličinu, jejíž rozdělení je shodné s podmíněným rozdělením X za podmínky X = x. Pak alternativa kladné závislosti znamená (6.2) K- : x< x' *$ Xx/ je stochasticky větší než 1^. Speciální případ alternativy kladné závislosti nastane, jestliže F(x,y) má hustotu fA(x,y) tvaru (6.3) K5 : fÄ0 kde M(z) je libovolná nedegenerováná distribuční funkce s konežLným rozptylem a íj_tf2 ^sou 1ÍD0volné hustoty. (6.3) znamená, že platí *i * Yi *^ Zi' !»!>••• »a» -94- přičemž veličiny X?s Y°, 2^, i»l,...,n jsou nezávislé a jejich rozdělení nezávisí na i • Je-li A = 0, jsou Xi a Yi QeaÄvislé» i»l»« ••»*»• Pořadové testy, se kterými se setkáme, jsou vhodné právě proti alternativám (6.3)» 6.1. t-test Předpokládejme, že F(x,y) je distribuční funkce dvourozměrného normálního rozdělení, tj. má hustotu >* + eR1 <1 Icůe M/.,j&2 iBOa střední hodnoty a o^iO-g rozptyly X a X a P je korelační koeficient X a X. Za tohoto předpokladu lze hypotézu H- přepsat ve tvaru h; : f - O a alternativa kladné závislosti má tvar P > O. mestranný ' # Stejnoměrně nejsilnějsTAkritickf obor pro H~ proti jednostranným alternativám má tvar kde n E (Xi-I)(Xi-f) E (X.-5)2 E (X.-f)2 LÍ»1 ^ i=l x J (6.5) fň^ľ 7í==^> Vn-2), -95- je výběrový korelační koeficient a t^(n-2) je kritická hodnota rozděleni t o (n-2) stupních volnosti. 6.2. Permutačni t-test Chceme testovat hypotézu H,- proti alternativě kladné závislosti; máme podezření, že F(x,y) je distribuční funkce normálního rozdělení, ale nejsme si tím stoprocentně jisti* Podobnou situaci jsme uvažovali v § 3.3- Stejně jako tam bude vhodné hledat test, nejsilnějáí proti normálním alternativám, ale mezi testy, jejichž velikost nepřekročí předepsanou hladinu významnosti 06 nejen pro normální rozdělení, ale i pro všecka rozdělení absolutně spojitého typu vyhovující hypotéze nezávislosti. Nechí X(1fc ... (6.8) —L. I <Ď (X X .....X n ; X X ,...,! n ) *o6 (nI) V platí skoro jistě vzhledem k $ , -96- •> kde sčítáme přes všech (n!) permutací (i^,*.MiB| J1>-.., ...,j'n) bodu (l,.*.,n; l,...,n). Mezi všemi testy, vyhovujícími (6*8), hledáme stejnoměrně nejsilnější proti normálním alternativám, za kterých má vektor (X^,...,X^; Y,,..., ...,Yn) hustotu (6-9) (2irv2ři^ '">{" üb?> [ k i!iUi"A)2 + k&r^&afr-iv^-rd]' i°>0- + ''2 n p n - n n Frotože Z z. , S y., J) x. , Z y, jsou konstantní na mne-i=l x i=l x i=l x i=l * žinš vôech (ni) permutací bodu (X(1),...,X*n); Y(1),. .. ,Y(n) vyplývá odtud, že nejsilnější test zamítá He pro M permutací (ij,.••,!_; jii*-»jjn), kterým přísluší nejvyšší hodnoty výrazu n (iv) (jv) (6.10) Z X k I * k»l kde U je určeno tak, aby platilo -------0 *c& (jestliže tata!)* to rovnost neplatí pro žádné M , je nutné bod na rozhraní randomizovat). Uezi hodnotami (6,10) je pouze n! různých: můžeme tedy říci, Že nejsilnější test zamítá pro H permutací jn»---iJn Čísel l,...,n, vedoucí k největším hodnotám výrazu n (i) (i) u* Z XUJ Y x , kde -J. ««6 . Prakticky provedeme test takto: získáme data (x^,y^),..*, ...,(x ,y ); stanovíme x1 í ... « (X(1),...,X(n); X(1),...,X(n)) a kritický obor per-mutačního testu lze psát ve tvaru nebo v ekvivalentním tvaru tedy permutační test je verze standardního t-testu významnosti korelačního koeficientu, podmíněná vektorem pořádkových statistik. Dá se ukázat, že pokud c^>0, a2>03 EjxJ"**,#»Bn* Ä (si>»##iSL) jsou nezávislé; podlá vě-t* 4 kapitoly £ , mé každý z těchto vektorů rovnoměrné rořdě-lení na množině $/ permutací (l,-..»n). fi«3»I. Spearmanav korelačný koeficient Za hypotézy He jsou vektory pořadí (R-,.*.,IL) a (S^,...,Sn) nezávislé. DosaSme do výrazu (6»6) pro výborový Korelační koeficient místo X| a Y, pořadí R., S-, i* » lf*..,n. Dostaneme Spearmanúv korelační koeficient 1 ? HiS..fiS (6.11) r8 « [i A^** i A ísi ■ 3,2J 1/2 Pretože ff « 5 * ^ž1 a £ 2 (R,-ff)2 = i I (S,-S)'2 d a i=l i n i=l * - = r i2 _ řfiíl)2 - n2 - 1 n i=l 2----&^ ' môžeme (6.11) vyjádřit také ve tvaru (6.12) r =_4i~ z »s, -iías^- . n(n2-l) Úl ** ** SpÄurmanôv test zamítá He ve prospěch alternativy kladné žáfislosti, Jestliže platí rs> k*C ebot což je ekvivalentní, jestliže 16,13) Jf = £ Ri Si > k^ . r£ lze také vyjádřit ve tvaru 29043 Z7 -99- (6ol4) r = 1 - -ř- Z (R. - S.) 8 n3-n i=l x x ze kterého vyplývá, Že při testováni mažeme též použít ekvi valentní statistiky (6.15) f' = Z ( E. - S.) J i=l x * přičemž test zamítá pro malé hodnoty Jf' • Kritické hodnoty Spearmanova testu lze nalézt např. v pracech a.J.Glasser a R.F.Winter (1961):"Critical values of the coefficient of rank correlation for testing the hypothesis of independence*^ Biometrika 48, 444-448 (n=4(l)30)j D.B. Owen: Handbook of Statistical Tables (ruský překlad Moskva 1966). Pro velká n stanovíme kritické hodnoty pomocí normální aproximace; střední hodnota a rozptyl J za R, jsou (6.16) %y » I n(n+l)2 var j» = ^ng)2(n-l? Test (6.13) je lokálně nejsilnější pro H^ proti alternativám (6.3), kde f* a r~ 5soa hustoty logistického typu (viz kapitola T )• -100- j>«3»2. Kvadrantová teat Tento test je založen na statistice (6.17) S*.jí [signíE.- ^l)+lj[eign (Sj- 1JÍJ+ i] a zamítá při velkých hodnotách S* . Jestliže n je sudé, je S rovno počtu dvojic (3^,1^, pro které Xi je vět-ôí než medián (X1,...,Xn> a zároveň J^ je vôtôí než medián (Xif...fXn). Statistika S* má pak za platnosti H,-hypergeometrické rozdělení /mj/mj P(S*=a) --^i™ . a=o,....m, . I m/ kde m * 5 . Odtud můžeme stanovit kritické hodnoty; také můžeme použít tabulek 0*-J. Lieberman, D.B.Owen (1961): "Tables of the hypergeometri cal probability distribution". Stanford Univ.Press; pro velká n použijeme normální aproximace s parametry * _ n ES" = - var S* sudé liché. 6.3.3. Kendall&v pořadový korelační koeficient Další jednoduchý pořadový test nezávislosti je založen na I -101- Kendallově korelačním koeficientu, který je dán vztahem (6.18) f = i-r t Z sign (R.-R.)8ign(S,-S.). (n) i k^ , kde k«, je kritická hodnota; kritické hodnoty tabeloval M.G.Kendall (1948):"Rank correlation methods".Griffin & Co., London (3.vydání 1962). Pro velká n použijeme přibližných kritických hodnot založe ných na asymptoticky normálním rozdělení V s parametry E«r = 0, var V » fífgg} . 6.4. Problémy a cviCeni (1) Nesledující tabulka udává výšku a obvod hlavy 16 chlapců ve věku 48 týd.oa (Thompson (1951):"Data on the Growth of Children during the First Tear of Life", Human Biol.23, 75--92). Výška (mm) 773 730 717 796 754 776 720 Obvod hlavy 475 469 463 475 474 471 473 Výška 764 756 705 716 733 709 750 Obvod hlavy 482 464 482 482 450 461 474 Testujte hypotézu nezávislosti proti alternativě kladné závislosti. 102- (2) Nechí (X,X) má dvourozměrné normální rozdělení s korelačním koeficientem <^>0. Pak X,¥ jsou kladně závislé ve smyslu definice (6.2)* Névo4 : Podmíněné rozdělení r při daném X = x je normální 30 střední hodnotou a rozptylem ovCl-P ). Přičteme-ii k veličině s tímto roz-dělením kladnou hodnotu P ~(* "xh dostaneme veličinu, jejíž rozdělení je rovno podmíněnému rozdělení Y při daném X = x '> x. (3) Spearmanöv test a Kendallav test jsou nestranné proti alternativám kladné závislosti.