Asymptotické testy o stredných hodnotách Homogenita a nehomogenita rozptylov Lineárne štatistické modely Modely analýzy rozptylu Stanislav Katina1 1 Ústav matematiky a statistiky Přírodovědecká fakulta Masarykova univerzita jarný semester 2017 Verzia 12. apríla 2017 Nech Y jí ~ N(fij, aj), kde j = 1,2,..., J a / = 1,2,..., n,, sú nezávislé náhodné premenné. Budeme rozlišovať dve situácie O Yji~N(»j,,(7,-7) .5:^-1 7=1 7=1 1 Y Stanislav Katina Lineárne štatistické modely ii Stanislav Katina Lineárne štatistické modely II Asymptotické testy o stredných hodnotách Jednofaktorový ANOVA model s fixnými efektami pri rovnakých rozptyloch Asymptotické testy o stredných hodnotách Jednofaktorový ANOVA model s fixnými efektami pri rovnakých rozptyloch SSe je výberový súčet štvorcov rozdielov vnútri súborov a je definovaný ako j "j j "j J y2 7 = 1 / = 1 7 = 1 / = 1 7=1 ^ Súčet SS„ a SSe sa rovná SSr, čo je celkový výberový súčet štvorcov rozdielov a je definovaný ako ^ = EE(^-^)2 = ŽE^->.: J n. 7=1 /=1 7=1 /=1 Rovnosti SSr = SS„ + SSe hovoríme aj rozklad celkovej sumy štvorcov. Pre stupne vofnosti potom platí dfT = dfA + dfe, kde dfT = n-'\,dfA = J -1,dfe = n-J. Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Jednofaktorový ANOVA model s fixnými efektami pri rovnakých rozptyloch Fw sa nazýva Fisherova testovacia štatistika (alebo ANOVA F-štatistika) a test viacvýberový F-test o rovnosti stredných hodnôt fi2, ■ ■ ■, fij (alebo ANOVA F-test). Realizáciou Fw je Fobs a p-hodnota = Pr(Fw > Fobs|Ho). Interpretácia: Úlohu môžeme interpretovať tak, že stredná hodnota ^ náhodnej veličiny Yy, závisí na faktore A, čo je premenná v nominálnej škále. Jednotlivým úrovniam (hladinám) tejto premennej zodpovedajú fixné efekty as = ^ - fi. Úrovne premennej volí experimentátor, sú teda nenáhodné, dopredu dané (fixné). Potom chápeme ay ako neznáme parametre, ktorých maximálne vierohodné odhady definujeme ako Sy = y j. -y... Samotné rozhodovanie o H0 bude založené na porovnaní priemerných súm štvorcov SSAt0bs/dfA a SSet0bs/dfe. Väčšie rozdiely y j. a y., (v absolútnej hodnote) sa prejavia vo väčšej hodnote štatistiky SSAobs. Štatistika SSe 0bs zasa umožňuje odhadnúť rozptyl o\ a súčasne dáva mieru pre hodnotenie velkosti variability medzi súbormi. Stanislav Katina Lineárne štatistické modely ii Sumy štvorcov sa najčastejšie zapisujú do ANOVA tabuľky: zdroj variability suma štvorcov df priemerné štvorce medzi súbormi SSAobs dfA MS/^obs = SSA,obs/dÍA vnútri súborov SSe,obs dfe MSeobs — SSeobs/C/fe celkovo SS7i0bs dfT MSe obs = dl = s2 Stanislav Katina Lineárne štatistické modely II Asymptotické testy o stredných hodnotách Maticový zápis modelu THa a Fh0 Modely TH^ a Fh0 Su lineárnymi regresnými modelmi a môžeme ich všeobecne zapísať v tvare Y = X/3 + e, kde Y je n-rozmerný náhodný vektor, X je matica plánu s rozmermi n x (J + 1) a e je n-rozmerný vektor chýb. Potom model bude mať tvar /Y^ (U u 0 • °\ Y2 = Xß + e = 1 n2 0 "I r)2 0 £2 + U, 0 0 • w \aj) U/ kde Y,- = (Yyi, Yy2,..., Yyn.)r je r/y-rozmerný vektor, 1n. je r/y-rozmerný vektor jednotiek a ey je r/y-rozmerný vektor chýb. Potom Yi~Nnj(Wnra2\njXnj) vektor chýb ey ~ A/n.(0n., cr|ln.xn.), vektor parametrov (3 ~ A/J+1(/3, cr|(XrX)~), kde maximálne vierohodný odhad 0 vypočítame pomocou metódy najmenších štvorcov, t.j. 0 = (XrX)~XrY. Ďalej, ak nebude uvedené inak, X bude matica plánu s rozmermi n x J (teda pôvodná matica X bez prvého stĺpca). Stanislav Katina Lineárne štatistické modely i Asymptotické testy o stredných hodnotách ANOVA model v <® Asymptotické testy o stredných hodnotách ANOVA model v ® Model Thq bude mať tvar Y2 X/3 + e: 1 n2 £2 V1 J W Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách ANOVA model v <® Výstupy funkcie summary (aov () ) : Q ANOVA tabulka, kde • Stupne vofnosti dfA a dfe summary (model) [ [1] ] [, 1] , 9 Sumy Štvorcov SSAobs a SSe obs summary (model) [[1]] [,2], • priemerné štvorce MSAobs a MSeobs summary (model) [ [i] ] [, 3]; Q realizáciu testovacej štatistiky Fobs summary (model) [ [i] ] [1,4]; Q p-hodnota summary (aov() ) [[1]] [1,5]. Funkcia aov () používa na výpočty funkciu lineárny regresný model im (). Pri priamom použití fukcie im () dostaneme ANOVA tabufku ako anova (im() ). Odmocninu z rozptylu a% dostaneme pomocou summary (im()) Ssig. Alternatívne je možné použiť funkciu oneway. test (), ktorej vstupom je ANOVA model formula v podobe y~x, dátová tabufka data a nastavenie rovnosti rozptylowar. equai=true. Výstupom sú realizácia testovacej štatistiky Fobs, stupne vofnosti dfA a dfe a p-hodnota. Stanislav Katina Lineárne štatistické modely ii Argumenty (vstupy) funkcie aov (): Q ANOVA model formula v podobe y~x; Q dátová tabufka data; Q nastavenie výstupu v podobe tabufky s rozmermi n x 3 obsahujúcej odhady fi, Sj a reziduály (chyby) e,,, projections=false (přednastavené);. Výstupy funkcie aov (): tabufky s rozmermi n x 3 obsahujúca odhady fi, 3, a reziduály e,,, pro j ections; Q odhadyyy, fitted.values; 1^ reziduály e,, residuals. Stanislav Katina Lineárne štatistické modely i Asymptotické testy o stredných hodnotách ANOVA model v C& Príklad (ANOVA F-test) Majme koncentráciu stroncia Sr (mg/ml) v piatich vodných celkoch (pozri tabufku). Otestujte rovnosí stredných hodnôt ANOVA F-testom pomocou funkcií (1) aov () (2) oneway . test () a (3) lm () . a: Koncentrácia stroncia Sr (mg/ml) v piatich vodných celkoch A(1) B (2) C (3) D (4) E (5) 28.2 39.6 46.3 41.0 56.3 33.2 40.8 42.1 44.1 54.1 36.4 37.9 43.5 46.4 59.4 34.6 37.1 48.8 40.2 62.7 29.1 43.6 43.7 38.6 60.0 31.0 42.4 40.1 36.3 57.3 Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Asymptotické testy o stredných hodnotách ANOVA model v <® ANOVA model v Cl, funkcia boxplot () 15 20 25 poradie nulový ANOVA model Rozptylové grafy ANOVA modelov - ^ (vfavo) a (vpravo) Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách ANOVA model v <® Celkový aritmetický priemer je rovný y = 43.16. Aritmetické priemery koncentrácií Sr v jednotlivých vodných celkoch sú nasledovné: yr = 32.08, y2. = 40.23, y3. = 44.08, y4. = 41.10 a y6. = 58.30, pre n, = 6, ) = 1,2,... ,6. Centrované aritmetické priemery sú rovné - /i. - 7 = -11 08, y2. - y = -2.93, yz-y = 0.92, y4. - y = -2.06 a 75.-7 = 15.14. Pre aritmetické priemery platí y.,. < y2. < y4. F) .948e-12 *** # vysl ANOVA F-testu StrMODOl <- aov(ConcStr~VodCelk) summary(StrMODOl) # ANOVA tabulka # Df Sum Sq Mean Sq F value # VodCelk 4 2193.44 548.36 56.155 # Residuals 25 244.13 9.77 oneway.test(ConcStr~VodCelk,var.equal=TRUE) # One-way analysis of means # data: ConcStr and VodCelk # F = 56.1546, num df = 4, denom df = 25, p-value = 3.948e-12 ## identicky ako StrMOD02 <- lm(ConcStr~VodCelk) anova(StrMOD02) # ANOVA tabulka # Analysis of Variance Table # Response: ConcStr # Df Sum Sq Mean Sq F value # VodCelk 4 2193.44 548.36 56.155 Pr (>F) .948e-12 35 36 37 38 39 40 41 42 43 44 45 46 47 48 summary(StrMOD02) # výsledky ANOVA F-testu # Residuals: # Min 1Q Median 3Q Max # -4.8000 -2.2500 -0.4833 2.2042 5.3000 #Coefficients: # #(Intercept) #VodCelkB #VodCelkC #VodCelkD #VodCelkE Estimate Std. 32 26 083 150 000 017 217 Error t value Pr(>|t|) 1.276 25.149 < 2e-16 517 0.00013 651 5.72e-07 998 3 .75e-05 531 1.07e-13 #Residual standard error: #Multiple R-squared: 0.8 *** *** *** *** *** 3.125 on 25 degrees of freedom !98, Adjusted R-squared: 0.8 804 804 804 804 4 . 6 . 4 . 14 . #F-statistic: 56.15 on 4 and 25 DF, p-value: 3.948e-12 Stanislav Katina Lineárne štatistické modely ii Stanislav Katina Lineárne štatistické modely i Asymptotické testy o stredných hodnotách ANOVA model v <® Asymptotické testy o stredných hodnotách ANOVA model v C& 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 Pozor, týmto spôsobom dostaneme inú F-štatistiku a teda aj inú p-hodnotu ! StrMOD03 <- lm(ConcStr-mean(ConcStr)~VodCelk-l) summary(StrMOD03) # Residuals: # Min 1Q Median 3Q Max # -4.8000 -2.2500 -0.4833 2.2042 5.3000 # Coefficients: # # VodCelkA # VodCelkB # VodCelkC # VodCelkD # VodCelkE # Residual Estimate Std -11 . 0767 -2.9267 0.9233 -2.0600 Error t value Pr(>|t|' 15 .1400 1.2757 1.2757 1.2757 1.2757 1.2757 -2 0 -1 11 .682 .294 . 724 .615 .868 Standard error: 12e-09 *** 0.0305 * 0 .4759 0 .1189 lle-12 *** 3.125 on 25 degrees of freedom # Multiple R-Squared: 0.8998, Adjusted R-squared: 0.8798 # F-statistic: 44.92 on 5 and 25 DF, p-value: 1.068e-ll (summary(StrMOD03)$sig)"2 # 9.7652; MSe summary(StrMOD03)$coef # efekty faktora VodCelk (cela tabulka) sqrt((summary(StrMOD03)$sig)~2/K) # 1.27575; odmocnina z (MSe/K) 2*pt(summary(StrMOD03)$coeff[2,3],df=K*J-J) # 0.03046675 2*pt(-2.294,df=K*J-J) # 0.03046675 69 70 71 72 73 74 anova(StrMOD03) # ANOVA tabulka #Analysis of Variance Table #Response: ConcStr - mean(ConcStr) # Df Sum Sq Mean Sq F value Pr(>F) #VodCelk 5 2193.44 438.69 44.924 1.068e-ll *** #Residuals 25 244.13 9.77 Stanislav Katina Lineárne štatistické modely ii Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Regresná diagnostika v ®, funkcia stdres () a iné Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania 0 5 10 15 20 25 30 zoradene hodnoty teoretické kvantily ".: Regresná diagnostika v ANOVA modeli Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania Vo všeobecnosti však môžeme přepokládal, že H0 generuje podpriestors hodnostou h. Potom definujme Ho = n£=1Hox, kde h= (j) = J (J - 1)/2, ak ide o všetky párové porovnania. V prípade, že J-ta z porovnávaných populácií je kontrolná (charakterizovaná fij) a ostatné majú byí porovnávané len s touto kontrolnou populáciou a nie medzi sebou, potom volíme h = J - 1 a zaujímame sa len napr. o rozdiely tvaru |y-. -yd.\, kde= 1,2,..., J - 1. Najprv testujeme H0 viacvýberovým ANOVA F-testom na hladine významnosti a použitím ANOVA F-štatistiky. Ak Ho nezamietame, nepokračujeme ďalej. Ak H0 zamietame, chceme identifikovat, ktorú z hypotéz aTfi = aTfi0 = 0, kde fi = ,..., [id)T, zamietame (pre fixné a). Počet hypotéz h poznáme vopred, ale množiny Ho = {k ■ Hok = 0} a Hi = {k : H0« = 1}, t.j. množiny nezamietnutých a zamietnutých nulových hypotéz z množiny všetkých nulových hypotéz H = Ho u 7ťi = {1,2,..., h}, kde h = h0 + h,, h0 = card {Ho} a hi = card {Hi}, dopredu nepoznáme. Stanislav Katina Lineárne štatistické modely ii Ak ANOVA F-test zamietne H0, potom je potrebné zistií, ktoré rozdiely dvojíc stredných hodnôt sú štatisticky signifikantně na nominálnej hladine významnosti a. Môžeme tak urobií pomocou post-hoc testov. Základným predpokladom ich použitia je, rovnako ako pre ANOVA model, splnenie podmienky homogenity rozptylová normality Yý, a chybe;,-. Ekvivalentnou Ho je nasledovná hypotéza H0 : fi/ — W Pre V/,); / < Prepíšme H0 do všeobecnejšieho tvaru H0 : Y,U = S/=i %Moy oproti Y,U %W ^ E/=i %Moy pre nejaké a = (aua2,...,aj)T e A, kde .A = {a : ^J=1 a,- = 0} a a je vektor kontrastov. Stanislav Katina Lineárne štatistické modely i Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania - matica kontrastov A Pre H0,,j : (i,■ = fij, i < j (i = 1,2,..., J - 1;= 1,2,..., J), bude vektor (základných) kontrastov a« mat na /-tom mieste 1, na ;-tom mieste -1, ostatné sú nuly, napr. ai =(1,-1,0,..., 0)r,a2 = (0,1,-1..., O)7",...,^ =(0,0,..., 1,-1 )T, z čoho vyplýva, že a-i =>• Mi = M2, a2 =>• = M3, • • •, aj-i =>• mj-i = mj, čo implikuje ,ai = ^2 = • • • = = M- v maticovej podobe dostaneme /0 1 -1 0 '00 1-1 \0 0 0 -V ,ß = \ajj ,A/3 = «2 — q3 Vaj-! - aj J kde a«, /< = 1,2,..., h — J - 1, sú riadky matice A. Stanislav Katina Lineárne štatistické modely i Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania - matica kontrastov A Přeznačme (J + 1 )-rozmerný vektor /3 = (fi, aT)T, kde a = (qi , a2,..., aj)1 na J-rozmerný vektor /3 = fi. Označme A bez prvého stĺpca ako A, t.j. ide o maticu (J - 1) x J. Potom H0 : A/3 = a0 = 0 oproti ^ : A/3 7^ a0 = 0. Napr. /1 -1 0 'O 1-1 0 ,A/3 \0 0 0 1 -1/ Ďalším príkladom matice kontrastov A je / mi - ß2 \ í"2 - V/tíJ-1 - /"J/ / 1 0 0 '010 V-1 -1 o -1/ ,/3 = /MA ,A/3 = / Mi - ßJ \ f-2 - ßj V/tíJ-1 - ßjj V <íí sa matica AT označuje ako contr. sum (j) Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania - matica kontrastov A Matica kontrastov A môže byí definovaná aj ako matica kontrastov pre rozdiely /11 — /i,, t.j. í° 0 0 . • °\ 1 0 0 . . 0 Ar = 0 1 0 . . 0 0 0 . • 1/ V Cíí sa matica AT označuje ako contr. treatment (j) . Nie je to matica skutočných kontrastov. Prvý element /3 zodpovedá pôvodnej základnej strednej hodnote ^ a je nulový (/3i = tu — Mi)> ostatné úrovne sú P2 — 1-L2 — t-í-í — oí2 — ol\ , ■ ■ ■, (3j — t-ij — t-i-í — aj — a-\. Pozor, ide o kódovanie v <3it a /3 vyššie nezodpovedá nami zavedenej /3 na slajde 24. Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania - matica kontrastov A Dalším príkladom matice kontrastov A je Ar 1 -1 -1 . 1 -1 -1 . -1 í 0 2 -1 . -1 ,A/3 = 0 0 0 . • j-y \ —CK-i + a2 \ -OL\ — OL2 + 2o!3 \ — q1 — . . . qj_1 + (J — 1 )qj/ V 'Ql sa matica AT označuje ako contr. helmert (j) , t.j. Helmertova matica. Pre Helmertove kontrasty potom pre— 1,2,..., j - 1 platí JU at at tit Stanislav Katina Lineárne štatistické modely II Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania - matica kontrastov A Přeznačme AT = A, a AT = (a0, A,), kde a0 je tzv. (jednoduchý) priemerujúci vektor, kde aj 1 j = 1. Platí /3 = A/3, kde A/3 je J-rozmerný vektor. A~1/3 = /3, kde A-1 = B. Matica X = XB je nová matica plánu a /3 sú nové regresně koeficienty s prvým stĺpcom pre intercept j3o, kde /3 = (/3o,/3*) . Nulová hypotéza ^1 — /j,2 — ... — fij je pravdivá vtedy a len vtedy, keď /3„ = 0j_-|. Nech B = (1 J; B„), kde J x (J - 1) nesingulárna (regulárna) matica B, sa nazýva kódovacia matica (coding matrix). <í$ nesprávne pomenováva pojmom matica kontrastu contrasts () práve tieto matice B*. Platí nasledovné (AlA,)-1 A[ = Bl. a naviac B./3, = ot. Napr. pre Helmertove kontrasty A[A* má na diagonále prvky j(J + 1) f3j =jaj+i - 52{=1 Qř- Stanislav Katina Lineárne štatistické modely II Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania - matica kontrastov A J a? Nech D — diag (rh,n2,... ,íij) = XrX a n = (n1,n2)... ,nj)T ar3 ~ /V (aT/3, ae2aTD-1a) , a73 ~ /V [ £ a)Q>, oŽ $3 ^ \>=1 y=i ; Nech A7 = (1j, A,). Potom nrA» \/ar[/3] = *l (A-DA) = ,2. ArDAJ = ^Arn a[qaí Ak ide o ortogonálně kontrasty, potom A[1 j = 0 a A^A* je diagonálna. Ak říj = K, potom n = K1j a D = Kl. Model v tvare Y — X/3 + e sme prepísali (reparametrizovali) do tvaru Y = X/3 + e, kde X/3 = X/3 a X(XTX)_1X7 = X(XTX)_1X7. Príklad (Matice kontrastov) Aplikujte vyššie spomínané matice kontrastov na ANOVA model pre dáta koncentrácia stroncia pomocou funkcie contrasts () a aov (). J Asymptotické testy o stredných hodnotách ANOVA model v <@ - matica kontrastov A Ar /1/5 -1 -1 -1 -1\ 1/5 1 0 0 0 1/5 0 1 0 0 1/5 0 0 1 0 W5 0 0 0 v ,/3 w ,A/3 M2 -Mi M3 -Mi \H -Mi VMS -Mi/ Stanislav Katina Lineárne štatistické modely ii 75 tA <- rbind(rep( -1,4) ,diag (4)) 76 tA <- cbind(rep(l/5, 5) , tA) 77 B <- solve(t (tA) ) 78 Bstar <- B [, 2 : 5] 79 contrasts (VociCelk) <- Bstar 80 StrMOD02 <- aov(ConcStr~ VodCelk) 81 summary.Im(StrMOD02) 82 Estimate Std. Error t value Pr{> 11 1 ) 83 í Intercept S 43.1600 0.5705 7 5.64 9 < 2e-16 * * * 84 # VodCelkl 8.1500 1.8042 4 . 517 0.00013 * * * 85 « VodCelk2 12.0000 1.8042 6 . 651 5.72e-07 * * * 86 i' VodCelk3 9.0167 1.8042 4 . 998 3.75e-05 * * * 87 l! VodCelk4 26.2167 1.8042 14.531 1.07e-13 * ** 30/100 Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách ANOVA model v ® - matica kontrastov A Asymptotické testy o stredných hodnotách ANOVA model v ® - matica kontrastov A /1/5 1 0 0 / M ^ /1/5 1 0 0 o\ / M \ 1/5 0 1 0 0 M2 1/5 -1 1 0 0 M2 Mi -M2 1/5 0 0 1 0 ,ß = ,A/3 = M2 - M5 Ar = 1/5 0 -1 1 0 ,/3 = ,A/3 = M2 - M3 1/5 0 0 0 1 w M3 - M5 1/5 0 0 -1 1 M3 - M4 \l/5 -1 -1 -1 -v \/i4 - M5/ W5 0 0 0 -V w \M4 - M5/ 88 89 90 91 92 93 94 95 96 97 98 99 100 101 tA <- rbind(diag(4),rep(-1,4) tA <- cbind(rep(l/5,5),tA) B <- solve (t (tA) ) ; Bstar <- B[,2:5] contrasts(VodCelk) <- Bstar StrMOD02 <- aov(ConcStr" VodCelk) summary.Im(StrMOD02) # ekviv. contr.sum(5) # # # tA (Intercept) VodCelkl VodCelk2 VodCelk3 VodCelk4 <- contr.sum(5) Estimate Std. 43 .1600 -26.2167 -18.0667 -14.2167 -17.2000 Error t value Pr(>|t|) 0.5705 75.649 < 2e-16 *** 1.8042 -14.531 1.07e-13 *** 1.8042 -10.014 3.12e-10 *** 1.8042 -7.880 3.09e-08 *** 1.8042 -9.533 8.34e-10 *** t(tA)%*%PRIEM.ConcStr # -26.21667 -18.06667 -14.21667 -17.2 102 103 104 105 106 107 108 109 110 111 112 113 114 tA <- matrix (c (1,-1, 0, 0 , 0, 0,1,-1, 0 , 0, 0, 0,1, tA <- cbind(rep(1/5,5),tA) B <- solve(t(tA)) Bstar <- B [, 2 : 5] contrasts(VodCelk) <- Bstar StrMOD02 <- aov(ConcStr" VodCelk) summary.Im(StrMOD02) ■1,0,0,0,0,1, ,5,4) (Intercept) VodCelkl VodCelk2 VodCelk3 VodCelk4 Estimate 43.1600 -8.1500 -3.8500 2.9833 -17.2000 Std. Error t value Pr(>|t|) 0.5705 75.649 < 2e-16 1.8042 -4.517 0.00013 1.8042 -2.134 0.04284 1.8042 1.654 0.11072 1.8042 -9.533 8.34e-10 * * * * * * 31/100 Stanislav Katina Lineárne štatistické modely ii 32/100 Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách ANOVA model v <@ - matica kontrastov A 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 tA <- contr.helmert(5) tA <- cbind(rep(1/5,5),tA) B < - solve (t (tA) ) Bstar <- B[,2:5] contrasts(VodCelk) <- Bstar StrMOD02 <- aov(ConcStr" VodCelk) summary.lm(StrMOD02) # Estimate Std. Error t value Pr (>111) # (Intercept 43.1600 0.5705 75 . 649 < 2e-16 *** # VodCelkl 8.1500 1.8042 4 .517 0.00013 *** # VodCelk2 15.8500 3.1249 5 . 072 3.09e-05 *** # VodCelk3 6.9000 4.4193 1 . 561 0.13102 # VodCelk4 75.7000 5.7053 13 .268 8.09e-13 * * * tA <- contr.helmert(5) t(tA) %*%PRIEM .ConcStr # 8.15 15.85 6.9 75.7 # Poznámky sqrt(MSe.obs/6) # sqrt( 5.7652/6)=1 275748 (StrMOD03 sqrt(MSe.obs* (1/6+1/6)) # sqrt(3.255067)=1 .80418 sqrt{MSe.obs*(1/3 0) ) # sqrt (0.3255067)=0.5705319 Stanislav Katina Lineárne statistické modely ii Asymptotické testy o stredných hodnotách ANOVA model v Cl - matica kontrastov A 157 158 159 160 161 162 163 164 165 166 167 168 169 170 Nesprávny postup (dosadzujeme maticu kontrastov namiesto jej inverzie): contrasts(VodCelk) <- contr.helmert(5) StrMOD02 <- aov(ConcStr" VodCelk) summary.lm(StrMOD02) # dostaneme skutočne Helmertove kontrasty ii Estimate Std. Error t value Pr ( >|t|) ii (Intercept ) 43.1600 0.5705 75 .649 < 2e-16 *** ii VodCelkl 4.0750 0.9021 4 .517 0 . 00013 *** ii VodCelk2 2.6417 0.5208 5 . 072 3 . 0 9e-05 *** ii VodCelk3 0 . 5750 0.3683 1 .561 0 . 13102 ii VodCelk4 3 . 7850 0.2853 13 .268 8 . 0 9e-13 *** ii ii dostaneme skutočne Helmertove kontrasty ii ii Prečo? tA <- contr.helmert(5) solve(t(tA)%*%tA)%*%t(tA)%*%PRIEM. # 4.075 2.641667 0.575 3.785 Asymptotické testy o stredných hodnotách ANOVA model v ^ - matica kontrastov A_ Nesprávny postup (dosadzujeme maticu kontrastov namiesto jej inverzie): 136 contrasts(VodCelk) <- contr.treatment(5) 137 StrMOD02 <- aov(ConcStr~ VodCelk) 138 summary.Im(StrMOD02) 139 # Estimate Std. Error t value Pr(>|t| ) 140 # (Intercept) 32.083 1.276 25 .149 < 2e-16 * * * 141 # VodCelk2 8 .150 1. 804 4 . 517 0 .00013 *** 142 # VodCelk3 12.000 1 . 804 6 . 651 5 . 72e-07 *** 143 # VodCelk4 9 . 017 1 . 804 4 . 998 3.75e-05 * * * 144 # VodCelk5 26.217 1 . 804 14.531 1.07e-13 * * * 145 contrasts(VodCelk) <- contr.sum(5) 146 StrMOD02 <- aov(ConcStr~ VodCelk) 147 summary.lm(StrMOD02) # o dhady su prve štyri úrovne alfa 148 I! Estimate Std. Error t value Pr(>|t| 149 I! (Intercept) 43.1600 0 .5705 75.649 < 2e-16 *** 150 # VodCelkl -11 . 0767 1.1411 -9.707 5.82e-10 * * * 151 VodCelk2 -2.9267 1.1411 -2.565 0.0167 * 152 # VodCelk3 0.9233 1.1411 0 . 809 0 . 4260 153 # VodCelk4 -2.0600 1.1411 -1.805 0 . 0831 154 round(PRIEM.str ,4) 155 i! A B C d E 156 ii -11.0767 -2. 9267 0. 9233 -2.0600 15.1400 Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania - testovacie štatistiky Pre nejaký vektor a je stredná hodnota £E/=i aiYi] — S/=i a;W a rozptyl Var[Y,U ajYj] = <ňE/=i f- Potom 35/100 Stanislav Katina Lineárne štatistické modely ii 36/100 Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania - Fisherova LSD metoda Rozptyl a\ nepoznáme a musíme ho odhadnú! Výberový rozptyl v;'-tej populácii je rovný S2 = ^-[T,"U(.yjí -Yj.)2, kde; = 1,2,..., J, sú nezávislé. Potom platí (n, - 1)S2/ |ŕa||H0) a H0 zamietame, ak |ŕa| > ŕ„_j(a/2); ŕn_j(a/2)je krilická hodnola ŕ rozdelenia s n - J slupňami voínosli. Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania - Scheffého metóda Označme 2 ^ (aTfi - aVo) a ~ S2aT(XTX)-1a Polom Ey=i ajYj - J2j=-\ ajßjo) (Ey=i aj{Yj- - Pjo o2 v^J J_ ^E^TÍ" 2 E;=iny((Vy--V-)-(w-/i)) sup T2 = —-^-55-^ = (J - 1 )FW, S2 kde V.. = -a fi = ——.-. Navyše E;=i "y E;=i "y sup 7í ^(J-IJFj-l,,. Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania - Fisherova LSD metóda Ta — Tlsd je Waldova testovacia štatistika, často nazývaná aj Fisherova LSD štatistika (z angl. least significant difference, t.j. najmenší signifikanlný rozdiel). Test viacvýberový Fisherov LSD test o lineárnom kontraste E/=i aiH- Potom môžeme definovat Waldov 100 x (1 - a)% empirický IS pre nejakú lineárnu kombináciu ^J=1 a,^ (nazývaný aj empirický IS Fisherovho typu) ako ■ tn-j(ct/2) N y=i J y=i a,/,, +ŕn_j(a/2) Stanislav Katina Lineárne štatistické modely II Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania - Scheffého metóda 2 Čitateía menovateľ (J - ^Fw sú nezávislé. Tiež platí S2 ~ °2e-^Ej a (wo - v) 2 xj-1- Scheffé ukázal, že aVo)2 S2a7(X7X)-1a (E/=i ajYj - E/=i %Myo) S2Eyíi afM (J-1)Fj. kde H0 zamietame, akFa > (J — 1)Fj_1:n_j(a), kde Fj_1:n-j(q:) je kritická hodnota F rozdelenia s J - 1 a n - J stupňami voínosti. Je potrebné zdôraznil, že H0 musí platit pre všetky kontrasty a simultánne a H0 zamietame, ak zamietame hypotézu o supréme Ta2, t.j. zamietame H0 v ANOVA F-teste. Fa sa nazýva Waldova testovacia štatistika, často nazývaná aj Scheffého štatistika a test viacvýberový Scheffého test nulovosti všetkých kontrastov. Realizáciou Fa je Faj0bs a (adjustovaná) p-hodnota = Pr(Fa > FaiObs|H0). Stanislav Katina Lineárne štatistické modely i Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania - Scheffého metoda Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania -Tukeyho HSD metoda Waldove simultánne 100 x (1 - a)% empirické intervaly spoľahlivosti Scheffého typu definujeme ako (aTfi-y/(T- 1)F J-1,n-A (aWírla^X)-ia aT/2 + ■ 1)F, kde pravděpodobnost pokrytia všetkých IS (simultánne) je rovná 1 - a. Za simultánnu inferenciu (t.j. testovanie H0«) platíme dĺžkou simultánnych IS Scheffého typu oproti IS Fisherovho typu, t.j. kedze garantujeme simultánny koeficient spoíahlivosti 1 - a, simultánne IS Scheffého typu môžu byí dosí široké (platí ŕ„_j(a/2) < ^/(J - 1)Fj_1:n_j(a)). Z čoho vyplýva, že Scheffého testy majú menšiu silu ako ŕ-testy. Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania - Tukeyho HSD metoda Fa sa nazýva Waldova testovacia štatistika, často nazývaná aj Tukeyho HSD statistika (alebo Tukey-Kramerova statistika; HSD z angl. honest significant difference, t.j. skutočný signifikantný rozdiel) a test viacvýberový Tukeyho HSD test nulovosti všetkých kontrastov. Realizáciou Fa je Fai0bs a (adjustovaná) p-hodnota = Pr(Fa > Fai0bs|Ho). Waldove simultánne 100 x (1 - a)% empirické intervaly spoľahlivosti Tukeyho typu definujeme ako (V/2 - qJ \q2tn_j (a), kde qj,n-j(a) je kritická hodnota studentizovaného rozpätia s J a n -J stupňami voínosti. Je potrebné opäí zdôraznií, že H0 musí platií pre všetky kontrasty a simultánne a H0 zamietame, ak zamietame hypotézu o supréme Ta. 42/100 Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania v# - Scheffého metóda Po náhíade na dáta použijeme nasledovné tri vektory kontrastová^, nim prislúchajúce odhady efektov alp, = J2j=-\ aKjVj'icn rozptyly s2a^(XTX)~1a^ = s2 J2j=-\ alj/nj a Scheffého testovacie štatistiky V^ä^ôbš = \aIfi\ /Js2al{XTX)-'ak , kde k = 1,2 a 3: 0 ai = (0,i 11 -\\t -7t j_ 16.5, s2a1r(XrX)-1a1 = 1.472, ■\f '^a.| ,obs = = 11.20, 0 a2 = (1,- 3, 3, 3,0) , a2fj, = -9.7, s2a2r(XTX)-1a2 = 1.472 \/Fa2 5obs = = 6.60, 0 a3 (2, 1 1 1 1\t att 3 , 3 , 3 , 2 / ■ =3 h- = 3.4, s2a3r(XrX)-1a3 = 1.162, \7Fa3 j0bs - =2.91. Scheffého kritická hodnota je rovná V(J- 1)Fj_i,n_j(a) = 74F4.25 (0.05) = 1.34. Potom H0)< : = 0 oproti H1(< : alfi ý 0 zamietame, ak k — 1,2,3. Stanislav Katina Lineárne štatistické modely i Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania v *® - Scheffého metoda Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania v ® - Tukeyho HSD metoda 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 K<-6;J<-5 X <- model.matrix(StrMOD03) al <- c (0,1/3,1/3,1/3,-1) a2 <- c(l,-1/3,-1/3,-1/3,0) a3 <- c(1/2,-1/3,-1/3,-1/3,1/2) matA <- rbind(al,a2,a3) t(al)%*%PRIEM.ConcStr # -16.49444 t(a2)%*%PRIEM.ConcStr # -9.722222 t(a3)%*%PRIEM.ConcStr # 3.386111 MSe.obs <- (summary(StrMOD03)$sig)"2 rozptyl.al <- MSe.obs*t(al)%*%solve(t(X)%*%X)%*%al # 2 rozptyl.a2 <- MSe.obs*t(a2)%*%solve(t(X)%*%X)%*%a2 # 2 rozptyl.a3 <- MSe.obs*t(a3)%*%solve(t(X)%*%X)%*%a3 # 1 kh.F <- sqrt((J-l) * (1-pf(0.95,J-l,K*J-J))) # 1.34436Í abs(t(al)%*%PRIEM.ConcStr)/sqrt(rozptyl.al) # 11.19704 abs(t(a2)%*%PRIEM.ConcStr)/sqrt(rozptyl.a2) # 6.599807 abs(t(a3)%*%PRIEM.ConcStr)/sqrt(rozptyl.a3) # 2.907548 17 = 17 = 36 = 1.472 1.47"2 1 . 16~2 IS.al <- t(al)%*%PRIEM.ConcStr -18.47484 -14.51405 IS.a2 <- t(a2)%*%PRIEM.ConcStr -11.702620 -7.741825 IS.a3 <- t(a3)%*%PRIEM.ConcStr 1.820470 4.951753 ) Stanislav Katina c(-1,1)*kh.F*sqrt(rozptyl.al) # c(-1,1)*kh.F*sqrt(rozptyl.a2) # c(-1,1)*kh.F*sqrt(rozptyl.a3) # Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania v<® Výsledky Tukey HSD metody - rozdiely aritmetických priemerov y,, - yj., dolná a horná hranica Waldových simultánnych 95% empirických IS Tukeyho typu pre ^, p-hodnoty pk M (DH a HH), adjustované //.-//. DH HH Pk B-A 8.15 2.85 13.45 0.00112931 C-A 12.00 6.70 17.30 0.00000534 D-A 9.02 3.72 14.32 0.00033392 E-A 26.22 20.92 31.52 <0.00000001 C-B 3.85 -1.45 9.15 0.23762175 D-B 0.87 -4.43 6.17 0.98848032 E-B 18.07 12.77 23.37 <0.00000001 D-C -2.98 -8.28 2.32 0.47910996 E-C 14.22 8.92 19.52 0.00000029 E-D 17.20 11.90 22.50 0.00000001 Stanislav Katina Lineárne štatistické modely ii 192 193 194 195 196 197 198 199 200 201 202 203 # 8 .15 9.7652 # 1.275746 .388408 # Tukeyho HSD metoda pre vybraný kontrast B-A a.AB <- c(-1,1,0,0,0) cit.AB <- sum(a.AB*PRIEM.ConcStr) MSe.obs <- (summary(StrMOD03)$sig)"2 # menov.AB <- sqrt(MSe.obs/2*sum(a.AB"2/K) tLSD.AB <- čitatel.AB/menovatel.AB # 6. qtukey(0.95,J,K*J-J) # 4.153363 p.hodn <- 1-ptukey(tLSD.AB,J,K*J-J) # 0.001129311 IS.AB <- čitatel.AB+c(-1,1)*qtukey(0.95,J,K*J-J)*menov.AB # 2.851355 13.448645 mp.Tukey <- TukeyHSD(aov(ConcStr~VodCelk),ordered=FALSE) # tab. mp.Tukey$VodCelk Stanislav Katina Lineárne štatistické modely i Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania v 1) = 1 - Pr(V = 0) = 1 -o£(1 -ac)h = 1 - (1 - acf. Z iejto rovnosii vyplýva, že ak sa počet párových porovnávaní zväčšuje, ae sa blíži k jednotke (pozri tabuíku). Ak h = 1 (dvojvýberový prípad), polom a — OLe — Oíc- Experimentálna chyba ae ako funkcia ac a h ac/h 2 5 10 20 50 0.01 0.0199 0.0490 0.0956 0.1821 0.3950 0.05 0.0975 0.2262 0.4013 0.6415 0.9231 0.10 0.1900 0.4095 0.6513 0.8784 0.9948 50/100 Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Párové porovnávania Zamerajme sa na hodnotenie zovšeobecnenej pravdepodobnosti CHPD v podobe O pravdepodobnosti najmenej jednej CHPD, kde V ]e počet zamietnuiých pravdivých H0« (family-wise error rate, FWER: metódy napr. Fisherova LSD metóda, Tukeyho HSD metóda, Scheffého metóda, Bonferroniho metóda, Šidákova metóda, Holmova metóda, Hochbergova metóda); FWER = Pr(V > 1); FWER adjustované (upravené) p-hodnoty sú definované nasledovne pk = inf {a : Hok zamietame na FWER = a} ; Q očakávanej hodnoty podielu CHPD medzi zamietnutými hypotézami, FDR = E[V/R], ak R > 0 alebo 0, ak R = 0, kde R je počet zamieinuiých pravdivých a nepravdivých Ho, FDP = V/R (false discovery rate, FDR, false discovery proportion, FDP: metódy napr. Benjamini-Hochbergova metóda, Benjamini-Yekutieliho metóda); FDR adjustované p-hodnoty sú definované nasledovne pk = inf {a : Hok zamietame na FDR = a} ; Asymptotické testy o stredných hodnotách Párové porovnávania Kontrola FWER a FDR znamená nasledovné: FWER < a a Pr(FDP > 7) < a, kde 7, a e (0,1). Aby bolo možné robií simuliánnu inferenciu, je poirebné modifikovať kritickú hodnotu ŕn_j(a/2) rozdelenia Fisherovej LSD štatistiky pomocou substitúcie a/2 použitím jedno- a viackrokových metód. (Jednokroková) Bonferroniho, resp. Šidákova metóda sú založené na princípe zmenšenia argumentu a/2 kritickej hodnoty ŕ-rozdelenia s n -J stupňami voľnosti (obojstranný test) na základe Bonferroniho, resp. Šidákovej nerovnosti, Pr(u|;=1A<) < EL Pr(A<). Pr(u|;=1A<) < 1 - q, resp. Pr (nLi At) > ní=i Pr(A), Pr (V1L1 At) > 1 - a, na a/(2h), resp. ^ _ _ \ 1 /h -—-—, kde Ak je najaká udalosí. V druhej nerovnosti platí rovnost ak sú Ak nezávislé. Stanislav Katina Lineárne štatistické modely ii 52/100 Stanislav Katina Lineárne štatistické modely II Asymptotické testy o stredných hodnotách Párové porovnávania Asymptotické testy o stredných hodnotách Párové porovnávania Bonferroniho metoda je konzervatívnejšia ako Šidákova (vedie ku menšiemu počtu zamietnutí, t.j. kritické hodnoty sú väčšie), lebo platí (1 - aý/h < 1 - a/h pre všetky a > 0,h > 1, teda tn-j{a/h) > r„_j(1 - (1 - a)1/h). Rozdiel je ale zanedbateíný. V súvislosti s kontrolou FWER a adjustovanými p-hodnotami platí pre Bonferroniho nerovnosí FWER = Pr{V > 0) = Pr (u^ [P* < a "o Pk<*))= JJ Pr (p* > a Y[ Pr (Pk > 1 - (1 - a)1/h) = (1 - afo/h > 1 - a, z ktorej vyplýva, že FWER = Pr(V > 0) = 1 - Pr(V = 0) = (1 - a)h°/h < a Stanislav Katina Lineárne štatistické modely ii Stanislav Katina Lineárne štatistické modely II Asymptotické testy o stredných hodnotách Párové porovnávania Asymptotické testy o stredných hodnotách Párové porovnávania Ak použijeme vyššie uvedené postupy na h párových porovnaní, potom pravdepodobnosí, že aspoň raz chybne zamietnemejednu z rovností^, = [i-h ktorá platí, nie je väčšia ako a, t.j. ak sú všetky hypotézy pravdivé, pravdepodobnosí identifikácie, že niektorá z nich je nepravdivá, nie je viac ako a, pretože a je pravděpodobnost zamietnutia ANOVA F-testu. Taktiež ANOVA F-test je test všetkých a[n = 0, k = 1,2,... ,h, a akje tento test zamietnutý, ešte nemusí nastať situácia, že niektorá z vyššie spomenutých metód zamietne nejakú hypotézu. Práve pre túto vlastnosí je experimentálna chyba menšia ako a. Ale ak ANOVA F-test zamieta nulovú hypotézu, potom Scheffého metóda bude zamietat H0 aspoň přejeden kontrast. Adjustované hladiny významnosti ak sú definované nasledovne • Bonferroniho = 9 Šidákove ak = 1~<1~">v\ Argument a/2 kritickej hodnoty ŕ„_j(a/2) sa substituuje ak. Potom budú Waldove simultánne 100 x (1 - a)% empirické intervaly spoľahlivosti Fisherovho typu definované nasledovne aTn-tn_j(ak)Ja2eaT(XTX)-^a,aTn + tn-j(ak)Ja2eaT(XTX)-^a Adjustované p-hodnoty pk sú definované nasledovne 9 Bonferroniho pk = min {hpk, 1}, • Šidákove pk = 1 - (1 - pk)h, Stanislav Katina Lineárne štatistické modely ii Stanislav Katina Lineárne štatistické modely i Asymptotické testy o stredných hodnotách Mnohonásobné porovnávania v <® Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania v<® Mnohonásobné porovnávania v cg Na Tukeyho HSD metodu použijeme funkciu TukeyHSD (aov () , ordered=FALSE) , kde argument ordered ponechá pôvodné poradie hypotéz H0«. Výstupom je tabulka obsahujúca odhady rozdielov stredných hodnoty,, — y,-., dolné a horné hranice Waldových simultánnych 100 x (1 - q)% empirických IS Tukeyho typu a adjustované p-hodnoty pk. Na jednokrokové a viackrokové metody (výpočet adjustovaných p-hodnôt) použijeme funkciu pairwise.t.test(y,x,p.adjust = "metoda",pool.sd=TRUE) , kde argument pool. sd=TRUE predstavuje použitie 1, kedy použijeme vstupné argumenty y a x. Pokiaí by sme chceli testovaí nulovosí jednotlivých a-h použijeme vstupné argumenty y-mean (y) a x-1 (argument x-1 znamená model bez interceptu V)- Stanislav Katina Lineárne štatistické modely ii Príklad (Metody mnohonásobného porovnávania) Majme koncentráciu stroncia Sr (mg/ml) v piatich vodných celkoch. Otestujte rovnost stredných hodnôt ANOVA F-testom pomocou funkcií (1) aov () (2) oneway. test () a (3) lm (). Ak je H0 zamietnutá na a = 0.05, potom vypočítajte adjustované p-hodnoty a Waldove simultánne 95% empirické IS Fisherovho typu pre všetky párové porovnania rozdielov stredných hodnôt Bonferroniho metódou. Stanislav Katina Lineárne štatistické modely i Asymptotické testy o stredných hodnotách Metódy mnohonásobného porovnávania v<® 204 205 206 # parove porovnávania mp.Bonf <- pairwise.t.test(ConcStr,VodCelk, p.adjust="bonferroni",pool.sd=TRUE) Asymptotické testy o stredných hodnotách Jednofaktorový ANOVA model s fixnými efektami pri rôznych rozptyloch Nech Yji(fij,cr?), kde existuje aspoň jedna dvojica /' ^ j (i,j = 1,2,..., J) taká, že af ^ af a zároveň af sú neznáme. Potom Fw štatistika nemá F rozdelenie s J - 1 a n - J stupňami voínosti a musí byt modifikovaná nasledovne (Welch 1951) 7(W) 1 "t" " j2_i 2^=1 n i Wj = nj/sf,hj = ^~,j = 1,2, stupňov voínosti dfw* = 7(w) Ej=i fy I y j. - y. i u7J-2rJ (1~^) J—1,cffw, ..,Ja/I = 7(w) J2-1 JZ^j=1 (7,-1 ■EyiilyYy-Poeet čo zaokrúhlime na najbližšie nižšie celé číslo, t.j. df„ = \ df„^\. Príklad (homogenita vs nehomogenita rozptylov) —(IV) Comu je rovne (A) Y.. , (B) dfWl a (C) Fw ak sú rozptyly homogénne? Stanislav Katina Lineárne štatistické modely ii Stanislav Katina Lineárne štatistické modely i Asymptotické testy o stredných hodnotách Jednofaktorový ANOVA model s fixnými efektami pri rôznych rozptyloch Asymptotické testy o stredných hodnotách Jednofaktorový ANOVA model s fixnými efektami pri rôznych rozptyloch Fw sa nazýva Fisherova testovacia štatistika (alebo presnejšie Welchova ANOVA F-štatistika) a test viacvýberový F-test s Welchovou aproximáciou stupňov vofnosti o rovnosti stredných hodnôt fii,fi2,...,fij (alebo Welchov ANOVA F-test). Realizáciou Fwje Fobs a p-hodnota = Pr(Fw > Fobs\H0). Na porovnanie ANOVA modelu pri rôznych rozptyloch s ANOVA modelom pri rovnakých rozptyloch - s2 definujeme ako vážený priemer výberových rozptylov s2,= 1,2,..., J, teda Potom Y, ~ Nnj{p^„nT.j), kde Z, = crf\njXnjl vektor chýb e, ~ Nnj{0, Z,), vektor parametrov/3 ~ /Vj(/3,(XTZ~1X)~1), kde Z = diag(cr2,cr2,... ,=i /=i Stanislav Katina Lineárne štatistické modely ii Stanislav Katina Lineárne štatistické modely II Asymptotické testy o stredných hodnotách Test pomerom vierohodnosti o rovnosti stredných hodnôt Tiež platí 0O = {d : m = fi2 = ■ ■ ■ = = /"}■ Potom -1 krát prirodzený logaritmus pomeru vierohodnosti bude rovný -ln(A(y1)y2)...)yJ)) = 2|n (|f Vieme, že testovacia štatistika pomerom vierohodnosti ľlr = -2 In (A (Yi, Y2,..., Yj)) ~ xj-l kde H0 bude zamietnutá pre veíké ~2 hodnoty podielu Q. Dá sa ukázaí, že - ln(A(y1,y2,... ,yj)) je rastúcou funkciou Fobs. Úpravou podielu gq/g2 dostaneme n, /•E^,S°i,(»±7,-íi)2' -|n(A(y"V2>J|) = TUZLto-Jľ n , ŕ* J 1 _ Potom môžeme ľlr prepísat , í, J 1 _ uLR = nln I 1 + ^TjFobs Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Test pomerom vierohodnosti o homogenite rozptylov Hypotézy definujeme nasledovne H0 ■. a\ — a\ — ... — o2 — a2 oproti Hi : a? ý af ŕ v2 Pre aspoň jedno /' <;',/' — 1,2,..., J - 1;;' = 2,3,..., J. Nech Yj ~ W(w,of), kde; = 1,2,... J, 6 = fi2, ■ ■ ■ ,tu, o\ ,g2,... ,g2)t. Logaritmus funkcie vierohodnosti má tvar /(0|yi,y2,...,yj i=\ j=\ í \/=i / MLE Oje rovný 0 = (fa, J22,... , pj, 5^, Sf,... ,g2)t, kde 1 "' 1 /=i t.j. 0! = {d : o2 ý o2 ý a2;i uLR\H0). Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Bartlettova modifikácia testu pomerom vierohodnosti o homogenite rozptylov v' Argumenty (vstupy) funkcie bartiett. test (): © x - objekt im (y~x) alebo len vektor pozorovaní y; Q g - vektor príslušnosti do skupín x, ak (1) je vektor pozorovaní y, inak nie je potrebné tento argument uvádzat; formula v podobe y~x, ak nie je uvedené (1) a (2); Q data v podobe dátovej tabufky, ak (1) až (3) používajú stĺpce z dátovej tabufky. Výstupy funkcie bartiett. test (): Q statistic - Bartlettova štatistika U^; Q df - stupne vofnosti J - 1; Q p. value - p-hodnota. Príklad (Test pomerom vierohodnosti o homogenite rozptylov) Naprogramujte v atestom pomerom vierohodnosti o homogenite rozptylov. J Príklad (Test homogenity rozptylov) Majme koncentráciu stroncia Sr (mg/ml) v piatich vodných celkoch. Otestujte homogenitu rozptylov (A) testom pomerom vierohodnosti a (B) Bartlettovou modifikáciou testu pomerom vierohodnosti. Stanislav Katina Lineárne štatistické modely ii Bartiett (1937) modifikoval testovaciu štatistiku pomerom vierohodnosti nasledovne (alt) LR © 2 kde Ub = --Xj-1 , S2 sú výberové rozptyly a C = 1 + 3(J ^—(y^___í_) -1)\jrr"v-1 Eyíi(ny-1)y UB konverguje ku x3_i rozdeleniu rýchlejšie ako ULR. Realizáciou UB je uB. Potom p-hodnota = Pr(ĽB > uB\H0). Stanislav Katina Lineárne štatistické modely i Asymptotické testy o stredných hodnotách Dvojfaktorový ANOVA model s fixnými efektami Nech Ym ~ N(nij,afj), kde ;'= 1,2,...,/,y = 1,2,..., J a k = 1,2,...,n,j, sú nezávislé náhodné premenné. Budeme rozlišovať dve situácie O Yy/í ~ N(fijj, a2), kde cr^ = a22 = ... = afj = a2 (homogenita rozptylov), a2 sú neznáme a O Yjjk ~ A/(/lí,j, cr?), kde existuje aspoň jedna dvojica rozptylov, ktoré sa nerovnajú (nehomogenita rozptylov), a2 sú neznáme. V špeciálnom prípade n,y = K, t.j. ide o situáciu, kde sú všetky rozsahy homogénne. Stanislav Katina Lineárne štatistické modely i Asymptotické testy o stredných hodnotách Dvojfaktorový ANOVA model s fixnými efektami Nech Y,,, kde a\y oi a zároveň a}, sú lijk ~ N(Hij, Y2 Rovnosti SSr = SS„ + SSe + SSe hovoríme aj rozklad celkovej sumy štvorcov. Pre stupne vofnosti potom platí dfT = dfA + dfB + dfe, kde dfT = n - 1, dfA = I - 1, dfB = J - 1, dfe = n - I - J + 1. Stanislav Katina Lineárne štatistické modely II Asymptotické testy o stredných hodnotách Dvojfaktorový ANOVA model s fixnými efektami Asymptotické testy o stredných hodnotách Dvojfaktorový ANOVA model s fixnými efektami s interakciou Nech Ym Sumy štvorcov sa najčastejšie zapisujú do ANOVA tabuľky: zdroj variability suma štvorcov df priemerné štvorce medzi súbormi A dfA MSA = SSA,obs/dfA medzi súbormi 6 dfg MSB = SSB,obs/dfB vnútri súborov SSe,obs dfe MSe = SSe]0bs/dfe celkovo SSr.obs dfT MSei0bs = j. Cf/e kde dfBA = l(J - 1} SSb/i je výberový súčet štvorcov rozdielov pre vnorený faktor B : A a je definovaný ako / j i j ssekše (v,-y,)2 = í=1 7=1 / = 1 7 = 1 Asymptotické testy o stredných hodnotách Hierarchický ANOVA model s fixnými efektami SSe je výberový súčet štvorcov rozdielov vnútri súborov a je definovaný ako /=1 7=1 /<=1 Y n i j k i j y2 £ £ £ ^ ~ £ £ í=1 7=1 /<=1 / = 1 7=1 Súčet SS/!, SSB]A a SSe sa rovná SSr. Rovnosti SSr = SS/, + SSBA + SSe hovoríme aj rozklad celkovej sumy štvorcov. Pre stupne vofnosti potom platí dfT = dfA + dfBA + dfe, kde dfT = n -1,dfA = I -1,dfB:A = /(J - 1),dfe = n- U. Sumy štvorcov sa najčastejšie zapisujú do ANOVA tabuľky: zdroj variability suma štvorcov df priemerné štvorce medzi súbormi A SSa^oUs dfA MSA = SSA,obs/dÍA medzi súbormi 6 : A SSß:A,obs dfBA MSB:ň — SSB:A,obs/dfB:A vnútri súborov SSe,obs dfe MSe = SSe^obs j dfe celkovo SS7i0bs dfT MSe,obs = cv(..-v...r=i:£-£ (=1 (=1 SSe,A je výberový súčet štvorcov rozdielov pre vnorený faktor B : A a je definovaný ako / j ssBJ = E£".(ň-v,)2 = ÉE!-f- / = 1 7 = 1 /=1 7=1 Stanislav Katina Lineárne štatistické modely II Asymptotické testy o stredných hodnotách Hierarchický ANOVA model s fixnými efektami Sumy štvorcov sa najčastejšie zapisujú do ANOVA tabuľky: zdroj variability suma štvorcov df priemerné štvorce medzi súbormi A dfA MSA = medzi súbormi 6 : A SSß:A,obs dfß:A — SSB:A,obs/dfB:A vnútri súborov SSe,obs dfe MSe = celkovo SS7i0bs dfT MSei0bs = h &I1 ß-12 ßl3 ß2i ß22 ^31 ^32 £33 4.20 4.05 4.15 3.90 4.20 4.15 4.00 3.95 4.05 4.15 4.25 3.95 4.15 4.05 4.10 4.10 4.00 4.10 4.20 4.10 3.95 4.20 4.15 4.00 4.10 4.25 4.25 4.00 4.00 4.00 3.95 3.85 4.05 4.10 4.10 4.05 4.00 4.15 n,j 6 5 5 4 5 4 5 4 "i 16 9 13 YU- 24.52 20.65 20.95 15.95 20.35 16.40 20.20 15.90 YU- 4.09 4.13 4.19 3.99 4.07 4.10 4.04 3.98 Yi- 66.12 36.30 52.50 Y... 154.92 0.078 0.076 0.065 0.085 0.104 0.091 0.082 0.104 ANOVA tabulka: zdroj variability suma štvorcov df priemerné štvorce medzi súbormi A SS„,obs = 0.0855 dfA = 2 MSA = 0.0429 medzi súbormi 6 : A SSBA,obs = 0.0756 dfß:A = 5 MSB:ň = 0.0151 vnútri súborov SSe,obs = 0.2197 dfe = 30 MSe = d\ = 0.0073 celkovo SSTi0bs = 0.3810 dfT = 37 ssb:a mb* sse 0.0151 0.0073 2.0635 = F6,3o(0.05) = 2.5335 p-hodnota = 0.098. Stanislav Katina Lineárne štatistické modely II Stanislav Katina Lineárne štatistické modely I Asymptotické testy o stredných hodnotách Kroneckerov súčin a jeho vlastnosti Kroneckerov súčin. Nech A je matica m x n, a B je matica p x q. Potom A ® B je matica mp x nq, ktorej (/,/)-ty blok je rovný a,jB, teda / ď-i-|B CI12B ... a-i^BX 921B 322 B ••• čÍ2nB A ® B = \9mlB am2B Pre Kroneckerov súčin platí 0 ® A = A ® 0 (Ai + A2) 1)/x \ H = (1/®1j,I/x/®1j,IjxJ®1/) (Bi®1)ai \(1 ®B2)a2/ = (l/CSl^Bi ®1j,1/®B2)/3. Přeznačme vektor parametrov faktora A = A-\ na a = a-\ a vektor parametrov faktora 6 = A2 na /3 = a2,7 = "12- Potom /3 = {n, a],cJ,,a]2)T. Nech // = (mu, M12, • • •, Mi/> M21, • • •, Mu)7-Zápis vektora // pomocou Kroneckerovho súčinu je nasledovný M = (1/ ® 1 J, l/x/ ® 1 J, IjxJ ® 1/, '/x/ ® ljxj)/3- Nech matica kontrastov pre faktor Aj je Ay a jej inverzia A~1 = By, y = 1,2. Nech matica kontrastov pre interakciu A\2 je A12 a jej inverzia A^"21 = B12. Potom platí nasledovné M = (1/®1j,l/x/®1j,ljxJ®1/,l/x/®ljxj) = (l/igilj^! ®1j,1,®B2,B1 ®B2)/3- / (1®1)M \ (Bi T n a O T f- —> Tab —> ?a —> -^/v, sa líšia len záměnou / a J v SS. Ak je model nevyvážený, dostaneme výsledok pre každú postupnosť modelov iný. 95/100 Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Testovanie submodelov v ANOVA - sumy štvorcov Majme nasledovné výberové sumy štvorcov v tzv R-notácii 1 j "a _ 2 iľ(Y - p) = sse = E E (> - /=1 y=i (<=1 / j "s ,s)t(y - nAB) = ssAB = E E E (Y!* - Y< - y-y- + y- ;'=1 j=1 (<=1 i j "I _ 2 , b) = (Y - /is)r(Y - £b) = SSS = 53 53 ]T (yřfc - Y,,) /=1 y=i (<=1 1 j "u _ 2 , a) = (Y - ám)t(Y _ ^) = ss„ = ]T E E (Y* ~ Y-) /=1 y=i (<=1 1 j "u _ 2 = (Y - Mo)T(Y - Mo) = SSr = E E (> " Y-) ;=1 y=i (<=1 Modely prislúchajúce daným výberovým sumám štvorcov sú v poradí M = Mf, Mab, Mb, Ma a M0 = MN- I0 Stanislav Katina Lineárne štatistické modely ii Asymptotické testy o stredných hodnotách Testovanie submodelov v ANOVA - rozdiely súm štvorcov a tri typy rozkladov Majme nasledovné sumy výberové štvorcov v tzv. redukovanej R-notácii 7£(ab|1, a, b) = 7z(1, a, b) - 7z(1, a, b, ab) = (/i - p.ňB)T{fl - fiAB) = SSAB - SSe 7*(a|1, b) = 7*(1, b) - 7*(1, a, b) = (Ámb - čs)r(áms - fiB) = SSB - SSAB 7*(b|1, a) = 7*(1, a) - 7^(1, a, b) = [p,AB - P-aVÍP-ab - fiA) = SSA - SSAB 7*(b|1) = 7*(1) - 7^.(1, b) = (£b - fi0)T(p.B - fi0) = SST - SSB 7*(a|1) = 7*(1) - 7^.(1, a) = (fiA - fi0)T(fiA - fi0) = SST - SSA •r(b|1, a, ab) = 7£(1, a, ab) - 7£(1, a, b, ab) 7£(a|1, b, ab) = 7£(1, b, ab) - 7£(1, a, b, ab) ANOVA tabuíku potom vytvárame pre tri rôzne rozklady sumy štvorcov (angl. ANOVA Type I, ANOVA Type II, ANOVA Type III) Rozklad typu I Rozklad typu II Rozklad typu III AB •r(ab|1,a,b) •r(ab|1,a,b) •r(ab|1,a,b) B 7z(b|1,a) 7z(b|1,a) •r(b|1,a,b,ab) A tt(a|1) 7z(a 1,b) TZ(A 1,a,b,ab) 97/100 Stanislav Katina Lineárne štatistické modely II Asymptotické testy o stredných hodnotách Testovanie submodelov v ANOVA-submodel vs nadmodel, nulové hypotézy Testujeme nasledovné submodely voči nadmodelom Rozklad typu I Rozklad typu II Rozklad typu III AB Tab vs Tf Tab vs Tf TAB vs Tf B Ta vs Tab Ta vs Tab Tf_a vs TF A TN vs TA Fb vs Tab TF_B vs TF kde Model FF_A :YiJk=fi + fy + (a/3)ff + eijk, Model Tf-b ■ Yijk = n + a; + (a/3),j + eiik. Testujeme nasledovné nulové hypotézy Rozklad typu I Rozklad typu II Rozklad typu III AB B A (a/3)/,- = 0 pre V/,7 fy = 0 pre Vy q, = 0 pre V/' (q/3)j = 0 pre V/,7 fy = 0 pre Vy' q, = 0 pre V/' (a/3)/, = 0 pre V/,y /3, = 0 pre Vy a, = 0 pre V/' Ide teda o testy rovnakých nulových hypotéz, ktoré testujeme pomocou rôznych súm štvorcov, t.j. na testovanie používame rôzne submodely a nadmodely. 98/100 Stanislav Katina Lineárne štatistické modely II Asymptotické testy o stredných hodnotách Literatúra |y| Azzalini, A., 1996: Statistical inference based on likelihood. Boca Raton: Chapman & Hall/CRC Press H Casella, G., Berger, R.L., 2002: Statistical Inference. Pacific Grove: Duxbury Press Q Fisher, R.A., 1935: The Design of Experiments. London: Macmillan Q Fox, J. 2016: Applied Regression Analysis and Generalised Linear Models. Los Angeles: Sage H Grofík, R., Ffak, P. 1990: Štatistické modely v pôdohospodárstve. Bratislava: Príroda H Katina, S., Králik, M., Hupková, A., 2015: Aplikovaná štatistická inferencia I. Biologická antropológia očami matematickej štatistiky. Brno: Masarykova univerzita Q Kirk, R.E., 1982: Experimental Design: Procedures forthe Behavioral Sciences. Belmont: Wadsworth J] Scheffé, 1953: The Analysis of Variance. Hoboken: John Wiley Sons I Zvára, K., 2008: Regrese. Praha: Matfyzpress Stanislav Katina Lineárne štatistické modely II Asymptotické testy o stredných hodnotách Literatúra U Bartlett, M.S. 1937: Properties of sufficiency and statistical tests. Proceedings of the Royal Statistical Society Series A 160: 268-282 II Bonferroni, C.E., 1936: Teoria statistica delle classi e calcolo delle probabilita. Firenze: Libreria Intemazionale Seeber J Fisher, R.A., 1936, 1971: The use of multiple measurements in taxonomie problems. Annals of Eugenics 7: 179-188 J| Satterthwaite, F.E., 1946: An Approximate Distribution of Estimates of Variance Components. Biometrics Bulletin 2,6:110-114 1| Šidák, Z., 1967: Rectangular Confidence Regions forthe Means of Multivariate Normal Distributions. Journal of the American Statistical Association 62(318): 626-633 H Tukey, J.W., 1949: Comparing Individual Means in the Analysis of Variance. Biometrics 5(2): 99-114 U Tukey, J.W., 1953: The problem of multiple comparisons. Unpublished manuscript. In The Collected Works of John W. Tukey VIII. Multiple Comparisons: 1948-1983. New York: Chapman & Hall U Welch, B.L., 1947: The generalization of Student's problem when several different population variances are involved. Biometrika 34(1-2): 28-35 Stanislav Katina Lineárne štatistické modely I