Lineární statistické modely II 1 Úvod Prednášky z predmetu Lineární statistické modely II nadväzujú na predmety , Pravděpodobnost a statistika I, II a Lineární statistické modely I. Predpokladajú sa znalosti získané v týchto predmetoch. Odporúčaná literatúra k štúdiu je Anděl, J., Matematická statistika, SNTL, Praha, 1985. Rao, C, R., Lineárni metódy statistické indukce a jejich aplikace, ACADEMIA, Praha, 1978. Zvára, K., Regresní analýza, ACADEMIA, Praha, 1989. 2 Testy dobrej zhody 2.1 Multinomické rozdelenie Majme urnu a v nej gulky k farieb. Pravdpodobnst vytiahnutia gulky i—tej farby je 9i, i = 1,2,..., k, 0 < 9i < 1, 9\ + č>2 + ... + 9/. = 1. n—krát nezávisle taháme vždy jednu gulku s vrátením. Označíme si jej farbu. Nech (n) náhodná premenná X\ je počet vytiahnutých guliek 1. farby v n tahoch náhodná premenná JQ Je počet vytiahnutých guliek 2. farby v n tahoch náhodná premenná X^1' je počet vytiahnutých guliek k. farby v n tahoch. Teda máme náhodný vektor Xj^ = IX} , JQ , ...,Xj, J , X\n sú diskrétne náhodné premenné, ktoré nadobúdajú hodnoty z {0,1,..., n}. Počítajme p{x[n)=Xl,X^=x2,...,XÍn)=xk}. Zrejme táto pravděpodobnost je nenulová len pre Xj G {0,1,..., n}, pričom x\ + x2 + ... + xj. = n, inde je nulová. Pravděpodobnost postupnosti vytiahnutých guliek, ktorá (postupnost) obsahuje x\ guliek 1.farby, x2 guliek 2. farby,..., x & guliek A;.farby je 9*19^ ■ ■ .9^ ■ Počet možných "vytiahnutých postupností" guliek, ktoré obsahujú x\ guliek 1.farby, x2 guliek 2.farby,...,Xfc guliek A;.farby je n\ ŕn-xA /n-xi - ...-Xfc_2 xi) V xi )"\ xk-í n! {n — x\)\ (n — xi — ... — Xfc_2)! (n — xi)! x\\ (n - teda (n-xi)!xi! (n - xi - x2)! x2! (n - x\ - ... - xfc_2 - xfc_i)! xfc_i! x\\ x2!...xfc! P(X(n)=x) = —-----f------- 9*19*2...9xkk (1) V / xx\ x2!...xfc! L l k 1 2 pre Xi G {0,1,..., n}, xi+X2 + ---+xn = n, inde je rovná 0. Rozdelenie pravdepodobnosti dané pravdepodob-nostnou funkciou (1) sa volá multinomické s parametrami n,9\, ...,9k a značíme ~XSn' ~ Mu{n, 9\1..., 9k). Poznámka 2.1: V Mu(n, #i,..., #&) rozdelení je A; — 1 "nezávislých" parametrov. Označme X,-,- náhodnú veličinu M j X;. 1, ak v i—tom tahu vytiahneme gulku j—tej farby, 0, inak, i = 1,2,..., n, j = 1, 2,..., A;. Platí P{Xy = 1} = ö,-, P{Xy=0} = l-oJ-, 5(Xy) = 0(l-^) + l^ = 0i, P(Xy) = S^Xii-Oi)2 = £(Xfj)-£2(Xij) = Q\l-9j) + ŕ9j-92 = 9^1-9^ coviXij, Xis) = £((Xij - 9j)(Xis - 9S)) = £(XijXis) pre j y^ s, lebo náhodná veličina XjjXjs nadobúda len hodnotu 0. Teda výsledok i—teho tahu popisuje náhodný vektor (Xn\ (9i\ (9i{l-9i) -9i j#s = —9j9s Xi = X i2 , f (Xi) = 0 = \XikJ , fn91{l-91) -n9x92 ... -n0i0fc \ -n020i n02(l-02) ... -n929k (ii) o«;X(n) = V -n9k91 (iii) hodnost /i(coí;X(n)) = k- 1. (iv) jedna zovšeobecnená inverzia matice ccwX*-™-1 je /-t- o n9k{l-9k)J 0 1 no,, , 3 Dôkaz: (i) pretože X<"> = £ľ=i X,, je 5(X) = £Eľ=i X* = Eľ=i W) = nö, (ii) Xi, X2,..., Xn sú nezávislé, preto [9,(1-9,) -9,92 ... -9x9k \ ;(X(n)) = cov(J2^i) =J2covXi = i=í i=í -9<20\ ť?2 (1 — O2) <2Vk \ —"k"! ek{i-ek)J (iii) platí ;(X(n)) = M o 0 02 o\ v M W 71, P2, ...,Ok) = n[DD - DUU'D] = nD(I - UU')D = nDQD, (poznamenajme len, že D je regulárna matica a U'U = 1) h(Q) > /í(DQD) > /i(D XDQDD x) = h(Q), h(Q) = /í(DQD) = /í(nDQD) = h (covX ,(n) (Q je idempotentná) /i(Q) = írQ = tr(l - UU') = ŕrIM - ŕrUU' = Ä; - ŕrU'U = k - 1, (iv) yX(n) DD ln-1 X(n)) = nDQD DD ln-1 teda Id-d^I /4r 0 V ° 0 \ :/ /4r 0 V ° je jedna zovšeobecnená inverzia matice covXSn'. 2DQD = nDQD = (covX{n) 0 \ M- 0 o 4- o\ o nöfc / Q.E.D Poznámka 2.3: Ĺahko vidíme, že ccwXj = DQD. Velmi dôležité asmptotické vlastnosti náhodného vektora s Mu(n, #i,..., 9k) rozdelením pravdepodobnosti dostaneme použitím mnhorozmernej centrálnej limitnej vety a mnohorozmernej Sverdrupovej vety. Veta 2.4: (Mnohorozmerná centrálna limitná veta.) Nech $1, $2? ••• su nezávislé, rovnako rozdelené náhodné vektory z lZk, ktoré majú strednú hodnotu /lx a kovariančnú maticu V (s konečnými prvkami). Ak označíme Z„ = -U^i - M) + ••• + zkišn ~ M), tak v Nk(0,V) 4 (konvergencia v distribúcii). Dôkaz: nájdeme v knižke Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 185. Veta 2.5: (Mnohorozmerná Sverdrupova veta.) Ak b : 7Zk —> 1Z1 je spojitá reálna funkcia a ín^-^í,tak6(ÍJ^-^Kí)- n n Dôkaz: jednorozmernej Sverdrupovej vety nájdeme v knižke Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 185. Veta 2.6: (Asymptotické vlastnosti náhodného vektora X*-"-1.) Pre náhodný vektor X*-"-1 platí: (i) Yn = j=T>-1(xW-n0) v Nk(0,Q) ,(n) 2 ^k (xp-ne.r v 2 (Ü) (n)X = Ej = l Dôkaz: (i) Platí nO-i Y„ = ^D-1(Xi + X2 -^d-1(X! -e + x2-e x„ - 0) = 1 :(D_1Xi - D_10) + -^(D_1X2 - D_10) :(D-1X„-D-1Ö) Vn vn vn Zrejme D_1Xi, D_1X2,... sú nezávislé A;—rozmerné náhodné vektory, rovnako rozdelené, so strednou hodnotou D 0 a kovariančnou maticou D (ccwXj)D- = D DQDD = Q. Preto podlá mnohorozmernej centrálnej limitnej vety (Veta 2.4) platí Y„ = -^D_1(X(n) - nO) + ... + -ÜD^Xn - D_10) = -^D_1(X(n) - nO) Nk(0,Q) (ii) Funkcia b : 1Zk -► 1Z1 daná predpisom 6(z) = z'z je spojitá, Y„ = ^D_1(X(n)-n6>) —^ Nk(0,Q) (podlá (i)), teda podlá mnohorozmernej Sverdrupovej vety (Veta 2.5) b(Yn)=Y'nYn = - fx(n) -né>Y D^D-1 fx(n) - nO) = = ^(x[n)-ne1,x^-ne2,...,x^-nek) o \ V ° o \ fx[n) - neľ\ o ßk> V ° x^n) - ne2 ßk> \XÍn) - ndk) K(xf-n93Y v E ndj Y'Y, 5 kde Y ~ Nk(0, Q). Pretože Q je idempotentná matica, je I jej jedna zovšeobecnená inverzia a Y'Y (Y-0)'Q-(Y-0)~^(Q). Čiže * (X(n)-n^-)2 v 9 £ 3 n» -r-xž-, Q-E-D- j=i "j Poznámka 2.7: (i) fc (X7(n)-n^-)2 * k(n)l2 fc X„(n)n0, ' n20? ™)x 2^ ™0, 2^ ™0, 22^ „a, + 2^ J j=i j j=i j=i j=i A lXJn) 2 fc k k \X^ (n) J = l J j = l j=l j = í J 2 n, leboE-=1^in)=naE-=1^ = l. (ii) V praxi sa aproximácia x2 použije ak nOi > 5 pre všetky i = 1, 2,..., A;. (iii) Realizácie náhodných veličín X{n , X^ , ..., AT sa volajú empirické četnosti a n0i,n02, ...,n9k sa volajú teoretické četnosti. 2.2 Testy dobrej zhody pri známych (niekedy rušivých) parametroch Majme náhodný pokus, pri ktorom môže nastat k rôznych výsledkov A\,..., Ak, pričom pre i ^ j je An Aj =0 a l)!=1Ai = Q (istá událost), P(Ai) = 0; G (0,1), i = 1,2,..., *, E-=i p(^i) = £,ii öi = L Tento pokus nezávisle opakujeme n—krát a označme X - počet výskytov výsledku Aj (realizáciou tejto náhodnej veličiny je empirická četnost Aj). Zrejme X(n) = (x[n), ...,X{kn])' ~ Mu(n, 01;..., 9k) (dokážte ako cvičenie). Majme (hypotetické) hodnoty 6\q, 02o, ■ ■■, #fco, 0 < 0jo < 1, i = 1, 2,..., fc, 2^i=1 ť?*0 = 1 a testujeme hypotézu H0 : 91 = 01O,..., 6k = 0k0 X H\ : neplatí H0 ŕj^ín) _ nQ .„Ý Za platnosti Hq má testovacia štatistika in)X2 = £,=i —~----Tí--------- ~ xl-i rozdelenie (asymptoticky). J nöjo Ak realizácia tejto štatistiky je väčšia ako xl-i(l — a) ( (1 — a)—kvantil chi2 rozdelenia s k — í stupňami volnosti), tak Hq zamietame (na hladine významnosti a). Príklad 2.8: Pri pokuse - hod mincou označme (výsledok) A\— padne číslo a A2— padne znak (k = 2). 100—krát hodíme mincou (n = 100), pričom 51—krát sa objavilo číslo a 49—krát znak. Náhodná veličina X\ ' je počet padnutí v čísla alj je počet padnutí znaku pri týchto 100 hodoch, P (A4) = 9i, i = 1, 2. Testujeme Ho : 0i = -, 02 = - X Hx : neplatí H0 (teda testujeme hypotézu, že minca je homogénna, '10 — (720 — 1> 6 9 (51 Realiz testovacej statistiky (ioo)X Je ----- 100±)2 (49 100±)2 100 i 100 i J_ 50 j_ 50 0,04. Pretože 0, 95—kvantil \\ rozdelenia je \\ (0, 95) = 3, 84 a realizácia testovacej statistiky je 0,04 < 3, 84, nezamietame Ho (nezamietame hypotézu, že minca je homogénna) na hladine významnosti a = 0,05. Príklad 2.9: (Anděl, J., Matematická statistika, SNTL, Praha, 1985, str.195.) Chceme testovat hypotézu, že deti v Ceskoskovensku v roku 1957 sa rodili rovnomerne. Označme pi pravděpodobnost, že dieta sa narodí v i—tom mesiaci (prirodzene pre i=l je to "leden", pre i = 2 je to "únor", atd.) a náhodnú veličinu Xi— počet narodených detí v i-tom mesiaci. Test založíme na údajoch z nasledujúcej tabulky (udáva počet narodených detí v Československu v roku 1957 v jednotlivých mesiacoch). mesiac i realiz clClcL počet dní Pí npi {Xi-npif n p i 1. 21 182 31 0,08493 21 465 3,731 2. 19 960 28 0,07673 19 393 16,578 3. 22 787 31 0,08493 21 465 81,420 4. 22 805 30 0,08219 20 773 198,769 5. 23 120 31 0,08493 21 465 127,604 6. 21 859 30 0,08219 20 773 56,775 7. 21 367 31 0,08493 21 465 0,447 8. 20 357 31 0,08493 21 465 57,194 9. 20 946 30 0,08219 20 773 1,441 10. 20 037 31 0,08493 21 465 95,000 11. 18 728 30 0,08219 20 773 201,320 12. 19 592 31 0,08493 21 465 163,435 X 252 740 365 1,00000 252 740 1 003,744 Keby bol počet narodených detí nezávislý na ročnej dobe, bola by pravděpodobnost narodenia dietata v danom mesiaci úmerná počtu dní v tomto mesiaci (napr. pre "leden" p\ = -^ = 0,08493, pozri 4. stĺpec tabulky). Vzhladom k zaokrúhlovacím chybám sa upravovali tieto pravdepodobnosti tak, aby ich výsledný súčet bol 1. V tomto prípade n=252 740 a k = 12. Realizácia testovacej štatistiky (252740)X2 Je 1003,744 a to je viac ako 0.95-kvantil xíi rozdelenia (xn(0, 95) = 19, 7). Preto zamietame Ho, že sa deti rodili rovnomerne v Ceskoslvensku v priebehu roka 1957 (na hladine významnosti 0.05). 2.3 Testy dobrej zhody pri neznámych parametroch Často sa stáva, že 61,62, ...,0k multinomickéh rozdelenia nepoznáme, alebo sú funkciami ných parametrov cki, CK2,..., OLm, (m < k — 1). Ilustrujme to na nasledujúcej situácii: Nech Y\,Y2,...,Yn je náhodný výber z rozdelenia s distribučnou funkciou F (x, a.) (teda závisí na a = («i, «2, •••, «m)')- Rozdělme os x na A; intervalov I\,l2, ---,1k, aby U^=1Ij = (—00, 00), I j P\Ij. = 0 pre i ^ k. Označme náhodnú veličinu X\n — počet realizácií z {yi,y2, ■■■, yn}, ktoré padnú do F (empirická početnost). 7 Nech Y má distribučnú funkciu F (x, a), 9i = P{Y eli}= í dF(x, a) = Oi(a), i = 1,2,..., k. V tomto prípade má X(n) = (x[n), X2(n),..., x[nA ~ Mu(n,ex (a), 02(a),..., 6 k (at)) (presvedčte sa ako cvičenie), teda (pre dané a) (.n)X2(a) = J2- k (x^-ne^f , Xfc-i i=l n6i(a) (asymptoticky, t.j. pre velké n). a*n) = a*n)(Xin\X2n\-,XÍn)) = argmin (n)X2(a) nazývame odhadom a metódou minimálneho \2 ■ d (n)X2(ot) Odhad or,-, rieši rovnice daj 0, j = 1,2,...,m. "M Počítajme 9(„)X2H_ d * (X^-nťMa))2 <9a,- d :E n9i(a) "■3 ""o i=1 ^ _2(xf) - nö^a))«^^^«) - (X4(n) - nť^a))2«^ E i=l fc ( ir(n) =£ H n2é>2(a) X4W - noť(a) (X4W - ne^ajy 00ť(a) 0ť(a) nßj(a) í 9c = 0, j = 1,2,..., m, fc ^n)-n0ť(a) (^n)-noť(a))2l ooť(a) E 0ť(a) 2n(92(a) daj = 0, j = 1,2,..., m. CJ^(n) _ nQ.(OĹ)Ý Ukazuje sa, že vplyv člena —------ , '------ pri dostatočne velkom n nie je podstatný. Zanedbáme tento člen a dostávame sústavu rovníc 2n(92(a) ^^-n?<(a)^(a)=0> ^2_m. i=l i (a) day Pretože ^^ 0j(a) «aj ^^ ô«, ô«, *-^ i=l v ' J i=l J J i=l konečne dostávame rovnice, ktorých riešenie S(n) = a^(X(n , X^ ,..., X^1 ) je odhadom a metódou modifikovaného minimálneho \2• Ich tvar je E 6i(a) daj = 0, j = 1,2,..., m. *(rv) Veta 2.10: Nech 61(a), 62(01), ...,6k(ot) sú funkcie parametra a G 72m, m < k — 1 a nech pre všetky body a = (a\,..., am)' nedegenerovaného konečného uzavretého intervalu A C 72m platí 8 1. öi(a) + ... + öfc(a) = l, 2. 3c > O, že 0j(a) > c, i = 1, 2,..., A;, 3. pre každé i G {1, 2,..., k} existujú spojité derivácie —^-----, j G {1, 2,..., m} a tiež ——l——, j, l G {1,2,...,m}, 4. matica de daj /de1{a) de1{a)\ dai ' ' ' ôctm de2{a) de2{a) dai ' ' ' ôctm detjdai ddk(a) \ deti aek{a) má hodnost m. Nech a° je vnútorným bodom A. Označme 6i0 = é>;(a°). Nech X(n) = íx[n\x^n\ ...,X{kn) Mu(n, ť?io, #20j •••, #fco)- Potom sústava E i=l xfn) ööi(a) é»j(a) da j 0, j = 1,2,..., m *(rv) má práve jedno riešenie a.rn\ = (aJ1 , ái ,..., ám )', ktoré je konzistentným odhadom a° (teda a.rn\ -------> n at°) a platí (asymptoticky) k ÍY(n) (n)X2 = E (ir'_-4(aMf) . = 1 n#i («(„)) Afc—m—1 * Dôkaz: pozri napríklad v knižke Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 197. Po- znamenávame len, že a (n) Ve > 0 P{w : ||a(n)(u;)-a°||2 >e} 0. Poznámka 2.11: Veta 2.10 hovorí, ako dostat konzistentný odhad a° a ako testovat, či náš model "je dobrý", t.j. napr. či údaje pochádzajú z náhodného výberu s daným rozdelením pravdepodobnosti (typom rozdelenia), ktorého distribučná funkcia je F(x,at). 2.4 Overenie normálneho rozdelenia Majme náhodný výber Y\, Yž,..., Yn z rozdelenia s (nejakou) distribučnou funkciou F (y). Testujeme hypotézu Hq : náhodný výber je z normálneho rozdelenia X H\ : neplatí Hq. Reálnu os rozdelíme na k disjunktných intervalov h = (-00, h), h = (h, 62), ... 4-1 = (bk-2, bk-i), h = (6fc-i, 00) (60 = —00 < 61 < 62 < ••• < bk-i < bk = 00, 61,62, •••,6fc-i sú vhodne zvolené reálne čísla, o ich volbe si povieme v Poznámke 2.12). Označme náhodná veličinu X\ (n) X (n) počet realizácií z množiny {yi,ž/2, • •-,?/«.}, ktoré padli do li, i = 1,2, ...,k, a = (/x, 0. Za platnosti ŕ/o je 0ť(a) = e^a) = PiYj G h} = P{6ť_i < ^ < 6J = 6, : (x- n) bi-i 2n a 2a2 dx. i = 1,2,...,k 9 (j je lubovolné z {1, 2,..., n}). Teraz určíme modifikovaný minimálny x2 odhad á(n) ako riešenie rovníc ^Oi(n,a) d/x * x\n) dei(y,a) = f^e^a) da pričom dB, d ľbi 1 d/j, d/j, Jbil a/2ŤŤ a de, d ŕ* i -4^dr= '* (x — jj)2 -e 2cr2 dx der da Jb V27T i(A(n), <7(n) ), i=1 UiVfJ'in): °~(n)) (^))2 = ^E fc ^-(n) n i^í ei(ß{n)i°{n)) (x - ß(n))2f(x; /*(„), <7(n))dx. (5) 10 Rovnice (4) a (5) sa riešia (pre dané n) iteračne. Určíme čísla b2+bi b3 + b2 bk-i + bk-2 C2 - —2—' °3 ~ —2—' '" Cfc_1 ~~ --------2--------' ci = oi - (c2 - 6ij =------------, Cfc = 6fc_i + (6fc_i - cfc_ij =------------------- a nultý odhad fc ,(n) 1 V^ ^(T i=í 1 fc (0Ô-(„))2 = -^ZX\n)4 - (oA(n))2 (pozor, neodporúča sa použit Y namiesto oA(n) äS = ~zt$^í=i(^í — ^) namiesto (oô"(n)) )• Teraz sa spočíta zo vztahu (4) lA(n) = - y2 n I " l-----------T / xf(x',0ß(n),0CT(n))dx. "~íŕiW(n).0ff(»)) Jh a zo vztahu (5) l fc x!-™^ ľ (lÔ~(n))2 = -V" a , . *-----;-----ľ / (x-0 ß(n))2f(x;oß(n),OV(n))dx. n fcí É'i(0M(n),0 0-(n)) J/, Znovu spočítame 2M(n) = - X] /w " *-----------V / Xf(X'>-iß(.n),lV(n))dx. 1 k X^ ľ (2Ô~(n))2 = -"52 a , , l----------ľ / {X -í /í(n))2/(x;i/í(n),l Xfc-3(1 — a), tak ŕ/o: výber pochádza z normálneho rozdelenia zamietame na hladine významnosti a. Poznamenávame len, že xt-si^--a) Je (1—«)—kvantil xl-3 rozdelenia, m použité vo Vete 2.10 je v tomto prípade rovné 2. Poznámka 2.12: Čísla &i, 62, ---, bk-\ treba volit tak, aby pre každé i platilo nOi > 5, teda aby v každom intervale Ij bolo aspoň 5 realizácií z {ž/i, 2/2, ••-,?/«.}• Ako sa overuje, či náhodný výber pochádza z exponenciálneho rozdelenia alebo z Poissonovho rozdelenia pozri v knižke Anděl, J., Matematická statistika, SNTL, Praha, 1985, na stranách 201, 207. Pretože testovanie normality je velmi dôležité, ukážeme si ešte iný spôsob testovania, či náhodný výber pochádza z normálneho rozdelenia. Definujme si výberový obecný moment k—teho rádu 1 n M'k = -Y,xt * = 1,2,3,. n . 11 keď X\, X2, ■ ■■, Xn je náhodný výber. (Poznamenávame len, že x\, X2, ■ ■■, xn je realizácia náhodného výberu a — 5^r=i x« Je realizácia M'k.) Výberový centrálny moment k—teho rádu je Mk n 1 n — -^{Xi-Xf, k = 1,2,. výberová šikmosi je a výberová špicatosi je A,= M* /M| AA = M, _ 4 4 - JU-2' m; Tieto posledné dve náhodné veličiny sú výberovými "protajškami" parametrov šikmosti —-== a špicatosti (/xi je (teoretický) centrálny moment i—teho rádu uvažovaného rozdelenia). U normálneho rozdelenia VÄ4 je šikmost rovná 0 a špicatosi rovná 3. Preto v prípade, že náhodný výber pochádza z normálneho rozdelenia, pre velké n by malo platit A^ k, 0 a A4 « 3. Dá sa ukázat, že ak náhodný výber pochádza z normálneho rozdelenia N(/x, 00 majú a/ťL43 a yJnA± asymptoticky normálne rozdelenie, čiže 6(n-2) \ , / 6 24n(n-2)(n-3) Teda (n+l)(n + 3)7' V n+ľ (n+l)2(n + 3)(n + 5) _^__ = W(E±IEE±Í) „ * (o i) Á4"3 + n+i_____w(01) y/V(ÄŠ) y/6(n-2) ' ' / 24n(n - 2) (n - 3) (n+l)2(n + 3)(n + 5) 1^4 Ak realiácia náhodnej veličiny (testovacej štatistiky) —' je väčšia alebo rovná u(^) (I1—kritická hodnota iV(0,1) rozdelenia), tak na hladine významnosti a zamietame hypotézu Hq\ výber pochádza z normálneho rozdelenia. Toto je test normality založený na šikmosti. \AA-£{AA)\ Ak realiácia náhodnej veličiny (testovacej štatistiky) -----^=^=— je väčšia alebo rovná w(f), tak na hladine významnosti a zamietame hypotézu Hq\ výber pochádza z normálneho rozdelenia. Toto je test normality založený na špicatosti. Poznámka 2.13: Pre malé výbery n G (7, 30} sa odporúča Shapirov-Wilkov test normality (pozri napr. Kubáčková, L., Metódy spracovania experimetálnych údajov, VEDA, Bratislava, 1979). Pre n G (31,50) sa odporúča D'Agostiniho test. Pre n > 50 sa už odporúča Pearsonov x2 test dobrej zhody. 12 2.5 Overenie Poissonovho rozdelenia Teraz si overíme, či výber pochádza z Poissonovho rozdelenia iným spôsobom než Pearsonovym x2 testom dobrej zhody. Pri odvodzovaní budeme potřebovat tzv. polynomickú vetu. Veta 2.14: (Polynomická veta.) Nech a^,..., an sú reálne čísla, j celé nezáporné číslo. Platí (ai + ... + any = y~] —j—r-----rafal;2 {ľl,ľ2,...,ľ»e{0,l,...,j}: Eľ=i Ví=j} j — krát Dôkaz: Keď roznásobíme [a\ + ... + an)J = (a\ + ... + an){a\ + ... + an)...{a\ + ... + an), dostaneme súčet súčinov a"1 a^2 ■■ ■ 0, £ (X) = A, T>(X) = X. Nech Xi,X2, ...,Xn je náhodný výber, pričom Xi ~ Po(X). Združené rozdelenie Xi,X2, ...,Xn má pravdepodobnostnú funkciu P{XX = x1}..., Xn = xn} = e-nX A, 'p8' ak xi, X2,..., xn G {0,1,...} (inak P{X\ = x\,..., Vn = xn} = 0). Pre dané (fixné) nezáporné celé číslo t má podmienené rozdelenie Xi,X2, ...,Xn/ J2"=1Xi = t pravdepodobnostnú funkciu n P{Xi =xi,X2 =x2,...,Xn =xn/^2Xi =t} = ak P{T,?=iXi=t}ŕ0, P{Xi = xi,X2 = x2, ...,Xn = xn,Y^=íXj = t} P{Ľ7=íxi = t} - ' ^ť=1"* "J ' "' (6) 0 v inom prípade. Kedy P{J2"=1 Xi = t} 7^ 0 ? V prípade, že náhodný výber je z Po(X) rozdelenia, je P{J2"=1 Xi = t} 7^ 0 práve vtedy ak xi, x2,..., xn G {0,1,..., t} a súčasne 5^ľ=i x« = *• Preto n P{Xi =xi,X2 =x2,...,Xn =xn/^2Xi =t} = 13 P{Xi = xi, X2 = x2,..., Xn = xn, Yh=i Xj = t} P{T,?=íXi = t} ak xi,..., xn G {0,1,..., t\, y li_1 Xj — t, v inom prípade. Pre n—ticu xi, x2,..., xn nezáporných celých čísel, pre ktoré platí 5^ľ=i xi = t Je n P{Xi = xi,X2 = x2,...,Xn =xn,^Xi = t} = P{Xi = xuX2 =x2,...,Xn = xn} = _x\x> _XXX- _x\x- _„,ASľ=i^=* _„, Aŕ -nX ' -nX X\\ X2I X-1 I or I 1 —^ri' X-1 I or I 1 —*^n • P{YJXi=t}= ]T P{X1=x1,...,Xn = xn} {xi,X2,...,xrl€{0,l,...,t}: J2i=i xi=t} i=í E E „-nX Ä _ , , XX1 , XX2 , \x~ e —\e —\-e —\ X\\ X2]. rľ-~ ' XTI -nX X-1 I or I 1-----*^n • E {xi,a;2,...,a;rve{0,l,...,t}: ]ď=ia;í = í} {xi,a;2,...,a;rve{0,l,...,t}: ]ď=ia;í=í} Ak vo Vete 2.14 zvolíme a\ = a2 = ... = an = 1, dostávame X-1 I or I 1-----*^n • E 1 (7) (8) {xi,X2,...,xnE{0,l,...,t}: J2í"=l xi = t} teda dosadením (10) do (9) dostávame */^ I* • • • ^"Y~h • ^ • P{^XÍ=Í} = E -nA\t' P{X1=x1,...,Xn = xn} = e-"AA; i=í {x1,x2,...,xne{0,l,...,t}: J27=ixí = t} Ak (8) a (11) dosadíme do (7) dostávame P{Xi = xi,X2 = x2,...,Xn =xn/^Xi = t} = (9) (10) (H) -nA :i!...xn! _ *! H = < e-"AAŕ n xi!...xn! v n ak xi,..., xn G {0,1,..., t}, / ^^ Xj — t, v inom prípade. Pretože t = xi + x2 + ...+xn, konečne dostávame n P{Xi =xi,X2 =x2,...,Xn =x„/^Xj =t} í=í t\ íl = ( x\\...xn\ \n n ak xi,..., xn G {0,1,..., t}, 2_^i=i xi ~~ ^ v inom prípade. Vidíme, že za platnosti Hq : Xi, Aľ2,..., Aľ„ je náhodný výber z Po(X) rozdelenia má X\,X2, ...,XrJ Yľi=i Xi = t multinomické Mu(t, -,-,...,-) rozdelenie. 2—krát (12) (13) 14 Zrealizujeme náhodný výber a zistíme, že x\ + X2 + ... + xn = t (tentokrát n je pevné číslo - rozsah výberu). Vieme, že ak Yľi=i Xi = t, tak X\,X-2,..., Aľ„ majú multinomické rozdelenie Mu(t, -, -,..., -). Ak t je dostatočne velké, má E\Xi -- t— J r, ------TYJ1— ~ Xn-i rozdelenie. i=l n V skutočnosti vlastne " (Xj -±Y,UXsY ^ (X.-Xf _nM2 2 k kT,uxi k x Mi Q~Xn~1- Ak realizácia Q(reai) > X2-i(l — f) alebo Q(reai) < X2-i(§)) tak na hladine významnosti a zamietame i/o : -X"ij -^2 j ■■■, Xn je náhodný výber z Po(X) rozdelenia (x2-i(l —§)Je (1 —f)—kvantil x2 rozdelenia s n—1 stupňami volnosti). Upozorňujeme len, že aproximácia x2 rozdelením je možná len ak X = — Y^=i Xi > 5. 2.6 Test nezávislosti v kontingenčných tabulkách Nech X, Y sú diskrétne náhodnéveličiny, X G {1, 2, ...,r}, Y G {1, 2,..., s}, pnj = P{X = í, Y = j}, i = 1,2,..., r, j = 1, 2,..., s je pravdepodobostná funkcia náhodného vektora (X, Y)'. Označme s r pí. = p{x = i} = ^2Pij, p,j = p{y=j} = J2píj-j=\ i=\ Predpokladajme, žepij > 0 pre všetky i = 1,2, ...,r, j = 1,2,..., s. Majme náhodný výber í ), í ),...,(" V Yí J \Y2/ \Yn o rozsahu n z rozdelenia rovnakého ako má í I. Možné výsledky (realizácie) sú / v2y' W'"' ' w'"' teda r s "tried". Nech náhodná veličina ř(n) • _ . . , , í X, £ii Je počet tých í * ), ktoré nadobudli í * I, ktoré nadobudli í ,, l i J \ £ J £12 Je počet tých (-,/), ktoré nadobudli tO) x, Q-s je počet tých I I, ktoré nadobudli . Náhodné veličiny ^{[ , £^ , ...,Q" majú multinomické rozdelenie Mu{n,p\\,p\2, ...,prs) s pravdepodobnost-nou funkciou • r s n' p/t(n) __ An) __ č(n) __ 1 __ -^ isil — a-lljS12 — a-12j-..jSrs — xrs f — j j" ľ\\ ■■■ľrs ' ""'«J ^ I"' ^ "' •"> "J' / y / y **-íj — '"• Xn —Xrs. . . (14) Ak označíme n-jj realizáciu náhodnej veličiny Q™ (počet tých členov náhodného výberu, ktoré nadobudli hodnotu í I), môžeme všetky výsledky (realizácie) zapísat do kontingenčnej r x s tabulky: 15 Y X 1 2 ... s S 1 2 r nu n-12 ••• "-is n2i H-22 ••• n-2s nrl nr2 ... nrs n-i. n-2. nT% S n.i n.2 ... n.sl n V kontingenčnej tabulke nit = 5ľ^=inijj n»j = J2l=inij^ n = Sí=i 2^=i nij\ ni»> n»j su marginálne početnosti. Lema 2.15: X a y sú nezávislé <ŕ=> pij = Pi,p,j pre každé i G {1, 2,..., r}, j G {1, 2,..., s}. Dôkaz: X a y sú nezávislé práve vtedy, ak pre každé dve borelovské množiny A, B je P {X G A, Y G B} = P{X G A}P{y G B}. Ak X, y sú diskrétne a X G {1,2, ...,r}, Y G {1,2,..., s}, tak je nutná a postačujúca podmienka nezávislosti X a y jednoduchšia, a síce P{X G A, Y G B} = P{X G A}P{y G B} pre každú A C {1, 2,..., r}, B C {1, 2,..., s}. Nech sú X a y nezávislé. Potom pre A = {i}, B = {j}, i G {1,2, ...,r}, j G {1,2,..., s} dostávame Pii = P{X = t, Y = j} = P{X = t}P{Y = j} = Pij. Naopak, nech platí pij = pit p,j pre každé i G {1,2, ...,r}, j G {1,2, ...,s}. Vezmime lubovolnú A = {h,...,ia} C {1,2, ...,r}, (ii,...,ia sú rôzne), B = {ji,..., jb} C {1, 2,..., s}, (ji, ...,j6 sú rôzne). Potom P{X eAľGB} = P{Xe {i!, ...,ia},y G {ju ...,jb}} = = P{x = i1,Y = j1ux = íuy = n u... x = n,y = Jbu ux = i2, y = ji u x = «2, y = j2 u... x = «2, y = j6u ux = ia, y = ji u x = ia, y = J2 u... x = «0, y = j6} = ab ab v > v > predpoklad v > v > u=íŕ=l u=íŕ=l = Pi\*P*j\ T Pi1*P*J2 T ••• +í?ii•£*•> + +Pi2.í>.jl +Ä2.P.J2 + ■■■+Pi2.P.jb + +Pia,P,j1 +Pia*P*J2 + ••• +Pia*P*jb = = {Pil* +Pi2* + ••• +í?ia.)íVíl + ••• + {Ph* +Pi2* + ••• +Pia*)P*jh = = iPh» +Pi2» + ••• +Pia,)(P,j1 +P,j2 + ••• +P,jb) = = (P{X = ti} + P{X = i2} + ... + P{X = U) (W = J'i} + P{Y = 32} + ... + P{Y = 3b}) = 16 = P{X e A}P{Y e B}. Q.E.D. Teda hypotéza Hq : X a Y sú nezávislé je ekvivalentná s Hq : pij = Pi,p,j pre každé i G {1,2,..., r}, j G {1, 2,..., s}. Za platnosti Hq majú náhodné veličiny £n ,£12 , ---tÔs multinomické rozdelenie, pričom parametre pij sú funkciami parametrovpi,,p2», ■ ■■,Pr»,P»i,P»2, ••-,ř'»s (Pij vyjadríme pomocou nich). Je tu ešte malá komplikácia, a síce to, že "nezávislých " parametrov je iba r+s—2. Sú to napríklad pi,,P2», ■■■,Pr-i»,P»i,P»2, ■ ■-,P»s-i (v tomto prípade je pr, = 1 — Yľi=i Pi»: P»s = 1 — X^=iP»j)- Teda (za platnosti Hq) Pij = Pij(Pl.,P2.,---,Pr-l.,P.l,P.2,---,P.s-l) *= 1,2, ...,r, j = 1,2, ..., S sú pravdepodobosti. Menovite Pil = Pl.P.l, -vPls = Pl.(l ~P»Í -P»2 - ■■■ -P»s-l), •••, P21 = P2.P.l, •••,Í'2S = P2.(1 ~P»Í -P»2 - ■■■ -P»s-l), •••, Pri = (1 ~Pl. -P2% - ■■■ ~Pr-l.)p.l, —,Prs = (1 ~ Pi. ~ P2% ~ ■■■ -Pr-l.)(l ~ P.l ~ P.2 ~ ••• ~P.s-l)- Sú dostatočne hladké funkcie "neznámych" parametrovpi,,p2», ■■-,Pr-u,P»i,P»2, ■■-,P»s-i- Tieto parametre odhadujeme metódou modifikovaného minimálneho x2. Hladáme riešenie sústavy r s Jn) o J2J2—7T^=° k=l,2,...,r-l, (15) tť^Pab dPk. r s Jn) o T.T.— C¥t=Q 1=1,2,...,*-1. (16) tťltíPab dptl Napíšme si (15) pre k = 1,2,..., r — 1 (naschvál niekde ponechávame pr,,p,s) £lT} d[Pl.P.l] £l2} %1.P.2]____________£1^__________ ^bl»(l -P.l - ■■■ -P.s-l)] Pi.p.i 9pfc. pi.p.2 9pfc. '" pi.(l -p.i -... -p.s_i) dpk, Úl* d\p2.p.l] ^2} d\P2,P,2] _________£_2^|_________ %2.(1 "P.l - ■■■ -P.s-l)] P2.P.1 9pfc. P2.P.2 9pfc. '" (1 -p.i - ... -p.s_l) <9pfc. £rl 9[(! "Pi* -P2. - ••• -Pr-l.)P.l] , , £rs d[(í -pít -p2, - ■■■ -Pr-l.)(l ~P.l ~ ■■■ ~P.S-l)] _ Q Pr.P.l dpk, '" Pr.p.s dpk. Ak (17) derivujeme podlá pi., dostaneme Jn) Jn) Jn) Jn) Jn) Sil , S12 , , Sis Sri Srs _ "P.l H-------------P.2 + ••• H-------------P»s--------------P.l - •••--------------P»s = 0, (17) Pl.P.l Pl.P.2 Pl.P.s Pr.P.l Pr*P* čiže Jn) Jn) Jn) Jn) Jn) Jn) Sil T $12 i" ■■■ i-?ia _ Sri T Sr2 T---Ts>s _ „ ,. „-. Pi. Pr* Označme £, ™ náhodnú veličinu - počet tých í ], ktoré nadobudli hodnotu í - \Yi J Vlubovome číslo 17 An) ,, , fXi\ , /lubovolné číslcA £.fc náhodnú veličinu - počet tých , ktoré nadobudli hodnotu I I, tak (18) môžeme písat Jn) Jn) SI» _ Sr» _ „ Pi» Pr» Ak (17) derivujeme podlá pk», k = 2, 3,..., r — 1, dostaneme analogicky Jn) Jn) Sfc» _ Sr» _ q Pk» Pr» a triviálne aj Jn) Jn) Sf» Sr» __ p. Pr» Pr» Teda ak pi»,p2», ■■-,Pr» su riešenia (15), tak P k» Pr» čiže *(n) Jn) **• ^ =0, A; =1,2,..., r, (19) f(«) ^ľ = ^-W., * =1,2,.., r. (20) P Rovnice (20) spočítame a dostávame r (n) r („) fc=i ^ fc=i ^ teda Jn) Sr» n = ------ Pr» a z (19) máme odhady získané metódou modifikovaného minimálneho x2 (v prípade platnosti Hq o nezávislosti X a Y) Pk» = -ékn,\ k =1,2,...,r. Úplne analogickou cestou z rovníc (16) získame P.i = -&\ l = 1,2,.., s. n Podlá Vety 2.10 má za platnosti Hq o nezávislosti X &Y ŕ An)Jn)\2 Jn) _ Sj» S,j \ Si-í r s ,*(n) _ ~ ~ \2 r s I SÜ n I 2 \ "v v -v vSij lljPi»P»j) v -v v -v y y asymptoticky 2 2=1 J = l J 2=1 3=1 S^» S»j počet tried početparametrov pričom / = rs — (r — 1 + s — 1)—1 = rs — r — s + í = (r — l)(s — 1) 2ij, nit, n,j— realizácie náhodných veličm s.. , Si# , s . V kontingenčnej tabuľke máme n^, nit, n,j— realizácie náhodných veličín Q™ , Q, , £.™ . Ak teda / nj.n.o\2 r s nn-------------- SrspA3 n J r s 2 _ y^ y^ nnij 1=1 7 = 1 i=lj=l J rii,n,j ni»n»j -.2 -Tli-,Jl* "J»J i=l j = l i=l j=l 2 ž^ ž^ "-i."-.,' niJ + ž^ 2_^ "-i."-.,' n n 18 níj i -----------2n-\----(ni. + ... +nr.) (n.i + ... +n.s) = nj.n.o n v---------..---------^---------..---------> TS 9 ^n =1 s ni'n^ ■«>X(r-l)(s-l)(! -«)> í=l j tak na hladine významnosti a zamietame hypotézu o nezávislosti X a Y (Xfr_ivs_ľ)(l— a) Je (1 —a)—kvantil X(r-i)(s-i) rozdelenia). Veličina nitntj • \ 2 nitntj je (len) testovacou charakteristikou, nie je to miera závislosti medzi X a Y. Výhodnejšie je počítat tento vztah ako nX)-=1ELi nitn,j n, lebo vidíme, kde (v ktorom políčku kontingenčnej tabulky) nadobúda X velkej hodnoty a je (najviac) porušená nezávislost medzi X a Y. Test možno použit len ak pre každú dvojicu (i, j) je —------ > 5. Čísla n« sú empirické četnosti a —------ očakávané četnosti (pri nezávislosti X n n a y). Príklad 2.16: (Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 212.) Rodinný stav ženícha resp. nevesty môže byt "slobodný(á)", "ovdovelý(á)" a "rozvedený(á)". V nasledujúcej tabulke sú údaje o (pôvodnom) rodinnom stave ženícha a nevesty v Československu v roku 1957. Treba zistit, či rodinný stav ženícha a nevesty sú nezávislé. rod. stav nevesty rod. stav ženícha slobodná ovdovela rozvedená celkom slobodný ovdovělý rozvedený 75 564 (71 501) 1 370 (2 751) 4 603 (7 285) 824 (2 033) 904 (78) 590 (207) 3 463 (6 317) 798 (243) 2 943 (644) 79 851 3 072 8 136 celkom 81 537 2 318 7 204 91 059 Čísla v zátvorkách sú teoretické četnosti (v prípade nezávislosti), napr. 71 501 = (79 851.81 537)/91 059. Hodnota chĺ2 kritéria je (75 564 - 71 501)2 (2 943 - 644)2 X 71 501 644 22 850,4 >xí(0,95) = 9,488. Preto zamietame hypotézu o nezávislosti (pôvodného) rodinného satvu ženícha a nevesty na hladine významnosti 0,05. 2.7 Test homogenity Teraz riešme inú úlohu. Pozorujeme (meráme) diskrétnu náhodnú veličinu X, ktorej hodnoty môžu byt xi, X2, •••, xr (napr. X— známka z matematiky, x\ = 1,..., xs = 5). Majme s > 2 nezávislých výberov (napr. 8. trieda, ktorú učí učitel A\, 8. trieda, ktorú učí učitel Ä2,...,8. trieda, ktorú učí učitel As). Rozsahy týchto výberov nech sú n.i,n.2, ...,n.s (známe, fixné čísla). Označme náhodné veličiny X M — známka z matematiky u učitela Ai i = 1, 2,..., s. 19 Nech X\ , Xj , ...,Xntl je náhodný výber z X^1' rozsahu n%\, X[s ,Xj , ...,X„.s je náhodný výber z X(s) rozsahu n.s. Všeobecne pre i = 1, 2,..., s je P{X^ = xi} =(i) Ö1, P{X^ = x2} =W é»2, ... , P{X^ = xr} =W 9r. Sú rozdelenia pravdepodobnosti náhodných veličín X^,X^2\ ...,X^ rovnaké ? Ide vlastne o test ffo V(1V V(2)^/ X iíi : existuje i ^ j že VsV ^ \{i)erJ Vj)erJ Označme náhodnú veličinu £ij — počet realizácií (hodnôt) Xj v j—tom výbere j = 1, 2,..., s, i = 1, 2,..., r a n-jj realizáciu náhodnej veličiny ^. Dostaneme r x s kontingenčnú tabulku výber hodnota znaku 1 2 s Xl nu n-12 n-is n-i. x2 n-21 n-22 n-2s n-2. xr nrl nr2 rfiTS nr# S n.i n.2 n,si n Dá sa ukázat (pozri napr. Cramer, H., Mathematical Methods of Statistics, Princeton University Press, 1946), že ak x2 = Y,Y, nitn,j ■ \ 2 H] rii,n,j > X(r-l)(s-l)(! -«)> tak zamietame Hq na hladine významnosti a. Tento test sa nazýva test homogenity. Priližný 100(1 - a)%-ný konŕldečný interval pre ^9 j -W 9j (teda pre P{X^ = Xj} - P{X^ = x j}) je / ,a Tl.b V *(r-l)(8-l^ '\ Hja íljb n, n,a nJ± í 1 _ Ví2l \ nib (1 nib n,aj , n,b n,b n,a n,b ja fjjb j ~k ~~ T --^ + V4-1)(S-1)(1-«)\ d j a '^jb n, n,a nja f 1 _ nja n,aj , n,b n,a njb (í_njb n,b n,b Ak tento interval neobsahuje 0, zamietame na hladine významnosti a hypotézu Hq : ^9 j =(-6-) 9 j 20 2.8 Štvorpoíné tabulky (čtyřpolní tabulky) Ak X a Y sú dichotomické znaky (dvojhodnotové), teda ak v kontingenčnej tabulke r = s = 2, dostávame 2x2 tabulku (čtyřpolní tabulku) Y X 1 2 S 1 2 nu "12 "21 "-22 ni. "2. X n.i n.2 n V tomto prípade (r = s = 2) sa (velmi) zjednoduší výpočet x2 = ICÍ=i Xw=i nj,n,j •\ 2 "i. ".j Počítajme nitn,j\ 2 "ij("n +"-12 +"2i +"22) - ("ii +"i2)("y +"2j) "ij"ll + "ij"12 + "ij"21 + "ij"22 - "il"lj - "il"2j - "i2"lj - "i2"21 n Pre i = 1, j = 1 je čitatel v (21) rovný "11"11 + "11"12 + "11"21 + "11"22 - "11"11 - "11"21 - "12"11 - "12"21 = ("11"22 — "12"2l) , pre i = 1, j = 2 je čitatel v (21) rovný "12"11 + "12"12 + "12"21 + "12"22 — "11"12 — "11"22 — "12"12 — "12"22 = (~"11"22 + "12"2l)2- Aj pre i = 2, j = 1 a i = 2, j = 2 je čitatel v (21) vždy rovný ("n"22 — "i2"2i)2- Teda (21) x2 = 2 2 [n.. i=i j=i "».".j •\ 2 "».".j = n- (nnn22-m2n2i)2 2 2 u' EE— z—/ z—/ /n _. _ m "("11"22 - "12"21 i=l j = í " ni.n.i + "i.".2 + "2.".1 + "2.".2 "1.".1"2.".2 "("11"22 - "12"21 ("1. +"2.)(".l +".2) "1.".1"2.".2 (niin22-m2n2i)ž "1.".1"2.".2 Ak x2 > Xi(l — a)) tak (asymptoticky) na hladine významnosti a zamietame hypotézu o nezávislsti X a Y'. Pozor, pre každé i, j G {1,2} musí byt ^^ > 5. n Teraz si ukážeme ešte iný (asymptotický) spôsob testovania nezávislosti dvoch diskrétnych náhodných veličín X a y, ktoré môžu nadobudat len dve hodnoty. Veta 2.17: Nech X a y sú diskrétne náhodné veličiny, ktoré môžu nadobudat len dve hodnoty. X &Y sú nezávislé <ŕ= ô =---------= 1 (označenie z kapitoly 2.6). ^21^12 21 Dôkaz: Ak X a y sú nezávislé, tak pij = Pi,p,j pre každé i, j G {1, 2}, čiže , PllP22 Pí»P»íP2»P»2 , o = --------- = ------------------ = 1. ŕ>21ŕ>12 P2*P*\P\*P*2 Naopak, ak ô = 1, takp2iPi2 = PnP22- Preto PuP»i = (Pu +Pi2)(Pu +P21) = P11P11 + P11P21 +P12P11 +P12P21 =Pii(Pu +P21+P12 +P22) =Pu- P11P22 Podobne dostaneme pij = Pi,p,j pre každé i, j G {1, 2}. Q.E.D. P11 Poznámka 2.18: S = ---------= -^— sa volá aj teoretická interakcia resp. pomer šancí (odds ratio). Jej ŕ>21ŕ>12 1-±L P22 odhad je ô = -—-—. Realizácia tohto odhadu je ----------. 521512 "-21W-12 Bez dôkazu uvedieme nasledujúcu vetu. Jej dôkaz pozrite napríklad v knižke Anděl, J., Základy matematické statistiky, MFF UK, Praha, 2005. Veta 2.19: Nech X a y sú diskrétne náhodné veličiny, ktoré môžu nadobudat len dve hodnoty a i- PllP22 J Č11Č22 AT-1, i , ,--• o =---------, o = -—-—. Náhodná vehcma P21P12 521512 In J-In J 1111 nn n12 n21 n22 má asymptoticky N(0,1) rozdelenie. Je zrejmé ako budeme testovat H0 : Ö = So X Fi : Ö ± So a teda aj nezávislost X &Y (špeciálny prípad tejto hypotézy ak Sq = 1). 2.9 Fisherov exaktný test pre štvorpolnú tabulku (Fisherov faktoriálový test) V predáškach Pravděpodobnost a statistika I sme si dokázali Cauchyho kombinatorický vzorec. Lenia 2.20: (Cauchyho kombinatorický vzorec.) Pre lubovolné reálne čísla x, y a celé nezáporné číslo n platí ^\k)\n-k) V n fc=0 v 7 v 7 v Ak x, y sú tiež celé nezáporné čísla, tvar predchádzajúceho vzorca je minja^n} E fc=max{0,n-y} x 1 í v 1 - íx + y k j \n — k j V n Budeme ho v nasledujúcom potřebovat. 22 X a y sú dichotomické znaky (dvojhodnotové), í I, í I,... , í ™ I je náhodný výber o rozsahu n z rozdelenia rovnakého ako má í I. Pri označení z kapitoly 2.6 majú náhodné veličiny £11 , £12 , £21 , £22 multinomické rozdelenie Mu(n,pn,pi2,P2i,P22) s pravdepodobnostnou funkciou í(») ,{n) ťUli —«11, £12 —"-12, £21 —"-21, £22 — "22 j — (n) í(») , ,' , , Vlfvlfvifvif, (22) "ll!"l2!"2l!"22! ak riij G {0,1, 2}, J2i=1 S7-=i "u = "• To znamená, že (22) je pravděpodobnost, že dostaneme štvorpolnú tabulku s hodnotami nu, «-12, «-21, «-22 (pri náhodnom výbere rozsahu n). Za predpokladu, že X a y sú nezávislé, je „"11 „"12 „"21 „"22 _ nnii nxl nl2 nl2 n2l n2l n22 n22 _ Ju „»2. „n.i „n.2 _ r) Pil ^12 ^21 ^22 —-Pi. í?.l Pi, P%2 V2% P%2 V2% P%2 —-Pi. V2% P%\ P%2 — H- Teda pravděpodobnost, že dostaneme štvorpolnú tabulku s hodnotami nn,ni2, "21, "22 (pri náhodnom výbere rozsahu n) a za predpokladu, že X a y sú nezávislé, je r> 1 í(») í(») ť\s\\ —"H, £l2 —"12, £21 —"21, £22 — "22 j — (n) ,{n) n11!n12!n2i!n22! Q- (23) Pravděpodobnost, že pri danom rozsahu výberu n a nezávislosti X & Y vznikne štvorpolna tabulka s (vhodnými) marginálnymi početnostami «4., n-2., n.i, n.2 (vlastne stačí mat určené dve z nich ostatné sa už dopočítajú, napr. ak máme ni.,n.i, tak n-2. = n — «4., n.2 = n — n.i) je vlasne pravděpodobnost, že vznikne jedna z tabuliek typu (tvaru) i "1. - * "2. -".1 + * = "1. ".1 - i = n - (ni. +n.i) + i n — n-i. ".1 n — n.i n Samozrejme «4. > 0, n.i > 0, «4. < n, n.i < n i >0 > ("1. + ".1) - " = ".1 - "2. i > max{0, n.i — n-2.} (24) a tiež i < «4. i < n.i < min{ni.,n.i}. (25) Pravděpodobnost každej takejto vhodnej tabulky je daná vztahom (23). Preto pravděpodobnost, že (pri danom rozsahu výberu n a nezávislosti X &Y) vznikne štvorpolna tabulka s marginálnymi početnostami n-i., n-2. (=n — «4»), n.i, n.2 (=" —".i) (pričom «4., n. 1 > 0, ni.,n.i < n) je min{ni#!n#i} ^{£ll = *, £12 = "L - *, £21 = "•! - *, £22 = " - "!• ""»I + *} = i=max{0,n.i-n2.} „2# min{ni#!n#i} E i=max{0,n(i — «2»} «!("i» - «)K"»i - *)K"2» - ".i + i)! Q min{ni# ,n#i} E i=max{0,n,i — «2»} nlni.ln-2,! n1.!n2.!i!(n1. - «)!(n.2 - (n.i - «))K"»i - i)\ Q = = Q ni.!n2.! min{ni#!n#i} E i=max{0,n,i —^2«} n1( "2. = Q- "! A"i.+"2. * I V"»i - il ' ni.!n2#! n.i = Q (n!) M2 ,{n) An) ni.!n2.!n.i!n.2! — -^Ul. — "1», 4.2 —"-»2,4.1 —"-»1,4.2 — "»2 j (n) í(») pričom sme použili Cauchyho kombinatorický vzorec (Lemu 2.20). Ak ni. = nn + "12, "2. = "21 + "22, ".1 = "11 + "21, ".2 = "12 + "22, tak zrejme platí p(An) _ „ An) _ „ k. Všeobecný lineárny model (Y„i, X/3fc 1; V) je regulárny, ak hodnost h(X.) = k a covY je pozitívne deŕlnitná (p.d.) matica (teda regulárna). 27 Definícia 3.1: (i) Nech g : (lZn,Bn) —> (lZk,Bk) je meratelné zobrazanie. b = g(Y) je lineárnym odhadom vektora parametrov ßk 1; ak b = u + U Y, kde u G 1Zk a U je reálna k x n matica. (ii) b je nevychýleným (nestranným) odhadom ß, ak £ß(b) = ß pre každé ß G 1Zk. (Zámená to tolko, že ak vektor neznámych parametrov je ß (lubovolný A;—rozmerný vektor), tak stredná hodnota odhadu je práve tento vektor ß.) (iii) b je najlepším nevychýleným (nestranným) lineárnym odhadom (NNLO) vektora parametrov ß, ak pre každý iný nevychýlený lineárny odhad b* parametrov ß patí, že cov(b*) — cov(b) je p.s.d. matica. Veta 3.2: Lineárny odhad b = u + UY je nestranným odhadom ß práve ak u = 0 a UX = Ik,k- Dôkaz: 5(b) = 5(u + UY) = u + U5(Y) = u + UX/3 = ß V ß e llk «=^ u = OaUX = IM Q.E.D. V ďalšom budeme potřebovat nasledujúcu lemu. Lema 3.3: Pre každú maticu DM platí M (D) = M(DD'), kde M (D) = {Du : u G W} je vektorový priestor generovaný stĺpcami matice D (podpriestor priestora lZk). Dôkaz: Označme LVÍ(D)]^ ortogonálny doplnok priestora jVÍ(D) v (celom) priestore lZk. Platí jVÍ(D) = M(DD') ■<=> [MCD)]1- = [M(DD')]1. Budeme dokazovat rovnost priestorov [MCD)]1 a [M(DD')]1. Ak z G LVÍ (DD')]1" ==> z'DD' = 0 ==> z'DD'z = 0 ==> (D'z)(D'z)' = 0 ==> D'z = 0 ==> z'D = 0 ==> z G [^(D)]^, teda [M(DD')]1 C [^(D)]^. Ak z G [MiD)]1 ==> z'D = 0 ==> z'DD' = 0^zg [M(DD')]1, teda [^Í(D)]1- C [M(DD')]1 Lema 3.4: V regulárnom lineárnom modeli je X'V X regulárna matica. Dôkaz: V regulárnom lineárnom modeli je h(Xn,k) = k. Využijúc tvrdenie Lemy 3.3 môžeme písat h(X) > /i(X'V_1X) = /i(X'V"'V"5X) = h(X'V~?) > /í(X'V"'V5) = h(X), preto /i(X'V_1X) = /i(X) = k, pričom rozmer matice X'V X je fc x fc. (Matice V~5 a V~^ sme si definovali v predáške Lineární statistické modely I.) Q.E.D. Veta 3.5: V regulárnom lineárnom modeli je (Ynjl, Xßkl, V) je b = (X'V^X^X'V^Y NNLO parametra ß. Dôkaz: (i) b = (X'V^X^X'V-1 Y je lineárnym odhadom (matica U je v tomto prípade (X'V^X)"^'V"1), (ii) UX = (X'V^X^X'V^X = Ifc,fc, teda podlá Vety 3.2 je b nestranným odhadom. (iii) nech b* = WY je iný nestranný odhad, teda WX = lk /., cov(b*) = WVW, potom cov(b*) - cov(b) = WVW - (X'V"1X)-1X'V"1VV"1X(X'V"1X)-1 = = WVW - ItX'V^X)-1! = WVW - WX(X'V"1X)-1X'W = = W(V2 vi - viV-2X(X'V"1X)-1X'V-2 Vi)W = WV2 (I - V-iX(X'V"1X)-1X'V-i) vi w = v------------------------------v------------------------------' symetrická a idempotetná matica A=AA = (WV5A)(WV5A)' 28 je pozitívne semideŕlnitná matica, lebo VxeKfe x'(WvU)(WV2Ä)'x = y'y>0. Q.E.D. Príklad 3.6: (Vážený priemer.) Nech Y\,Y..Yn sú nezávislé, £(¥%) = Mi * = 1,2, ...,n a T>(Yi) = aj, i = 1, 2,..., n, všetky aj > 0 a všetky poznáme. Potom Y = (Y\, Y2, ...,Yn)' sa riadi obecným lineárnym modelom, pričom /l\ (a\ 0 ... 0\ 5(Y) /x = ln,i/x, ccw(Y) v v 0 a\ 0 0 ^n/ NNLO parametra /x (neznáma spoločná stredná hodnota všetkých Yj) je podía Vety 3.5 6=(l'V-1l)-1ľV-1Y = (1, !,...,!) 1$ o 0 4, 0\ 0 \o o /l\ Á) 1$ o o X o \o o (1,1,...,1) w -(U) t: Tento odhad (túto náhodnú veličinu) nazývame vážený priemer Yi, I2, --^Yn- (yA ■k) \w Y> Y_l_ Veta 3.7: Nech Y\, Yi, ■■■Yn su nezávislé, Yj ~ -/V" (/x, of), i = 1,2,..., n, všetky aj > 0 a všetky poznáme. Potom 6 = í 5^ľ=i ~~2 ) Sľ=i "f Je NNLO parametra /x. Štatistika x2 = YJh=i —~—2---- ~ Xn-i a &~JV M£ľ=i 1 Dôkaz: Pretože Y = (Yi,..., Y^)' ~ iV(lnii/x, ccw(Y) = diag(aj, ...,Y. (28) Pretože A£(Y) = o 4 yO 0 môžeme písat 0\ 0 si vfc=i /4\ W i i ~9 ? 9 rl ^2 l/x = 0, X2 = Y'AY = (Y - 5(Y))'A(Y - 5(Y)). Podia Vety 13 kapitoly V. knihy Anděl, J., Matematická statistika, SNTL, Praha, 1985 (dokazovali sme ju aj na prednáške Lineární statistické modely I), v prípade, že A je symetrická, p.s.d. matica, Accw(Y) ^ 0 a idempotentná, tak (Y — 5(Y))'A(Y — £(Y) ~ Xtr\A.cov(Y)]- Overme si všetky predpoklady Vety 13. A = A' (zrejmé) Vx g nn x'Ax = E"=i4 E n k=í 1 E"=i ~~2~ = C. Ak vo Schwarzovej nerovnosti 2 i / \ 2 "W *—^rí. J- / *—\n •*'i (Eľ=i aiÄ)2 ^ Eľ=i ai E"=i /?! zvolíme a» = —, /% = —, dostávame, že E"=i "T ELi — ~ ( £ľ=i 2fc=i ~ ) C > 0) teda C > 0 a preto Vx G 72.™ x'Ax > 0. A je p.s.d. matica. ak J Accw(Y) o 4 0 E n fc=l \o o ... ^j {±\ \k) <7?> 10. Vieme, že pre Fisherovu Z—transformáciu platí ("U? Vn I ' Un)p ("Vi (™)cr2 ("V (n)(7i (™)cr2 kde Z^Ilni + ^^^filni+^.^-V i =1,2, ...,„, * 2 l-i?i V2 l-(í)yO h -ZJ ' ' ' ' ' EjfcLi((i)^j -(i) X){^Yj -(*) F) E-Li((i)^ -(i) *)2 E-Li((i)^ -(i) F)2 31 je výberový korelačný koeficient na i—tom výbere, WX = — E7-Li ^Xj, Wy = — E7ii ^Yj- H0: (1V=(2) P= •••=(n) P X Hx: 3i^j (i)p ^j) p testujeme pomocou testovacej štatistiky X2 = E^^ = E(^-3)(^-6)2, i=í ---------- i=í fej — 3 1 J?- 1 kde b = ------— YTň=i —f— = ^jí—;------5- Eľ=i(^j ~ :i)zj- Podía Vety 3-7 má za platnosti íf0 fcj - 3 štatistika x2 rozdelenie x2-i- Ak teda jej realizácia x2eaí — X2-i(l — a)) tak Hq zamietame na hladine významnosti a. 3.2 Poznámky k pseudoinverzným maticiam Lema 3.10: Nech A, B sú k x / reálne matice. AA B = B <ŕ==> M (B) C M(A). Dôkaz: jVÍ(B) C A4 (A) <ŕ=> stĺpce matice B sa dajú napísat ako lineárne kombinácie stĺpcov matice A ^ {B}.j = Adj,djeTZl,j = l,2,...,l ^^ 3-Dlil = {d1,d2,...,dl),žeB = AD. Nech AA B = B ==> 3D (= A"B), že AD = B ==> AÍ(B) C AÍ(A). Naopak ak AÍ(B) C AÍ(A) ==> 3D, že B = AD ==> AA B = AA AD = AD = B Q.E.D. Úplne analogicky dokážeme nasledujúcu lemu (dôkaz spravte ako cvičenie). Lema 3.11: Nech A, B sú k x / reálne matice. BA A = B <^=> AÍ(B') C AÍ(A'). Lema 3.12: Amn je reálna matica. Potom (i) [(A'A)-]' je g-inverzná matica k matici A'A; (ii) A(A'A)~A'A = A (teda (A'A)-A' je jedna g-inverzia A-; (iii) A(A'A)_A' nezávisí na voíbe (A'A)- a je vždy symetrická (a jediná). Dôkaz: (i) Platí (A'A)(A'A)_(A'A) = (A'A). Ked túto rovnicu transponujeme (lavú aj pravú stranu), dostávame (A'A)[(A'A)-]'(A'A) = (A'A). (ii) Pretože podlá Lemy 3.3 AÍ(A') = AÍ(A'A), priamo z Lemy 3.11 dostávame A(A'A)~A'A = A. (iii) Nech (A'A)~ a (A'A)~* sú dve g-inverzie matice (A'A). Potom pomocou Lemy 3.10 a Lemy 3.11 dostávame [A(A'A)-A' - A(A'A)-A'][A(A'A)-A' - A(A'A)„A']' = = A(A'A)- A'A[(A'A)-]'A' -A(A'A)- A'A[(A'A)«]'A' - v---------------v---------------' "---------------v---------------' A' A' -A(A'A)- A'A[(A'A)-]'A'+A(A'A)- A'A[(A'A)«]'A' = 0. v---------------v---------------' "---------------v---------------' A' A' Podía Lemy 3.3 je M(0) = A4{[A(A'A)-A' - A(A'A)„A'][A(A'A)-A' - A(A'A)„A']'} = = M(A(A'A)-A' - A(A'A)-A'), teda A(A'A)~A' - A(A'A)«A' = 0 a A(A'A)-A' = A(A'A)«A'. 32 Vidíme, že A(A'A)_A' nezávisí od volby (A'A)- a je jediná. Zoberme si lubovolnú maticu (A'A)-. Potom matica ^{(A'A)~ + [(A'A)-]'} je symetrická g-inverzia matice A'A (dokážte). Matica A^{(A'A)_ + [(A'A)_]'}A' je ale symetrická a preto matica A(A'A)_A' je symetrická pre lubovolnú volbu (A'A)-. Q.E.D. Veta 3.13: Afcnx = yn 1 nech je konzistentný systém (t.j. má riešenie). A nech je lubovolná (ale pevná) g-inverzia matice A. Práve všetky riešenia systému Ax = y sú z množiny i = {xe 72.™ : x = A"y + (I-A"A)z, zG^™}. Dôkaz: Systém Ax = y je konzistentný (má riešenie) <ŕ=> 3x : Ax = y <ŕ=> y G A4 (A) <ŕ=> 3w : y = Aw. Nech x0 G A, teda x0 = A~y + (I - A~A)z0 =>• Ax0 = AA"y + A(I - A~A)z0 = AA Aw = v-------------v-------------' o Aw = y =>• xo je riešením systému Ax = y. Naopak ak x* je riešením konzistentného systému Ax = y, tak položme z = x* a A~y + (I — A A)z = A"y + (I - A~A)x* = A"y + x* - A" Ax* = x*. Teda x* G A. Q.E.D. 3.3 Model s neúplnou hodnostou, cov(Y) = (Y-Xb)'(Y-Xb) v----------v----------' "----------v----------' "------------------v-----------------' 0 0' >0 Zostáva ešte dokázat, že (Y—Xb)'(Y—Xb) je rovnaké pre každé riešenie b normálnych rovníc X'Xb = X'Y. Podlá Vety 3.13 práve všetky riešenia normálnych rovníc sú {(X'X)4ľX'Y+ (I — (X'X)4ľX'X)z : z G lZk} ((X'X)~ je lubovolná, ale pevná g-inverzia matice X'X). Pre každé riešenie b normálnych rovníc je (Y - Xb)'(Y - Xb) = Y'Y - Y'Xb - b'X'Y + b' X'Xb = Y'Y - Y'Xb = X'Y = Y'Y - Y'X{(X'X)"X'Y + (I - (X'X)"X'X)z} = Y'Y - Y'X(X'X)"X'Y, (29) lebo podlá Lemy 3.11 je -Y'X + Y' X(X'X)^X'X = 0. Podlá Lemy 3.12 (iii) výraz (29) nezáleží od volby x (X'X)^ a preto (Y — Xb)'(Y — Xb) je rovnaké pre každé riešenie b normálnych rovníc. Q.E.D. 34 Veta 3.16: Sústava normálnych rovníc X'Xb = X'Y je ekvivalentná sústave d(Y - X7)'(Y - X7) <97; 0, 1 = 1,2,...,k. "y=h Dôkaz: Platí (y - x7)'(y - x7) = J2(Y* - Em^) i=l j = l d(Y - X7)'(Y - X7) <97; d dli T=b " " i=\ j = l <97; J2(Yi - ({X}ii7i + {X}i272 + ... + {X}iklk)ý ^=b = 0, 1 = 1,2,..., k, "y=h teda 2Z)(y* - (ÍXW + ÍX}í272 + - + {X}ifc7fc))(-{X}i i=l J2(Yi - ({X}ii7i + {X}i272 + ... + {X}ifc7fc)){X}i = 0, l = 1,2,...,k, = 0, 1 = 1,2,...,k, "y=h (Y - Xb)'X = 0, X'(Y - Xb) = 0 X'Y = X'Xb, čo sú normálne rovnice. Z Vety 3.15 a Vety 3.16 dostávame Q.E.D. Dôsledok 3.17: V LRM (Y„i, Xnfc/3fc 1; 3 a G 1Z, u G 1Zn, že £ß(a + u'Y) = c'/3 V/3 G TLk «=> 3 a G TL, u G Kn, že a + u'X/3 = c'/3 V/3 G TLk ■<=> a = 0 a ] u e R", že u'X = c' -^^ 3u G TZn, že X'u = c. Q.E.D. Dôsledok 3.21: V LRM (Y„i, Xnfc/3fc 1? V) je é> = a + u'Y nestranný lineárny odhad nestranne odhadnutelnej parametrickej funkcie 9 = c'/3 (t.j. c G jVÍ(X')), práve vtedy ak a = 0 a X'u = c. Dôsledok 3.22: V LRM plnej hodnosti je každá funkcia 9 = 9(ß) = c'/3 lineárne nestranne odhadnutelná, lebo A4(X'fcjn) je podpriestor lZk, pričom /i(X') = k, teda Al (X') = lZk. Definícia 3.23: Majme LRM (Yni,Xnfc/3fc 1;V). Povieme, že 9 = u'Y je najlepší nestranný lineárny odhad (NNLO) lineárne odhadnutelnej skalárnej parametrickej funkcie 9 = 9(ß) = c'/3, (c G A4 (X') je pevne daný vektor), ak 9 je lineárny nestranný odhad c'/3 a pre každý iný lineárny nestranný odhad 9* funkcie c'/3 platí V(9*) > V(9). Veta 3.24: V LRM (Ynji, X„jfc/3fcl, cr2I), v ktorom h(X) < k < n, nech 9 = c'/3 (c G Uk je pevný vektor) je lineárne nestranne odhadnutelná parametrická funkcia (t.j. c G Al(X')). NNLO tejto funkcie je 9 = c'b, kde b je lubovolne riešenie normálnych rovníc X'Xb = X'Y. Odhad 9 = c'b nezáleží na volbe riešenia normálnych rovníc. Dôkaz: Podlá Vety 3.20 je 9 = c'/3 lineárne nestranne odhadnutelná práve vtedy ak c G Al(X'). Pretože podlá Lemy 3.3 je AÍ(X') = AÍ(X'X), 3 w G 1lk, že c = X'Xw. Odhad c'b = w' X'Xb = w' X'Y = u'Y (pomocou normálnych rovníc) je lineárny odhad. 36 f (c'b) = £ (w'X'Xb) = £ (w'X'Y) = w'X'X/3 = c'/3 V ß, teda c'b je lineárny nestranný odhad parametrickej funkcie 9 = c'/3. Ak sú b*-^ a b*2) lubovolné dve riešenia normálnych rovníc X'Xb — X'Y, potom c'b*!) - c'b(2) = w'X'Xíb*!) - b*2)) = w'{X'Y - X'Y} = 0. Teda 6 = c'b nezáleží na volbe riešenia normálnych rovníc X'Xb = X'Y. Vezmime si lubovolný iný (iný) nestranný lineárny odhad funkcie c'/3, a síce 6* = v'Y. Z nestrannosti vyplýva £ (v'Y) = v'X/3 = c'/3 yßenk, čiže X' v =c. (31) Počítajme V{9*) -P(c'b) = "D(v'Y) -2?( c'b ) = cr2v'v-cr2w'X'Xw = cr2v'v-cr2 w'X'X(X'X)- X'Xw = w'X'Xb=w'X'Y c' c = cr2{v'v- v'X (X'X)-X'v} = cr2v'{I-X(X'X)-X'}v>0, ^^ v--------------v--------------' =c' z (31) A lebo A nezáleží na volbe (X'X)-, je jediná, symetrická a idempotentná. Preto c'b je NNLO nestranne lineárne odhadnutelnej parametrickej funkcie 0 = c'/3. Q.E.D. 3.5 Odhad vektorovej parametrickej funkcie parametra ß vo všeobecnom lineárnom modeli Opi = C/3, kde Cp j. je matica reálnych čísel, nazývame (p—rozmernou) vektorovou parametrickou funkciou. Definícia 3.25: Majme LRM (Y„i, Xnfc/3fc 1? V). Povieme, že vektorová parametrická funkcia Opi = C/3, (C je p x k reálna matica je nestranne lineárne odhadnutelná, ak existuje jej lineárny nestranný odhad a+ U Y, t.j. ak 3a e-R?,UPtn, že £ß(a+ UY) = C/3 V/3 e Äfc. Podotýkame len, že odhadujeme C/3 pomocou observačného vektora Y lineárne, t.j. p— rozmernou lineárnou funkciou náhodného vektora Y, teda odhad je tvaru a + UY. Veta 3.26: V LRM (Y„i, Xnfc/3fc 1; V) je vektorová parametrická funkcia 6Pt\ = C/3 lineárne nestranne odhadnutelná práve vtedy ak existuje p x n matica U, že C = X'U'. Ak navyše platí h(C) = p, tak h(U)=p. Dôkaz: 6V\ = C/3 je lineárne nestranne odhadnutelná <ŕ=> 3 a G TZp,\]pn že £ß(a + UY) = C/3 V/3 G TZk ^=> 3 a G W,\]^n že a + UX/3 = C/3 V/3 G TZk ^=> a = 0 a 3 UPi„, že UX = C «=^ 3UPi„, že X'U' = C. Nech navyše platí hiC') = p. Potom p = h(C) = /i(X'U') < m.m{h(X,),h(^U,)} < h(Up,n) < inm{p, n} 3 UPjn, že C = X'U', teda {C}#i = X'{U'}.ii; i = 1,2, ...,p. Pretože podlá Lemy 3.3 je M (X') = M (X*X) a {C}#i G A4(X'), i = 1,2, ...,p, 3 si,S2,..., Sp, Sj G lZk, že {C}.j = X'Xsj, i = 1,2, ...,p. Preto existuje matica SkiP = (s1;s2, ...,sp), že C = X'XS. Ak navyše /i(C') = p, potom p = h(C) = /i(X'XS) < min{/i(X'X), h(S)} < h(SkiP) < min-jTc,^} < p, tedah(S)=p. Q.E.D. Poznámka 3.29: Je zrejmé (dokážte si), že vektorová parametrická funkcia 8Pt\ = (6\, ...,6P)' je nestranne lineárne odhadnutelná práve vtedy, ak je nestranne lineárne odhadnutelná každá jej zložka 6i, i = 1,2,...,p. Definícia 3.30: Majme LRM (Y„i, Xn j.ßk 1, V). Povieme, že 8pi = UY je najlepší nestranný lineárny odhad (NNLO) lineárne odhadnutelnej vektorovej parametrickej funkcie 8Pii(ß) = C/3, (C'Pifc je pevne daná matica), ak 8 je lineárny nestranný odhad C/3 a pre každý iný lineárny nestranný odhad 8* funkcie C/3 platí, že cov(8*) — cov(8) je pozitívne semideŕlnitná matica. Veta 3.31: V LRM (Ynji, X„jfc/3M,cr2I), v ktorom h(X) < k < n, nech 8pA(ß) = C/3 (C\^k je pevne daná matica) je lineárne nestranne odhadnutelná vektorová parametrická funkcia (t.j. C = X'XS). NNLO tejto funkcie je 8 = C'b, kde b je lubovolné riešenie normálnych rovníc X'Xb = X'Y. Odhad 8 = C'b nezáleží na volbe riešenia normálnych rovníc. Dôkaz: Podlá Lemy 3.28 je 8 = C/3 lineárne nestranne odhadnutelná práve vtedy ak C = X'XS. Odhad C'b = S' X'Xb = S' X'Y = (S'X')Y (pomocou normálnych rovníc) je lineárny odhad. f (C'b) = £ (S'X'Xb) = £ (S'X'Y) = S'X'X/3 = C/3 V ß, teda C'b je lineárny nestranný odhad parametrickej funkcie 8 = C/3. Ak sú b*-^ a b*2) lubovolné dve riešenia normálnych rovníc X'Xb — X'Y, potom C'b*!) - C'b(2) = S'X'X(b(1) - b*2)) = S'{X'Y - X'Y} = 0. Teda 8 = C'b nezáleží na volbe riešenia normálnych rovníc X'Xb = X'Y. Vezmime si lubovolný iný (iný) nestranný lineárny odhad funkcie C/3, a síce 8* = ~VpnY. Z nestrannosti vyplýva f (VY) = VX/3 = C/3 V ß G nk, čiže VX=C. (32) 38 Matica cov{e*)-cov{ě) = cov(VY)-cov( C'b ) = cr2VV'-cr2S'X'XS = cr2VV'-cr2 S'X'X(X'X)" X'Xw = S'X'Xb=S'X'Y C C = cr2{VV - VX (X'X)-X'V'} = cr2V{I - X(X'X)-X'}V = cr2VA(VA)' = C z (32) A je pozitívne semidefinitná, lebo A nezáleží na volbe (X'X)-, je jediná, symetrická a idempotentná. Preto C'b je NNLO nestranne lineárne odhadnutelnej parametrickej funkcie 8 = C/3. Q.E.D. Poznámka 3.32: Je zrejmé, že S (Y) = X/3 je nestranne lineárne odhadnutelná vektorová parametrická funkcia. Ak cov (Y) = cr2I, tak NNLO S (Y) °= Y = Xb, kde b je Ľubovolné riešenie normálnych rovníc (b = (X'X)-X'Y + (I - (X'X)-X'X)z), teda Ý = X(X'X)"X'Y (nezáleží na volbe (X'X)-) je jediný. 3.6 Testy hypotéz v LRM s neúplnou hodnostou a cov(Y) = x)-x>cw;(Y) _, 0 a idempotentná) tak (Y _ g(Y)yi-x(x;x)-x'(Y _ 5(Y)) _ x2 f tr[-------—2"^------cov{Y)\ Overme si všetky predpoklady Vety 13. Matica I — X(X'X)_X' je podlá Lemy 3.12 (iii) symetrická. Ľahko vidíme, že je idempotentná, teda to je p.s.d matica. Potom ale aj matica ——-—^-----je symetrická a p.s.d. matica. Ďalej I-X(X'X)-X' I-X(X'X)-X' 2 YŕY'Y^-Y' ----------r---------cov(Y) = ----------r---------(T 1 = 1 — X(X'X) X' O"2 O"2 je idempotentná a nenulová, lebo /i(I - X(X'X)-X') = tr(I - X(X'X)-X') = trlnj„ - ír[X'X(X'X)"] = n - h(X) = n - r > 0 (35) (z predpokladov). Ináč pre lubovolnú maticu D je hodnost h(D) = trDD , lebo DD" je idempotentná, teda /i(DD") = ír[DD~] a h(D) > /i(DD") > /i(DD"D) = h(D), čiže /i(D) = /i(DD") = ŕr[DD-]. Okrem toho z Lemy 3.3 vyplýva, že ^Í(X'X) = A4(X'), teda /i(X'X) = /i(X') = /i(X). Q.E.D. Veta 3.35: V LRM (Ynji, X„jfc/3fcl, cr2I), v ktorom h(X) = r < k < n je n — r nestranným odhadom a2. (Nevyžaduje sa normalita Y.) Dôkaz: Se = Y'(I — X(X'X)_X')Y je kvadratická forma náhodného vektora Y. Platí £ f-^-^ = —!—£(Se) = ——S(Y'(I - X(X'X)-X')Y) = V n — r J n — r n — r 40 = —— Í/3'X' (I - X(X'XrX')X/3 + ír[(I - X(X'X)~ X')cr2I]} = -^—ŕr(I - X(X'XrX') = cr2 n — r •-________v________/ n — r o (z (35)). Q.E.D. Veta 3.36: Majme LRM (Ynjl, X„jfc/3M, cr2I), /i(X) < k. Ak Y - N(Xß, cr2I), tak s2 a b = (X'X)-X'Y sú nezávislé. Dôkaz: b = (X'X)"X'Y a s2 =-----%—- = Y,I~X(-X'^ X Y Podlá Vety 16, str. 81 knihy Anděl, n — «-(X) n — «-(X) J., Matematická statistika, SNTL, Praha, 1985 (dokazovali sme si ju na prednáške Lineární statistické modely I), sú s2 ab nezávislé ak (x'xrxvi]1"*^:*'^ n — h(X) o čom sa lahko presvedčíme. Q.E.D. Veta 3.37: Majme LRM (Ynjl, X„jfc/3fcl, cr2I), v ktorom h(X) = r < k < n, pričom Y ~ AT (X/3, cr2I). C\tk je reálna matica s hodnostou h(C) = p, 9(ß) = CPikß je lineárne nestranne odhadnutelná vektorová paras' metrická funkcia, b = (X'X)~~X'Y a s2 = ——. Ak platí C/3 = 0, tak n — r psz Dôkaz: Podlá Vety 3.36 sú b = (X'X)_X'Y a s2 nezávislé, teda aj C'b a s2 sú nezávislé, pričom podlá Vety 3.33 (ii) je C'b - N(C'ß, cr2C'(X'X)-C) a C'(X'X)-C je regulárna p x p matica. Ale potom aj (C'b - C'/3)/^[C'(X'X)-C]-1(C'b - C/3) (ako funkcia C'b) je nezávislá so s2, pričom (C'b - C/3)/^[C(X'X)-C]-1(C'b - C/3) - Xp (podlá Vety 12, str. 79 v knihe Anděl, J., Matematická statistika, SNTL, Praha, 1985, dokazovali sme si ju na prednáške Lineární statistické modely I). Podlá Vety 3.34 je —| ~ Xn-r a Preto —ô~s2 = ~~J ~ ^íl-r a Je nezávislá s náhodnou veličinou (C'b - C'/3)/4ľ[C'(X'X)-C]-1(C'b - C/3) - x\- Preto ak C/3 = 0, tak (Cb)/^[C(X'X)-C]-1C'b F_ p _ (Cbytc^x'^-q-^cb Ľ-^2LS pSZ Poznámka 3.38: Vetu 3.37 použijeme pri testovaní H0 : C/3 = 0 X Íri : C/3 ^ 0 Ak realizácia Freai > Fpn_r(\ — o), tak Hq zamietame na hladine významnosti a (porušenie hypotézy má za následok velké hodnoty F). 41 4 Testovanie submodelov Majme LRM Ynji = Xnjfc/3fcl + £n,l- Je možné, že stredná hodnota náhodného observačného vektora nezáleží od jedného alebo niekoíkých parametrov /3ji; ...,ßjs, teda závisí len od vektora /3* = (ßSl,..., ßSk )', &i < A;. Prechádzame k "zjednodušenému" modelu Yn,i = Xnifci/3fciil + enl. Všeobecnejšie majme Model M: Y ~ A^Xa, _f)/(I>_f) n_r Se ri-r2 ^-^.™— [-ál> Dôkaz: Najprv si ukážeme, že X'Y a Se = (Y - /Ĺx)'(Y - /Ĺx) = Y'(I - X(X'X)"X')Y sú nezávislé. Podlá Vety 16, str. 81 knihy Anděl, J., Matematická statistika, SNTL, Praha, 1985 (dokazovali sme šiju na prednáške Lineární statistické modely I), sú X'Y a Se = (Y — /Ĺx)'(Y — /x) = Y'(I — X(X'X)~X')Y nezávislé ak X'= [X(X'X)- -U(U'U)"K']X'Y a Se sú nezávislé. Teda čitatel a menovatel v (36) sú nezávislé náhodné veličiny. S Nech pre Y platí model Mi (čiže aj model M). Podlá Vety 3.34 je —%■ ~ Xn-r- Ďalej £{ß -ů)= 5[(X(X'X)"X' - U(U'U)"U')Y] = X(X'X)"X'U/3 - U(U'U)"U'U/3 = = X(X'X)_X'X K/3 - U/3 = XK ß - U/3 = 0, ~-----í-----' V cov(ß -v) = [X(X'X)_X' - U(U'U)"U']cr2I[X(X'X)"X' - U(U'U)_U'] = (lebo nezáleží na volbe g—inverzií) XK=U K'X'=U' = cr2{X(X'X)-X'-X(X'X)-X' U (U'U)-U'-U(U'U)- U' X(X'X)-X'(U'U)-U'} = XK K'X' = cr2{X(X'X)"X'-U(U'U)"U'}. (38) Podlá Vety 12, str. 79 v knihe Anděl, J., Matematická statistika, SNTL, Praha, 1985, dokazovali sme si ju na prednáške Lineární statistické modely I) platí, že (A - U)'[cOv(ß - !>)]-(£ - ť>) ~ xl[cov(ß-0)]> (bez ohladu na volbu g—inverzie (cov(ß — i>))~), teda 1 (A - *>)'-{X(X'X)-X' - U(U'U)-U'}-(£ - u) ~ xi[ a cov(£i — í>)]' Pretože X(X'X) X' — U(U'U) U' je idempotentná matica (pozri (38)), je jednotková matica I jej jedna g—inverzia a dostávame, že 1 a lebo ,2 2 (A - £)'(£ - V) ~Xr-ri. h[cov{ß - v)] = /i(cr2[X(X'X)-X' - U(U'U)"U']) = /i[X(X'X)"X' - U(U'U)"U'] = = ír[X(X'X)"X' - U(U'U)"U'] = ŕr(X(X'X)"X') - ŕr(U(U'U)"U') = = ír(X'X(X'X)") - ŕr(U'U(U'U)") = h(X) - h(U) = r-rx 43 (podia záveru dôkazu Vety 3.34). Preto (p,-ú)'(p,-ú) p_ cr2(r-ri) _ (A - £>)'{íi - v) n-r <~>e be r — r\ a2(n — r) Vztah (37) dokážeme úplne analogicky. Q.E.D. Hypotézu Hq : platí submodel Mi X H\ : neplatí Hq testujeme nasledovne. Ak realizácia Freai > Fr_rij„_r(l — a) (F dané vztahom (36)), tak Hq zamietame na hladine významnosti a. Veta 4.3: Nech Mi je submodelom modelu M a Mi je submodelom modelu Mi. Odhady fi,ů,Ť,Se splňujú identity (i) Se + (A - *>)'(£ -£) + (*>- t)'(v - f) = Y'Y - f'f, (ii) Se + (A - 0)'{ß -ú)= Y'Y - ú'ú, (iii) Se = Y'Y - A'A-Dôkaz: 5e = (Y - A)'(Y - A) = Y'(I - (X(X'X)"X')Y = Y'Y - Y' X(X'X)-X'X(X'X)-X'Y = Y'Y - A'A v------------v------------' x (lebo nezáleží na výbere g—inverzie (X'X)-). Dokázali sme (iii). Pretože X(X'X)_X' — U(U'U)_U' je symetrická a idempotentná matica (pozri (38)), je (A - í>)'(A -&)= Y'[X(X'X)"X' - U(U'U)-U']'[X(X'X)-X' - U(U'U)"U']Y = = Y'[X(X'X)"X' - U(U'U)"U']Y = Y' X(X'X)-X'X(X'X)-X'Y - Y' U(U'U)-U'U(U'U)-U'Y = v------------v------------' "------------v------------' x u = A'A — v v. (39) Analogicky lahko sa dokáže, že aj U(U'U)_U' — T(T'T)_T' je symetrická a idempotentná matica a preto (ú - t)'(ú - f) = Y'[U(U'U)"U' - T(T'T)-T']'[U(U'U)-U' - T(T'T)-T']Y = = Y'[U(U'U)-U' - T(T'T)-T']Y = Y' U(U'U)"U'U(U'U)"U'Y - Y' T(T'T)"T'T(T'T)"T'Y = v------------v------------' v-----------v-----------' U T = ů'ů-ť'ť. (40) Pomocou (39) a (40) je evidentné (i) a (ii). Q.E.D. 44 5 Analýza rozptylu 5.1 Analýza rozptylu jednoduchého triedenia Majme I nezávislých náhodných výberov z normálneho rozdelenia s rovnakými disperziami, teda 1. výber ^1,1, ^1,2, •••, Y\^ni rozsahu n\ z N(i^i,a2), 2. výber ^2,1,^2,2, •••, Y2t„2 rozsahu n2 z A^^o"2), I—ty výber ^7,1,^7,2, •••,^7,ní rozsahu nj z N(i^j,a2). Cielom je overit hypotézu Ho : jj,i= jj,2 = ... = jj,i X Hi : 3 i ^ j ju ^ jj,j Ide o lineárny regresný model ktorý môžeme zapísat maticovo Y„ 1 — Y2 VYV (Yll\ Ylni Y21 Y22 Y2n2 Yn YI2 \YlnJ o\ 0 0 o o íl o 1 o 1 o o 1 o 1 o 1 o o ... 1 V° o ••• V M M2 w — ^-n,iß 1,1 + en,lJ i,2 ^2n2 í/1 í/2 /l i o ... o\ 1 1 o ... o 1 0 . . 0 0 1 . . 0 0 1 . . 0 1 0 1 1 o o \aiJ — Xni/_|_i/3j,1 1 + enii, \l 0 0 ... 1/ kde e ~ jV(Onji, <72Inj„) a h(X.) = I (prvý stĺpec matice X je súčtom ostatných stĺpcov), teda ide o model neúplnej hodnosti, /x voláme celkový efekt ošetření a on je efekt i—teho ošetření. ni krát nj krát Cielom je odhad vektora f (Y) = (/x + «i, ...,/x + o.\,..., /x + a/,..., /x + a/)' = X/3. Podlá Poznámky 3.32 tento odhad vždy existuje a NNLO vektora f (Y) je f (Y) = X/3 = Y = Xb, kde b je lubovolné riešenie normálnych rovníc X'Xb = X'Y. Podlá Vety 3.16 je sústava normálnych rovníc ekvivalentná sústave dS d/x 0, (41) dS do.i = 0, i = l,2,...,I, kde S(/x, «i,..., a/) = £\=1 E"íi(^ij ~ M Označme i" n / - *íj = **•' Zv Zv *j = Zv *• = ••' zr. Zv *j = ^~ *• = ž/í., j=i i=i j=i j=i (42) I n 5> ^EÉ^ = ^- = y. i=í j = í (zaužívané označenie). Rovnice (41),(42) sú n-M + EniQ!i = *••' ntH + ntat = Yt,, t =1,2,..., I (43) (44) 46 (preverte). Ako vyzerajú normálne rovnice X'Xb = X'Y X'Xb í : • .11. . 1 1 . .10. . 0 0 . .01. . 1 \o teda 0 0 1 \ 0 0 1 / (n n\ n-2 n-i n-i 0 n-2 0 n-2 V m o X'Y ni 0 0 n/ / / 1 1 0 1 1 0 1 1 o 1 0 1 1 0 1 1 0 1 1 o o 1 o o / M \ «i \ai J Z^i=l Z^j=l *ij YIt o\ 0 o o o / u \ a.\ \ ai ) njj1 + '^jniai = Y„, nt(J, + ntat =Yf, t = 1,2, ...,/, čo sú (pochopitelné) tie isté rovnice ako (43) a (44). Zrejme sústava (43) a (44) má singulárnu maticu, lebo súčet rovníc (44) dáva rovnicu (43). Stačí nám ale nájst lubovolné riešenie tejto sústavy. Môžeme napríklad zvolit riešenie /x* = 0 a a* = g/j., i = 1,2,...,/. Budeme postupovat ináč (osvedčilo sa to aj pri iných modeloch analýzy rozptylu), a síce pridáme dalšiu rovnicu (podmienku) i '^jniai = 0 i=í tzv. reparametrizačnú rovnicu. Takto dostávame sústavu i ^riiOi = 0 i=í I n<" + *^2niai = Y„ í=í 47 ktorej (jediné) riešenie je ntfJ, + ntat = Yt,, t = 1,2,...,I, H°=y„, a°t =yt, -y„, t =1,2,...,I. Teda NNLO fi = 5(Y) = X ŕu°\ \ay Ui° + a\\ (yi.\ H° + a\ ž/i. H° + a\ ž/i. H° + a°2 ž/2. H° + a°2 ž/2. H° + a°2 ž/2. H° + 0.} ž//. L ..O 1 „O , ž//. Ak máme testovat v pôvodnom modeli (s plnou hodnostou, str. 44) Ho : jj,\ = m = ••• = jJ-i X Hi : 3 i ^ j /x» ^ /xj, tak v reparametrizovanom modeli (s neúplnou hodnostou, str. 45) je to ekvivalentné testovaniu Hq : ct\ = «2 = ••• = ai X iíi : 3 í ^ j on=£ a.j. Za platnosti ŕ/o máme namiesto modelu M: Y~ JV(X/3,cr2I) submodel Mi : Yjj = 7 + Cjj, i = 1,2,...,/, j = 1,2, ...,«.j, ejj ~ jV(0,<72) (všetky nezávislé) s maticou plánu Unji = (1,1,..., 1)'. Zrejme AÍ(U) C A4 (X), lebo U = X(1,0, ...,0)'. Submodel Mi je plnej hodnosti. Odhadneme v ňom 7. NNLO parametra 7 je 7 = (U'U)_1U'Y = — y"-=1 y^"li ii7- = — Y„ = y„. Preto /ž/.A ž/. *> = f (Y) = = ln.lž/..- w Podlá Vety 4.3 je reziduálny súčet štvorcov (RSČ) Se = Y'Y — /lx'/ĺx a Se + (/x — u)'(ß — í>) = Y'Y — í>'í>. Náhodnú veličinu Y'Y — í>'í> nazývame S^ - totálny (celkový) súčet štvorcov a náhodnú veličinu (/Ĺx — i>)'(ß — v) voláme Sa - súčet štvorcov medzi triedami, alebo súčet štvorcov medzi riadkami, alebo súčet 48 štvorcov ak je zdroj menlivosti "A" (t.j. ß uvažuje "A" a v neuvažuje "A" (zdroj menlivosti)). Platí teda V = ž/i. ž/i. ž/2. ž/2. ž/2. ž//, ž//. vw ľ = / ž/..' ž/.. ž/.. ž/.. ž/.. ž/.. ž/.. ž/.. w i=l j=l i=l j = l Y2 n sA = (A - *>)'(A - ť>) = /2'A - *>*> = Í2n^* - ny.. = E — - — > i=l i=l n,- n se = ^-^ = £E^-EÍf- *=1j=l i=l Za platnosti Hq : cti = ol)'(A - 0) n- h(X) =SA n-I (y-a)'(y-a) fe(X)-fe(U) se /-i~ /-1-n-/- Ak realizácia Freai > íV-i,n-/(l — «), tak na hladine významnosti a zamietame Hq. Tabulka analýzy rozptylu jednoduchého triedenia. zdroj variability súčet štvorcov stupne volnosti s/f F- V f Se/fe skupiny (riadky, "typ pôdy",...) reziduály SA Se ÍA = I-l fe = n- I Sa Ía Se U Sa/fa * « Se/fe celkový St f T = n - 1 V poslednom stĺpci tabulky je hodnota testovacieho kritéria. Ak táto hodnota je taká, že test zamieta nulovú hypotézu na hladine významnosti a = 0, 05, hodnota testovacieho kritéria sa označí jednou hviezdičkou. Ak 49 táto hodnota je taká, že test zamieta nulovú hypotézu na hladine významnosti a = 0, 01, je zaužívané hodnotu testovacieho kritéria sa označit dvomi hviezdičkami. Poznámka 5.1: (Bartlettov test) Aby sme mohli realizovat analýzu rozptylu, musíme overit, či disperzie v triedach sú rovnaké (predpokladáme normalitu pozorovaní, táto normalita sa tiež overuje testami normality). Bartlettov test: s} = ——r YlYiú ~ niyi» ' i = 1'2'-'1' s2 = Za platnosti hypotézy Hq a\ = a\ aj (rovnaké disperzie v triedach) platí B = C (n-/) In s2 -^2(ni-l)\nsl :X/-i- Ak realizácia Breai > X/-i(l — a)> zamietame hypotézu o rovnosti disperzií na hladine významnosti a. Test sa dá aplikovat ak n-j > 6 pre všetky i = 1,2,..., I. Poznámka 5.2: Ak Hq : a.\ = «2 = ••• = cti zamietame, potom sa pýtame pre ktoré i ^ j je Mi 7^ Mj (ai ¥" aj)- Teda vlastne pre každé i ^ j testujeme Ho '■ in — ii j Hq zamietame na hladine významnosti a, ak X Hi: Hi^ Hj. \Vi. - Vj.\ > J (I - 1)^7 (^ + - ) f/-i,„-/(l - a). n — I \rii n j (45) Táto metóda sa volá Scheffého metóda, jej analýza a odvodenie nájdete v knižke Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 147. Ak n\ = n-2 = ... = nj, tak sa á použit aj metóda Tukeyho (pozrite tiež v knihe Anděl, J., Matematická statistika, SNTL, Praha, 1985 na str. 150). Príklad 5.3: (Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 156.) U štyroch odrodách zemiakov (A,B,C,D) sa zistovala celková motnost zemiakov, ktoré vyrástli v jednom trse. Výsledky sú v nasledujúcej tabulke: odroda hodnoty (realizácie) Yij početnost rii súčet Yi, priemer í/j. súčet štvorcov Y^ - Y^ A 0,9 0,8 0,6 0,9 4 3,2 0,8 2,62 B 1,3 1,0 1,3 3 3,6 1,2 4,38 C 1,3 1,5 1,6 1,1 1,5 5 7,0 1,4 9,96 D 1,1 1,2 1,0 3 3,3 1,1 3,65 celkom n = 15 Y„ = 17,1 EiE^H20'61 50 Vzhladom k malým početnostiam n-j nerealizujeme test normality ani Bartlettov test. s,=Sf1ia-íä = >!f+i£+z!£+i£.izj!=o,8i», A ^í=1 m n 4353 15 St = EL EU Vi - Y-f = 20, 61 - ^f = 1,1160, Se = ST - SA = 1,1160 - 0, 8160 = 0, 3. Tabulka analýzy rozptylu. zdroj variability súčet štvorcov stupne volnosti s/f F- S/f Se/fe odrody reziduály SA = 0, 8160 Se = 0, 300 3(=/-l) Íí(=n-I) 0, 2720 0, 02727 9,97* celkový ST = 1,1160 14 Pretože 9,97 > i^ n (0,95) = 3,59, zamietame na hladine významnosti 0,05 (5%) hypotézu, že stredná hodnota hmotnosti trsu zemiakov nezávisí na odrode. Scheffého metodou chceme odhalit, ktoré odrody sú významne odlišné medzi sebou. ^-=0,02727, f13ill(0,95) = 3,59, (/- l)—_-F3,n(0, 95) = 0, 29370, n — L n — L preto tabulka pre porovnávanie dvojíc Scheffého metodou vyzerá nasledovne zrovnávané odrody absolútna hodnota rozdielov |í/j. - -ž/j.l i*- -l)Äfe + i)^-l,n- -/(0, 95) A,B Iž/i. -ž/2.1 =0,4 0,41 A,C Iž/i. -ž/3.1 =0,6* 0,36 A,D Iž/i. -ž/4.1 =0, 3 0,41 B,C lž/2. -ž/3.1 =0,2 0,40 B,D lž/2. -ž/4.1 =0,1 0,44 C,D lž/3. -ž/4.1 =0,3 0,40 Len pri porovnávaní odrôd A a C možno na hladine významnosti 0.05 prehlásit, že tieto dve odrody sú (štatisticky) významne odlišné. 5.2 Analýza rozptylu dvojného triedenia bez interakcií Príklad 5.4: (Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 167.) Skúmali sa výnosy sena v q/ha v závislosti na A—typ pôdy i = 1, 2 a B— spôsob hnojenia j = 1, 2, 3. Každá kombinácia typu pôdy (normálna, kyselá) bola realizovaná s každým spôsobom hnojenia (bez hnojenia, chlievska mrva, vápenaté hnojivo) vždy štyrikrát (na štyroch pozemkoch) nezávisle. Výsledky sú v nasledujúcich tabulkách: 51 spôsob hnojenia j typ pôdy A i bez hnojenia 1 chlievska mrva 2 vápenaté hnojivo 3 súčet Yi„ V V Y2 t—'j t—'k ijk normálna 1 kyselá 2 28 32 30 30 31, 27 30 29 37 36 39 36 34 34 30 38 34 38 37 36 42 40 41 39 413 415 14 355 14 653 súčet Y,j, 237 284 307 Y...=828 y- Y-4y2 Z—ii Z—ik ijk 7039 10 138 11 831 V V V Y2 Z—ii t—'j t—'k ijk =29 008 y i j* 3 = 1 3 = 2 3 = 3 i = i 120 148 145 i = 2 117 136 162 2 3 i=i j=i nij=4, í = 1,2, j = 1,2, 3. V tomto prípade máme dva triediace znaky (typ pôdy —A, spôsob hnojenia —B). Máme n^ pokusov takých, že u nich je A na i—tej a B na j—tej úrovni (v tomto prípade i = 1,2, j = 1,2,3). Výsledky (v tomto prípade výnosy) týchto riij pokusov sú realizácie náhodných veličín Yiji, lij2, •••, Yijni. (v tomto prípade napr. realizácia Ym je 28, realizácia Y\\2 je 32, realizácia Y232 Je 40, atd.). Základná úloha je rozhodnut, či všetky úrovne B (spôsob hnojenia) majú na výnosy rovnaký vplyv, alebo nejaký spôsob hnojenia je "signifikantně iný" (lepší, horší). Niekedy treba naviac rozhodnut, či výnosy závisia od typu pôdy. Model je *ijk f^ij 1 ^ijk: tijk ~ N(0,a2), i = 1,2,...,I, j = 1,2, ...,J, k = 1,2, ...,riij a všetky e ijk sú nezávislé. Ak označíme (46) Mi. J : Z^i=l Mi j /Li=i l^j=\i1ij U , (ap)ij fii j Hi% /x# • + M»»i potom Míj = M.. + (Mi. - M..) + (P.j - M< a dostávame preparametrizovaný model (46) v tvare ij ^i» ^»j'^»»)7 Yijk = M + «i + ßj + (aß)ij + eijk, (47) eijk ~ N(0, a2), i = 1, 2,..., /, j = 1, 2,..., J, A; = 1,2,..., ni:ř a všetky e^ sú nezávislé. Parameter ^ voláme celkový efekt, parameter on je efekt i—teho riadku (i —tej úrovne faktora A), parameter ßj je efekt j — teho stĺpca (j —tej úrovne faktora B) a (ctß)ij je interakcia. V nasledujúcom budeme předpokládat, že interakcia je rovná 0 (pre všetky i, j), teda Yijk =n + ai+ßj + eijk, (48) eijk ~ ^(0,cr2), i = 1,2,..., I, j = í,2,..., J, k = l,2,...,riij a všetky e^ sú nezávislé. Model (48) voláme modelom dvojného triedenia bez interakcií. 52 Poznámka 5.5: Ak je v každej triede rovnaký počet pozorovaní, t.j. n^ = K, i = 1,2,...,I, j = 1, 2,..., J, tak model (alebo triedenie) voláme vyvážený (vybalancovaný), inak nevyvážený. V nasledujúcom uvažujme vyvážený model (rovnako je tomu aj v Príklade 5.4). Model (48) sa dá maticovo zapísat ako M: Y = Xa + e, Y = (Yní, YÍ12, -,YIJK)', kde matica X typu n(= J2i=1 $^7=i Sfc=i nijk) x (-f + J+l), ktorej prvý "blok" je matica Xnj/+i zo str. 45 a druhý "blok" si napíšte ako cvičenie, a = (/x, «i,..., a/, /?i,..., /?_/)', pričom hodnost h(X.) = I + J — í = r (1. stĺpec matice X je súčtom stĺpcov druhého až (7+1)—vého, a takisto je súčtom stĺpcov druhého "bloku"). V modeli M chceme testovat hypotézu HB0: ß1=ß2 = ...=ßj ö HB1: 3s^tßs^ßt (nulovost efektov ošetrenia B). Za platnosti H bo dostávame submodel Mi : Yijk = jj +ai + tijk, ktorý môžeme maticovo zapísat ako Mi: Y = U<5 + e, Y = (Ym,Yn2, ...,YIJK)', kde matica Un/+i je tá istá ako matica X zo str. 45 a má vždy JK rovnakých riadkov, vektor parametrov ö = (jj,, «i, «2, •••, oíi)'. Ľahko vidíme, že U = X ' , h(XJ) = I (I < I + 1 (-poče stĺpcov matice U) a i~+ 1 < I + J + í (-počet stĺpcov matice X)). Preto Mi je submodelom modelu M (pozri Definíciu 4.1). V modeli Mi chceme testovat hypotézu Haq : cti = a2 = ••• = ai X Hai '■ 3 s ^ t cts ^ ctt (nulovost efektov ošetrenia A). Za platnosti Hao dostávame submodel M<2 ■ Yijk = n + Cijk, ktorý môžeme maticovo zapísat ako M2: Y = T7 + e, Y = (Yin, Yíí2, ...,YIJK)', kde matica T„i je matica samých jedničiek a vektor parametrov 7 = /x (skalár). Ľahko vidíme, že M2 je submodelom modelu Mi. V modeli M odhadneme £(Y) = Xa, odhad je ß (kvôli rovnakému značeniu ako v kapitole 4. Normálne rovnice sú * = 1,2,...,/, 3 = 1,2,..., J, kde S = S((i,,ai, ...,a/,/3i, ...,ßj) = J2i=iJ2j=iJ2k=i(Yijk — yi — on - ßj)2 ■ Po derivovaní dostávame dS dy = 0, dS d Q4 = 0, dS dß~ = 0, 53 i j UK p + JKj2ai+ IKJ2^ = y'"' i=l i=\ J JKn+JKai + KYjßi=Yi„, i = 1,2,..., J JÄ> + if ^ at + IKßi = Ymi„ j = 1, 2,..., J. i=l Pridáme reparametrizačné rovnice i j i=i j=\ (aby sme dostali jednoznačné riešenie). Toto riešenie je A = 'tí*** , «i = ž/i.. - ž/... , « = 1,2,...,/, p j y.j. — y... j ^ í, z,..., j. Urobme ešte niekolko pomocných výpočtov: j Y^y»3» =y.i.+y.2.+ -- + y.j. = -y^iy^, + y,2, +... + y,j,) = —y,„ = Jj-^y,,, = Jy„, (49) a analogicky 1 1 11 X^yí" = yi« + y2.. + --- + y/.. = -^(Yi.. + Y^** + ••• + */••) = ~ji?Y*** =iTjky*" = Iy***-> (50) ďalej j j j / J \ J J3(y.j. - y...)2 = ^2(ylj, - 2y,j,y„, + y2,,,) = ^2 y2,j, + Jy2,,, - 2y... ^ y, j, = ^ yljt - Jy2,,, Jy... podía (49) (51) a analogicky i J2(yi** -y»»»)2 = J2(yi" ~2Vi**y*** + y2»»») = ^2ry2** + Iy2*** ~2v*** X^» = XX2.. -Jy2..- -fj/... podía (50) (52) Preto v modeli M : Y - N(Xa, cr2I) je K krát K krát K krát /x = Xa = (/x + ái +/?i, ...,/x + ai + /?i,/x + ái + /%, • ••, A + ^i + /%, ••-, A + &i + /^J? •••> A + ^/ + Á/)', 54 i j i j i í j (J,'ß = K^^iß+ai+ßj)2 = if^^(y...+yi..-y...+y.j.-y...)2 = K^2 l ^(y.j. - y... +%..) i=l j=l i=l j = l i=\ \j=\ ^E 0 podla (49) i=\ j=l ^2(y»j» - y...)2 + Jy}„ + 2%.. J3(y.j. - y...) podla (51) } =KI J=l ^E^»+° i=l J J = JKJ2 VÍ» +IKJ2 Vij* - UKyl.. a h(X) = I + J - 1. V submodeli Mľ : Y - AT(UÔ, cr2I) je JK krát J K krát JK krát ,~. TTJC /o , o o,oo,o o, o o, o o , o \ / ľ = lí = (ju +a1;...,/x +a1;/x +«2i-)/1 +«2j---jM +«/,-•-,/« + «/) , v'v = JKj2(ť + O2 = Jtf í>«" + yi#. -y...)2 = J K ^y2.., pričom /i(U) = i". V submodeli M2 : Y - N{T~(, a2ľ) je t = T7= (y..., y...,..., y...)' (53) (54) ■ŕT = ny2..=IJKy2..„ (55) pričom /i(T) = 1. Hypotéze Hbo '■ ß\= ßi = ■■■ = ßj "zodpovedá" súčet štvorcov Sb = (ß — v)'(ß — ^) — súčet štvorcov, ked zdroj menlivosti sú stĺpce — súčet štvorcov, ked zdroj menlivosti je spôsob hnojenia (v ß je uvažovaný, v v nie je uvažovaný). Z (53),(54) a (51) dostávame podla (51) J I J \ J SB = {ß-u)'{ß-i>) = ^ß-v'v = IKY.ylj.-UKy2... = IK ^^-. - Jyl. = ^E>«> " ^") Hypotéze ií^o : «i = «2 = ••• = «/ "zodpovedá" súčet štvorcov Sa = (ť — t)'(í> — r) — súčet štvorcov, ked zdroj menlivosti sú riadky — súčet štvorcov, ked zdroj menlivosti je typ pôdy (v v je uvažovaný, v r nie je uvažovaný). podía (52) SA = {i>- Ť)1 {v - f) = v'v - t't = JKj2vL - UKy2... = JKJ2(Ví» " y.») í=í í=í 55 Tiež platí St = Y>Y-+'+ = J2J2J2 Y?jk - nyl. = £ £ £ ^ ~ I™*.. i=l j=l k=l i=l j = l k=l S e — St — Sa — S b ■ Podlá Vety 4.2 Hbo '■ ßi = /?2 = ••• = ßj sa testuje pomocou (testovacej) štatistiky IJK-I-J+l = fe (A - í>)'(A - «>) ^íx} _ sB/(j-\) F„ = Se h(X)-h(U) Se/(IJK -I-J+í) Fj-í. IJK-I-J+Í (56) J-Í=ÍB (za platnosti Hbo)- Hypotéza Hao '■ «i = «2 = ••• = ai sa testuje pomocou (testovacej) štatistiky IJK-I-J+l = f<. [O - f y (ú - t) ^h(X) _ sA/(i-i) FA = Se h(U)-h(T) Se/(UK -I-J+í) Fľ- 1,IJK-I-J+1 (57) (za platnosti Hao)- Ak realizácia Frgal > Fj-ijjk-i-j+iÍ^ — ct), zamietame Hbo na hladine významnosti a. Ak Hbo nezamietame, môžeme pristúpit k testovanie Hao- V prípade, že realizácia FAeal > Fi-ijjk-i-j+i(1 — a), zamietame Hao na hladine významnosti a. Tabulka (vyváženej) analýzy rozptylu dvojného triedenia bez interakcií. zdroj variability súčet štvorcov stupne volnosti s/f F- S'f Selíe riadky (typ pôdy) stĺpce (spôsob hnojenia) reziduály SA Sb Se f a = h(U) - h(T) =1-1 f b = h(X) - h(U) = J - 1 fe = n- h(X) = IJK -I-J+í Sa ÍA Sb !b Se fe Sa/fa p „ ,, — ŕi-i,uK-i-j+i Sb/Íb p q If — ťj-lJJK-I-J+1 celkový St ÍT = fe + fA + fB= UK - 1 Poznámka 5.6: Ak ide o vyvážený model, je jedno, či najprv testujeme Hbo a potom Hao, alebo naopak (testovacie štatistiky vyjdú rovnako). Ak je model nevyvážený, sú to rozdielne cesty a interpretácia je tažká. Podrobnejšie pozri v knižke Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 160. Poznámka 5.7: Ak zamietame Hbo alebo Hao, Scheffého (alebo niekedy aj Tukeyovou) metódou sa zistuje, medzi ktorými úrovňami faktorov sú rozdiely (pozri v knižke Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 161). 56 5.3 Dvojné triedenie s interakciami Môže sa stat u dvojného triedenia, že efekty riadkov a stĺpcov sa jednoducho nesčítajú. Napr. v Príklade 5.4 by mohlo dôjst k tomu, že niektorý druh hnojiva má špecifický účinok s istým druhom pôdy. Preto sa uvažuje (vo všeobecnosti) realistickejší model (47) teda Yijk = M + a» + ßj + (aß)ij + eijk, eijk ~ N(0,a2), i = 1,2,..., I, j = 1,2,..., J, k = 1,2, ...,ni:ŕ a všetky e^k sú nezávislé. Je to model dvojného triedenie s interakciami. Testy v tomto modeli pozri v knižke Anděl, J., Matematická statistika, SNTL, Praha, 1985, str. 164. Samozrejme uvažujú sa aj modely trojného a vyšších triedení aj s interakciami (aj vyšších rádov), pozri tiež napr. v IX. kapitole knižky Anděl, J., Matematická statistika, SNTL, Praha, 1985.