M5VM05 Statistické modelování 8. Analýza rozptylu Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno podzim 2013 Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 1/43 Motivace Zajímáme se o problém, zda lze určitým faktorem (tj. nominální náhodnou veličinou A) vysvětlit variabilitu pozorovaných hodnot náhodné veličiny Y, která je intervalového či poměrového typu. Např. zkoumáme, zda metoda výuky určitého předmětu (faktor A) ovlivňuje počet bodů dosažených studenty v závěrečném testu (náhodná veličina Y). Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 2/43 Obecný popis Předpokládáme, že faktor A má a > 3 úrovní a z-té úrovni odpovídá n, výsledku Y;i,..., Y,-„., které tvoří náhodný výběr z rozložení n(jíj, o2), i = 1,... ,a a jednotlivé náhodné výběry jsou stochasticky nezávislé, tedy Y,y = + e^-, kde £ý-jsou stochasticky nezávislé náhodné veličiny s rozložením N(0,c2), kde í = 1,... ,a a y = 1,.. Jan Koláček (PřF MU) M5VM05 Statistické modelovaní podzim 2013 3 / 43 Obecný popis Na hladině významnosti a testujeme nulovou hypotézu, která tvrdí, že všechny střední hodnoty jsou stejné oproti alternativní hypotéze, která tvrdí, že alespoň jedna dvojice středních hodnot se liší. Jedná se tedy o zobecnění dvouvýběrového t-testu a na první pohled se zdá, že stačí utvořit r(r — l)/2 dvojic náhodných výběrů a na každou dvojici aplikovat dvouvýběrový t-test. Tento postup však nelze použít, nebot nezaručuje splnění podmínky, že pravděpodobnost chyby 1. druhu je a. Proto ve 30. letech 20. století vytvořil R. A. Fisher metodu ANOVA1 (analýza rozptylu, v popsané situaci analýza rozptylu jednoduchého třídění), která uvedenou podmínku splňuje. 1Z anglického ANalysis Of VAriance Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 4 / 43 Obecný popis Pokud na hladině významnosti a zamítneme nulovou hypotézu, zajíma nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží metoda mnohonásobného porovnávání, např. SchefFého nebo Tukeyova metoda. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 5 / 43 Označení Výsledky pokusu popíšeme pomoci spojité náhodné veličiny Y a to tak, že sledujeme výsledky tohoto pokusu při všech úrovních faktoru A. Zjištěné hodnoty Y= (Yi,... ,Y„)' roztřídíme do [ô] skupin podle úrovní do následující tabulky: Úroveň Počet Naměřené Součet Průměr Rozdělení faktoru pozorovaní hodnoty úrovne úrovně úrovně 1. ni Yi = (Yu,. ..,Ylniy «1 Yi. = Ľ Yu ;=i Vi. = £Yi. 2. n2 Y2 = (Y2l,. ..,Y2n2y «2 y2. = Ľ y2i ;=i Y2. = iľi. Y>; ^C(p2,a2) a-tá na Y„ = (Yal,. ■ ■ iYana)' 11« y a. = Ľ Y,; 1=1 y — =-Y Součet n a y=i ,=i y.. = iy.. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 6/43 Základní model Definice 1 (model M) Náhodné veličiny Yý- se řídí modelem M: ^ij — \l ^-ij> pro i = 1,... ,a a j = 1,... ,rii, přičemž £ý- jsou stochasticky nezávislé náhodné veličiny s rozložením N(0,c2), ^ je společná část střední hodnoty proměnné veličiny, a,- je efekt faktoru A na úrovni Ĺ Při zkoumání vlivu jednoho faktoru A testujeme hypotézu Hq : #1 = ■ ■ ■ = aa = 0 proti alternativě H\ : 3 i: oli 7^ 0 Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 7 / 43 Minimální submodel Pokud platí nulová hypotéza Hq, dostáváme následující minimální submodel. Definice 2 (model M0) Náhodné veličiny Yý- se řídí modelem Mq: Yjj = jl + £jj, pro i = 1,... ,a a j = 1,... přičemž e^- jsou stochasticky nezávislé náhodné veličiny s rozložením N(0,o2). Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 8/43 Odvození Základní model M: Matice plánu je x = 0 ln «1 0 = 0 ...... 0 lnJ W kde vektor lj. značí sloupcový vektor složený z A: jedniček. Matice X má (a + 1) sloupců a není plné hodnosti. Proč? Jan Koláček (PřF MU) M5VM05 Statistické modelovaní podzim 2013 9 / 43 Odvození Systém normálních rovnic X'X/í — X'Y: x'x = n «1 H2 11« \ «1 0 0 "2 0 "2 ««-1 0 nj X'Y -- Ľ ľ »1 »2 0 0 1' -"-«2 1' 1' \ 0 0 V o ...... Ó 1^/ Jednou z pseudoinverzních matic k matici X'X je matice (x'x)- (° 0 0 . ... 0\ 0 1 «1 0 . ... o 0 0 1 «2 0 na-l 0 ■ 0 i/ H = X(X'X)"X' : V o /Y1 ^ y2 Yi. y,_i Y,_i. v y, y V Y,. / 0 0 0 i f / kde Efc = je matice typu (Ä: x Ä:) samých jedniček. Jan Koláček (PřF MU) M5VM05 Statistické modelovaní podzim 2013 10 / 43 Odvození Odtud Y = /(ř+Si) -ini\ = HY = /^Eni 0 \ 0 takže odhad střední hodnoty je tvaru fi + a.j = Y y 0 \ 0 h*nj U». 1»»/ Přidáním dodatečné podmínky £ n.-a.- = 0, dostaneme odhad společné střední hodnoty \i = Y., a pro j = odhad príspevku j-té skupiny cčj = Yj_ — Y.. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 11 / 43 Odvození Pokud platí nulová hypotéza Hq, tj. submodel M$: Y = X0 fa + e, kde X0 = 1„, X0X0 = i;i„ = n, X0Y = ľnY = Y.. /30 = (X0X0)-iX0Y=-Y. Pak H0 = XoÍXÍ.Xq)-1^ = il„i; = ÍE„ a Fo = = Ho "Y = -EnY = Jan Koláček (PřF MU) M5VM05 Statistické modelovaní Odvození Součty kvadrátů odchylek ||£||2= (Y-£)'(Y-p) = (Y-Ý)'(Y-Ý) Sa reziduálni y,(v,-Y,inj)'(vrY,in.)= e ľ (Yji-yj.)2 =1 í=lí=l ř0||2= (Y-p0)'(Y-p0) = E (Yy-Y..^^'(Yy-Y..^ ) = E É (Y^-Y..)2 celkový j=i j=i í=i = Ľ(Yj.-Y.)%lB,-=Ľ"i(VÍ-.-V:-)2 mez/ třídami St — Sa + Se takže pokud platí model Mr pak statistika Fa = (Se„ -Se)/(g-l) Se/(n - a) F(a — í,n — a). Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 13 / 43 Shrnutí Definice 3 • Celkový součet čtverců (charakterizuje variabilitu jednotlivých pozorování kolem celkového průměru), počet stupňů volnosti dfy = n — 1: a n Sr = ĽĽ(^-*-) z'=l 7=1 • Skupinový součet čtverců (charakterizuje variabilitu mezi jednotlivými náhodnými výběry), počet stupňů volnosti dfy = a — l: SA = ínj(Yjm-Y..)2 • Reziduálni součet čtverců (charakterizuje variabilitu uvnitř jednotlivých výběrů), počet stupňů volnosti dfe = n — a: a ni _ S. = ĽĽ(^-y;.) • í=l;=l Jan KoláCek (PřF MU) M5VM05 Statistické modelování podzim 2013 14 / 43 Shrnutí Věta 4 Lze dokázat, že St = Sa+ St Věta 5 Rozdíl mezi modely M a Mq ověřujeme pomocí testové statistiky = SA/dfA Se/dfe ' která se řídí rozložením F (a — l,n — a), je-li model Mq správný. Hypotézu o nevýznamnosti faktoru A tedy zamítáme na hladině významnosti cc, když platí: Fa > Fi-a(a - l,n-a). Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 15 / 43 Shrnutí Předcházející pojmy se shrnují v tabulce analýzy rozptylu Zdroj variability Součet čtverců SS Stupně volnosti df Podíl MS = f f=ms sz Třídy SA dfa = a-1 r _ ms a t a - mš7 Reziduálni Se dfe = n—a - Celkový ST dfj = n — 1 - - Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 16 / 43 Test shody rozptylů Věta 6 (Levenův test) Položme Zjj = j Yjj — Y,-_ |. Označme: • ž„ = J E z(; ';=1 i=l;=l • z.. = i E E E E (zŕ/-z,) i'=l;'=l • Sz4= E«,(z,-z..) !=1 Platí-li hypotéza o shodě rozptylů, pak statistika Fz= ffr.! } Jan KoláCek (PřF MU) M5VM05 Statistické modelován podzim 2013 17 / 43 Test shody rozptylů Věta 7 (Bartlettův test) Platí-li hypotéza o shodě rozptylů, pak statistika kde C= 1 + (n - a) In S2 - £(M;. - 1) In S2 1 / " 1__1_\ 3(«-l) ^ "j"1 ~ n3« J ' X2(«-l), S2 = ^- n — a Hq zamítáme na asymptotické hladině významnosti cc, když B >xl-a(a-l,n-a). Jan KoláCek (PřF MU) M5VM05 Statistické modelováni podzim 2013 18 / 43 Metody mnohonásobného porovnávání Zamítneme-li na hladině významnosti a hypotézu o shodě středních hodnot, chceme zjistit, které dvojice středních hodnot se liší na dané hladině významnosti a. Všechny výběry mají týž rozsah JpJ =>■ Tukeyova metoda Všechny výběry nemají stejný rozsah =>■ SchefFého metoda. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 19 / 43 Metody mnohonásobného porovnávání Věta 8 (Tukeyova metoda) Rovnost středních hodnot \ik a \i\ zamítneme na hladině významnosti cc, když: — — S |yJt. -yz.| > <7i-«(«/w-«)-y=/ kde qi_a(a,n — a) jsou kvantity studentizovaného rozpětí, které najdeme ve statistických tabulkách. Věta 9 (Scheffého metoda) Rovnost středních hodnot \ik a \i\ zamítneme na hladině významnosti cc, když: \Yk.-YL \ >S,J(a-l) (— + -)F1_a{a-l,n-a). V \nk ntJ Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 20 / 43 Význam předpokladů v analýze rozptylu • Nezávislost jednotlivých náhodných výberu - velmi důležitý předpoklad, musí být splněn, jinak dostaneme nesmyslné výsledky. • Normalita - ANOVA není příliš citlivá na porušení normality, zvlášť pokud mají všechny výběry rozsah nad 20 (důsledek centrální limitní věty). Při výraznějším porušení se doporučuje Kruskalův - Wallisův test. • Shoda rozptylů - mírné porušení nevadí, při větším se doporučuje Kruskalův -Wallisův test. Test shody rozptylů má smysl provádět až po ověření předpokladu normality. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 21 / 43 Kruskalův - Wallisův test Kruskalův - Wallisův test je neparametrická obdoba analýzy rozptylu jednoduchého třídění. Formulace problému Necht je dáno a nezávislých náhodných výběrů o rozsazích n\,... ,na. Předpokládáme, že tyto výběry pocházejí ze spojitých rozložení. Označme n = tli + • • • + na- Chceme testovat hypotézu, že všechny tyto výběry pocházejí z téhož rozložení. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 22 / 43 Kruskalův - Wallisův test Věta 10 (Kruskalův - Wallisův test) Všech n hodnot seřadíme do rostoucí posloupnosti a určíme pořadí každé hodnoty. Označme Tj součet pořadí těch hodnot, které patří do j-tého výběru, j = 1,..., a (kontrola: musí platit Ti + ... + Ta = n(n + 1) 11). Testová statistika má tvar: 12 Q n (n +1) £-i--3(n + l). (1) Platí-li Hq, má statistika Q asymptoticky rozložení x1 (a — 1), rostou-li rozsahy výběrů nade všechny meze. Hq tedy zamítneme na asymptotické hladině významnosti cc, když Q > Xi-a{a ~ !)■ Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 23 / 43 Příklad Příklad 11 U čtyř odrůd brambor (označených symboly A, B, C, D) se zjišťovala celková hmotnost brambor vyrostlých vždy z jednoho trsu. Výsledky uvádí tabulka: odrůda hmotnost (v kg) A 0,9 0,8 0,6 0,9 B 1,3 1,0 1,3 C 1,3 1,5 1,6 1,1 1,5 D 1,1 1,2 1,0 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota hmotnosti trsu brambor nezávisí na odrůdě. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice odrůd se liší na hladině významnosti 0,05. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 24 / 43 Řešení Řešení. Data považujeme za realizace čtyř nezávislých náhodných výběrů ze čtyř normálních rozložení se stejným rozptylem. Testujeme hypotézu, že všechny čtyři střední hodnoty jsou stejné. Výpočtem získáme: y1_ = 0,8, y2- = 1,2, y3i = 1,4, y4_ = 1,1, y__ = 1,14, Se = 0,3, SA = 0,81ó! ST = 1,116, FA = 9,97. Ze statistických tabulek získáme f0,95(3/11) = 3,59. Protože testová statistika se realizuje v kritickém oboru, zamítáme nulovou hypotézu na hladině významnosti 0,05. Výsledky zapíšeme do tabulky ANOVA: Zdroj variability Součet čtverců Stupně volnosti Podíl Fa třídy S a =0,816 3 Sa/3 = 0,272 5a/3 _ q q7 sf/11 ~ reziduálni SE =0,3 11 Se/11 = 0,02727 — celkový ST = 1,116 14 — — Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 25 / 43 Řešení Grafické posouzení B C odrůdy Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 26 / 43 Řešení Nyní pomocí SchefFého metody zjistíme, které dvojice odrůd se liší na hladině významnosti 0,05. Srovnávané odrůdy Rozdíly mj- — wi/| Pravá strana vzorce A, B 0,4 0,41 A, C 0,67 0,36 A, D 0,3 0,41 B, C 0,2 0,40 B, D 0,1 0,44 C, D 0,3 0,40 Na hladině významnosti 0,05 se liší odrůdy A a C. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 27 / 43 Více nezávislých náhodných výběrů z alternativních rozložení Test homogenity binomických rozložení Nechť Yji,..., Yjn. ~ A(6j), j = 1,2,... ,a jsou nezávislé náhodné výběry z alternativního rozložení. Testujeme hypotézu Hq: 61 = ■ ■ hypotéze Hi. „alespoň jedna dvojice parametrů je různá' 8a proti alternativní Věta 12 Statistika 1 a — — 7 Q = =-t n, (Yj — Y ) , Y..(l-Y..);tí mí v případě platnosti nulové hypotézy asymptoticky rozloženíx2{a ~ 1)- r^O zamítáme na asymptotické hladině významnosti cc, když Q > Xi-a{a ~ !)■ Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 28 / 43 Více nezávislých náhodných výběrů z alternativních rozložení Poznámka 13 Test lze použít, pokud njy > 5 pro všechna j = 1,... ,a. Poznámka 14 Statistiku Q lze snadno upravit do Brandtova - Snedecorova výpočetního tvaru n 1 v- v2 Y-Q = =-=— > mi; — n-—. Y..(l-Y..);tí ; ;- 1-Y. (2) Jan KoláCek (PřF MU) M5VM05 Statistické modelování podzim 2013 29 / 43 Více nezávislých náhodných výběrů z alternativních rozložení Test homogenity binomických rozložení založený na arkussinusové transformaci Není-li splněna podmínka njy > 5 pro všechna j = l,...,a, doporučuje se následující postup: Věta 15 Označme • Aj = arcsin ^j~Yj. • B = I E tijAj. Pak statistika Q = AYjnj(Aj-B)1^X\a-l). Hq tedy zamítáme na asymptotické hladině významnosti cc, když Jan KoláCek (PřF MU) M5VM05 Statistické modelování podzim 2013 30 / 43 Mnohonásobné porovnávání Zamítneme-li nulovou hypotézu na asymptotické hladině významnosti a, chceme zjistit, které dvojice parametru 6^ a 0/ se liší. Věta 16 Pla t í-li nerovnost pak na hladině významnosti tx zamítáme hypotézu o shodě parametru 6% a 6}. Poznámka 17 Hodnoty qi-a(a,oo) jsou kvantity studentizovaného rozpětí. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 31 / 43 Příklad Příklad 18 Na gymnázium bylo přijato 142 studentů. Ti byli náhodně rozděleni do tříd A, B, C, D. V každé třídě byla matematika vyučována jinou metodou. Na konci školního roku psali všichni studenti stejnou písemnou práci a byl zaznamenán počet těch studentů, kteří vyřešili všechny zadané úkoly. Třída A B C D Počet studentů 35 36 37 34 Počet úspěšných studentů 5 8 17 15 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že rozdíly v podílech studentů v jednotlivých třídách, kteří správně vyřešili všechny zadané úlohy, jsou způsobeny pouze náhodnými vlivy. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 32 / 43 Řešení Řešení. Máme čtyři nazávislé náhodné výběry, j-tý pochází z rozložení A(6j), j = 1,2,3,4. Testujeme hypotézu Hq: 6\ = 82 = 63 = 64. Ze zadání a výpočtem zjistíme: n\ = 35, 112 = 36, = 37, = 34, y1 = 5/35, y2 = 8/36, y3_ = 17/37, y4_ = 15/34, y__ = 45/142, Q = 12,288, Xo/9i(3) = 7'81-' Protože testové kritérium se realizuje v kritickém oboru, Hq zamítáme na asymptotické hladině významnosti 0,05. Spočteme arkussinusové transformace výběrových průměrů. Vyjde: A\ = 0,3876, A2 = 0,4909, A3 = 0,7448, A4 = 0,7264. Nyní metodou mnohonásobného porovnávání zjistíme, které dvojice parametrů se od sebe liší na hladině významnosti 0,05. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 33 / 43 Řešení Srovnávané třídy Rozdíly A^ — Aj Pravá strana vzorce A, B A, C A, D B, C B, D C, D 0,1033 0,3572 0,3388 0,2539 0,2356 0,0184 0,30 0,30 0,31 0,30 0,31 0,30 Na hladine významnosti 0,05 se liší třídy A, C a A, D. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 34 / 43 Využití ANOVA v lineárním regresním modelu Analýzy rozptylu lze využít v momentě, kdy chceme zjednodušit zvolený model a vypustit z modelu některé vysvětlující proměnné. Tj. uvažujeme nový podmodel , jehož matice plánu vznikne z původní matice vypuštěním některých sloupců. Naším úkolem je testovat, zda zvolený podmodel je vhodný k dostatečnému popisu závislosti v datech. Bez újmy na obecnosti předpokládejme, že matice, které určují model a podmodel se liší právě posledními sloupci matice X, takže X = (Xq,Xi). Mějme náhodný vektor Y = (Yi,... ,Y„)' a předpokládejme, že platí model M a je dán submodel Mq, přičemž M] Y ~ N„(X/3,lt2I„) X je typu n x k, h(X) = r, je typu A: x 1 Y ~ N„(XoíS0,í72I„) X0 jetypunxfco, h(X0) = r0, fi0 je typu k0 x 1 n > k > r > r q Model Mo je podmodelem M pokud X0 = XK, kde matice K = je typu k x k0. Jan Koláček (PřF MU) M5VM05 Statistické modelováni M, Využití ANOVA v lineárním regresním modelu Položme pak ji = HY = X(X'X)~X'Y, }10 = H0Y = X0(X'0X0yX'0\, Ss = (Y-p)'(Y-/í) Sa0 = (F-FoYifi-h) Pokud platí model Mo , pak statistika (Seo -Se)/(r-r0) Sel(n-r) Se, = {Y-%)'(Y-%) 5e0 S e — Sen S/±g F (r — ro,n — r). Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 36 / 43 Příklad Příklad 19 Pro data uvedená v následující tabulce x 1 2 3 4 5 6 7 8 9 10 y 58,42 37,34 49,64 59,85 24,37 59,29 47,12 75,29 140,49 147,23 uvažujte modely Mi : y = ft, + jM M2: y = j60 + jM + fcx2 M3 : y = ft, + jM + + fc*3- Pomocí analýzy rozptylu porovnejte tyto modely. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 37 / 43 Řešení Řešení. Vycházíme z modelu M3 a testujeme vhodnost podmodelu M2. Hodnota statistiky Fq je v tomto případě 0,6469, p-hodnota testu je 0,4519. To znamená, že vynecháním kubického členu se model významně nezhorší. Nadále budeme tedy uvažovat model M2 a testovat vhodnost podmodelu M\. Hodnota statistiky Fq je v tomto případě 15,586, p-hodnota testu je 0,0055. To znamená, že vynecháním kvadratického členu se model již významně zhorší. Nejvhodnějším modelem pro popis závislosti je tedy M2. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 38 / 43 Řešení Graficky Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 39 / 43 Úlohy k procvičení Příklad 1.1 Jsou známy měsíční tržby (v tisících Kč) tří prodavačů za dobu půl roku. 1. prodavač 12 10 9 10 U 9~ 2. prodavač 10 12 U 12 14 13 3. prodavač 19 18 16 16 17 15 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnoty tržeb všech tří prodavačů jsou stejné. Pokud zamítneme nulovou hypotézu, zjistěte, tržby kterých dvou prodavačů se liší na hladině významnosti 0,05. [Na hladině významnosti 0,05 se liší tržby prodavačů 1, 3 a 2, 3.] Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 40 / 43 Úlohy k procvičení Příklad 1.2 Naprogramujte funkci „anovabinom.R", která pro vstupní vektory nj (počet pozorováníve skupinách) a p j (počet „úspěchů" ve skupinách) provede analýzu rozptylu pro binomická data. V případě zamítnutí nulové hypotézy vypíše indexy skupin, které se od sebe významně liší. Příklad 1.3 104 náhodně vybraných matek bylo dotázáno, zda jejich kojenec dostává dudlík. Zjišioval se též nejvyšší stupeň dosaženého vzdělání matky. Vzdělání matky Počet matek Počet dětí s dudlíkem základní 39 27 středoškolské 47 34 vysokoškolské 18 15 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že podíly dětí s dudlíkem nezávisí na vzdělání matky Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 41 / 43 Úlohy k procvičení Příklad 1.4 Je dáno pět nezávislých náhodných výběrů o rozsazích 5, 7, 6, 8, 5, přičemž i-tý výběr pochází z rozloženíN'(jij, c2), i = 1,..., 5. Byl vypočten celkový součet čtverců Sj = 15 a reziduálni součet čtverců Se = 3. Na hladině významnosti 0,05 testujte hypotézu o shodě středních hodnot. [n = 31, a = 5, SA = 12, fA = 26, F0/95(4,26) = 2,7426 Protože f A f 0,95 (4/ 26), Hq zamítáme na hladině významnosti 0,05.] Příklad 1.5 V proměnné „LakeHuron"3 jsou uloženy roční údaje o hloubce jezera Huron (ve stopách) v letech 1875 - 1972. Data proložte polynomem 8. stupně. Pomocí analýzy rozptylu zkoumejte možnosti zmenšení stupně regresního polynomu. adatový soubor implementovaný v jazyce R Jan Koláček (PřF MU) M5VM05 Statistické modeloval [Možno jít na stupeň 7.] podzim 2013 42 / 43 Úlohy k procvičení Příklad 1.6 U 126 podniku řepařské oblasti v České Republice byl sledován hektarový výnos cukrovky ve vztahu ke spotřebě průmyslových hnojiv. Data jsou uložena v souboru „ cukrovka.Rdata" ve 4 sloupcích: O dolní hranice spotřeby K2O (kg/ha) O horní hranice spotřeby K2O (kg/ha) O četnosti O průměrné výnosy cukrovky (q/ha) a) odhadněte parametry regresní funkce tvaru y = fo + hx Poznámka: Za hodnoty nezávisle proměnné volte střed intervalu. b) Porovnejte vhodnost použitých regresních modelů pomocí analýzy rozptylu. _ [Kvadratický model je významný.] Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 43 / 43