Analýza rozptylu dvojného třídění Opakování: Analýza rozptylu jednoduchého třídění Zajímáme se o problém, zda lze určitým faktorem (tj. nominální náhodnou veličinou A) vysvětlit variabilitu pozorovaných hodnot náhodné veličiny X, která je intervalového či poměrového typu. Předpokládáme, že faktor A má r > 3 úrovní a přitom i-té úrovni odpovídá n pozorování Xb- - A, které tvoří náhodný výběr z rozložení N(u,i, a2), i = 1, r a jednotlivé náhodné výběry jsou stochasticky nezávislé, tedy Xij = n + = n + a + 6ij, kde By jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, a2), i = 1, ..., r, j = 1, ..., Výsledky lze zapsat do tabulky faktor A výsledky úroveň 1 Alv • Aii úroveň 2 Xb- -At ... ... úroveň r Av • A> --1-1-1-> 1. úroveň 2. úroveň 3. úroveň •■• úrovně faktoru A Na hladině významnosti a testujeme nulovou hypotézu, která tvrdí, že všechny střední hodnoty jsou stejné, tj. H0: ni = ... = n proti alternativní hypotéze Hu která tvrdí, že aspoň jedna dvojice středních hodnot se liší. Pokud na hladině významnosti a zamítneme nulovou hypotézu, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží metody mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda. Označení: Používáme tzv. tečkovou notaci. r tl_ n • • • celkový rozsah všech r výběrů —i 1 , X _ n X •.. součet hodnot v i-tém výběru M - X • • • výběrový průměr v i-tém výběru X _ xX • • • součet hodnot všech výběrů "—i_l jj J J M_ X ... celkový průměr všech r výběrů Součty čtverců: Sr_ " "^X JVR • - celkový součet čtverců (charakterizuje variabilitu jednotlivých pozorování kolem celkového —i_l jj j J " j průměru), má počet stupňů volnosti fT = n - 1, SA_ ' n MJM2 • - skupinový součet čtverců (charakterizuje variabilitu mezi jednotlivými náhodnými výběry), má počet stupňů volnosti fA = r - 1. 4 _ ' -\hX MÍ • • • reziduálni součet čtverců (charakterizuje variabilitu uvnitř jednotlivých výběrů), má počet stupňů volnosti Íe = n - r. Lze dokázat, že ST = SA + SE. Celkový průměr M je bodovým odhadem střední hodnoty ,sčítanec JVJ_ b představuje bodový odhad efektu a,. Odhad ^pozorování ^ má tedy tvar: = ! + í"= í Testování hypotézy o shodě středních hodnot Náhodné veličiny XiJ se řídí modelem M0: Xij = li + ai + sij pro i = 1, r, j = 1, ni , přičemž sij jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, o2), L je společná část střední hodnoty závisle proměnné veličiny, ai je efekt faktoru A na úrovni i. Parametry li, ai neznáme. Požadujeme, aby platila tzv. reparametrizační rovnice: ^ (Pokud je třídění vyvážené, tj. pokud mají všechny výběry stejný rozsah: m = n2 = ... = nr, pak lze použít zjednodušenou podmínku ^ Kdyby nezáleželo na faktoru A, platila by hypotéza ai = ... = ar = 0 a dostali bychom model M1: Xij = l + sij. Během analýzy rozptylu tedy zkoumáme, zda výběrové průměry Mb ..., Mr se od sebe liší pouze v mezích náhodného kolísání kolem celkového průměru M.. nebo zda se projevuje vliv faktoru A. Rozdíl mezi modely M0 a M1 ověřujeme pomocí testové statistiky která se řídí rozložením F(r-l,n-r), je-li model Ml správný. Hypotézu o nevýznamnosti faktoru A tedy zamítneme na hladině významnosti a, když platí: FA > F1-a(r-1,n-r). Výsledky výpočtů zapisujeme do tabulky analýzy rozptylu jednoduchého třídění. Zdroj variability součet čtverců stupně volnosti podíl skupiny Sa fa = r - 1 Sa/íA reziduální Se fE = n - r Se/fe - celkový st fT = n - 1 - - Post - hoc metody mnohonásobného porovnávání Zamítneme-li na hladině významnosti a hypotézu o shodě středních hodnot, chceme zjistit, které dvojice středních hodnot se liší na dané hladině významnosti a, tj. na hladině významnosti a H0: n, = uik proti H1: ^ ^ uik pro všechna l, k = 1, .., r, l ^ k. a) Mají-li všechny výběry týž rozsah p (říkáme, že třídění je vyvážené), použijeme Tukeyovu metodu. IMJ ! Testová statistika má tvar-^ ". Rovnost středních hodnot nk a u, zamítneme na hladině významnosti o, když |M_" 1 -< - > _ ■>fí— , kde hodnoty q,.a(r, n-r) jsou kvantily studentizovaného rozpětí a najdeme je ve statistických tabulkách. (Studentizované rozpětí je náhodná veličina Q_ ^.) — a Existuje modifikace Tukeyovy metody pro nestejné rozsahy výběrů, nazývá se Tukeyova HSD metoda. V tomto případě má H M testová statistika tvar H- I Tr\ T\' Rovnost středních hodnot nk a n, zaiiítneme na hladině významnosti a, když 4 k+ J r,n_ b) Nemají-li všechny výběry stejný rozsah, použijeme Scheffého metodu: rovnost středních hodnot uik a ^ zamítneme na hladině významnosti a, když ./ 1 r Výhodou Scheffého testu je, že k jeho provedení nepotřebujeme speciální statistické tabulky s hodnotami kvantilů studentizovaného rozpětí, ale stačí běžné statistické tabulky s kvantily Fisherova - Snedecorova rozložení. V případě vyváženého třídění, kdy lze aplikovat Tukeyovu i Scheffého metodu, použijeme tu, která je citlivější. Tukeyova metoda tedy bude výhodnější, když q1-a2(r, n-r) < 2(r-1)F1-a(r-1, n-r). Metody mnohonásobného porovnávání mají obecně menší sílu než ANOVA. Může nastat situace, kdy při zamítnutí H0 nenajdeme metodami mnohonásobného porovnávání významný rozdíl u žádné dvojice středních hodnot. K tomu dochází zvláště tehdy, když p-hodnota pro ANOVU je jen o málo nižší než zvolená hladina významnosti. Pak slabší test patřící do skupiny metod mnohonásobného porovnávání nemusí odhalit žádný rozdíl. Doporučený postup při provádění analýzy rozptylu: a) Ověření normality daných r náhodných výběrů (grafické metody - NP plot, Q-Q plot, histogram, testy hypotéz o normálním rozložení - Lilieforsova varianta Kolmogorovova - Smirnovova testu nebo Shapirův - Wilkův test). Doporučuje se kombinace obou způsobů. Závěry učiníme až na základě posouzení obou výsledků. Obecně lze říci, že analýza rozptylu není příliš citlivá na porušení předpokladu normality, zvláště při větších rozsazích výběrů (nad 20), což je důsledek působení centrální limitní věty. Mírné porušení normality tedy není na závadu, při větším porušení použijeme např. Kruskalův - Wallisův test jako neparametrickou obdobu analýzy rozptylu jednoduchého třídění. b) Po ověření normality se testuje homogenitu rozptylů, tj. předpoklad, že všechny náhodné výběry pocházejí z normálních rozložení s týmž rozpylem. Graficky ověřujeme shodu rozptylů pomocí krabicových diagramů, kdy sledujeme, zda je šířka krabic stejná. Numericky testujeme homogenitu rozptylů pomocí Levenova testu, Brownova - Forsytheova testu (oba jsou implementovány ve STATISTICE, Brownův - Forsytheův test v MINITABu) či Bartlettova testu (je k dispozici v MINITABu). Slabé porušení homogenity rozptylů nevadí, při větším se doporučuje mediánový test. c) Pokud jsou splněny předpoklady normality a homogenity rozptylů, můžeme přistoupit k testování shody středních hodnot. Předtím je samozřejmě vhodné vypočítat průměry a směrodatné odchylky či rozptyly v jednotlivých skupinách. d) Dojde-li na zvolené hladině významnosti k zamítnutí hypotézy o shodě středních hodnot, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží post-hoc metody mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda. Jednofaktorová ANOVA v systému STATISTICA U 856 žáků základních škol byl zjišťován jejich inteligenční kvocient. Zkoumáme, zda výše IQ (proměnná IQCELK je ovlivněna vzděláním matky (proměnná VZDELM, varianty Z ... základní, S ... středoškolské, V ... vysokoškolské). Načteme datový soubor IQzaku.sta a nejprve ověříme normalitu daných tří nezávislých náhodných výběrů: Grafy - 2D Grafy - Normální pravděpodobnostní grafy - Proměnné IQCELK - OK - na záložce Kategorizovaný zapneme kategorii X a vybereme proměnnou VZDELM. Nerraí Retebiity Het cf IQCEK; cáecpzad tyYZBJVI IQ£kJSla9/805b Vzhled N-P plotů i výsledky S-W testů svědčí ve prospěch normality. Dále spočteme průměry a směrodatné odchylky všech tří výběrů: Statistiky - Základní statistiky/tabulky - Rozklad & jednofakt. ANOVA - OK - Proměnné - Závislé - IQCELK, Grupovací - VZDEL M - OK - Skupiny tabulek - Výpočet. VZDEl IQVeaf IU"NUt StíD Z 11,/U S 1U2,8 38 11,b9 V 11U,4l '11 12,71 Aii GIT 'IUU,4 85 12,9b Nyní ověříme předpoklad shody rozptylů. Na záložce Skupiny tabulek zaškrtneme Brown - Forsythe test - Výp očet. Variab JMS ,SS ,_CIT Effeq Error Erro JMS Error F P IQ CE 67,95 2 33,97 4229' B5 49,5B U,bBb U,5U4 Vidíme, že p-hodnota Brownova - Forsytheova testu je 0,5042, tedy větší než hladina významnosti 0,05. Hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,05. Přistoupíme k testu hypotézy o shodě středních hodnot. Na záložce Skupiny tabulek zaškrtneme Analýza rozptylu - Výpočet. Variab Er« Eue EM S _SS _OT JMS F p ec| Error Erro Error IQ CE 24228 212' 14 1194t B5 14U,U B6,49 U,U Jelikož p-hodnota je blízká 0, hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05. Výpočet doplníme krabicovými diagramy: 114 112 11U 1U8 1U6 o11U2 1UU sb 36 £4 S2 caeg Bx&WhSke ho: iquek ........ ~ ~................... □ IMai □ l\£aüS I MHit1,9eS i T i Z S V \MB_M Nyní aplikujeme Scheffého metodu mnohonásobného porovnávání, abychom zjistili, které dvojice výběrů se liší na hladině významnosti 0,05. Na záložce Post - hoc zvolíme Schefféův test. VZDE M=94, M=tU: M=3)H Z U,UUL U,UUL S U,UUL U,UUL V U,UUl| U,UUl Tabulka obsahuje p-hodnoty pro vzájemné porovnání středních hodnot IQ žáků ze všech tří výběrů. Vidíme, že na hladině významnosti 0,05 se liší všechny dvojice výběrů Motivace k analýze rozptylu dojného třídění Zkoumáme vliv dvou faktorů A a B na závisle proměnnou veličinu X. Např. zjišťujeme, zda výnosy určité plodiny (náhodná veličina X) jsou ovlivněny typem půdy (faktor A) a způsobem hnojení (faktor B). Předpokládáme, že faktor A má a úrovní (tj. počet typů půdy) a faktor B má b úrovní (tj. počet způsobů hnojení). Přitom máme n pokusů takových, že na i-tém typu půdy byl použit j-tý způsob hnojení. Výsledky (tzn. výnosy dané plodiny) těchto niJ pokusů označíme X^^,..^. Omezíme se na případy, kdy počet pozorování n = c > 1 (jde o tzv. vyvážené třídění). Výsledky lze zapsat do tabulky: faktor B 1 2 b 1 Xm, X11c X121, X12c X1b1, X1bc faktor A 2 X211, X21c X221, X22c X2b1, X2bc : : : . . . : a Xa11, Xa1c Xa21, Xa2c Xab1, Xabc Analogicky jako u analýzy rozptylu jednoduchého třídění předpokládáme, že data se řídí normálním rozložením, tj. XXj^v.XXXcr Nfc°2), i = 1, a, j = 1, b a jednotlivé náhodné výběry jsou stochasticky nezávislé, tedy Xijk = U„ + 8ijk, kde 8ijk jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, o2). Zajímá nás, zda všechny střední hodnoty jsou stejné. Přístup k problému se liší podle toho, zda faktory A, B jsou nezávislé (pak se jedná o analýzu rozptylu dvojného třídění bez interakcí) nebo se mohou nějakým způsobem ovlivňovat (jde o analýzu rozptylu dvojného třídění s interakcemi). Označení n_ ),C X. — Ä= í= i X i= i= i= i M.= X. Analogické označení zavedeme i pro jiné kombinace indexů. Dvojné třídění bez interakcí Předpokládáme, že řádkový faktor A a sloupcový faktor B se neovlivňují (např. to znamená, že každý ze čtyř způsobů hnojení působí stejně na každém ze tří druhů půdy). Náhodné veličiny Xljk se řídí modelem" M0: Xljk = ui + al + fy + sljk pro i = 1, a, j = 1, b, k = 1, c, přičemž 8ljk jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, o2), U je společná část střední hodnoty závisle proměnné veličiny, al je efekt faktoru A na úrovni i, fy je efekt faktoru B na úrovni j. Parametry u, al, fy neznáme. Požadujeme, aby platily tzv. reparametrizační rovnice: J— J J— J Podobně jako v analýze rozptylu jednoduchého třídění se počítají součty čtverců. Sr _ ^vv^k ... celkový součet čtverců, počet stupňů volnosti fr = n - 1, SA-bCtM. ... součet čtverců pro řádkový faktor A, počet stupňů volnosti fA = a - 1, SE_aCrM... součet čtverců pro sloupcový faktor B, — ji j '■ počet stupňů volnosti fe = b - 1, S _ X\^Xk_M ^ . - reziduální součet čtverců, počet stupňů volnosti fE = n - a - b + 1. Lze dokázat, že ST = SA + SB + SE. Celkový průměr M je bodovým odhadem střední hodnoty ,sčítanci jVJ, _ ^ a JVJ _ L; představují bodové odhady efektů ai a fy. Odhad pozorování xXj má tedy tvar: Xjk— í_|_ 4_ í."_|_ 4— í Pokud by nezáleželo na sloupcovém faktoru B, platila by hypotéza p\ = ... = Mi: Xijk = u + ai + 8ijk Platnost uvedené hypotézy ověřujeme pomocí testové statistiky Ik^ífe, která se řídí rozložením F(b-l,n-a-b+l), je-li model Ml správný. Pb = 0 a dostali bychom model Hypotézu o nevýznamnosti sloupcového faktoru tedy zamítneme na hladině významnosti a, když platí: FB > F1.a(b-1,n-a-b+1). Kdyby nezáleželo ani na řádkovém faktoru, platila by hypotéza ai = ... = aa = 0 a dostali bychom model M2: Xijk = u + 8ijk Rozdíl mezi modely M1 a M2 ověřujeme pomocí testové statistiky IX-^^, která se řídí rozložením F(a-l,n-a-b+l), je-li model M2 správný. Hypotézu o nevýznamnosti řádkového faktoru tedy zamítneme na hladině významnosti a, když platí: FA > F1.a(a-1,n-a-b+1). Při uvedeném postupu tedy zjišťujeme, zda záleží na sloupcovém efektu B. Pokud ne, platí model M1 a ptáme se, zda záleží na řádkovém efektu A, tj. zda platí model M2. Postup lze samozřejmě provést i v jiném pořadí - nejdřív zkoumáme řádkový efekt A (tj. ověřujeme platnost modelu M1': Xijk = u + Pj + 8ijk) a poté sloupcový efekt B. Lze ukázat, že oba řetězce M0 — M1 — M2 a M0 — M1'— M2' dají stejné výsledky. (To platí pouze za předpokladu, že n = c pro všechna i, j.) Výsledky výpočtů zapisujeme do tabulky analýzy rozptylu dvojného třídění bez interakcí. Zdroj variability součet čtverců st. vol. podíl S/f řádkový efekt A SA fA = a-1 SA/fA sloupcový efekt B Sb fB = b-1 SB/fB reziduální Se fE = n-a-b+1 - celkem St fr = n-1 - - Scheffého a Tukeyova metoda mnohonásobného porovnávání Zjistíme-li, že existují významné rozdíly mezi řádky, můžeme pomocí Scheffého nebo Tukeyovy metody zjistit, které dvojice řádků se významně liší. Určíme tedy, které rozdíly a - a jsou nenulové (na dané hladině významnosti). Podle Scheffého metody zamítneme rovnost a = at, když a podle Tukeyovy metody, když |MJ í.| > \(. ^^a^—q a,n_ l \ , kde qi-a(a,n-a-b+1) najdeme v tabulkách kvantilů studentizovaného rozpětí. Jestliže zjistíme významný rozdíl mezi sloupci, určujeme podobně, které dvojice sloupců se mezi sebou liší, tj. které rozdíly Pj - Pt jsou nenulové. Podle Scheffého metody zamítneme rovnost Pj = pt, když a podle Tukeyovy metody, když J'fl>I3=1-bn--Y • Příklad: Byl zaznamenán prodej určitého zboží (v kusech) během tří stejně dlouhých časových období. Přitom byl sledován jednak vliv balení zboží (řádkový faktor A, úroveň 1 - balení v sáčku, úroveň 2 - balení v krabičce) a jednak vliv druhu reklamy (sloupcový faktor B, úroveň 1 - bez reklamy, úroveň 2 - reklama v novinách, úroveň 3 - reklama v TV a novinách). Výsledky prodeje jsou zaznamenány v tabulce: B 1 2 3 A 1 1 1 6 2 3 4 9 Na hladině významnosti 0,05 je třeba posoudit vliv reklamy a i vliv balení zboží na jeho prodej. Řešení: Data zpracujeme pomocí analýzy rozptylu dvojného třídění bez interakcí. Přitom a = 2, b = 3, c = 1, n = 6. Nejprve provedeme pomocné výpočty: X1 = 8, X2 = 16, M1 = 8/3, M2 = 16/3, X = 24, M = 24/6 = 4, X1 = 4, X2 = 5, X3 = 15, M1 = 4/2 = 2, M2 = 5/2, M3 = 15/2 'A- f - 1 \ T ! ■ 1 o- J -~5 --= - t- - f \- \ 4—___— Výsledky zapíšeme do tabulky analýzy rozptylu dvojného třídění bez interakcí. Zdroj variability součet čtverců st. vol. podíl S/f způsob balení 106 1 106 63,99 druh reklamy 37 2 18,5 110,98 reziduálni 03 2 (016 - celkem 48 5 - - Odpovídající kvantily: pro řádkový efekt F0^(1,2) = 18,1, pro sloupcový efekt Fa95(2,2) = 19. Protože Fa = 63,99 > 18,1, zamítáme na hladině významnosti 0,05 hypotézu, že způsob balení nemá vliv na prodej zboží. Podobně Fb = 110,98 > 19, tedy na hladině významnosti 0,05 zamítáme hypotézu, že druh reklamy nemá vliv na prodej zboží. V tomto druhém případě lze pomocí Scheffého nebo Tukeyovy metody zjistit, které druhy reklamy se od sebe liší na hladině významnosti 0,05. Nejprve vypočítáme absolutní hodnoty rozdílů sloupcových průměrů: Pravá strana Scheffého vzorce je ^ 1^6. Vidíme, že podle Scheffého metody se na hladině významnosti 0,05 liší sloupce 1, 3 (tj. bez reklamy a s reklamou v TV a novinách) a sloupce 2, 3 (tj. s reklamou jen v novinách a reklamou v TV a novinách). Pravá strana Tukeyova vzorce je jSäj6 ^s^- ^.^L" 4. Podle Tukeyovy metody se na hladině významnosti 0,05 také liší sloupce 1,3 a sloupce 2, 3. Výhodnější je hodnota získaná Tukeyovou metodou, protože je menší. Výpočet pomocí systému STATISTICA: Načteme datový soubor baleni_a_reklama.sta o třech proměnných X, A, B a 6 případech, kde X - prodej, A - typ balení (1 -sáček, 2 - krabička), B - druh reklamy (1 - bez reklamy, 2 - reklama v novinách, 3 - reklama v TV a novinách). Statistiky - ANOVA - ANOVA hlavních efektů - Rychlé nastavení - OK - Závisle proměnná X, Kategor. nezáv. prom. A, B - OK - Možnosti - Parametrizace - odškrtneme Sigma-omezená, zaškrtneme Bez abs. členu - OK. Dostaneme tabulku analýzy rozptylu dvojného třídění bez interakcí. Efek PČ 1U,bb 1 1U,bb b4,UUU,U1b B 37,UU 2 111,U U,U U8 U,333 ~2 U,1bt Vidíme, že p-hodnota pro testovou statistiku FA je 0,015268, tedy na hladině významnosti 0,05 zamítáme hypotézu, že typ balení nemá vliv na prodej zboží. Podobně p-hodnota pro testovou statistiku Fb je 0,008929, což znamená, že na hladině významnosti 0,05 zamítáme hypotézu, že druh reklamy nemá vliv na prodej zboží. Podívejme se ještě na rezidua: Návrat do ANOVA Výsledky - Předpovědi a rezidua - Rezidua 1 - Předpovědi a rezidua. Vykreslíme krabicový graf reziduí a N-P plot reziduí._ HEbcaýcfX IsfcUk=fl3Mi; U4,-.-.-^- U3 U2 U1 UU . -U1 -U2 -U3 Nejsou patrné žádné zvláštnosti. NimÉiripg^zX IsbJIktíMi; Abychom zjistili, které dvojice druhů reklamy se liší na hladině významnosti 0,05, použijeme Scheffého (resp. Tukeyovu) metodu mnohonásobného porovnávání. Návrat do ANOVA Výsledky - Více výsledků - Post-hoc - Efekt B -Tukeyův HSD. C. buř éf B 1 2»M 2<ŠM 7*& in bez řekl U,548 J.U1U 2 reklama v n U,n4b U,U12 3 reklama v IV a U,U1U U,U12| Vidíme, že na hladině významnosti 0,05 se liší dvojice (1,3) a (2,3). Dvojné třídění s interakcemi Nyní předpokládáme, že faktory A a B se mohou ovlivňovat (např. některý způsob hnojení má zcela specifický vliv na určitý typ půdy). Náhodné veličiny Xijk se řídí modelem M0: Xijk = ui + ai + fy + yij + sijk pro i = 1, a, j = 1, b, k = 1, c, přičemž Yij je interakce mezi faktorem A na úrovni i a faktorem B na úrovni j. V této situaci předpokládáme, že c > 2. Parametry ui, ai, Pj neznáme. Požadujeme, aby platily tzv. reparametrizační rovnice: J A— J J— J á— J Nyní můžeme utvořit modely M1: Xijk = u + ai + Pj + sijk M2: Xijk = u + ai + sijk M3: Xijk = u + sijk (Lze samozřejmě použít i jiný řetězec modelů, kdy postupně klademe rovny nule parametry ai, Pj, v jiném pořadí.) Vypočítáme součty čtverců ST, SA, SB, SAB, SE, přičemž SAB-CrXľ^M M M^je součet čtverců pro interakce, počet stupňů volnosti fAB^ = (a-1)(b-1). Vliv interakcí je prokázán na hladině významnosti a, když Výsledky zapisujeme do tabulky analýzy rozptylu dvojného třídění s interakcemi: Zdroj variability součet čtverců st. vol. podíl S/f V i F Tí řádkový faktor A Sa fA = a-1 SA/fA tA= ^ sloupcový faktor B sb fB = b-1 SB/fB interakce A,B Sab fAB = (a-1)(b-1) SAB/fAB reziduálni se fE = n-a-b+1 SE/fE - celkem fr = n-1 - - Je třeba si povšimnout, že součet SAB + SE resp. fAB + fE dá hodnotu SE resp. fE v tabulce bez interakcí. Možné problémy v analýze rozptylu dvojného třídění s interakcemi a) Ukáže-li se vliv interakcí nevýznamný, vzniká otázka, zda testovat vliv řádků resp. sloupců pomocí tabulky s interakcemi nebo provést novou analýzu rozptylu, ale tentokrát bez interakcí. Převládá názor, že je zapotřebí dokončit analýzu rozptylu s interakcemi. b) Pokud interakce vyjdou významné a řádky a sloupce rovněž, zpravidla se nedoporučuje provádět mnohonásobné porovnávání, protože by se mohlo stát, že některá interakce by byla mnohem výraznější než příslušný řádkový resp. sloupcový efekt. c) Nejsou-li interakce významné a řádky resp. sloupce ano, pak lze provést mnohonásobné porovnávání zcela analogicky jako v případě třídění bez interakcí, avšak je jiný počet stupňů volnosti fE. Tabulka odhadů různých parametrů a rozptylů těchto odhadů parametr odhad rozptyl odhadu u. a2/n u. + ai Mi.. a2/bc u. + pj M.j. a2/ac u. + ai + pj + Yij Mij. a2/c ai Mi.. - M a2(a-1)/n Pj M.j. - M a2(b-1)/n (M^ - Mi..) - (M - M) a2(a-1)(b-1)/n Neznámý rozptyl a nahradíme jeho odhadem S2 _ ^ Příklad: Byly zkoumány výnosy sena (v q/ha) v závislosti na typu půdy (řádkový faktor A, úroveň 1 - normální půda, úroveň 2 -kyselá půda) a na způsobu hnojení (sloupcový faktor B, úroveň 1 - bez hnojení, úroveň 2 - hnojení chlévskou mrvou, úroveň 3 - hnojení vápenatým hnojivem). Každá kombinace faktorů A a B byla realizována čtyřikrát nezávisle na sobě. Výnosy sena jsou uvedeny v tabulce: B 1 2 3 A 1 28 32 30 30 37 36 39 36 34 38 37 36 2 31 27 30 29 34 34 30 38 42 40 41 39 Na hladině významnosti 0,05 máme posoudit vliv typu půdy a způsobu hnojení (včetně případných interakcí) na výnosy sena. Řešení: Data zpracujeme pomocí analýzy rozptylu dvojného třídění s interakcemi. Přitom a = 2, b = 3, c = 4, n = abc = 24. Nebudeme provádět pomocné výpočty, ale rovnou uvedeme tabulku výsledků. Zdroj variability součet čtverců st. vol. podíl S/f Ví typ půdy 0,166 1 0,166 0,04 způsob hnojení 318,25 2 159,125 41,81 interakce 55,084 2 27,542 7,24 reziduálni 68,5 18 3,8056 - celkem 442 23 - - Odpovídající kvantily: pro řádkový efekt F0 95(1,18) = 4,41, pro sloupcový efekt F095(2,18) = 3,55, pro interakce F0 95(1,18) = 4,41. Protože Fa = 0,04 < 4,41, nezamítáme na hladině významnosti 0,05 hypotézu, že typ půdy neovlivňuje výnos sena. Dále Fb = 41,81 > 3,55, tedy na hladině významnosti 0,05 se prokázal rozdíl mezi použitými způsoby hnojení. Jelikož Fab = 7,24 > 4,41, zamítáme na hladině významnosti 0,05 hypotézu o nevýznamnosti interakcí (tj. aspoň jeden způsob hnojení působí jinak na půdu normální než kyselou). Výpočet pomocí systému STATISTICA: Načteme datový soubor seno.sta se třemi proměnnými A, B, X a 24 případy, kde X - výnos sena, A - typ půdy, B - způsob hnojení. Jednotlivé varianty proměnných A a B mají tento význam: u proměnné A je 1 - normální půda, 2 - kyselá půda, u proměnné B je 1 - bez hnojení, 2 - chlévská mrva, 3 - vápenaté hnojivo. Nejprve spočítáme průměry ve všech 6 skupinách: Statistiky - ANOVA - Typ analýzy Vícefaktorová ANOVA. Metoda specifikace: Rychlé nastavení - OK, Proměnné -Seznam závislých proměnných X, Kategor. nezáv, prom. (faktory( A, B - OK - Možnosti - Parametrizace - zaškrtneme Bez absolutního členu - OK - Průměry - Pozorované, nevážené. C. buř DekompOzice typuvIII 1 v A B A A A A N Prurm S m.CI-95,0C%95,0( i norm] DeznS 150,00 0,975 Z7,95 cíZ^Ĺ 4 z norm; chievska 37,00 0,975 24,95 ;79,04 4 ; norm; vápenaté ;nt>,^5| 0,975| ;34z,z0| ;7ö,z9 4 4 kyse bez nn< 29,25 0,975 Z7,20 ;71,29 4 5 kyse cnievska 24,00 0,975 21,95 2b,04 4 b kyse vapenate 40,50 0,975 20,45 4728,54 4 Nyní provedeme testování hypotéz o vlivu faktorů: Statistiky - ANOVA - Typ analýzy Vícefaktorová ANOVA. Metoda specifikace: Rychlé nastavení - OK, Proměnné -Seznam závislých proměnných X, Kategor. nezáv. prom. (faktory) A, B - OK - Možnosti - Parametrizace - zaškrtneme Bez absolutního členu - OK - Všechny efekty. Dostaneme tabulku analýzy rozptylu dvojného třídění s interakcemi. Efek DeYompozice typu III SČ Stupr volno KČ F p A u,ie i U,16 U,U43 U,836 B 318,2 159,1 451,81 U,UUU 55,U8 7,23/ ;Euu4 cnyt b8,5l 18 3,8U Vidíme, že p-hodnota pro testovou statistiku FB je velmi blízká 0, tedy na hladině významnosti 0,05 zamítáme hypotézu, že způsob hnojení nemá vliv na výnosy sena. Podobně p-hodnota pro testovou statistiku FAB je 0,004938, což znamená, že na hladině významnosti 0,05 zamítáme hypotézu, že způsob hnojení působí na oba typy půd stejně. Vzhledem k tomu, že rozsahy výběrů v daných šesti skupinách jsou větší než 1 (c = 4), lze ověřit předpoklad o homogenitě rozptylů. Vrátíme se do ANOVA Výsledky a zvolíme Více výsledků - Předpoklady - Levenův test. Leveneuv test nomoqenity Efekt: A*B Stupně volnosti pro všech r ní KČ KČ F p Efekt Chybí H X U,6UU 1,555 U,385 U,852 Zjistíme, že p-hodnota je 0,852058, tudíž tedy na hladině významnosti 0,05 nezamítáme hypotézu o homogenitě rozptylů. Normalitu všech šesti výběrů můžeme orientačně posoudit rovněž v Předpokladech pomocí N-P plotu. Ve všech šesti případech lze konstatovat vcelku dobrou shodu s normálním rozložením. Průměrné výnosy sena (spolu s 95% intervaly spolehlivosti) na normální a kyselé půdě při daných třech způsobech hnojení lze znázornit graficky. V ANOVA Výsledky zvolíme Průměry - Pozorované, nevážené - Graf. Lze vykreslit graf závislosti průměrného výnosu sena na typu půdy: 45 44 X 42 40 38 36 32 30 2B 25 21 At} NfevžTépůrraíy SoLCEETýetekt F(2 19=7232 r=,aa£i ĽäQipiCBtypuííí V&tikárí áaposczrmjí Q95irle\,äygrCé1i\/CEt c — ........................1 c...... J L ronárr A ^ B be hrcjer' 31 B chéSárma 3: B ^/árar^hr:|i^xc nebo graf závislosti průměrného výnosu sena na způsobu hnojení: A*E Nfe/äeTépfinésy SoLCEETýetekt F(218=7,2572, ppjjm ĽSkiriTpcEJcetýajííí Vetilkln áapoeznBčLjí QS5inte\,äy$3Cďli\/CEti V grafu se objevuje křížení, které je typické pro případ, kdy působí interakce mezi faktory A, B. Analýza reziduí neodhalí žádné zvláštnosti. Nyní pomocí Tukeyovy metody mnohonásobného porovnávání zjistíme, které dvojice výběrů se liší na hladině významnosti 0,05. Vrátíme se do Anova: Výsledky - klikneme na Více výsledků - Post hoc - Efekt B - Tukeyův HSD. C. buř i uKevuv hsu testxpsemeBtna Príbuzné pravdepodobnosti jpr Chyba: rtfeziskup. PC = 3,805 B 2{\k 3^:éc 3&!37 i bez hno U,UUU U,UUU 2 chlévskal u,uuu U,U22 3 vápenaté | U,UUU U,U22 Vidíme, že na hladině významnosti 0,05 se liší všechny tři dvojice skupin: Upozornění: Systém STATISTICA umí provádět analýzu rozptylu dvojného třídění i v případě, že třídění není vyvážené. Ukážeme to na následujícím příkladě. Příklad: V rámci psychologického výzkumu bylo vyšetřeno 856 žáků základních škol. Kromě jiného se zjišťoval jejich inteligenční kvocient (proměnná IQ), vzdělání matky a vzdělání otce (proměnná VZDELM, VZDELO, mají varianty Z ... základní, S ... středoškolské, V ... vysokoškolské) a místo trvalého bydliště (proměnná SIDLO, má varianty 1 ... město, 2 ... venkov). Data jsou uložena v souboru IQzaku.sta. Na hladině významnosti 0,05 testujte hypotézu, že proměnné VZDELM a SIDLO neovlivňují variabilitu hodnot proměnné IQ. Použijte analýzu rozptylu dvojného třídění s interakcemi. Výsledek: Na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti obou faktorů i jejich interakcí.