PSY117/454 Statistická analýza dat v psychologii II Seminář 7 - 8 Analýza rozptylu Srovnávání více než dvou průměrů Omezení t-testu t-test umožňuje srovnání pouze dvou průměrů n Více skupin ( j ) >> mnoho porovnání: j ( j -1)/2 Více srovnání způsobuje strmý růst pravděpodobnosti chyby I. typu n např. při a=0,05 a 20 testech p=0,64 (1 nebo více chyb) o aplikace binomického rozložení n Platí to pro jakýkoli statistický test (zejm. korelace) Je nevhodné provádět velké množství testů na jedněch datech (cca >5) n Zneužití se označuje jako rybaření v datech – capitalizing on chance n Lze kompenzovat korekcí hladiny a (Bonferroniho korekce), avšak za cenu značného snížení síly testu (1-b). o Místo a testujeme na hladině a ’=a/N, kde N je počet prováděných testů. Řešení = Analýza rozptylu (ANOVA) Testuje na více skupinách jen jednu hypotézu: o Je někde mezi skupinovými průměry někde rozdíl? n Je rozdíl v životní spokojenosti adolescentů žijících s oběma rodiči (1), pouze matkou (2) a matkou a nevlastním otcem(3)? [n ]H[0]: m[1] = m[2] = m[3] o Je-li odpověď „ano“ (p a), pak bychom neměli (rybaření) 1. terminologická vložka - ANOVA o ANOVA = ANalysis Of Variance = analýza rozptylu n i přes svůj název jde o srovnávání průměrů o ANOVA zjišťuje vztah mezi kategoriální nezávislou a intervalovou závislou. n kategoriální nezávislá = faktor (factor, „-way“) n hodnoty kategoriální nez. = úrovně (level, treatment) o Zjištěný rozdíl = efekt, účinek (effect) Princip ANOVY 1. Princip ANOVY – F -test o Čím jsou si průměry podobnější, tím je rozptyl mezi skupinami nižší (MS[between] se blíží 0) o Čím nižší je rozptyl uvnitř skupin (MS[within] se blíží 0), tím průkaznější se průměry mezi skupinami zdají být. o Důležitý je poměr těchto dvou odhadů rozptylu: o Čím vyšší je F-poměr, tím průkaznější jsou rozdíly mezi průměry (rozsah je 0 až ∞ ) o F -poměr má jako výběrová statistika F -rozložení Princip ANOVY – dělení rozptylu. o Dělení variability (rozptylu) podle zdrojů jako u lineární regrese X[ij ]=m + a[j] + e[ij] n X[ij] = skóre jedince (i-tý jedinec v j-té skupině) n m = průměr populace n a = vliv příslušnosti ke skupině (vliv úrovně faktoru) n e[ij]= chyba (vše, s čím nepočítáme, individuální prom.) X[ij ]– m = (m – m[j ]) + (X[ij ]– m[j ]) odchylka od celkového průměru = odchylka od skupinového průměru + odchylka skupinového průměru od celkového průměru n … odchylky umocněné na druhou = cesta k rozptylu SS[Total] = SS[Between (A,Model) ] + SS[Within(Error, R) ] MS[Total]; MS[Error]; MS[A] Velikost účinku (efektu) o Podobně jako u regrese chceme vědět, jaká část rozptylu závislé je vysvětlená nezávislou o Ekvivalentem R ^2 je u anovy h^2 (eta) [n ]h^2=SS[Between]/SS[Total] [n ]Poněkud přesnější je w^2 =(SS[M]-df[M]MS[R])/(SS[T]+MS[R])[] [o ]Pro konkrétní rozdíl průměrů d[Coh] = m[1]-m[2]/√MS[Within] o Velikost účinku je vždy třeba uvádět Předpoklady použití ANOVY o normální rozložení uvnitř skupin n při n[j]>30 a n[1]=n[2]=…=n[j] je ANOVA robustní o stejné rozptyly uvnitř skupin: homoskedascita n do smax/smin<3 je ANOVA robustní, zváště při n[1]=n[2]=…=n[j] o nezávislost všech pozorování n při opakovaných měřeních je třeba použít ANOVU pro opakovaná měření viz Hendl 343 Dnešní program o One-way ANOVA n kontrasty a post-hoc testy ONEWAY o Faktoriální (two-way, three-way...) ANOVA n interakce UNIANOVA o Analýza kovariance – ANCOVA n kontrola intervenující proměnné o ANOVA s více závislými - MANOVA Životní spokojenost a rodina o Domníváme se, že kompletní rodina je základ životní spokojenosti. [n ]H[1]: M[komplet] > M[nekomplet][] o Zajímá nás, zda se liší chybění otce a jeho nahražení nevlastním otcem [n ]H[2]: M[bez otce] ≠ M[nevlastní otec] Kontrasty o I když můžeme srovnat všechny průměry se všemi ostatními, platíme za to velkou ztrátou síly o Řešením jsou předem plánovaná srovnání – KONTRASTY o Lze srovnat kterékoli 2 skupiny nebo skupiny skupin n např. 1. skupinu se průměrem všech ostatních, kontrolní skupinu se každou ze zbývajících skupin zvlášť o Realizuje se zvláštním kódováním n při platnosti nulové hypotézy je součet vážených průměrů 0 o H[1]: 1. vs (2. a 3.) ..... -2 1 1 o H[2]: 2. vs 3. ..... 0 -1 1 Post-hoc testy (simultánní porovnávání) o Po (a pouze po) prokázání „nějakých“ rozdílů mezi průměry obvykle chceme vědět, mezi kterými skupinami konkrétně rozdíly jsou: post-hoc testy o Srovnáváme každou skupinu s každou způsobem, který nezpůsobí nárůst a. o Je-li důležité udržet a pod kontrolou, je správnou volbou Scheffeho test nebo Tukeyho HSD – volba pro rybaření o Máte-li stejně velké skupiny (balanced design) - REGWQ o Pokud to a kritická a máte-li pár kvazi-hypotéz na mysli, pak je volbou Student-Neuman-Keuls (S-N-K) o Extrémně „dajný“ a nepříliš vhodný pro více než 3 skupiny je LSD a proto se nedoporučuje. o Při nesplnění homoscedascity – Games-Howell Field 339 Faktoriální ANOVA o více faktorů ... možnost interakce mezi nimi o fixed vs. random faktory Liší se výkonová motivace podle věku a pohlaví? n INT: Jsou případné genderové rozdíly shodné v obou kohortách? Liší se výkonová motivace mezi školami a podle pohlaví? n INT: Liší se genderové rozdíly škola od školy? Analýza kovariance Velká variabilita závislé může zastírat rozdíly. Dokážeme-li část její variability vysvětlit nějakým prediktorem, můžeme hledat rozdíly pouze ve zbývající části rozptylu závislé. o statistická kontrola – jako parciální korelace a regrese o Proměnnou, jejíž vliv chceme kontrolovat, vkládáme jako kovariát MANOVA o Máme-li více závislých o Opatrně. Shrnutí o ANOVA je pro situace s intervalovou závislou a více kategorickými nezávislými – porovnávání mnoha průměrů o Faktory mohou být fixní nebo náhodné o ANOVA je podobná regresi – pro interpretaci je dobré si vyžádat „parametry“, tj. regresní váhy o Lze testovat konkrétní hypotézy – kontrasty o Lze testovat všechny možné rozdíly průměrů – post hoc o Lze uvažovat o kombinovaném vlivu faktorů – interakce o Lze kontrolovat vliv intervenujících proměnných – kovariáty - ANCOVA o Lze mít i více závislých najednou – MANOVA - opatrně