PSY117/454
Statistická analýza dat v psychologii II
Seminář 7 - 8


                                         Analýza rozptylu

                                 Srovnávání více než dvou průměrů


Omezení t-testu

t-test umožňuje srovnání pouze dvou průměrů

n    Více skupin ( j ) >> mnoho porovnání: j ( j -1)/2

Více srovnání způsobuje strmý růst pravděpodobnosti chyby I. typu

n    např. při a=0,05 a 20 testech p=0,64 (1 nebo více chyb)

o   aplikace binomického rozložení

n    Platí to pro jakýkoli statistický test (zejm. korelace)

Je nevhodné provádět velké množství testů na jedněch datech (cca >5)

n    Zneužití se označuje jako rybaření v datech – capitalizing on chance

n    Lze kompenzovat korekcí hladiny a (Bonferroniho korekce), avšak za cenu značného snížení síly
testu (1-b).

o   Místo a  testujeme na hladině a ’=a/N, kde N je počet prováděných testů.

Řešení = Analýza rozptylu (ANOVA)

Testuje na více skupinách jen jednu hypotézu:

o   Je někde mezi skupinovými průměry někde rozdíl?

n   Je rozdíl v životní spokojenosti adolescentů žijících s oběma rodiči (1), pouze matkou (2) a
matkou a nevlastním otcem(3)?

[n       ]H[0]: m[1] = m[2] = m[3]

o   Je-li odpověď „ano“ (p <a), pak se můžeme podívat na jednotlivé rozdíly detailněji (post-hoc
testy)

o   Je-li odpověď „ne“ (p >a), pak bychom neměli (rybaření)


1. terminologická vložka - ANOVA

o   ANOVA = ANalysis Of Variance = analýza rozptylu

n   i přes svůj název jde o srovnávání průměrů

o   ANOVA zjišťuje vztah mezi kategoriální nezávislou a intervalovou závislou.

n   kategoriální nezávislá = faktor (factor, „-way“)

n   hodnoty kategoriální nez. = úrovně (level, treatment)

o   Zjištěný rozdíl = efekt, účinek (effect)

Princip ANOVY 1.

Princip ANOVY – F -test

o   Čím jsou si průměry podobnější, tím je rozptyl mezi skupinami nižší (MS[between] se blíží 0)

o   Čím nižší je rozptyl uvnitř skupin (MS[within] se blíží 0), tím průkaznější se průměry mezi
skupinami zdají být.

o   Důležitý je poměr těchto dvou odhadů rozptylu:


o   Čím vyšší je F-poměr, tím průkaznější jsou rozdíly mezi průměry (rozsah je 0 až ∞ )

o   F -poměr má jako výběrová statistika F -rozložení


Princip ANOVY – dělení rozptylu.

o     Dělení variability (rozptylu) podle zdrojů jako u lineární regrese

X[ij ]=m + a[j] + e[ij]

n    X[ij] = skóre jedince (i-tý jedinec v j-té skupině)

n    m = průměr populace

n    a = vliv příslušnosti ke skupině (vliv úrovně faktoru)

n    e[ij]= chyba (vše, s čím nepočítáme, individuální prom.)

X[ij ]– m = (m – m[j ]) + (X[ij ]– m[j ])

odchylka od celkového průměru = odchylka od skupinového průměru + odchylka skupinového průměru od
celkového průměru

n    … odchylky umocněné na druhou = cesta k rozptylu

SS[Total] = SS[Between (A,Model) ] + SS[Within(Error, R) ]

MS[Total]; MS[Error]; MS[A]

Velikost účinku (efektu)

o  Podobně jako u regrese chceme vědět, jaká část rozptylu závislé je vysvětlená nezávislou

o  Ekvivalentem R ^2 je u anovy h^2 (eta)

[n      ]h^2=SS[Between]/SS[Total]

[n      ]Poněkud přesnější je w^2 =(SS[M]-df[M]MS[R])/(SS[T]+MS[R])[]

[o      ]Pro konkrétní rozdíl průměrů d[Coh] = m[1]-m[2]/√MS[Within]


o  Velikost účinku je vždy třeba uvádět

Předpoklady použití ANOVY

o  normální rozložení uvnitř skupin

n   při n[j]>30 a n[1]=n[2]=…=n[j] je ANOVA robustní

o  stejné rozptyly uvnitř skupin: homoskedascita

n   do smax/smin<3 je ANOVA robustní, zváště při n[1]=n[2]=…=n[j]

o  nezávislost všech pozorování

n   při opakovaných měřeních je třeba použít ANOVU pro opakovaná měření


viz Hendl 343

Dnešní program

o  One-way ANOVA

n   kontrasty a post-hoc testy                ONEWAY

o  Faktoriální (two-way, three-way...) ANOVA

n   interakce                                        UNIANOVA

o  Analýza kovariance – ANCOVA

n   kontrola intervenující proměnné

o  ANOVA s více závislými - MANOVA


Životní spokojenost a rodina

o  Domníváme se, že kompletní rodina je základ životní spokojenosti.

[n      ]H[1]: M[komplet] > M[nekomplet][]

o  Zajímá nás, zda se liší chybění otce a jeho nahražení nevlastním otcem

[n      ]H[2]: M[bez otce] ≠ M[nevlastní otec]


Kontrasty

o   I když můžeme srovnat všechny průměry se všemi ostatními, platíme za to velkou ztrátou síly

o   Řešením jsou předem plánovaná srovnání – KONTRASTY

o   Lze srovnat kterékoli 2 skupiny nebo skupiny skupin

n   např. 1. skupinu se průměrem všech ostatních, kontrolní skupinu se každou ze zbývajících skupin
zvlášť

o   Realizuje se zvláštním kódováním

n   při platnosti nulové hypotézy je součet vážených průměrů 0

o   H[1]: 1. vs (2. a 3.) .....  -2  1  1

o   H[2]: 2. vs 3.  .....        0 -1  1


Post-hoc testy (simultánní porovnávání)

o   Po (a pouze po) prokázání „nějakých“ rozdílů mezi průměry obvykle chceme vědět, mezi kterými
skupinami konkrétně rozdíly jsou: post-hoc testy

o   Srovnáváme každou skupinu s každou způsobem, který nezpůsobí nárůst a.

o   Je-li důležité udržet a pod kontrolou, je správnou volbou Scheffeho test nebo Tukeyho HSD –
volba pro rybaření

o   Máte-li stejně velké skupiny (balanced design) - REGWQ

o   Pokud to a kritická a máte-li pár kvazi-hypotéz na mysli, pak je volbou Student-Neuman-Keuls
(S-N-K)

o   Extrémně „dajný“ a nepříliš vhodný pro více než 3 skupiny je LSD a proto se nedoporučuje.

o   Při nesplnění homoscedascity – Games-Howell

                                                                                          Field 339

Faktoriální ANOVA

o  více faktorů ... možnost interakce mezi nimi

o  fixed vs. random faktory


Liší se výkonová motivace podle věku a pohlaví?

n   INT: Jsou případné genderové rozdíly shodné v obou kohortách?

Liší se výkonová motivace mezi školami a podle pohlaví?

n   INT: Liší se genderové rozdíly škola od školy?


Analýza kovariance

Velká variabilita závislé může zastírat rozdíly. Dokážeme-li část její variability vysvětlit
nějakým prediktorem, můžeme hledat rozdíly pouze ve zbývající části rozptylu závislé.

o  statistická kontrola – jako parciální korelace a regrese

o  Proměnnou, jejíž vliv chceme kontrolovat, vkládáme jako kovariát

MANOVA

o  Máme-li více závislých

o  Opatrně.


Shrnutí

o   ANOVA je pro situace s intervalovou závislou a více kategorickými nezávislými – porovnávání
mnoha průměrů

o   Faktory mohou být fixní nebo náhodné

o   ANOVA je podobná regresi – pro interpretaci je dobré si vyžádat „parametry“, tj. regresní váhy

o   Lze testovat konkrétní hypotézy – kontrasty

o   Lze testovat všechny možné rozdíly průměrů – post hoc

o   Lze uvažovat o kombinovaném vlivu faktorů – interakce

o   Lze kontrolovat vliv intervenujících proměnných – kovariáty - ANCOVA

o   Lze mít i více závislých najednou – MANOVA - opatrně