PSY117/454 Statistická analýza dat v psychologii ­ přednáška 10 ANALÝZA ROZPTYLU srovnávání více průměrů Omezení t-testu Umožňuje srovnání pouze 2 průměrů Více skupin (j ) >> mnoho porovnání ( j ( j -1)/2) Neúnosný růst pravděpodobnosti chyby 1. typu např. při =0,05 a 20 testech p=0,68 (1 nebo více chyb) aplikace binomického rozložení Platí to pro jakýkoli statistický test (zejm. korelace) Je zakázáno provádět velké množství testů na jedněch datech (cca >10) Zneužití se označuje jako rybaření v datech ­ fishing, capitalizing on chance Lze kompenzovat snížením požadované a (Bonferroniho korekce), avšak za cenu značného snížení síly testu (1-). AJ: multiple tests, capitalizing on chance, Bonferroni correction, statistical power Řešení = ANOVA Testuje na více skupinách jen jednu hypotézu: Je někde mezi skupinovými průměry někde rozdíl? Je mezi Pražáky, Brňáky a Ostraváky rozdíl v průměrné lakotě? Je-li odpověď ,,ano" (p <), pak se můžeme podívat na jednotlivé rozdíly detailněji (post-hoc testy) Je-li odpověď ,,ne" (p >), pak bychom neměli (rybaření) 1. terminologická vložka - ANOVA ANOVA = ANalysis Of Variance = analýza rozptylu i přes svůj název jde o srovnávání průměrů ANOVA zjišťuje vztah mezi kategoriální nezávislou a intervalovou závislou. kategoriální nezávislá = faktor (factor, ,,-way") hodnoty kategoriální nez. = úrovně (level) Zjištěný rozdíl = efekt, účinek (effect) Princip ANOVY 1. sk1 sk2 sk3 Celkem sk1 sk2 sk3 Celkem čl1 2 4 6 čl1 0 6 2 čl2 2 4 6 čl2 4 2 10 čl3 2 4 6 čl3 0 6 2 čl4 2 4 6 čl4 4 2 10 čl5 2 4 6 čl5 2 4 6 m 2 4 6 4 m 2 4 6 4 s 0 0 0 1,63 s 1,8 1,8 3,6 3,0 sbw 3,65 sbw 3,65 swi 0,00 swi 2,53 sk1 sk2 sk3 Celkem F 1,443 čl1 1 4 2 0,95F(2,12) 3,885 čl2 3 5 5 p 0,274 čl3 5 1 3 čl4 4 2 1 čl5 2 3 4 m 3 3 3 3 s 1,4 1,4 1,4 1,41 sbw 0 swi 1,41 směrodatná odchylka = MS = mean square MSbetween : s spočítaná ze skupinových průměrů, variabilita uvnitř skupiny je ignorována (též MSA) MSbetween=SSbetween/j -1 MSwithin : variabilita uvnitř skupin (MSe, error) MSwithin=SSwithin/n - j Princip ANOVY 2. Čím jsou si průměry podobnější, tím je rozptyl mezi skupinami nižší (MSbetween se blíží 0) Čím nižší je rozptyl uvnitř skupin (MSwithin se blíží 0), tím průkaznější se průměry mezi skupinami zdají být. Důležitý je poměr těchto dvou odhadů rozptylu: mezi skupinami/uvnitř skupin Tento poměr se nazývá F -poměr Čím vyšší tento poměr je, tím průkaznější jsou rozdíly mezi průměry (rozsah je 0 až ) F -poměr má jako výběrová statistika F -rozložení Fisherovo-Snedecorovo F-rozložení Podobně jako t -rozložení, je F -rozložení vlastně rodina mnoha rozložení mírně se lišící svým tvarem Tato rozložení se liší tentokrát dvěma parametry ­ stupni volnosti 1 = počet skupin ­ 1 : stupně volnosti čitatele - MSbetween 2 = počet lidí ­ počet skupin : stupně volnosti jmenovatele - MSwithin na pořadí ZÁLEŽÍ http://www.econtools.com/jevons/java/Graphics2D/FDist.html AJ: FUJ: V tabulkách F-rozložení v Hendlovi jsou prohozeny v1 a v2. Velikost účinku (efektu) Podobně jako u regrese chceme vědět, jaká část rozptylu závislé je vysvětlená nezávislou Ekvivalentem R 2 je u anovy 2 (eta) 2=SSBetween/SSTotal Poněkud přesnější je 2 Velikost účinku je vždy třeba uvádět Předpoklady ANOVY normální rozložení uvnitř skupin stejné rozptyly uvnitř skupin - homoscedascita nezávislost všech pozorování viz Hendl 343 Post-hoc testy Po prokázání ,,nějakých" rozdílů mezi průměry obvykle chceme vědět, mezi kterými skupinami konkrétně rozdíly jsou. K tomu jsou tzv. post-hoc testy Je-li důležité udržet a pod kontrolou, pak je správnou volbou Scheffeho test Pokud to není tak kritické, pak je volbou Student- Neuman-Keuls (S-N-K) Extrémně ,,dajný" je LSD a proto se nedoporučuje. Další varianty a rozšíření ANOVy ANOVA pro opakovaná měření (jako párový t-test) ANOVA s 2 a více faktory MANOVA ­ s více závislými proměnnými To vše v SPSS skryto pod GLM ­ general linear model