1 10-Analýza rozptylu jednoduchého třídění, ANOVA, Jed-nofaktorová analýza rozptylu 1.1 Nová látka 1.1.1 Testování homogenity rozptylů u r náhodných výběrů • homogenita (stej noro dost) rozptylů u většího množství náhodných výběrů je důležitým předpokladem, který musí být splněn, abychom mohli provést tzv. ANOVU - jedno faktorovou analýzu rozptylu (viz dále). • předpokládejme, že máme r > 2 náhodných výběrů • testujeme nulovou hypotézu H0 : o\ = o\ = ■ ■ ■ = o2r = a2 oproti alternativní hypotéze H\ : alespoň jedna dvojice rozptylů se liší • testy rozptylu 1. Levenův test — levene.test(D,K) knihovna lawstat ; D... vektor dat, K... typ skupiny — je založen na analýze rozptylu absolutních hodnot centrovaných pozorování — výpočet je založen na 'hraní si' s odhady středních hodnot 2. Brownův-Forsytův test — je modifikací Levenova testu — je založen na mediánu (namísto střední hodnoty) — při větších rozsazích náhodných výběrů (rii > 20) jej lze použít i na data, které nejsou z normálního rozdělení — v Rku ho používat nebudeme, ale je dobré, abyste o něm aspoň slyšeli 3. Bartlettův test — bartlett.test(D,K) knihovna stat — můžeme jej použít, pouze pokud jsou rozsahy všech výběrů větší než 6 — nelze jej použít, pokud je více náhodných výběrů z výrazně nenormálního rozložení 1.1.2 ANOVA - Jednofaktorová analýza rozptylu • zkoumá závislost intervalové/poměrové proměnné X na nominální proměnné A, které má alespoň dvě varianty • A... faktor, varianty A... úrovně faktoru • závislost X na A se projeví tím, že existuje statisticky významný rozdíl v průměrech proměnné X v náhodných výběrech, které vznikly tříděním podle variant proměnné A. • motivační příklady — má metoda výuky (faktor A) vliv na počet bodů (intervalová proměnná X) dosažených studenty v závěrečném testu? 1 — má typ potravy pračlověka (A) vliv na šířku stoliček (X)? — má způsob života (A: na stromu-šplh; na zemi - šplhá málo) vliv na intenzitu svalových úponů na rukou (X)? — má pohlaví (A) vliv na hmotnost člověka (X), nebo na šířku očnic (X)? • trocha matematiky — předpokládáme, že faktor A má r > 2 úrovní A1}... Ar, přičemž i-té úrovni odpovídá fa pozorování Xil}... Xin.. Tato pozorování tvoří náhodný výběr z N (fa, qi_a(r,n-r)^, (2) kde kvantily qi-a najdeme ve statistických tabulkách a S* je z minulé hodiny známý vážený průměr výběrových rozptylů. Lze jej ale zjednodušeně vypočítat podle vzorce c2 _ se f E 3 * existuje i modifikace Tukeyovy metody pro nestejné rozsahy výběrů tzv. Tukey HSD metoda — Scheffého metoda * používá se, pokud nejsou rozsahy všech výběrů stejné * rovnost středních hodnot a ii\ zamítneme na hladině významnosti a, když \Mk. - M,| > S J (r -!){— + -) F^a{r -l,n- r). (3) y \nk nij * S2 = fa * JE * metody mnohonásobného porovnávání jsou slabší, než ANOVA, proto se může stát, že ANOVOU zamítneme Hq o shodě středních hodnot ale metody mnohonásobného porovnávání u žádné dvojice vyznaný rozdíl nenajsou. * dochází tomu tehdy, když p-hodnota pro ANOVU je jen o málo nižší než zvolená hladina významnosti • POSTUP TESTOVÁNÍ ANOVY: 1. ověření normality — Q-Q plot + test (Shapiro, Lillie, Ad) — slabé porušení nevadí, anova na to není příliš citlivá 2. ověření rozptylu — krabicový graf - je šířka krabic stejná?; + test (Levenův, Bartlettův) — na slabé porušení homogenity rozptylu není anova příliš citlivá 3. testování shody středních hodnot 4. dojde-li k zamítnutí Hq o shodě středních hodnot, použijeme post-hoc metody (Tukeyova, Scheffého) • Zajímavost k testování homogenity rozptylů: Parametr a2 není znám a je třeba testovat hypotézu Hq : \i\ = ■ ■ ■ = fir. Na první pohled by se zdálo, že tento problém lze snadno převést na testování dvou nezávislých výběrů, a to tak, že vytvoříme dvojice souborů a na každou dvojici aplikujeme dvouvýběrový t-test na hladině významnosti a. Jestliže alespoň jedna dvojice dá signifikantní výsledek (tedy zamítáme hypotézu o shodnosti středních hodnot vybrané dvojice), zdá se, že můžeme zamítnout hypotézu Hq. A současně hned vidíme, které dvojice se od sebe signifikantně liší. Tento postup však nesplňuje podmínku, že pravděpodobnost chyby prvního druhu má být a. Je-li totiž nulová hypotéza správná, pak každý t-test dá signifikantní výsledek, tj. zamítne hypotézu o shodě středních hodnot, s pravděpodobností a. My však chceme Hq zamítnout, když alespoň jeden ze všech testů dá signifikantní výsledek. Takže pravděpodobnost zamítnutí H0, je-li správná, bude při I > 3 větší než a. 4