Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametrická analýza rozptylu Post hoc testy XII.a Analýza rozptylu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Analýza rozptylu je základním nástrojem pro analýzu rozdílů mezi průměry v několika skupinách pacientů.  Základní myšlenka, na níž je ANOVA založena, je rozdělení celkové variability v datech (neznámé, dané pouze náhodným rozložením) na část systematickou (spjatou s kategoriemi pacientů, vysvětlená variabilita) a část náhodnou. Pokud systematická, tedy nenáhodná a vysvětlitelná část variability převažujeme, považujeme daný kategoriální faktor za významný pro vysvětlení variability dat.  Analýza rozptylu vyhodnocuje pouze celkový vliv faktoru na variabilitu, v případě analýzy jednotlivých kategorií je třeba využít tzv. post-hoc testy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA Základní technika sloužící k posouzení rozdílů mezi více úrovněmi pokusného zásahu Kontrola KoncentraceX1 KoncentraceX3 .............. KoncentraceXp Rostoucí koncentrace testované látky / látek Celkově významné změny v reakci biologického systému Vzájemné rozdíly účinku jednotlivých dávek Rozdíly účinku dávek od kontroly KoncentraceX2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA Významné kroky analýzy, vedoucí k efektivnímu srovnání variant .............. Rostoucí koncentrace testované látky / látek Splnění předpokladů analýzy Transformace dat Relevantnost kontroly (vliv vlastní aplikace látek) Vhodnost modelu ANOVA pro účely testu Vlastní srovnání variant Minimalizace chyb při ověřování hypotéz Kontrola KoncentraceX1 KoncentraceX3 KoncentraceXp KoncentraceX2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA ANOVA = parametrická analýza dat Předpoklad nezávislosti opakování experimentu Normalita rozložení v rámci pokusných variant Homogenita rozptylu v rámci pokusných variant SPLNĚNÍ PŘEDPOKLADŮ ANOVA JE NEZBYTNOU PODMÍNKOU POUŽITÍ TÉTO TECHNIKY ALTERNATIVOU JSOU NEPARAMETRICKÉ METODY 1. 3. 2. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA Předpoklady analýzy rozptylu jsou nezbytné pro dosažení síly testu • Symetrické rozložení hodnot a normalita odchylek od hodnoceného modelu ANOVA. Velkou část dat lze adekvátně normalizovat použitím logaritmické transformace. Předpoklad lognormální transformace může pochopitelně být teoreticky vyloučen u mnoha datových souborů obsahujících diskrétní parametry, kde je indikována vhodnost jiného typu transformace. U asymetricky rozložených a u diskrétních dat je nutné využít neparametrické alternativy analýzy rozptylu. • Homogenita rozptylu je nutným předpokladem pro smysluplnost vzájemných srovnání pokusných variant. U testů toxicity by splnění tohoto předpokladu mělo být ověřováno (Bartlettův test), neboť vážné rozdíly (až řádové) v jednotkách testovaného parametru mohou nastat v důsledku inhibice dávkami látky. Nehomogenita rozptylu je často ve vztahu k nenormalitě (asymetrii) dat a lze ji odstranit vhodnou normalizující transformací. • Statistická nezávislost reziduí vyhodnocovaného modelu ANOVA. Pokud odhad a posouzení korelačních vztahů mezi pokusnými variantami není přímo předmětem výzkumu, lze jejich vliv na vyhodnocení odstranit znáhodněním dat v rámci pokusných variant - tedy změnou pořadí v náhodné. Rozsah vlivu těchto autokorelačních vztahů musí být ovšem primárně omezen správností experimentálního uspořádání. • Aditivita jako předpoklad týkající se složitějších experimentálních uspořádání. Exaktní otestování aditivity více pokusných faktorů je procedura poměrně náročná na experimentální design vyvážený co do počtu opakování. Je rovněž obtížné testovat interakci na nestandardních datech, neboť případná transformace může změnit charakter odchylek původních dat od hodnoceného modelu ANOVA. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - ANOVA Omezení aplikace ANOVA lze řešit • Chybějící data. Vážným problémem jsou chybějící údaje o celé skupině kombinací testovaných látek, například u faktoriálních pokusů, kdy je znemožněno hodnocení experimentu jako celku. • Různé počty opakování Jde o typický jev pro experimentální datové soubory. Při různých počtech opakování v experimentálních variantách jsou testy ANOVA citlivější na nenormalitu dat. Pokud jsou počty opakování zcela odlišné(až na řádové rozdíly), je nutno použít neparametrické techniky nebo analýzu rozptylu nevyvážených pokusů. • Nehomogenita rozptylu. Velmi častý nedostatek experimentálních dat, často související s nenormalitou rozložení nebo s odlehlými hodnotami. • Odlehlé hodnoty. Ojedinělé odlehlé hodnoty musí být před parametrickou analýzou rozptylu vyloučeny. • Nedostatek nezávislosti mezi rezidui modelu. Jde o závažný nedostatek, zkreslující výsledek F-testu. Velmi často je tato skutečnost důsledkem špatného provedení nebo naplánování experimentu. • Nenormalita dat. I v tomto případě lz situaci upravit vyloučením odlehlých hodnot nebo normalizující transformací. • Neaditivita kombinovaného vlivu více pokusných zásahů. Tuto situaci lze testovat jednak speciálními testy aditivity nebo přímo F testem kontrolujícím významnost vlivu interakce pokusných zásahů. Při významné interakci je nutné prozkoumat především její charakter ve vhodném experimentálním uspořádání. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Modely analýzy rozptylu Model I. Pevný model Model II. Náhodný model X0 . . . . . . . . . . . . . . . . . . . . X2 . . . . . . . . . . X3 . . . . . . . . . . X4 . . . . . . . . . . A B C D E ijiijy   . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ijiij Ay   X1 X0 X1 X2 X3 X4 Y . . . . . . . . . . . . . . . . . . . . A B C D E Y Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ANOVA – základní výpočet  Základním principem ANOVY je porovnání rozptylu připadajícího na:  Rozdělení dat do skupin (tzv. effect, variance between groups)  Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o náhodnou variabilitu (=error) 1. Variabilita mezi skupinami Rozptyl je počítán pro celkový průměr (tzv. grand mean) a průměry v jednotlivých skupinách dat Stupně volnosti jsou odvozeny od počtu skupin (= počet skupin -1) 2. Variabilita uvnitř skupin Rozptyl je počítán pro průměry jednotlivých skupin a objekty uvnitř příslušných, celková variabilita je pak sečtena pro všechny skupiny Stupně volnosti jsou odvozeny od počtu hodnot (= počet hodnot počet skupin) 11  k kn 2 groupswithin groupsbetween F _ _  Výsledný poměr (F) porovnáme s tabulkami F rozložení pro v1 a v2 stupňů volnosti SS=sum of squares Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Jednoduchý ANOVA design Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle jednoho parametru. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Nested ANOVA • Rozdělení skupin na náhodné podskupiny (např. opakování experimentu) • Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou • Nejprve je testována shoda podskupin v hlavních skupinách, • pokud jsou shodné, je vše v pořádku • pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin liší od celkové variability Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Two way ANOVA Pro rozdělení do kategorií je zde více parametrů Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o řízené zásahy (např.vliv pH a koncentrace O2) Kromě vlivu hlavních faktorů se uplatňuje i jejich interakce Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Modely analýzy rozptylu - základní výstup Základním výstupem analýzy rozptylu je Tabulka ANOVA - frakcionace komponent rozptylu Zdroj rozptylu Pok. zásah (mezi skupinami) Uvnitř skupin Celkem SSB/SST MSB/MST St. v. a -1 SSB SSB/(a -1) MSB/MSE N - a SSE SSE/(N - a) N -1 SST SS MS F Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na celkovém rozptylu Statistická významnost rozdílu Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - obecný F test obecný F test H0: m1 = m2 = m3 = .... = mp Kontrola KoncentraceX1 KoncentraceX3 ......... ..... KoncentraceXpF test: H0 KoncentraceX2 Látka nepůsobí H0 neplatí Látka působí Další analýzy H0 platí Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Analýza rozptylu - Testy kontrastů ANOVA:H0 zamítnuta Testy kontrastů .......... Kontrola KoncentraceX1 KoncentraceX3 KoncentraceXp KoncentraceX2 Rozdíly v smysluplných kombinacích ? Testování kontrastů "Multiple range testy" Parametrické Neparametrické Plánované Neplánované Pro srovnání variant s kontrolou Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad: Anova - One way Dávka rostlinného stimulátoru (0, 4, 8, 12 mg/l) A = 4 ; n = 8 I. ANOVA Bartlett's test: P = 0,9847 K-S test: P = 0,482 - 0,6525 pro jednotlivé kategorie Source D. f. SS MS F Between Groups 3 305,8 101,9 8,56 Within Groups 28 322,2 11,9 Total (corr.) 31 638,0 II. Multiple Range Test NKS -test Level Average Homogenous Groups 0 34,8 x 4 41,4 x 12 41,8 x 8 52,6 x Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Příklad: Anova - One way I. Zásah: 4 klinická stadia virové choroby (napadá kr. buňky) Sledovaná veličina: aktivita enzymu v těchto krevních buňkách 4321:  oH n = 3 MODEL = ? II.II 16,4 17,8 19,1 53,3 17,8 III 11,2 18,2 15,8 45,2 15,1 IV 14,2 10,1 12,8 37,1 12,4  průměr Source Between groups Within groups Total (corr.) D.f. 3 8 11 MS 49,6 5,9 - F 8,39 P 0,0075 I 22,8 19,4 12,5 65,7 21,9 57,14 3 9,56,49 ~ 22      n MSMS S eA AA 22 5,2 eA SS  7142,0~ 22 2    eA A II SS S r IV.III. Komponenta rozptylu: Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Srovnání variant v testech Srovnáváni variant po celkovém testu ANOVA Mnoho existujících algoritmů není vhodných pro konkrétní případ Day and Quin Ecological Monographs,1989 Test Využití Poznámka Dunnett Williams Srovnání s kontrolou Ex. i modifikace pro různá n. ANOVA testy (F) Orthogonální kontrasty Plánovaná srovnání Ryan Q test Jednoduché kontrasty Vyhodnocen jako nejlepší test Testy pro jednoduché kontrasty Scheffe Tukey LSD Bonferroni Dunn- Sidák Kramer Duncan Student - Newmann-Keuls Waller-Duncan k ratio Testy nevhodné Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Řada post-hoc testů v různých SW Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek ANCOVA  Rozšíření ANOVA  Současná analýza kategoriálních a spojitých prediktorů  Testování hypotézy paralelismu regresních vztahů Spojitý prediktor Hodnocenáproměnná kategorie Spojitý prediktorHodnocenáproměnná kategorie Kategorie pacientů (pokusný zásah) neovlivňuje vztah proměnných Kategorie pacientů (pokusný zásah) ovlivňuje vztah proměnných Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Parametrická a neparametrická korelace XII.b Korelace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Anotace  Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako jiné statistické metody, i korelace mohou být parametrické nebo neparametrické  Regresní analýza vytváří model vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná) závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro vysvětlení variability hodnocené proměnné Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy korelační analýzy - I. Korelace - vztah (závislost) dvou znaků (parametrů) Y2 X1 Y2 X1 Y2 X1 ANO NE ANO a b NE c d X1 X2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy korelační analýzy - II. Parametrické míry korelace Kovariance Pearsonův koeficient korelace)).((),( yyxxEyxCov ii  0 0 0 -- x -- y Y2 X1 r = 1 r = -1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy korelační analýzy - III. PI (zem) 10 14 15 32 40 20 16 50 PI (rostl.) 19 22 26 41 35 32 25 40 6;8;,.....,1  vnnI     7176,0 11 1 . ),( 2222                   iiii iiii yx y n yx n x yx n yx SS yxCov r I. 05,0::0  H   7076,06 vr:tab II.  :0H 2 1 2         n r r t 2 nv 0,05P         447,2 524,26 6965,0 7176,0 )2( 975,0 n t t :tab Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy korelační analýzy - IV. Srovnání dvou korelačních koeficientů (r) 1. 2. 682,0 1258 1 1   r n 402,0 462 2 2   r n Krevní tlak x koncentrace kysl. radikálů    i i i r r Z    1 1 log1513.1 833,01 Z 426,02 Z 05,0: 210   ;H:Test 461,7 0545,0 407,0 3 1 3 1 21 21       nn ZZ Z 96,1975,0 Z:tabulky 7,461 >> 1,96 => P << 0,01 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy korelační analýzy - V. Neparametrická korelace (rs) PI v půdě 1 2 3 6 7 5 4 8 PI v rostl. 1 2 4 8 6 5 3 7 dI 0 0 1 2 -1 0 -1 -1 i = 1, ….. n; n = 8 => v = 6   9048,0 1 6 1 2 2      nn di rs   89,06 vrs:tab   857,0 1497 86 1    sr P = 0,358 Pacient č. 1 2 3 4 5 6 7 Lékař 1 4 1 6 5 3 2 7 Lékař 2 4 2 5 6 1 3 7 dI 0 -1 1 -1 2 -1 0 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Korelace v grafech I. Y X Y X Vztahy velmi často implikují funkční vztah mezi Y a X. Y = a + b . X Y = a + b1 . X1 + b2 . X2 + b3 . X3 Y = a + b1 . X1 + b2 . X2 Y = a + b1 . X1 + b2 . X2 + b3 . X1 . X2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Korelace v grafech II. Problém rozložení hodnot Problém typu modelu X Y X r = 0,981 (p < 0,001) r = 0,761 (p < 0,032) Y Problém velikosti vzorku Y X Y X r = 0,891 (p < 0,214) r = 0,212 (p < 0,008)