Lineární modely – základy Jiří Jarkovský, Simona Littnerová Stochastické modelování obecně ‐ ANOVA Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody ANOVA  • Analýza rozptylu je základním nástrojem pro analýzu rozdílů mezi průměry v  několika skupinách pacientů. • Základní myšlenka, na níž je ANOVA založena, je rozdělení celkové variability v  datech (neznámé, dané pouze náhodným rozložením) na část systematickou  (spjatou s kategoriemi pacientů, vysvětlená variabilita) a část náhodnou. Pokud  systematická, tedy nenáhodná a vysvětlitelná část variability převažuje,  považujeme daný kategoriální faktor za významný pro vysvětlení variability dat. • Analýza rozptylu vyhodnocuje pouze celkový vliv faktoru na variabilitu, v případě  analýzy jednotlivých kategorií je třeba využít tzv. post‐hoc testy 3 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Cíl stochastického modelování • Obecným cílem je snaha vysvětlit  variabilitu predikované  proměnné (endpoint, Y) pomocí  prediktorů (vysvětlující  proměnná, faktor, X) • Jak predikovaná proměnná, tak  prediktor mohou být různého  typu – Binární  – Kategoriální – Ordinální – Spojitá – Cenzorovaná (‐> analýza přežití) • Kombinace datového typu  predikované proměnné a  prediktoru určuje použitou  metodu analýzy 4 4 4 .5 5 5 .5 6 6 .5 7 7 .5 8 8 .5 Proč variabilita ? 4 4 .5 5 5 .5 6 6 .5 7 7 .5 8 8 .5 Vysvětluje kategoriální  prediktor? 0 0 .2 0 .4 0 .6 0 .8 1 1 .2 1 .4 1 .6 1 .8 2 2 .2 2 .4 2 .6 4 4 .5 5 5 .5 6 6 .5 7 7 .5 8 8 .5 Vysvětluje spojitý  prediktor? Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody ANOVA – předpoklady  • Symetrické rozložení hodnot a normalita odchylek od hodnoceného modelu ANOVA.  Velkou část dat lze adekvátně normalizovat použitím logaritmické transformace.  Předpoklad lognormální transformace může pochopitelně být teoreticky vyloučen u  mnoha datových souborů obsahujících diskrétní parametry, kde je indikována vhodnost  jiného typu transformace. U asymetricky  rozložených a u diskrétních dat je nutné využít  neparametrické alternativy analýzy rozptylu. • Homogenita rozptylu je nutným předpokladem pro smysluplnost vzájemných srovnání  pokusných variant. U testů toxicity by splnění tohoto předpokladu mělo být ověřováno  (Bartlettův test), neboť vážné rozdíly (až řádové) v jednotkách testovaného parametru  mohou nastat v důsledku inhibice dávkami látky. Nehomogenita rozptylu je často ve  vztahu k nenormalitě (asymetrii) dat a lze ji odstranit vhodnou normalizující  transformací.  • Statistická nezávislost reziduí vyhodnocovaného modelu ANOVA. Pokud odhad a  posouzení korelačních vztahů mezi pokusnými variantami není přímo předmětem  výzkumu, lze jejich vliv na vyhodnocení odstranit znáhodněním dat v rámci pokusných  variant ‐ tedy změnou pořadí v náhodné. Rozsah vlivu těchto autokorelačních vztahů  musí být ovšem primárně omezen správností experimentálního uspořádání. • Aditivita jako předpoklad týkající se složitějších experimentálních uspořádání. Exaktní  otestování aditivity více pokusných faktorů je procedura poměrně náročná na  experimentální design vyvážený co do počtu opakování. Je rovněž obtížné testovat  interakci na nestandardních datech, neboť případná transformace může změnit  charakter odchylek původních dat od hodnoceného modelu ANOVA. 5 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Princip ANOVA • Základním principem ANOVY je porovnání rozptylu připadajícího na: – Rozdělení dat do skupin (tzv. effect, variance between groups) – Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o  náhodnou variabilitu (=error) 6 11  k kn 2 groupswithin groupsbetween F _ _  Výsledný poměr  (F) porovnáme s  tabulkami F  rozložení pro v1 a  v2 stupňů volnosti SS=sum of squares 1. Variabilita mezi skupinami Rozptyl je počítán pro celkový průměr (tzv.  grand mean) a průměry v  jednotlivých skupinách dat Stupně volnosti jsou odvozeny od počtu  skupin (= počet skupin ‐1) 2. Variabilita uvnitř skupin Rozptyl je počítán pro průměry  jednotlivých skupin a objekty  uvnitř příslušných, celková  variabilita je pak sečtena pro  všechny skupiny Stupně volnosti jsou odvozeny od počtu  hodnot (= počet hodnot ‐ počet  skupin) Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Jednoduchý ANOVA design • Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle jednoho  parametru 7 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Nested ANOVA • Rozdělení skupin na náhodné podskupiny (např. opakování experimentu) • Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou • Nejprve je testována shoda podskupin v hlavních skupinách,  – pokud jsou shodné, je vše v pořádku – pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin liší od celkové  variability 8 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Two way ANOVA • Pro rozdělení do kategorií je zde více parametrů • Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o řízené  zásahy (např.vliv pH a koncentrace O2) • Kromě vlivu hlavních faktorů se uplatňuje i jejich interakce 9 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody ANOVA – základní výstup • Základním výstupem analýzy rozptylu je Tabulka ANOVA ‐ frakcionace komponent  rozptylu  10 Zdroj rozptylu Pok. zásah (mezi skupinami) Uvnitř skupin Celkem SSB/SST MSB/MST St. v. a -1 SSB SSB/(a -1) MSB/MSE N - a SSE SSE/(N - a) N -1 SST SS MS F Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na celkovém rozptylu Statistická významnost rozdílu Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody A B Faktor 1 8 10 12 14 16 18 20 22 24 A B Faktor 1 8 10 12 14 16 18 20 A B Faktor 1 8 9 10 11 12 13 14 15 16 17 18 Hlavní efekty a interakce 11 A B Faktor 1 8 9 10 11 12 13 14 15 16 17 18 Faktor 2 I Faktor 2 II SS D.f. MS F p Intercept 33487 1 33487 8165.3 0.000 Faktor 1 1978 1 1978 482.2 0.000 Faktor 2 1 1 1 0.3 0.602 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 A B Faktor 1 8 9 10 11 12 13 14 15 16 17 18 SS D.f. MS F p Intercept 33487 1 33487 8165.3 0.000 Faktor 1 4 1 4 1.0 0.314 Faktor 2 1891 1 1891 461.1 0.000 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 A B Faktor 1 8 10 12 14 16 18 20 22 24 26 SS D.f. MS F p Intercept 57391 1 57391 13993 0.000 Faktor 1 5293 1 5293 1290.7 0.000 Faktor 2 861 1 861 209.9 0.000 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 SS D.f. MS F p Intercept 28511 1 28511 6952.0 0.000 Faktor 1 4 1 4 1.0 0.314 Faktor 2 1 1 1 0.3 0.602 F1*F2 867 1 867 211.3 0.000 Error 804 196 4 SS D.f. MS F p Intercept 38863 1 38863 9476.2 0.000 Faktor 1 920 1 920 224.3 0.000 Faktor 2 1 1 1 0.3 0.602 F1*F2 867 1 867 211.3 0.000 Error 804 196 4 SS D.f. MS F p Intercept 45203 1 45203 13596 0.000 Faktor 1 4799 1 4799 1443.4 0.000 Faktor 2 316 1 316 95.0 0.000 F1*F2 175 1 175 52.5 0.000 Error 652 196 3 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Testování dílčích hypotéz • V řadě analýz je třeba pracovat se vzájemným testováním více skupin objektů stylem každý s  každým • Obecný postup analýzy je – Testování celkové významnosti – všechny skupiny navzájem (ENG: among groups) – Pokud je zjištěna celková významnost pokračuje testování analýzou již konkrétních kombinací dvojic  skupin (ENG: between) • Problémem je vliv mnohonásobného testování na statistickou významnost testů: – Každý jeden test má =0.05 (chyba I. druhu) – Při mnohonásobném testování stoupá pravděpodobnost, že alespoň u jednoho testu dojde k  chybnému zamítnutí nulové hypotézy (tedy k chybě I. druhu) 12 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 p alespoň jedné chyby I. druhu Počet testů Řešením jsou různé  procedury korigující hodnotu  p (např. Bonferroniho  korekce, FWR, FDR  procedury apod.) Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Řada různých post‐hoc testů 13 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Příklad: Anova ‐ One way Dávka rostlinného stimulátoru  (0, 4, 8, 12  mg/l) A = 4 ; n = 8 I.      ANOVA Bartlett's test:        P = 0,9847 K‐S test:                P = 0,482 ‐ 0,6525  pro jednotlivé kategorie II.     Multiple Range Test (NKS –test) 14 Source D.f. SS MS F p Between 3 305.8 101.9 8.56 <0.001 Within 28 322.2 11.9 Total 31 638 Level Average Homogeneous groups 0 34.8 x 4 41.4 x 12 41.8 x 8 52.6 x Stochastické modelování obecně – Lineární  regrese Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Lineární regrese • Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých  proměnných. Obdobně jako jiné statistické metody, i korelace mohou být  parametrické nebo neparametrické  • Regresní analýza vytváří model vztahu dvou nebo více proměnných, tedy jakým  způsobem jedna proměnná (vysvětlovaná) závisí na jiných proměnných  (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro vysvětlení  variability hodnocené proměnné 16 Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Cíl stochastického modelování • Obecným cílem je snaha vysvětlit  variabilitu predikované  proměnné (endpoint, Y) pomocí  prediktorů (vysvětlující  proměnná, faktor, X) • Jak predikovaná proměnná, tak  prediktor mohou být různého  typu – Binární  – Kategoriální – Ordinální – Spojitá – Cenzorovaná (‐> analýza přežití) • Kombinace datového typu  predikované proměnné a  prediktoru určuje použitou  metodu analýzy 17 4 4 .5 5 5 .5 6 6 .5 7 7 .5 8 8 .5 Proč variabilita ? 4 4 .5 5 5 .5 6 6 .5 7 7 .5 8 8 .5 Vysvětluje kategoriální  prediktor? 0 0 .2 0 .4 0 .6 0 .8 1 1 .2 1 .4 1 .6 1 .8 2 2 .2 2 .4 2 .6 4 4 .5 5 5 .5 6 6 .5 7 7 .5 8 8 .5 Vysvětluje spojitý  prediktor? Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Základy regresní analýzy • Regrese ‐ funkční vztah dvou nebo více proměnných 18 Jednorozměrná y = f(x) Vícerozměrná y = f(x1, x2, x3, ……xp) Vztah x, y Deterministický Regresní, stochastický Y X Y X Y X Pro každé x existuje pravděpodobnostní rozložení y Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Lineární regrese I 19   XexbaY y xbyaa  :)(intercept slope)(sklon;xbX     xNe ye 22 ;0;0   :složkanáhodná} Komponenty  tvořící y se  sčítají  - náhodná složka modelu přímky = rezidua přímky   reziduírozptyl 22 xye  Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Lineární regrese II 20 y 1 n x y1 n 1 n = a + b . x y - y = e Y X Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Lineární regrese III 21 x x y y y y e e = 0 2 ys 2 es Y X y b = 0 22 ey ss  Y X y b > 0 22 ey ss  Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Lineární regrese III • Metoda nejmenších čtverců – X: Pevná, nestochastická proměnná – Rozložení hodnot y pro každé x je normální – Rozložení hodnot y pro každé x má stejný rozptyl – Rezidua jsou navzájem nezávislá a mají normální rozložení 22 yyd xy    XXbyy i   XXbyyd ixy  Smysl proložení přímky minimalizace odchylek     XXyd ixy  2 Y X Y+ [X;Y] X Xi }Y }  XXb i   XXb i   XXb i  {xy d  xy d  xy d  Y Y Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Lineární regrese IV 23 I.          2 ~ XX YYXX bb i ii :   2 2 22 1 :~ xy i b S XX S    regressionfromdeviationstandardsample regressionfromdeviationsquaredmean     xy xy S S 2   22 22 2 2 2 2           n XXb n Y Y n d S i i i xy xy II. XbYaa :~  intercept 2 2 2 222 1 ~ xya S X X n SS            III. Y : modelová hodnota ii XbaY           2 2 1 X XX n SS i xyyi  Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Lineární regrese: analýza reziduí 24  0 0 ! y (i; x) 0  0 y (i; x)  0 y (i; x) ! Grafy residuí modelů (příklady) Obecné tvary residuí modelů (schéma) e i, xj, y e i, xj, y a b e i, xj, y e i, xj, y c dd Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Analýza rozptylu v regresi • Výpočet statistické významnosti rozptylu vyčerpaného regresním modelem 25 Celková ANOVA SSB/SST (variance ratio) MSB/MSE = F Analýza rozptylu regresního modelu (zde přímky) (SSMOD/SST) . 100 = % rozptylu Y "vyčerpaného" přímkou = koeficient determinace (R2) Zdroj  rozptylu st.v. SS MS F Model  (přímka) 1 SSMOD MSMOD MSMOD /  MSR Residuum na ‐ 2 SSR MSR celkem na ‐ 1 SST Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Kroky regresní analýzy • Regresní analýza (a obecně i jiné stochastické modely) by měla probíhat v  následujících krocích 1. Ověření obecných předpokladů – normalita dat, linearita vztahu 2. Výpočet modelu 3. Analýza reziduí modelu umožňující ověřit vhodnost aplikace lineárního nebo jiného  modelu 4. Analýza vyčepané variability testující, zda model variabilitu dat významně vysvětluje 5. Testování regresních koeficientů  1. Posouzení významnosti komponent modelu 2. Praktická smysluplnost modelu 6. Závěr o využitelnosti a smysluplnosti modelu  26