Přednáška IX. Analýza rozptylu (ANOVA) Princip a metodika výpočtu Předpoklady analýzy rozptylu a jejich ověření Rozbor rozdílů jednotlivých skupin – násobné testování hypotéz Analýza rozptylu jako lineární model Tomáš Pavlík Biostatistika Opakování – parametrické a neparametrické testy Jmenujte příklad parametrického a neparametrického testu. Znáte jejich předpoklady? 1. Motivace Tomáš Pavlík Biostatistika Příklad – CHOPN Sledujeme plicní funkce u pacientů s chronickou obstrukční plicní nemocí  (CHOPN) ve stadiu II, III a IV. Zajímá nás, jestli se u pacientů v jednotlivých  stadiích liší maximální inspirační tlak (PImax). Tomáš Pavlík Biostatistika Příklad – CHOPN Jak můžeme pro CHOPN stadia II, III a IV ověřit rozdíl (resp. rovnost) v  maximálním inspiračním tlaku (PImax)? A. Můžeme použít vhodný test pro dva výběry (např. t‐test) a otestovat, jak  se liší stadium II od III, II od IV a III od IV – tedy provést 3 testy. B. Musíme použít vhodný test pro více než dvě srovnávané skupiny. V čem je zásadní rozdíl mezi A a B? Tomáš Pavlík Biostatistika Problém násobného testování hypotéz Problém s možností A je v násobném testování hypotéz – pro připomenutí:  S narůstajícím počtem testovaných hypotéz nám roste také pravděpodobnost  získání falešně pozitivního výsledku, tedy pravděpodobnost toho, že se při  našem testování zmýlíme a ukážeme na statisticky významný rozdíl tam, kde ve  skutečnosti žádný neexistuje (chyba I. druhu). Máme tři testy, v každém 95% pravděpodobnost, že neuděláme chybu I. druhu. Pro všechny tři testy to tedy znamená: 0,95 × 0,95 × 0,95 = 0,857. Pravděpodobnost, že neuděláme chybu I. druhu nám celkově klesla na 0,857. Pravděpodobnost, že uděláme chybu I. druhu nám celkově stoupla na 0,143. Tomáš Pavlík Biostatistika Analýza rozptylu Lepší volbou je: B.   Musíme použít vhodný test pro více než dvě srovnávané skupiny. Analýza rozptylu (ANOVA  = „ANalysis Of VAriance“) je statistickou  metodou, která umožňuje testovat rozdíl v průměrech více než dvou  skupin. Přitom se jedná o jeden test. Více než dvě skupiny mohou být dány přirozeně (např. sledujeme rozdíl  mezi věkovými kategoriemi) nebo uměle (např. sledujeme rozdíl v účinnosti  několika typů léčby). 2. Princip výpočtu Tomáš Pavlík Biostatistika Náhodné výběry a hypotéza Máme k nezávislých realizací náhodného výběru rozsahu: n1, n2, … , nk. Předpoklady: Hypotézy: kH   210 : ostatníchododlišnéjejednonejméně: i1 H ),(~ 2 11 NY j ),(~ 2 22 NY j ),(~ 2 kkj NY … Normalita hodnot všech k výběrů Homogenita rozptylů všech k výběrů Tomáš Pavlík Biostatistika Příklady – hypotézy 1. Liší se účinnost dvou různých dávek léčiva XYZ od placeba? Střední hodnota účinnosti placeba, XYZ v dávce 1 a XYZ v dávce 2: 2. Liší se AML, ALL, CML a CLL v aktivitě vybraných genů? Střední hodnota exprese genu g u AML, ALL, CML, CLL: g CLL g CML g ALL g AML  ,,, g CLL g CML g ALL g AMLH  :0 ostatníchododlišnéjejednonejméně:1 g H  21 ,, XYZXYZP  ostatníchododlišnéjejednonejméně:1 H 21 :0 XYZXYZPH   Tomáš Pavlík Biostatistika Pozorované hodnoty Výběr 1 … Výběr 2 Výběr 3 Výběr k Všechny výběry 2 1 1 1 s y n 2 2 2 2 s y n 2 3 3 3 s y n 2 k k k s y n 2 s y n Výběrový průměr Rozsah výběru Výběrový rozptyl Skupinový průměr („population mean“) Celkový průměr („grand mean“) Tomáš Pavlík Biostatistika Příklad – CHOPN kPa5,3 kPa9,8 9 1 1 1    s y n kPa9,2 kPa6,6 12 2 2 2    s y n kPa5,2 kPa4,5 27 3 3 3    s y n Stadium III IVII Celkový průměr („grand mean“) kPa0,3 kPa4,6 48    s y n Tomáš Pavlík Biostatistika Značení Součty: Průměry: Celková variabilita v souboru: Variabilita v rámci skupin (reziduální součet čtverců): Variabilita mezi skupinami (příslušná sledovanému vlivu = proměnné):     k i n j iije i yYS 1 1 2 )(    k i iiA yynS 1 2 )(    in j iji YY 1     k i n j ij i YY 1 1 iii nYy /  nYy /  Skupinový průměr („population mean“) Celkový průměr („grand mean“)     k i n j ijT i yYS 1 1 2 )( Stupně volnosti: 1 ndfT Stupně volnosti: kndfe  Stupně volnosti: 1 kdfA Tomáš Pavlík Biostatistika Vztahy mezi odhady variability Platí: Dále se dá ukázat, že platí: Tedy platí, že celková variabilita se dá  rozložit na variabilitu v rámci skupin a  variabilitu mezi skupinami: )()(   yyyYyY iiijij Stadium III IVII AeT SSS               k i ii k i n j iij k i n j ij yynyY yY i i 1 2 1 1 2 1 1 2 )()( )( Tomáš Pavlík Biostatistika Umělý příklad Léčba Pozorovaná  hodnota Skupinový  průměr Skupinový průměr  – celkový průměr Pozorovaná hodnota  – skupinový průměr Pozorovaná hodnota  – celkový průměr 1 10 12 ‐4 ‐2 ‐6 1 12 12 ‐4 0 ‐4 1 14 12 ‐4 2 ‐2 2 19 20 4 ‐1 3 2 20 20 4 0 4 2 21 20 4 1 5 3 14 16 0 ‐2 ‐2 3 16 16 0 0 0 3 18 16 0 2 2 Celkový průměr = 16 Součet čtverců = 96 Součet čtverců = 18 Součet čtverců = 114 Stupně volnosti = 2 Stupně volnosti = 6 Stupně volnosti = 8 Tomáš Pavlík Biostatistika Jak testuje t‐test pro dva výběry? Nulová hypotéza: Testová statistika: 210 :  H )2(~ 2111 * 21     nnt s YX T nn Rozdíl (variabilita) mezi výběry Variabilita uvnitř výběrů T Rozdíl (variabilita) mezi výběry Variabilita uvnitř výběrů Tomáš Pavlík Biostatistika Princip analýzy rozptylu Princip analýzy rozptylu je stejný, tedy ANOVA srovnává pozorovanou  variabilitu mezi výběry s pozorovanou variabilitou uvnitř výběrů. Na rozdíl  od t‐testu však pracuje s výběrovými rozptyly. Testová statistika analýzy rozptylu: F Odhad rozptylu založený na výběrových průměrech Odhad rozptylu založený pozorovaných hodnotách ee AA k i n j iij k i ii dfS dfS kn yY k yyn F i / / )( 1 )( 1 1 2 1 2               Za platnosti H0 platí: ),1(~ knkFF  Tomáš Pavlík Biostatistika Výsledek dle platnosti nulové hypotézy Za předpokladu rovnosti rozptylů jednotlivých výběrů představuje člen ve  jmenovateli statistiky F výběrový odhad σ2. Za platnosti H0 představuje i člen v čitateli statistiky F výběrový odhad σ2. Platí‐li nulová hypotéza, čitatel statistiky F (počítaný na základě výběrových  průměrů) bude zhruba stejný jako její jmenovatel (počítaný na základě  pozorovaných hodnot). Neplatí‐li nulová hypotéza, čitatel statistiky F bude větší než jmenovatel. Samotné rozhodnutí o platnosti H0 je tak založeno na srovnání průměrných  čtverců a .AA dfS / ee dfS / Tomáš Pavlík Biostatistika Výsledek analýzy rozptylu Výsledné počty se standardně zaznamenávají do tzv. tabulky analýzy  rozptylu: Nulovou hypotézu zamítneme/nezamítneme buď na základě srovnání  výsledné p‐hodnoty se zvolenou hladinou významnosti testu α, nebo  srovnáním výsledné F statistiky s kritickou hodnotou (kvantilem) rozdělení  F(k – 1, n – k) příslušnou zvolené hladině významnosti testu α. Variabilita Součet  čtverců Počet stupňů volnosti Průměrný  čtverec F statistika p‐hodnota Mezi skupinami SA = 96 dfA = k – 1 = 2 MSA = 48 F = 16 0,004 Uvnitř skupin Se = 18 dfe = n – k = 6 MSe = 3 Celkem ST = 114 dfT = n – 1 = 8 Tomáš Pavlík Biostatistika Výsledek umělého příkladu 16F14,5)6,2( 95,0 ),1( 1   FF knk  ),1( knkFf  Na hladině významnosti  α =0,05 zamítáme H0 o  rovnosti středních  hodnot. 3. Předpoklady analýzy rozptylu a  jejich ověření Tomáš Pavlík Biostatistika Předpoklady analýzy rozptylu Nezávislost jednotlivých pozorování – sice téměř automatický předpoklad,  nicméně je třeba se nad ním alespoň zamyslet. Normalita pozorovaných hodnot obou náhodných výběrů – velmi silný  předpoklad. Nutno otestovat nebo alespoň graficky ověřit (histogram, box  plot). Stejný rozptyl náhodné veličiny v obou srovnávaných skupinách – také  silný předpoklad. Opět nutno otestovat nebo alespoň graficky ověřit  (histogram, box plot). Tomáš Pavlík Biostatistika Testování shody rozptylů Grafické ověření – histogram, box plot. Levenův test – často  používaný, nevyžaduje  předpoklad normality  původních hodnot. Bartlettův test – velkou  nevýhodou je předpoklad  normality původních  hodnot. Tomáš Pavlík Biostatistika Levenův test Jeho výhoda je, že nevyžaduje předpoklad normality původních hodnot. Jedná se o analýzu rozptylu na hodnotách Označme a Testová statistika:  Používá se také jeho robustní varianta s použitím absolutních odchylek od  mediánu místo od průměru: ||  iijij yYZ kn zZ k zzn W k i n j iij k i ii i              1 1 2 1 2 )( 1 )( Při rovnosti rozptylů opět platí: ),1(~ knkFF     i i n j ijni Zz 1 1     k i n j ij i Zz 1 1 |~|  iijij yYZ Tomáš Pavlík Biostatistika Příklad – Levenův test u CHOPN dat Sledujeme plicní funkce u pacientů s chronickou obstrukční plicní nemocí  (CHOPN) ve stadiu II, III a IV. Levenův test probíhá stejně jako jednoduchá ANOVA – opět srovnáváme  průměrné čtverce – reziduální a příslušné sledovaným faktorům. Na hladině významnosti α =0,05 nezamítáme H0 o rovnosti rozptylů. Variabilita Součet  čtverců Počet stupňů volnosti Průměrný  čtverec F statistika p‐hodnota Mezi skupinami SA = 5,30 dfA = k – 1 = 2 MSA = 2,65 F = 1,13 0,331 Uvnitř skupin Se = 105,35 dfe = n – k = 45 MSe = 2,34 Celkem ST = 110,65 dfT = n – 1 = 47 Tomáš Pavlík Biostatistika Hodnocení normality dat Hodnocení normality je klíčovým postupem v biostatistice. Testy nejsou  vždy nejlepším nástrojem! Vždy je důležité se podívat i očima! Zamítnutí normality rozdělení neznamená jenom výběr příslušného testu,  ALE může indikovat odlehlé a nelogické hodnoty v souboru dat.  Pokud o sledované veličině prokazatelně víme, že v cílové populaci nabývá  normální rozdělení (např. výška lidské postavy), ale v daném souboru  normální rozdělení nepotvrdíme, pak s naším náhodným výběrem není  něco v pořádku – např. není reprezentativní. Tomáš Pavlík Biostatistika Grafické metody – box plot a histogram Normální  rozdělení Log‐normální  rozdělení Tomáš Pavlík Biostatistika Grafické metody – box plot a histogram Normální  rozdělení  s odlehlými  hodnotami Rovnoměrně  spojité  rozdělení Tomáš Pavlík Biostatistika Grafické metody – Q‐Q plot Q‐Q plot proti sobě zobrazuje kvantily pozorovaných hodnot a kvantily  teoretického rozdělení pravděpodobnosti (zde normálního rozdělení). V případě shody leží všechny body na přímce. Normální rozdělení: Tomáš Pavlík Biostatistika Grafické metody – Q‐Q plot 1. Log‐normální rozdělení: 2. Normální rozdělení s odlehlými hodnotami: 3. Rovnoměrně spojité rozdělení 1. 2. 3. Tomáš Pavlík Biostatistika Testy pro ověření normality dat Shapirův‐Wilkův test – v podstatě se jedná o proložení seřazených hodnot  regresní přímkou vzhledem k očekávaným hodnotám normálního rozdělení.  Má tedy přímý vztah k Q‐Q plotu – vyhodnocuje, jak moc se Q‐Q plot liší od  ideální přímky. Doporučován pro menší vzorky, může být „moc“ přísný pro  velké vzorky. Kolmogorovův‐Smirnovovův test – založen na srovnání výběrové distribuční  funkce s teoretickou distribuční funkcí odpovídající normálnímu rozdělení. K‐S  test hodnotí maximální vzdálenost mezi těmito dvěma distribučními funkcemi.  V praxi se používá korekce dle Lillieforse. Tomáš Pavlík Biostatistika Příklad – Shapirův‐Wilkův test u CHOPN dat Sledujeme plicní funkce u pacientů s chronickou obstrukční plicní nemocí  (CHOPN) ve stadiu II, III a IV. Test pro všechna stadia: p = 0,073  (to nás nezajímá) Stadium II:  p = 0,090 Stadium III: p = 0,247 Stadium IV: p = 0,815 H0 o normalitě dat nezamítáme  na hladině α =0,05. n = 9 n = 12 n = 27 Tomáš Pavlík Biostatistika Příklad – Shapirův‐Wilkův test u CHOPN dat Srovnáme výsledky S‐W testu s Q‐Q ploty pro jednotlivé kategorie. Vzhledem k malým velikostem souborů lze odchylky od normality dat tolerovat. Stadium II (n = 9) p = 0,090  Stadium III (n = 12) p = 0,247  Stadium IV (n = 27) p = 0,815  Tomáš Pavlík Biostatistika Příklad – analýza rozptylu u CHOPN dat Liší se pacienti s CHOPN (stadium II, III, IV) v maximálním inspiračním tlaku (PImax)? Máme ověřenu homogenitu rozptylů i přibližnou normalitu dat → ANOVA. Kritická hodnota pro α =0,05 F(k – 1, n – k) = 3,20. Na hladině významnosti α =0,05 zamítáme H0 o rovnosti středních hodnot. Variabilita Součet  čtverců Počet stupňů volnosti Průměrný  čtverec F statistika p‐hodnota Mezi skupinami SA = 80,54 dfA = k – 1 = 2 MSA = 40,27 F = 5,10 0,010 Uvnitř skupin Se = 355,50 dfe = n – k = 45 MSe = 7,90 Celkem ST = 436,04 dfT = n – 1 = 47 Tomáš Pavlík Biostatistika Co dělat, když nejsou splněny předpoklady? Máme dvě možnosti: 1. Zkusit data transformovat – např. logaritmická transformace by měla  pomoci s normalizací rozdělení a stabilizací rozptylu u log‐normálních dat. 2. Použít neparametrické testy – např. Kruskalův‐Wallisův test nevyžaduje  předpoklad normality, pracuje stejně jako neparametrický Mannův‐ Whitneyův test. Tomáš Pavlík Biostatistika Kruskalův – Wallisův test Jedná se o zobecnění neparametrického Mannova – Whitneyho testu. Netestuje shodu parametrů, ale stejné distribuční funkce srovnávaných  souborů (klíčový je zde předpoklad nezávislosti pozorovaných dat). Pro výpočet opět seřadíme všechna pozorování podle velikosti (jako by byly  z jednoho vzorku) a přiřadíme jednotlivým hodnotám jejich pořadí. Pointa Kruskalova – Wallisova testu: za platnosti H0 jsou spojená data  dobře promíchaná a průměrná pořadí v jednotlivých souborech jsou  podobná. ...)()()(:0  zFyFxFH Tomáš Pavlík Biostatistika Kruskalův – Wallisův test Označme Ti součet pořadí v i‐té skupině:  Počet skupin: k, Celkem pozorování: n = n1 + n2 + … + nk. Testová statistika: Nulovou hypotézu H0 zamítáme na hladině významnosti, když je testová  statistika větší nebo rovna kritické hodnotě chí‐kvadrát rozdělení: Pro malé velikosti souboru je třeba srovnat statistiku Q s tabulkami pro  Kruskalův‐Wallisův test. )1(3 )1( 12 1 2     n n T nn Q k i i i   in j iji RT 1 )(2 1   kQ 4. Násobné testování podskupin Tomáš Pavlík Biostatistika Korekce na násobné srovnání výběrů Zamítneme‐li analýzou rozptylu nulovou hypotézu o celkové rovnosti  středních hodnot, má smysl se ptát, jaké skupiny se od sebe nejvíce liší. Toto srovnání lze provést pomocí testů pro dva výběry, ale je nutné korigovat  výslednou hladinu významnosti testu, abychom se vyhnuli chybě I. druhu. Nejjednodušší metoda: Bonferroniho procedura ‐ korekce hladiny  významnosti: α* = α/m, kde m je počet provedených testů. Ekvivalentně lze  vynásobit p‐hodnotu počtem provedených testů. Nevýhodou je, že je  konzervativní pro velké m, tedy počet provedených testů. Pro analýzu rozptylu: Tukeyho a Scheffého post hoc testy. Pro neparametrický K‐W test: metoda dle Steela a Dwasse. Tomáš Pavlík Biostatistika Příklad – korekce u CHOPN dat ANOVA na hladině významnosti α =0,05 zamítla H0 o rovnosti středních hodnot  PImax. Jaké skupiny se od sebe nejvíce liší? Bonferroniho procedura Tukeyho post hoc test Scheffého post hoc test Zde nám všechny tři analýzy vyšly stejně, ale obecně to neplatí! Stadium III IV II 0,398 0,009 III ‐ 0,571 Stadium III IV II 0,186 0,008 III ‐ 0,433 Stadium III IV II 0,214 0,011 III ‐ 0,466 Tomáš Pavlík Biostatistika Poděkování… Rozvoj studijního oboru „Matematická biologie“ PřF MU  Brno je finančně podporován prostředky projektu ESF č.  CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia  Matematické biologie“ a státním rozpočtem České republiky