Pokročilé metody analýzy dat v neurovědách IBA # RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2016 Blok 2 Vícerozměrné statistické testy a rozložení Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 2 Osnova i- 1. Vícerozměrné charakteristiky 2. Vícerozměrné normální rozdělení 3. Vícerozměrný t-test 4. Vícerozměrná analýza rozptylu 5. Transformace a jiné úpravy vícerozměrných dat Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^JJ Vícerozměrné charakteristiky Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrná data PROMĚNNÉ I- CQ I- CQ O ID Pohlaví Věk Váha MMSE skóre Objem hipokampu 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 3 4 Poznámka: proměnné označovány i jako znaky, pozorování, diskriminátory, příznakové proměnné či příznaky Anglicky označení pouze jedním termínem: feature MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^ Maticový zápis datového souboru PROMĚNNÉ CQ CQ ID Pohlaví Věk Váha MMSE skóre Objem hipokampu 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 x = xn xu x2i x22 X X 2p X np maticový zápis datového souboru n objektů (subjektů), které jsou popsané p proměnnými jeden prvek matice je hodnotay-té proměnné u /-tého objektu (subjektu), přičemž j = 1,p a / = 1,n Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA Vícerozměrný průměr a kovarianční matice vícerozměrný průměr (např. pro datový soubor se 2 proměnnými) x = - > xLl - ) X 1 v^n Í2 výběrová kovarianční matice (např. pro datový soubor se 2 proměnnými) Janoušová, Dušek: PokíiediláwétAd^ l^J Vícerozměrný průměr a kovarianční matice ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 o 13 12 t3 11 >- _§ 10 M O cu 8 O v 1 Vícerozměrný průměr: X=iňZŕ=1Xŕl ňZr=H = L3(2 + 4 + 3) 3(12 + 10 + 8) 2 3 4 Objem hipokampu = [3 10] Kovarianční matice: S = L11 0121, kde: Ls21 S22J S11 = ^Zr=i(xii - xi)2 = ^((2 - 3)2 + (4 - 3)2 + (3 - 3)2) = f (1 + 1 + 0) = 1 S22 = ^Ef=i(xi2 - x2)2 = ^ ((12 - 10)2 + (10 - 10)2 + (8 - 10)2) = 4 s21 — s12 — '^~[Yi'=l(xil — Xi)(Xi2 — X2) = -^-((2 - 3)(12 - 10) + (4 - 3)(10 - 10) + (3 - 3)(8 - 10)) = 3 1 = -1 IMJ 8 Vícerozměrné normální rozdělení Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 9 Motivace Dvourozměrný Hustota dvourozměrného histogram normálního rozdělení Vícerozměrné normální rozdělení Hustota jednozměrného normálního rozdělení: f 00 = , ^ _ ■ exp |i - střední hodnota 2a2 o2 - rozptyl Hustota vícerozměrného normálního rozdělení: f(xlf...,xk) = 1 ■exp(-^(x-^)7E"1(x-\i) V(27r)fc|E| V 2 H - vektor středních hodnot E - kovarianční matice Hustota dvourozměrného normálního rozdělení: 1 1 2(1 (x-//x)2 (y-fiy)2 2p{x - iix){y - fi„)' + p - korelace mezi X a Y; a - směrodatná odchylka Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 10 11 12 13 14 15 + Vícerozměrný outlier Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 14 Ověření dvourozměrné normality Bagplot = „bivariate boxplot" (tzn. „dvourozměrný krabicový graf") "i v- 120 110 100 £0 SO 70 60 50 * * O * Iť o o ( 3 £3*\ 3 * □ o o( 3 O ^ O , 3 #8 o Jo r o >i_|l _ lij O O00/0 * 1 f □ □ * * . . . . .... . . . . . . . . .... . . . . 150 155 160 165 170 175 180 185 190 195 200 vyska o vsha ■ Median * Outliers v softwaru Statistical Graphs - 2D Graphs - Bag Plots Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 15 Ověření dvourozměrné normality Vykreslení regulační elipsy („control" elipse): 120 110 100 SO 60 70 60 50 30 140 150 -.-.-.-.- I-.-.-.-.- -.-.-.-.-1 -.-.-.-.-1 -.-.-.-.- —.—.—.—.— □ O o \ i ° 3 ° 1 o o s ° □ ( o c ) □ o o y / ° ( 1 o o o ° í ° fl° D C C C i °B° o °e e / o / ° □ □ □ □ 160 170 výska 180 190 200 v softwaru Statistica: Graphs - Scatterplots - na záložce Advanced zvolit Elipse Normál MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 16 Vícerozměrný t-test Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA ^ ^ Jednorozměrný dvouvýběrový t-test Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé - mezi objekty neexistuje vazba. Příklady: srovnání objem hipokampu u mužů a u žen, srovnání kognitivního výkonu podle dvou kategorií věku,... 3 n 2 - 1 - %2 Pacienti Kontroly Předpoklad: normalita dat v OBOU skupinách, shodnost (homogenita) rozptylů v obou skupinách Testová statistika: t = X] / kde s* je vážená směrodatná odchylka, c je konstanta, o kterou se rozdíl průměrů má lišit (většinou rovna 0) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 18 Vícerozměrný t-test \- • Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé - mezi objekty neexistuje vazba. • Na rozdíl od jednorozměrného dvouvýběrového t-testu jsou dvě skupiny dat popsány více proměnnými. Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA ^ 19 Vícerozměrný t-test Jednorozměrný dvouvýběrový t-test: ^ studentovo rozdělení • testová statistika: T = (*Y*h)~c, kde T~t(nD + nH - 2) • s* je vážený rozptyl vypočtený jako s% = ^d'^d+^h-^sh • c je konstanta, o kterou se rozdíl průměrů má lišit (většinou c = 0) • nulová hypotéza zamítnuta, pokud |r| > t1_a/2(nD +nH-2) Je ekvivalentní testu: . F rozdělení t2 = /(žd-xh)-c\ = (_d _ -h _ c) y + jl.)]-1 (_d _ -h _ c)í kde 72 ~ F(lí nD+nH-2) + Vícerozměrný t-test: • Hotellingova T2 testová statistika: T2 = (xD -xH- c)T [s* + 1 (*D -xH-č) • kde S* je vážená kovarianční matice: S* = ^'^d+íuh-^Sh ^ Hotellingovo rozdělení (nD-i)+(n/,-i) n-p-l T' p n- • nulová hypotéza zamítnuta, když F > F^ip, n - p - 1) <_ F rozdělení g§) 20 • T1 ~ T^(p,n-p-l); pro malé nD a nH\e lepší použít: F = —---—, kde n=nD+nH Úkol 1 • Zjistěte, zda se liší skupina pacientů se schizofrenií od zdravých subjektů na základě parametrů popisujících objem mozkových struktur subjektů. "2 12" "5 7" XD = 4 10 > — 3 9 .3 8. .4 5. 13 £ 12 • • pacienti | 11 • kontroly _^ _c 10 • u -r 9 • o | 8 • o 6 05 • 4 1 2 3 4 5 6 Objem hipokampu MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 21 Úkol 1 - řešení Vícerozměrné průměry: = Ui, ^ Xíl nH 2"=i Xi2] Výběrové kovarianční matice: s12 S22. r h s12 s22. -Ľ, -41] -Ľ, -41] Vážená kovarianční matice: 1 -1" S = " 1 -1" ~ --1 4 - [3 10] [4 7] Vícerozměrný t-test: n 6 P 2 T2 3,5 F 1,31 dfl=p 2 df2 = n-p-1 3 a 0,05 F-crit 9,55 p-hodnota 0,389 T2 = (xD — x 11 — c)T [s* + ^)] (*D - xH - c) n — p — l T2 F = P n — 2 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovédách IBA W 22 Úkol 1 - řešení v software R librarypCSNP") X=matrix(c(2 4 3 12 10 8),3,2) Y=matrix(c(5,3A7,9,5),3,2) HotellingsT2(X, Y) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ll^Jj 23 Analýza rozptylu pro vícerozměrná data Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Analýza rozptylu (ANOVA) jednoduchého třídění i- » Srovnáváme tři a více skupin dat, které jsou na sobě nezávislé (mezi objekty neexistuje vazba). • Příklady: srovnání objemu hipokampu u pacientů s AD, pacientů s MCI a kontrol; srovnání kognitivního výkonu podle čtyř kategorií věku. X1 %2 X3 -1-1-1 AD MCI Kontroly Předpoklady: normalita dat ve VŠECH skupinách, shodnost (homogenita) rozptylů VŠECH srovnávaných skupin, nezávislost jednotlivých pozorování. Testová statistika: F = ^A ^ ^A SJdfe Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 25 Analýza rozptylu (ANOVA) - princip )- • Srovnání variability (rozptylu) mezi výběry s variabilitou uvnitř výběrů. celkový průměr AD MCI CN AD MCI CN • Tabulka analýzy rozptylu jednoduchého třídění (One-Way ANOVA): Variabilita Součet Počet stupnu Průměrný ,_ ... . F statistika p-hodnota čtverců volnosti čtverec Mezi skupinami Uvnitř skupin (reziduálni var.) Celkem SA dfA=k-l MSA = SA/dfA p p _ SA/dfA Se dfe = n-k MSe = Se/dfe S°ldf° ST dfT = n - 1 MU s"*.} Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 26 Analýza rozptylu jako lineární mode Analýza rozptylu pro jednu vysvětlující proměnnou (jednoduché třídění) lze zapsat jako lineární model: Reziduum Populační průměr' x /-tý efekt faktoru A Nulovou hypotézu pak lze vyjádřit jako: H0:al=a2=... = ak Rozšířením tohoto zápisu můžeme definovat další modely ANOVA: více faktorů, hodnocení interakcí, opakovaná měření na jednom subjektu. Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 27 Analýza rozptylu pro vícerozměrná data • podle počtu vysvětlovaných proměnných: - 1 vysvětlovaná proměnná - jednorozměrná analýza rozptylu (ANOVA) - 2 a více vysvětlovaných proměnných - vícerozměná analýza rozptylu (MANOVÁ) • podle počtu faktorů: - 1 faktor-ANOVA jednoduchého třídění (jednofaktorová ANOVA) - 2 faktory - ANOVA dvojného třídění (dvoufaktorová ANOVA) • podle toho, zda se faktory ovlivňují či nikoliv: - faktory se mohou ovlivňovat - model s interakcí - faktory se neovlivňují - model bez interakce Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 28 Analýza rozptylu pro vícerozměrná data - příklady Počet proměnných: jednorozměrná x vícerozměrná analýza rozptylu Počet faktorů: jednoduché x dvojné x trojné,... třídění Faktory se ovlivňující neovlivňují: s interakcí x bez interakce • zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického tlaku u stovky osob -jednorozměrná analýza rozptylu jednoduchého třídění • zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického tlaku u stovky osob, přičemž chceme zkoumat i vliv pohlaví, předpokládáme však, že ženy i muži reagují na jednotlivé léky obdobně (tzn. např. ženy s léky A a C budou mít nižší tlak než ženy s lékem B a muži s léky A a C budou mít také nižší tlak než muži s lékem B apod.) -jednorozměrná analýza rozptylu dvojného třídění bez interakce • zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického tlaku u stovky osob, přičemž chceme zkoumat i vliv pohlaví, a předpokládáme, že ženy a muži budou reagovat na léky různě (tzn. např. ženy s léky A a C budou mít nižší tlak než ženy s lékem B, zatímco muži s léky A a B budou mít vyšší tlak než muži s lékem C apod.) -jednorozměrná analýza rozptylu dvojného třídění s interakcí • zkoumáme dlouhodobý vliv třech typů léků na hodnoty systolického a diastolického tlaku u stovky osob - vícerozměrná analýza rozptylu jednoduchého třídění • zkoumáme dlouhodobý vliv třech typů léků a vliv pohlaví na hodnoty systolického a diastolického tlaku u stovky osob -vícerozměrná analýza rozptylu dvojného třídění MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 29 Analýza rozptylu dvojného třídění Uvažujeme dvě vysvětlující proměnné zároveň. Zápis modelu: Populační průměr Reziduum y-tý efekt faktoru B /-tý efekt faktoru A • Nulové hypotézy pak máme dvě: H0l :a}=a2=... = ak ,H02 :J31 = P2 =... = fir Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A 5A dfA = a-l MSA = SA/dfA P Faktor B Gř/A=b-1 MSB = SB / dfB P Rezidua dfe = n-a-b + 1 MS= Se 1 dfe Celkem dfT = n-l MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^j 30 Analýza rozptylu dvojného třídění s interakcí i-- • Uvažujeme dvě vysvětlující proměnné a zároveň i jejich společné působení. • Zápis modelu: Y.. = // + a. + Pi + vjf + ejf <— Populační průměr Reziduum Interakce /-tý efekt faktoru B /-tý efekt faktoru A • Nulové hypotézy pak máme tři: H01 '-Yu ~ Y\2 ~ - " = Yh- H02 • cxl — oc2 = . — ~ O^k . ßi — ß2 — —' — ßr Variabilita Součet čtverců Počet stupňů volnosti Průměrný čtverec F statistika p-hodnota Faktor A dfA = a-l MSA = SA/dfA P Faktor B sB dfA = b-l MSB = SB / dfB ^B P Interakce AxB $AB dfAB = (a- l)(b -1) MSAB = SAB 1 dfAB ^AB P Rezidua dfe = n - ab MS= Se 1 dfe Celkem Sj dfT = n-l Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 31 Hlavní efekty a interakce 18 17 16 15 14 13 12 11 10 9 18 17 16 15 14 13 12 11 10 9 3E Faktor2- muzi 35 Faktor 2- ženy SS D.f. MS F P Faktor 1 1978 1 1978 482.2 0.000 Faktor 2 1 1 1 0.3 0.602 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 A B ss D.f. MS F P Faktor 1 4 1 4 1.0 0.314 Faktor 2 1 1 1 0.3 0.602 F1*F2 867 1 867 211.3 0.000 Error 804 196 4 18 17 16 15 14 13 12 11 10 9 20 18 16 14 12 10 I-------$ A B SS D.f. MS F P Faktor 1 4 1 4 1.0 0.314 Faktor 2 1891 1 1891 461.1 0.000 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 SS D.f. MS F P Faktor 1 920 1 920 224.3 0.000 Faktor 2 1 1 1 0.3 0.602 F1*F2 867 1 867 211.3 0.000 Error 804 196 4 26 |- 24 -22 -20 -18 -16 -14 -12 -10 - 24 |- 22 -20 -18 -16 -14 -12 -10 - SS D.f. MS F P Faktor 1 5293 1 5293 1290.7 0.000 Faktor 2 861 1 861 209.9 0.000 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 SS D.f. MS F P Faktor 1 4799 1 4799 1443.4 0.000 Faktor 2 316 1 316 95.0 0.000 F1*F2 175 1 175 52.5 0.000 Error 652 196 3 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovédách IBA W 32 Analýza rozptylu pro vícerozměrná data - postup Popisná sumarizace + krabicové grafy Ověření předpokladů (nezávislost, normalita, homogenita rozptylů) Model s interakcemi Interakce významné Interakce nevýznamné Post hoc testy (všechny skupiny dané kombinací faktorů proti sobě) Model bez interakcí Post hoc testy (pro významné faktory s více než třemi kategoriemi) MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 33 Úkol 2 Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií (neuvažujeme možnou interakci). ID Pohlaví Typ léku Počet nežádoucích ucinku Pl M lékX 1 P2 M lék Y 1 P3 M lék Z 6 P4 Z lékX 3 P5 Z lék Y 4 P6 Z lék Z 9 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách WA~ ^ 34 Úkol 2 - řešení Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií (neuvažujeme možnou interakci). Překódování: Pohlaví Typ léku 1 1 1 2 2 2 Počet nežádoucích ucinku 1 2 3 1 2 3 1 1 6 3 4 9 Legenda: Pohlaví: 1=M 2=Z Typ léku: l=lék X 2=lékY 3=lékZ Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách /BA m 35 Úkol 2 - řešení Pohlaví Typ léku Počet než. účinku 1 1 1 2 2 2 1 2 3 1 2 3 Mi.. X2.. M2. 8 = 8/3 = 16 = 16/3 1 1 . 6 3 4 L 9 3; c = 1; n = 6; M.i. = 4/2 = 2 M 2. = 5/2 = 2,5 M.3. = 15/2 = 7,5 M = 24/6 = 4 Součet čtverců pro faktor A (pohlaví): počet stupňů volnosti: fA = a — 1 = 1 SA = bcY (Ml - M )2 = 3 ■ ((8/3 - 4)2 + (16/3 - 4)2) = 32/3 = 10,67 Součet čtverců pro faktor B (typ léku): počet stupňů volnosti: íB = b — 1 = 2 SB = ac Y* (My. - M J2 = 2 ■ ((2 - 4)2 + (2,5 - 4)2 + (7,5 - 4)2) = 37 Celkový součet čtverců : počet stupňů volnosti: fT = n — 1 = 5 Sr = ya Tb Y' (X0fc-Mj = (l-4)2 + (l-4)2 + -+(9-4)2=48 Reziduálni součet čtverců : Sf- — S# — 0,33 počet stupňů volnosti: fE = n — a — b + 1 = 2 IBA M 36 Úkol 2 - řešení Tabulka analýzy rozptylu dvojného třídění: Zdroj variability Součet čtverců Stupně volnosti Podíl S/f S/f F = sE/fE Faktor A (pohlaví) = 10,67 fc = l 10,67 63,99 Faktor B (typ léku) SB = 37 fB = 2 18,5 110,98 Reziduálni SE = 0,33 fE = 2 0,16 - Celkový S7 = 48 fT = S - - Srovnání s kvantily: F^ = 63,99 > F0;95(l,2) = 18,1 -> pohlaví má vliv na počet nežádoucích účinků ¥B = 110,98 > F0;95(2,2) = 19 -> typ léku má vliv na počet nežádoucích účinků MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 37 Úkol 2 - řešení v softwaru STATISTICA Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií. Pohlaví Typ léku Počet uzdrav, pacientů M lék X 1 M lék Y 1 M lék Z 6 Z lék X 3 Z lék Y 4 Z lék Z 9 V softwaru STATISTICA: Statistics - ANOVA - Main effects ANOVA - Quick specs dialog - OK -Variables - Dependent variable list: X, Categorical predictors (factors): A, B - OK - All effects. Post hoc testy: More results — Post hoc — zvolit Effect — Unequal N HSD, Tukey HSD nebo Scheffé Levenův test: More results - Assumptions - zvolit proměnnou - Levene's test (ANOVA) Vykreslení krabicových grafů podle obou proměnných: Graphs - 2D Graphs - Box Plots... - zvolit spojitou proměnnou jako Dependent variable, zvolit jednu kategoriální proměnnou jako Grouping variable - na listu Categorized u X-Categories zatrhnout On a Layout změnit na Overlaid - pokud chceme spojit mediány či průměry, na záložce Advanced zatrhnout Connect middle points - OK Pokud bychom uvažovali model s interakcemi, zvolíme Factorial ANOVA (namísto Main effects A.) MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BA ^! 38 Úkol 2 - řešení v softwaru SPSS Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií. Pohlaví Typ léku Počet uzdrav, pacientů M lék X 1 M lék Y 1 M lék Z 6 z lék X 3 z lék Y 4 z lék Z 9 V softwaru SPSS: Analyze - General Linear Model - Univariate - Dependent Variable: spojitá proměnná, Fixed Factor(s): kategoriální proměnné -> • Model - zatrhneme Custom - vybereme Typ:Main effects - do Model přetáhneme A, B (pokud bychom chtěli model s interakcemi necháme zatržené Full factorial) - odškrtneme Include intercept in model - Continue • Post Hoc - Post hoc Tests for: zvolit kategoriální proměnnou - zatrhneme Tukey's-b - Continue • Plots: zvolit proměnné do Horizontal Axis a Separte Lines - Add - Continue • Options... - Homogeneity tests - Continue Vykreslení krabicových grafů podle obou proměnných: Graphs - Legacy Dialogs - Boxplot... -Clustered - Define - zvolit Variable Category Axis a Define Clusters by - OK MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BA ^! 39 Úkol 2 - řešení v softwaru R Zjistěte, zda má vliv pohlaví a typ léku na počet nežádoucích účinků u pacientů s leukémií. V softwaru R: data <- data.frame(pohl=c(l#l#l#2#2#2)#lek=c(l#2#3#l#2#3)#pocet=c(l#l#6#3#4#9)) data model_bez_interakce <- aov(data$pocet ~ (as.factor(data$pohl)+as.factor(data$lek))) summary(model_bez_interakce) TukeyHSD(model_bez_interakce) # post-hoc test # 2. způsob: anova(lm(data$pocet ~ (as.factor(data$pohl)+as.factor(data$lek)))) model_s_interakci <- aov(data$pocet ~ (as.factor(data$pohl)*as.factor(data$lek))) summary(model_s_interakci) boxplot(data$pocet ~(as.factor(data$pohl)*as.factor(data$lek))) library("car") # instalace baliku car pomoci: install.packages("car") leveneTest(data$pocet ~ (as.factor(data$pohl)*as.factor(data$lek))/center=mean) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ft" W 40 Úkol 3 Zjistěte, zda má vliv pohlaví a typ onemocnění na objem hipokampu. Ukázka datového souboru: ID Group_3kat Gender_rek Hippocampus_volume (mm3) 101 1 M 6996.1 102 1 F 7187.3 103 1 M 7030.2 331 2 M 6891.6 332 2 M 6332.9 334 2 F 6303.7 737 3 M 6170.8 739 3 F 5984.1 740 3 F 6052.4 Legenda k proměnné Group_3kat: 1...CN (kontroly) 2...MCI (mírná kognitivní porucha) 3...AD (Alzheimerova choroba) MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 41 Úkol 3 - popisná sumarizace dat Skupina Pohlaví N Průměr SD Medián Minimum Maximum F 110 7018.3 190.1 7036.1 6509.6 7430.1 CN M 120 7087.3 176.0 7081.1 6674.4 7486.6 Celkem 230 7054.3 185.7 7048.6 6509.6 7486.6 F 146 6476.7 171.8 6460.4 6155.1 6984.8 MCI M 260 6595.2 164.1 6589.5 6159.1 7125.6 Celkem 406 6552.6 176.2 6555.0 6155.1 7125.6 F 95 6215.0 178.8 6237.8 5805.2 6619.0 AD M 102 6293.0 174.8 6250.8 5844.3 6756.9 Celkem 197 6255.4 180.6 6248.0 5805.2 6756.9 F 351 6575.6 364.8 6498.2 5805.2 7430.1 Celkem M 482 6653.8 323.9 6610.0 5844.3 7486.6 Celkem 833 6620.9 343.7 6580.9 5805.2 7486.6 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 42 Úkol 3 - krabicový graf 7500.000000- 5500,000000 Gendeijek ■ f □ m -> interakci sice očekávat nebudeme, přesto si ale model s interakcí raději spočítáme (nejdřív ale musíme ověřit předpoklady) Group_3kat Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 43 Úkol 3 - ověření normality Gender rek 40-30-20-10- 40- o 30—| Oř i- - Oř Í 10- 40-30-20-10-0— en o o o o o o o o M jJk. o o o o o o en o o o o o o T o o o o o o o o o T en o o o o o o o o J i k ■ 3:»_ en o o o o o o o o o o o o o o o o o en o o o o o o o o o o o o o o o o o en o o o o o o o o Q —t O C "U 'co Hippocampus_volumemm3 Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 44 Úkol 3 - homogenita rozptylů a nezávislost Homogenita rozptylů: Levene's Test of Equality of Error Variances3 Dependent Variable: Hippocarnpus_volurnern F dfl ■:lf2 Sig. ,962 5 827 ,440 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Group_3kat + Gender_rek + Group_3kat* Gender_rek p=0,440 > 0,05 -> nezamítáme homogenitu rozptylů Nezávislost: Protože žádný subjekt nebyl současně ve více skupinách, nezávislost můžeme předpokládat. Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 45 Úkol 3 - model s interakcí Tests of Between Subjects Effects Dependent Variable: Hippocampus_volurnernrn3 Source Type III Sum of Squares df Mean Square F Sig. Model 3,659E+1Qa 6 6093069036 201 956,01 0 ,000 Group_3kat 71 984656,1 4 2 35992323,07 1191,995 ,000 Genderjek 14551 34,169 1 14551 34,1 69 40,193 ,000 Group_3kat* Gender_rek 1 04654,379 2 52327,1 39 1,733 ,177 Error 24971 294,93 327 301 95,036 Total 36613385510 333 a. R Squared = .999 (Adjusted R Squared = .999) -> není statisticky významná interakce, proto spočítáme model bez interakce Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ISA ^ 46 Úkol 3 - model bez interakce Tests of Between Subjects Effects Dependent Variable: Hippocarnpus_volumemm3 Source Type III Sum of Squares df Mean Square F Sig. Model 3.659E+10* 4 9147077390 302398,408 ,000 Group_3kat 71962303,15 2 35981151,58 1189,521 ,000 Gender_rek 1781 192,205 1 1781192,205 58,885 ,000 Error 25075949,31 829 30248,431 Total 36613385510 833 a. R Squared = .999 (Adjusted R Squared = .999) -> statisticky významný vliv pohlaví i typu onemocnění na objem hipokampu -> protože typ onemocnění má více než 2 kategorie, musíme provést post-hoc test, abychom zjistili, mezi kterými kategoriemi je statisticky významný rozdíl Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 47 Úkol 3 - interpretace Hi|)|)0cam|)us_v0lumemm3 Tukey B a,b,c Subset GrouD 3kat N 1 •J Z 3 3 197 6255,381 734 2 406 6552,613882 1 230 7054,334947 7200,000000" 7000,000000" Estimated Marginal Means of Hippocampus_volumemm3 Gender rek Means for groups in homogeneous subsets are displayed. c n « 6800,000000" E '5b i— ■o «i 6600,000000- E LLI '54ÜÜ.ÜÜÜÜÜÜ iLOü.Oüüüüü ■F M - statisticky významný vliv pohlaví i typu onemocnění na objem hipokampu, přičemž mezi pohlavím a typem onemocnění nenastává interakce - u mužů statisticky významně vyšší objem hipokampu než u žen - statisticky významný rozdíl v objemu hipokampu u všech 3 skupin subjektů podle typu onemocnění, přičemž u pacientů s AD je objem nejmenší a u CN nej větší HU ..... Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 48 Upozornění I Pozor, pokud mediány ukazují úplně jiný „trend" než průměry! HDI (5,820 HDI> 0,920 -1-1-1- -1-1-1 Evropa Amerika Asie Evropa Amerika Asie Kontinent Kontinent • znamená to, že tam zřejmě není splněn předpoklad normality • pokud rozdíl není statisticky významný, není zpravidla potřeba to řešit • pokud by ten rozdíl vyšel statisticky významně, je to problém! • poznámka: je dobré mít měřítko na ose y stejné u obou grafů Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 49 Upozornění II Pozor na interpretaci! Na první pohled z grafu vypadá, že tam je vliv kraje i nezaměstnanosti, že to nevychází statisticky významně může být: - malým počtem subjektů ve skupině - ale i velikostí efektu! (tady efekty malé, průměry ve všech čtyřech skupinách se podle posledního grafu pohybují jen od cca 41,4 do 42!) 42,0- Nezaměstanost ^~Pad průměrem — Nad průměrem 4 Jihomoravský Olomoucký Kraj neurovědách & # se Transformace a jiné úpravy vícerozměrných dat Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Typy transformací a jiných úprav vícerozm. dat i-- normalizace dat (= převod na normální rozdělení) standardizace dat min-max normalizace centrování dat odstranění vlivu kovariát na jiné proměnné Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^jj 52 Normalizace dat )- • převod na normální rozdělení (normalita je předpokladem řady statistických testů). • např. logaritmická transformace: X = ln(Y) nebo X = ln(Y+l), pokud data obsahují hodnotu 0 Asymetrické rozdělení Normální rozdělení Geometrický průměr V Medián Průměr ln(y) • další příklady: - odmocninová transf. (pro proměnné s Poissonovým rozložením nebo obecně data typu počet jedinců, buněk apod.:X = ^neboX = -JY + 1 - arcsin transfomace (pro proměnné s binomickým rozložením) - Box-Coxova tranformace MU Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^BÄ ^! 53 Standardizace dat důvod: převod proměnných na stejné měřítko Od'_OC standardizace: zi — —— (tzn. odečtení průměru od jednotlivých hodnot a podělení směrodatnou odchylkou) proměnné budou mít rozsah přibližně od -3 do 3 získáme tím současně i tzv. z-skóre (které vyjadřuje, o kolik směrodatných odchylek se i-tá hodnota odchýlila od průměru) pozor: standardizace je nevhodná v případě, když proměnné nemají normální rozdělení a když se v datech vyskytují odlehlé hodnoty!!! 14000 12000 10000 &000 6000 -003 2000 C E 3 2 ' C -1 -2 -3 o T- E r, LJ r.- C_ X "--I t; n — 3 _22 r.. o t; q_ > ■x-E t; H—1 -s _ en 3 □ Medián □ 25%-75% X Min-Max o c- E r; o X o t; (Z (0 > E "C _ f5 a- C7. t; q_ "5 □ Medián □ 25%-75% X Min-Max Janoušová, Dušek: Pokročilé metody analýzy dat v neurovédách IBA M 54 Min-max normalizace důvod: převod proměnných na stejné měřítko oproti standardizaci vhodná i na proměnné nemající normální rozdělení či obsahující odlehlé hodnoty min-max normalizace: v,- = ——-— max(x)-min(x) rozsah hodnot proměnných po min-max normalizaci je od 0 do 1 14000 12000 10000 &000 6000 4000 2000 C = E r: f- c_ X o 'z ľ. — 2 ■z tri S| E "O q. ":- I != ■X- E q. 3 □ Medián □ 25%-75% £ Min-Max 1.2 r 1,0 ■ 0 8 0,6 0,4 C 2 0C \ -0,2 E E <- E UUi _nc o !_ 1 c i i 1 I n J 1 := -■-■ E <- o □ Medián □ 25%-75% X v' n-Vc'. Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 55 Centrování dat • odečtení průměru od dat - získáme novou proměnnou, která bude mít průměr roven nule • důvod: centrování je důležitou podmínkou některých pokročilých statistických metod (např. klasifikačních) • centrování: zt = xt — x 14000 12000 100 3 C &000 6000 4000 2000 C p E (Z c- C o f" > I i > 1 1 A 1 := 1 IX' Qj d> u, EJ I i ,-í. !_■ I .q! 1 i CT- I CO j 1 'J ~ ÍT J, E - □ Median □ 25%-75% X Min-Max Janoušová, Dušek: Pokročilé metody analýzy dat v neurovédách IBA M 56 Odstranění vlivu kovariát (tzv. adjustace) 1. 2. 3. V prvním kroku definujeme regresní model vztahu kovariáty (např. věku) a dané proměnné Pro každého pacienta je vypočteno jeho reziduum od regresní přímky Reziduum (představující hodnotu parametru po odečtení vlivu věku, jeho průměr je 0) je přičteno k průměrné hodnotě parametru Výsledná adjustovaná hodnota má odečten vliv věku, ale zároveň není změněna číselná hodnota parametru Původní data i 20 30 40 50 60 70 03 T3 00 >■ E O ♦ • ♦ » 20 30 40 ~1 I 50 60 Věk 70 80 ***** "T" 30 Adjustovaná data Věk Objem amygdaly 20 30 40 50 60 70 30 Věk Objem amygdaly Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 57 Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách" byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU" Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- I^J 58