© Institut biostatistiky a analýz RNDr. Eva Koriťáková Podzim 2016 Vícerozměrné metody - cvičení Cvičení 2 Vícerozměrné normální rozdělení a vícerozměrný t-test 2Koriťáková: Vícerozměrné metody - cvičení Vícerozměrné normální rozdělení 3Koriťáková: Vícerozměrné metody - cvičení Motivace 4 Histogram of x3 x3 Frequency 60 65 70 75 80 85 90 95 0102030 60 65 70 75 80 85 90 95 Diastolický tlak μ σ Histogram Hustota jednorozměrného normálního rozdělení Motivace – pokračování 5 Dvourozměrný histogram Hustota dvourozměrného normálního rozdělení Koriťáková: Vícerozměrné metody - cvičení Vícerozměrné normální rozdělení 6 𝑓 x1, … , x 𝑘 = 1 2𝜋 𝑘 Σ ∙ exp − 1 2 𝐱 − 𝝁 𝑇 𝚺−1 𝐱 − 𝛍 Hustota vícerozměrného normálního rozdělení: 𝛍 - vektor středních hodnot 𝚺 - kovarianční matice Hustota dvourozměrného normálního rozdělení: ρ - korelace mezi X a Y; σ – směrodatná odchylka 𝑓 x = 1 2𝜋 𝜎2 ∙ exp − x − μ 2 2𝜎2 Hustota jednozměrného normálního rozdělení: μ - střední hodnota σ2 – rozptyl Koriťáková: Vícerozměrné metody - cvičení Hustota u nekorelovaných a korelovaných proměnných 7Koriťáková: Vícerozměrné metody - cvičení -3 -2 -1 0 1 2 3 -3-2-10123 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -1 0 1 2 3 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -3 -2 -1 0 1 2 3-3-2-10123 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 -1 0 1 2 3 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 x1 x1 x2 x2 x1 x2f(x1,x2) x1 x2f(x1,x2) A) B) -3 -2 -1 0 1 2 3 -3-2-10123 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -1 0 1 2 3 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -3 -2 -1 0 1 2 3 -3-2-10123 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 -1 0 1 2 3 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 x1 x1 x2 x2 x1 x2f(x1,x2) x1 x2f(x1,x2) A) B) Nekorelované proměnné (μ1 = μ2 = 0, σ1 = σ2 =1, ρ= 0) Korelované proměnné (μ1 = μ2 = 0, σ1 = σ2 =1, ρ= 0,5) Vícerozměrný průměr a kovarianční matice • vícerozměrný průměr (např. pro datový soubor se 2 proměnnými): • výběrová kovarianční matice (např. pro datový soubor se 2 proměnnými): 8Koriťáková: Vícerozměrné metody - cvičení ത𝐱 = 1 𝑛 ෍ 𝑖=1 𝑛 x𝑖1 1 𝑛 ෍ 𝑖=1 𝑛 x𝑖2 𝐒 = s11 s12 s21 s22 , kde s11 = 1 𝑛−1 σ𝑖=1 𝑛 x𝑖1 − തx1 2 Výpočet rozptylu a směrodatné odchylky - opakování 9Koriťáková: Vícerozměrné metody - cvičení • Příklad čtverců odchylek od průměru pro n = 3. • Rozptyl je možno značně ovlivnit odlehlými pozorováními.     n i i xx n s 1 22 )( 1 1 0,269 0,547 0,638 0,733 x1 x2 x3x Rozptyl: Směrodatná odchylka:     n i i xx n s 1 2 )( 1 1 Úkol 1 • Spočtěte vícerozměrný průměr a výběrovou kovarianční matici pro soubor 3 subjektů, u nichž byly naměřeny hodnoty objemu hipokampu a mozkových komor, přičemž naměřené hodnoty byly zaznamenány do následující datové matice: 10Koriťáková: Vícerozměrné metody - cvičení 𝐗 = 2 12 4 10 3 8 Úkol 1 - řešení 11 Vícerozměrný průměr: ത𝐱 = 1 𝑛 ෍ 𝑖=1 𝑛 x𝑖1 1 𝑛 ෍ 𝑖=1 𝑛 x𝑖2 = 1 3 2 + 4 + 3 1 3 12 + 10 + 8 = 3 10 s11 = 1 𝑛−1 σ𝑖=1 𝑛 x𝑖1 − തx1 2 = 1 3−1 2 − 3 2 + 4 − 3 2 + 3 − 3 2 = 1 2 1 + 1 + 0 = 1 ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 1 2 3 4 5 7 8 9 10 11 12 13 Objem hipokampu Objemmozkovýchkomor Kovarianční matice: → 𝐒 = 1 −1 −1 4 ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 s22 = 1 𝑛−1 σ𝑖=1 𝑛 x𝑖2 − തx2 2 = 1 3−1 12 − 10 2 + 10 − 10 2 + 8 − 10 2 = 4 s21 = s12 = 1 𝑛−1 σ𝑖=1 𝑛 x𝑖1 − തx1 x𝑖2 − തx2 = 1 3−1 ൫ 2 − 3 ሺ12 − 𝐒 = s11 s12 s21 s22 , kde: Koriťáková: Vícerozměrné metody - cvičení Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 12 + 5 6 7 8 9 10 11 12 13 14 15 0 50 100 150 200 250 300 350 400 6 7 8 9 10 11 12 13 14 0 50 100 150 200 250 300 350 400 Koriťáková: Vícerozměrné metody - cvičení Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 13 + 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 Koriťáková: Vícerozměrné metody - cvičení Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 14 + 5 6 7 8 9 10 11 12 13 14 15 0 50 100 150 200 250 300 350 400 6 7 8 9 10 11 12 13 14 0 50 100 150 200 250 300 350 400 Vícerozměrná odlehlá hodnota (outlier) Koriťáková: Vícerozměrné metody - cvičení Ověření dvourozměrné normality 15 Bagplot = „bivariate boxplot“ (tzn. „dvourozměrný krabicový graf“) v softwaru Statistica: Graphs – 2D Graphs – Bag Plots Koriťáková: Vícerozměrné metody - cvičení Ověření dvourozměrné normality 16 Vykreslení regulační elipsy („control“ elipse): v softwaru Statistica: Graphs – Scatterplots – na záložce Advanced zvolit Elipse Normal Koriťáková: Vícerozměrné metody - cvičení Normalizace dat • Převod na normální rozdělení (normalita je předpokladem řady statistických testů). • Např. logaritmická transformace: X = ln(Y) nebo X = ln(Y+1), pokud data obsahují hodnotu 0 • Další příklady: – odmocninová transf. (pro proměnné s Poissonovým rozložením nebo obecně data typu počet jedinců, buněk apod.: nebo – arcsin transfomace (pro proměnné s binomickým rozložením) – Box-Coxova tranformace f(y) y f(x) ln (y) X = ln(Y) Asymetrické rozdělení Normální rozdělení Medián Průměr Medián PrůměrGeometrický průměr YX  1 YX 17Koriťáková: Vícerozměrné metody - cvičení Vícerozměrný t-test 18Koriťáková: Vícerozměrné metody - cvičení Jednorozměrný dvouvýběrový t-test • Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé – mezi objekty neexistuje vazba. • Příklady: srovnání objem hipokampu u mužů a u žen, srovnání kognitivního výkonu podle dvou kategorií věku,... 19 ҧ𝑥1 ҧ𝑥2 21 11 * 21 nns cxx t    0 1 2 3 Pacienti Kontroly Koriťáková: Vícerozměrné metody - cvičení • Předpoklad: normalita dat v OBOU skupinách, shodnost (homogenita) rozptylů v obou skupinách • Testová statistika: , kde 𝑠∗ je vážená směrodatná odchylka, c je konstanta, o kterou se rozdíl průměrů má lišit (většinou rovna 0) Vícerozměrný t-test • Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé – mezi objekty neexistuje vazba. • Na rozdíl od jednorozměrného dvouvýběrového t-testu jsou dvě skupiny dat popsány více proměnnými. 20 0 1 2 3 4 5 6 7 4 6 8 10 12 14 0 0.05 x1x2 Koriťáková: Vícerozměrné metody - cvičení Vícerozměrný t-test Jednorozměrný dvouvýběrový t-test: • testová statistika: 𝑇 = ҧ𝑥 𝐷− ҧ𝑥 𝐻 −𝑐 𝑠∗ 1 𝑛 𝐷 + 1 𝑛 𝐻 , kde 𝑇~𝑡 𝑛 𝐷 + 𝑛 𝐻 − 2 • 𝑠∗ 2 je vážený rozptyl vypočtený jako 𝑠∗ 2 = 𝑛 𝐷−1 𝑠 𝐷 2 + 𝑛 𝐻−1 𝑠 𝐻 2 𝑛 𝐷−1 + 𝑛 𝐻−1 • c je konstanta, o kterou se rozdíl průměrů má lišit (většinou c = 0) • nulová hypotéza zamítnuta, pokud 𝑇 > 𝑡1− Τ𝛼 2 𝑛 𝐷 + 𝑛 𝐻 − 2 21 Studentovo rozdělení Vícerozměrný t-test: • Hotellingova T2 testová statistika: 𝑇2 = ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 𝑇 S∗ 1 𝑛 𝐷 + 1 𝑛 𝐻 −1 ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 • kde S∗ je vážená kovarianční matice: S∗ = 𝑛 𝐷−1 S 𝐷+ 𝑛 𝐻−1 S 𝐻 𝑛 𝐷−1 + 𝑛 𝐻−1 • T2 ~ T2(p,n-p-1) ; pro malé nD a nH je lepší použít: 𝐹 = 𝑛−𝑝−1 𝑝 𝑇2 𝑛−2 , kde n=nD+nH • nulová hypotéza zamítnuta, když 𝐹 > 𝐹1−𝛼 𝑝, 𝑛 − 𝑝 − 1 Je ekvivalentní testu: 𝑇2 = ҧ𝑥 𝐷− ҧ𝑥 𝐻 −𝑐 𝑠∗ 1 𝑛 𝐷 + 1 𝑛 𝐻 2 = ҧ𝑥 𝐷 − ҧ𝑥 𝐻 − 𝑐 𝑠∗ 2 1 𝑛 𝐷 + 1 𝑛 𝐻 −1 ҧ𝑥 𝐷 − ҧ𝑥 𝐻 − 𝑐 , kde T2 ~ F (1, nD+nH -2) F rozdělení F rozdělení Hotellingovo rozdělení Koriťáková: Vícerozměrné metody - cvičení Úkol 2 • Zjistěte, zda se liší skupina pacientů se schizofrenií od zdravých subjektů na základě parametrů popisujících objem mozkových struktur subjektů. 22Koriťáková: Vícerozměrné metody - cvičení pacienti kontroly 1 2 3 4 5 6 4 5 6 7 8 9 10 11 12 13 Objem hipokampu Objemmozkovýchkomor 𝐗 𝐷 = 2 12 4 10 3 8 , 𝐗 𝐻 = 5 7 3 9 4 5 Úkol 2 • Zjistěte, zda se liší skupina pacientů se schizofrenií od zdravých subjektů na základě parametrů popisujících objem mozkových struktur subjektů. 23Koriťáková: Vícerozměrné metody - cvičení 𝐗 𝐷 = 2 12 4 10 3 8 , 𝐗 𝐻 = 5 7 3 9 4 5 Úkol 2 - řešení 24Koriťáková: Vícerozměrné metody - cvičení Vícerozměrné průměry: ത𝐱 𝐷 = 1 𝑛 𝐷 σ𝑖=1 𝑛 𝐷 x𝑖1 1 𝑛 𝐷 σ𝑖=1 𝑛 𝐷 x𝑖2 = 3 10 ത𝐱 𝐻 = 1 𝑛 𝐻 σ𝑖=1 𝑛 𝐻 x𝑖1 1 𝑛 𝐻 σ𝑖=1 𝑛 𝐻 x𝑖2 = 4 7 Výběrové kovarianční matice: 𝐒 𝐷 = s11 𝐷 s12 𝐷 s21 𝐷 s22 𝐷 = 1 −1 −1 4 𝐒 𝐻 = s11 𝐻 s12 𝐻 s21 𝐻 s22 𝐻 = 1 −1 −1 4 Vážená kovarianční matice: 𝐒∗ = 1 −1 −1 4 𝑇2 = ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 𝑇 S∗ 1 𝑛 𝐷 + 1 𝑛 𝐻 −1 ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 Úkol 2 - řešení 25Koriťáková: Vícerozměrné metody - cvičení Vícerozměrné průměry: ത𝐱 𝐷 = 1 𝑛 𝐷 σ𝑖=1 𝑛 𝐷 x𝑖1 1 𝑛 𝐷 σ𝑖=1 𝑛 𝐷 x𝑖2 = 3 10 ത𝐱 𝐻 = 1 𝑛 𝐻 σ𝑖=1 𝑛 𝐻 x𝑖1 1 𝑛 𝐻 σ𝑖=1 𝑛 𝐻 x𝑖2 = 4 7 Výběrové kovarianční matice: 𝐒 𝐷 = s11 𝐷 s12 𝐷 s21 𝐷 s22 𝐷 = 1 −1 −1 4 𝐒 𝐻 = s11 𝐻 s12 𝐻 s21 𝐻 s22 𝐻 = 1 −1 −1 4 Vícerozměrný t-test: n 6 p 2 T2 3,5 F 1,31 df1 = p 2 df2 = n-p-1 3 α 0,05 F-crit 9,55 p-hodnota 0,389 Vážená kovarianční matice: 𝐒∗ = 1 −1 −1 4 𝑇2 = ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 𝑇 S∗ 1 𝑛 𝐷 + 1 𝑛 𝐻 −1 ഥ𝒙 𝐷 − ഥ𝒙 𝐻 − 𝒄 Úkol 2 – řešení v softwaru R 26Koriťáková: Vícerozměrné metody - cvičení install.packages("ICSNP") library("ICSNP") Xd=matrix(c(2,4,3,12,10,8),3,2) Xh=matrix(c(5,3,4,7,9,5),3,2) HotellingsT2(Xd, Xh) Použití softwaru R jako kalkulačky: S=solve(2/3*matrix(c(1,-1,-1,4),2,2)) # výpočet inverzní matice b=matrix(c(-1,3),1,2) # vektor s hodnotami rozdílu souřadnic centroidů t2=b%*%S%*%t(b) # výpočet testové statistiky T2 F=(3/2)*(t2/4) # výpočet testové statistiky F qf(0.95,2,3) # 95% kvantil F rozdělení pro stupně volnosti 2 a 3 1-pf(F,2,3) # p-hodnota