Vícerozměrná data, jejich popis a vizualizace Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Vícerozměrná data 2 ID Pohlaví Věk Váha MMSE skóre Objem hipokampu … 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 3 4 … PROMĚNNÉ OBJEKTY (SUBJEKTY) Poznámka: proměnné označovány i jako znaky, pozorování, diskriminátory, příznakové  proměnné či příznaky Anglicky označení pouze jedním termínem: feature Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Maticový zápis datového souboru 3 ID Pohlaví Věk Váha MMSE skóre Objem hipokampu … 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 … PROMĚNNÉ OBJEKTY  (SUBJEKTY)                npnn p p xxx xxx xxx     21 22221 11211 X maticový zápis datového  souboru n objektů  (subjektů), které jsou  popsané p proměnnými jeden prvek matice xij je hodnota j‐té proměnné u i‐tého objektu  (subjektu), přičemž  j = 1, ..., p a i = 1, ..., n Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Typy dat ‐ opakování • Kvalitativní (kategoriální) data: • Binární data • Nominální data • Ordinální data • Kvantitativní data: • Intervalová data • Poměrová data 4 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Vizualizace jednorozměrných dat ‐ opakování 5 47.1% 52.9% Ženy (N=54) Muži (N=48) Pohlaví N=102 Koláčový graf Sloupkový graf 0 5 10 15 20 25 do 50 50 -54 55 -59 60 -64 65 -69 70 -74 75 -79 80 -84 nad 85 Věk (roky) % 0 25 50 75 100 Maximum Minimum Medián 75% percentil 25% percentil Krabicový graf (Box Plot)Histogram 0 5 10 15 20 25 0 10 20 30 40 50 60 70 80 90 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody K čemu nám může pomoci vizualizace dat? 6 id vek pohlavi cholesterol vyska vaha obvod_pasu obvod_boku BMI sys_tlak dia_tlak 1 38 Z 4.6 164 45 60 87 16.7 120 80 2 36 Z 4.35 167 90 97 112 32.3 130 80 3 26 Z 178 70 72 94 22.1 127 80 4 25 Z 4.2 165 59 65 92 21.7 130 80 5 47 M 5.65 158 92 96 26.8 155 90 6 21 Z 6.35 172 61 69 98 20.6 135 80 7 23 Z 3.45 170 82 92 113 28.4 130 80 8 35 M 7.99 179 90 101 110 28.1 140 88 9 33 Z 4.88 167 57 70 92 20.4 140 85 10 48 Z 9.56 164 70 93 107 26.0 250 97 11 25 M 3.1 186 75 81 102 21.7 120 70 12 41 Z 10 167 62 71 101 22.2 140 90 13 29 ZZ 4.2 165 58 66 98 21.3 120 80 14 24 M 5.62 174 80 92 107 26.4 156 90 15 58 Z 7.9 164 63 73 100 23.4 135 90 Chybějící hodnotyChybné hodnoty Odlehlé hodnoty → odhalení problémů v datech Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Problémy v datech – chybějící hodnoty • snaha, aby v datech vůbec nenastaly • pokud však nastanou, je silně nedoporučováno dělat každou analýzu na jinak velkém  souboru (tzv. „casewise“ odstraňování objektů) → 3 možná řešení: 7 1. vyloučit z analýzy všechny objekty, u nichž se vyskytla nějaká chybějící hodnota (tzv. „listwise“ odstranění objektů): ‐ pokud chybějících hodnot mnoho, zbyde pouze málo objektů ‐ pozor na systematicky chybějící hodnoty – může dojít ke zkreslení výsledků analýz ‐ občas vhodné odstranit proměnné s mnoha chybějícími hodnotami místo objektů, pokud proměnné nejsou důležité pro analýzu 2. definování souboru s vyplněnými „klíčovými“ proměnnými: ‐ na tomto souboru provedena většina analýz ‐ další analýzy dělány na podsouboru s menším počtem subjektů 3. doplnění chybějících hodnot (tzv. imputace): ‐ doplnění průměrem z hodnot, které jsou pro danou proměnnou k dispozici ‐ doplnění hodnot na základě regresních modelů ‐ pozor! doplnění hodnot však může zkreslit výsledky analýz Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Problémy v datech – odlehlé hodnoty • k identifikaci odlehlých hodnot mohou pomoci např. tečkové, maticové či  krabicové grafy • je třeba rozlišovat: 8 1. odlehlé hodnoty, které jsou způsobeny chybou (měřících přístrojů apod.) ‐ jsou to většinou nereálné hodnoty → je vhodné je smazat a dále s nimi zacházet jako s chybějícími hodnotami 2. odlehlé hodnoty, které jsou fyziologické (tzn. jsou to reálné hodnoty) → je vhodné tyto hodnoty v datech ponechat, pokud je to možné a nezkreslí to analýzu a použít neparametrické metody analýzy dat ‐ příklad, kdy je vhodné odlehlou hodnotu v souboru ponechat: pacienti Alzheimerovou chorobou v našem souboru mají hodnotu MMSE skóre větší než 15, jeden pacient má však hodnotu skóre 7 (je to reálná hodnota, smazáním bychom uměle snížili variabilitu) ‐ příklad, kdy je nevhodné odlehlou hodnotu v souboru ponechat: chceme měřit výšku 15‐letých dětí – dítě trpící nanismem měřící 80 cm by průměrnou výšku velice zkreslilo, proto ho ze souboru vyřadíme Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Vizualizace vícerozměrných dat • 3D sloupkové grafy • dvourozměrný histogram • maticové grafy • krabicové grafy pro více proměnných • ikonové (symbolové) grafy: – profilové sloupce – profily – paprskové (hvězdicové) grafy – polygony – pavučinové grafy – Chernoffovy tváře 9 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody 3D sloupkové grafy • vzájemný výskyt kategorií dvou kategoriálních proměnných • v softwaru Statistica: Graphs – 3D Sequential Graphs – Bivariate Histograms... 10 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Dvourozměrný histogram • pro vykreslení vztahu dvou spojitých proměnných • v softwaru Statistica: Graphs – 3D Sequential Graphs – Bivariate Histograms... 11 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Tečkový graf • rovněž pro vykreslení vztahu dvou spojitých proměnných  • v softwaru Statistica: Graphs – Scatterplots... 12 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Tečkový graf – přidání kategoriální proměnné • zahrnutí kategoriální proměnné do grafu použitím různých symbolů či barev pro  jednotlivé skupiny určené danou kategoriální proměnnou • v softwaru Statistica: Graphs – Scatterplots – na záložce Categorized zahrnout On u  X‐Categorized, vybrat kategoriální proměnnou pomocí Change Variable a změnit  Layout na Overlaid 13 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Maticový graf • vykreslení vztahu více spojitých proměnných • v softwaru Statistica: Graphs – Matrix Plots... • upozornění:  nastavení, jak se vypořádat s chybějícími hodnotami 14 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Maticový graf – na diagonále krabicové grafy • v softwaru Statistica: Graphs – Matrix Plots...; na záložce Advanced zatrhnout  Display: Box plot 15 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Krabicové grafy pro více proměnných • ukáží nám, zda mají proměnné podobný rozsah hodnot • v softwaru Statistica: označit příslušné sloupečky v datech – Graphs – Graphs of  Block Data – Box Plot: Block columns 16 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Vícenásobné krabicové grafy • umožňují znázornění vztahu několika kvalitativních proměnných a jedné  kvantitativní proměnné 17 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ikonové (symbolové) grafy • hodnoty znaků znázorněny jako geometrické útvary či symboly • každému objektu (subjektu) odpovídá jeden obrazec složený z těchto  geometrických útvarů či symbolů • umožní vizuálně porovnat, které objekty (subjekty) jsou si podobné • mnoho druhů, v softwaru Statistica např.: 1. Profilové sloupce 2. Profily 3. Paprskové (hvězdicové) grafy 4. Polygony 5. Pavučinové grafy 6. Chernoffovy tváře 18 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ikonové grafy – profilové sloupce • výšky sloupců odpovídají relativním hodnotám proměnných (relativní  hodnota je podíl původní hodnoty a maxima z absolutních hodnot dané  proměnné) • v softwaru Statistica: Graphs – Icon Plots... – Graph type: Columns – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 19 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ikonové grafy – profily • obdoba profilových sloupců, jen se středy horních hran profilových  sloupců spojí úsečkami • v softwaru Statistica: Graphs – Icon Plots... – Graph type: Profiles – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 20 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ikonové grafy – paprskové (hvězdicové) grafy • vzdálenosti od středu odpovídají relativním hodnotám proměnných • v softwaru Statistica: Graphs – Icon Plots... – Graph type: Stars – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 21 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ikonové grafy – polygony • obdoba paprskových grafů, jen jsou vyplněné • v softwaru Statistica: Graphs – Icon Plots... – Graph type: Polygons – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 22 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ikonové grafy – pavučinové grafy • obdoba paprskových grafů, přidáno znázornění maxima absolutních hodnot • v softwaru Statistica: Graphs – Icon Plots... – Graph type: Sun Rays – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 23 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ikonové grafy – Chernoffovy tváře • proměnné znázorněny jako části obličeje • v softwaru Statistica: Graphs – Icon Plots... – Graph type: Chernoff Faces – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 24 Vícerozměrné statistické rozdělení a testy Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Význam rozdělení ve vícerozměrném prostoru • Použitelnost mnohých klasických statistických metod a postupů vyžaduje  předpoklad o normálním rozdělení sledovaných proměnných.  • Podmínka normality vyplývá z toho, že metody založené na tomto předpokladu  mohou využít kompletní matematický aparát schovaný za danou statistickou  metodou. Tyto metody jsou také relativně snadno pochopitelné a se získanými  řešeními se dobře pracuje.  • Ovšem v reálném světě bývá obtížné předpoklad o normálním rozložení dodržet,  v mnohých oblastech přírodních a mnohdy i technických oborů není tento  předpoklad samozřejmostí.  • Předpokládejme však normalitu a předpoklad o jedné normálně rozložené  náhodné proměnné můžeme rozšířit na předpoklad simultánního normálního  rozložení dvou a více náhodných proměnných. Některé vícerozměrné postupy a  metody vycházejí z předpokladu vícerozměrného normálního rozdělení.  Vícerozměrné normální rozdělení může být také velmi užitečnou aproximací  různých jiných simultánních rozdělení.  26 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Rozdělení dat ve vícerozměrném prostoru 27 • Klasická jednorozměrná rozdělení a testy mají svůj protějšek ve vícerozměrném  prostoru; analogii lze nalézt v podstatě ke každému z nich  • Obrázky zobrazují 1D, 2D a 3D normální rozdělení • Při popisu vícerozměrných dat se uplatňují stejné charakteristiky jako při popisu  dat jednorozměrných, nicméně nyní již ne jako jedno číslo, ale jako vektor  5 6 7 8 9 10 11 12 13 14 15 0 50 100 150 200 250 300 350 400 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Pojmy popisu vícerozměrných rozdělení • Centroid – průměr nebo medián nebo jiná charakteristika středu spočtená pro všechny dimenze – Je popsán vektorem charakteristik středu – Používán jako popisná statistika nebo i jako součást výpočtu shlukovacích metod – „virtuální střed vícerozměrného shluku“  • Medoid – Medoid je reprezentativní objekt datového souboru nebo shluku v datech, jehož průměr  podobnosti od všech ostatních objektů v datech nebo ve shluku je minimální.  – Medoid má podobný význam jako průměr nebo centroid, jen je vždy reprezentován  reálným objektem z datového souboru.  – Medoid bývá nejčastěji používán tam, kde není definován průměr nebo centroid (např.  tří a vícerozměrný prostor). Tento termín se používá při shlukové analýze. 28 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Vícerozměrné charakteristiky rozdělení • Základní charakteristikou vícerozměrného rozdělení je vektor středních hodnot (vektor průměrů)  • a kovariační matice • kde je  kovariance dvou náhodných veličin, tj. 29                  )E(X )E(X )E(X E p 2 1  X                2 21 2 2 212 121 2 1 )cov()var( ppp p p        XXΣ ij        jjiijiij XEXXEXEX,Xcovσ  Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Příklad • Spočtěte vektor středních hodnot a výběrovou kovarianční matici pro soubor 3  subjektů, u nichž byly naměřeny hodnoty objemu hipokampu a mozkových komor,  přičemž naměřené hodnoty byly zaznamenány do následující datové matice: 30 Janoušová: Vícerozměrné metody ‐ cvičení 𝐗 2 12 4 10 3 8 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Příklad ‐ řešení  31 Vektor středních hodnot: 𝐱 1 𝑛 x 1 𝑛 x 1 3 2 4 3 1 3 12 10 8 3 10 s ∑ x x 2 3 4 3 3 3 1 1 0 1 ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 1 2 3 4 5 7 8 9 10 11 12 13 Objem hipokampu Objem mozkových komor Kovarianční matice: → 𝐒 1 1 1 4 ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 s ∑ x x 12 10 10 10 8 10 4 s s ∑ x x x x 2 3 12 10 4 3 10 10 3 3 8 10 ‐1 𝐒 s s s s , kde: Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Příklady vícerozměrného rozdělení • R – knihovna MSBVAR 32 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Příklad vícerozměrného rozdělení I 33 vmat1=matrix(c(1,0,0, 0,1,0, 0,0,1),3,3) x1<‐rmultnorm(1000,c(10,10, 10), vmat1, tol = 1e‐10) write.table(x1,"x1.txt") Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Příklad vícerozměrného rozdělení II 34 vmat2=matrix(c(1,0.5,0.5, 0.5,1,0.5, 0.5,0.5,1),3,3) x2<‐rmultnorm(1000,c(10,10, 10), vmat2, tol = 1e‐10) write.table(x2,"x2.txt") Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Příklad vícerozměrného rozdělení III 35 vmat4=matrix(c(1,0.7,0.7, 0.7,1,0.7, 0.7,0.1,1),3,3) x4<‐rmultnorm(1000,c(10,10, 10), vmat4, tol = 1e‐10) write.table(x4,"x4.txt") Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Příklad vícerozměrného rozdělení IV 36 vmat3=matrix(c(1,1,1, 1,1,1, 1,1,1),3,3) x3<‐rmultnorm(1000,c(10,10, 10), vmat3, tol = 1e‐10) write.table(x3,"x3.txt") Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Wishartovo rozdělení • Wishartovo rozdělení je vícerozměrným zobecněním chi‐square rozdělení • Při odvození některých důležitých algoritmů ve vícerozměrné statistické analýze se  uplatňuje dále uvedená vlastnost Wishartova rozdělení.  • Součet nezávislých náhodných matic s Wishartovým rozdělením se shodnou střední hodnotou je rovněž Wishartovo rozdělení se stejnou střední hodnotou,  přičemž stupně volnosti se sčítají. 37                ΣA ΣA A...AAA 21 ,νW~ H1,2,...,h,,νW~ H 1h hph hph H Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Hotellingovo rozdělení • Jedná se o zobecnění t‐ rozdělení pro p‐rozměrný prostor • Uvažujme regulární čtvercovou matici A p‐tého řádu a rozdělením a na A nezávislý p‐ položkový vektor a s rozdělením Potom kvadratická forma má Hotellingovo rozdělení T2 (p, ν – p+1). • V jednorozměrném normálním rozdělení se při testování hypotéz o střední hodnotě používá statistika (jednovýběrový t‐test) • Druhou mocninu této statistiky můžeme upravit a zapsat ve tvaru Tento výraz odpovídá p‐rozměrné statistice, vhodné k úsudku o μ, která má Hotellingovo rozdělení T2 s p a n–p stupni volnosti, jedná se tedy o zobecnění t‐ rozdělení pro p‐rozměrný prostor. Můžeme tedy psát 38      pnp,T~SμxnΣμ,N~x 21T p    Σ,Wp   c N Σ,opp aAa 1T   cQ1      1-nt~ n xs μx σμ,N~ 2 2  X       μxxsμxnt 122   Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Normalita ve vícerozměrném prostoru • Normalita ve vícerozměrném prostoru 39 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Nenormální rozložení ve vícerozměrném prostoru 40 0 10 20 30 40 50 60 70 80 90 100 110 0 50 100 150 200 250 300 350 400 450 + 0 10 20 30 40 50 60 70 80 90 0 50 100 150 200 250 300 350 400 450 500 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Nenormální rozložení ve vícerozměrném prostoru 41 0 10 20 30 40 50 60 70 80 90 100 110 0 50 100 150 200 250 300 350 400 450 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Je normalita v jednorozměrném prostoru jedinou  podmínkou vícerozměrné normality?  42 + 5 6 7 8 9 10 11 12 13 14 15 0 50 100 150 200 250 300 350 400 6 7 8 9 10 11 12 13 14 0 50 100 150 200 250 300 350 400 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Je normalita v jednorozměrném prostoru jedinou  podmínkou vícerozměrné normality?  43 + 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Je normalita v jednorozměrném prostoru jedinou  podmínkou vícerozměrné normality?  44 + 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 6 7 8 9 10 11 12 13 14 6 7 8 9 10 11 12 13 14 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Vícerozměrný outlier 45 + 5 6 7 8 9 10 11 12 13 14 15 0 50 100 150 200 250 300 350 400 6 7 8 9 10 11 12 13 14 0 50 100 150 200 250 300 350 400 Vícerozměrná odlehlá  hodnota (outlier) Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ověření dvourozměrné normality 46 Bagplot = „bivariate boxplot“ (tzn. „dvourozměrný krabicový graf“) v softwaru Statistica: Graphs – 2D Graphs – Bag Plots Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ověření dvourozměrné normality 47 Vykreslení regulační elipsy („control“ elipse): v softwaru Statistica: Graphs – Scatterplots – na záložce Advanced zvolit Elipse Normal Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Srovnání průměrů ve vícerozměrném prostoru • Pro zobecnění t‐testu pro p  rozměrů se využívá Hottelingovo rozdělení • kde (nejčastěji δ = 0), má opět Hotellingovo rozdělení s parametry p, n – p –1 48    δxxSδxx n nn T 21 1T 21 212   21 μμδ  Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Typy transformací a jiných úprav vícerozměrných dat • normalizace dat (= převod na normální rozdělení) • standardizace dat • min‐max normalizace • centrování dat • odstranění vlivu kovariát na jiné proměnné 49 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Normalizace dat • převod na normální rozdělení (normalita je předpokladem řady statistických testů). • např. logaritmická transformace: X = ln(Y) nebo X = ln(Y+1), pokud data obsahují  hodnotu 0  • další příklady: – odmocninová transf. (pro proměnné s Poissonovým rozložením nebo  obecně data typu počet jedinců, buněk apod.:               nebo – arcsin transfomace (pro proměnné s binomickým rozložením) – Box‐Coxova tranformace f(y) y f(x) ln (y) X = ln(Y) Asymetrické rozdělení Normální rozdělení Medián Průměr Medián PrůměrGeometrický průměr YX  1 YX 50 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Standardizace dat • důvod: převod proměnných na stejné měřítko • standardizace:  𝑧 ̅ (tzn. odečtení průměru od jednotlivých hodnot a  podělení směrodatnou odchylkou) • proměnné budou mít rozsah přibližně od ‐3 do 3 • získáme tím současně i tzv. z‐skóre (které vyjadřuje, o kolik směrodatných odchylek  se i‐tá hodnota odchýlila od průměru) 51 • pozor: standardizace je nevhodná v případě, že proměnné nemají normální rozdělení a že se v datech vyskytují odlehlé hodnoty!!! Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Min‐max normalizace • důvod: převod proměnných na stejné měřítko • oproti standardizaci vhodná i na proměnné nemající normální rozdělení či  obsahující odlehlé hodnoty • min‐max normalizace:  𝑦 • rozsah hodnot proměnných po min‐max normalizaci je od 0 do 1  52 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Centrování dat • odečtení průměru od dat – získáme novou proměnnou, která bude mít průměr  roven nule • důvod: centrování je důležitou podmínkou některých pokročilých statistických  metod (např. klasifikačních) • centrování: 𝑧 𝑥 𝑥̅ 53 Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody 1. V prvním kroku definujeme regresní model vztahu kovariáty (např. věku) a dané proměnné 2. Pro každého pacienta je vypočteno jeho reziduum od regresní přímky 3. Reziduum (představující hodnotu parametru po odečtení vlivu věku, jeho průměr je 0) je  přičteno k průměrné hodnotě parametru 4. Výsledná adjustovaná hodnota má odečten vliv věku, ale zároveň není změněna číselná  hodnota parametru 54 Původní data Adjustovaná data Odstranění vlivu kovariát (tzv. adjustace) Věk Věk Věk Věk Objem amygdaly Objem amygdaly Objem amygdaly Objem amygdaly