Vícerozměrné statistické metody  Vícerozměrné statistické rozdělení a testy, operace s vektory a  maticemi  Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody  Vícerozměrné statistické rozdělení a testy Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Význam rozdělení ve vícerozměrném prostoru • Použitelnost mnohých klasických statistických metod a postupů vyžaduje  předpoklad o normálním rozdělení sledovaných proměnných.  • Podmínka normality vyplývá z toho, že metody založené na tomto předpokladu  mohou využít kompletní matematický aparát schovaný za danou statistickou  metodou. Tyto metody jsou také relativně snadno pochopitelné a se získanými  řešeními se dobře pracuje.  • Ovšem v reálném světě bývá obtížné předpoklad o normálním rozložení dodržet,  v mnohých oblastech přírodních a mnohdy i technických oborů není tento  předpoklad samozřejmostí.  • Předpokládejme však normalitu a předpoklad o jedné normálně rozložené  náhodné proměnné můžeme rozšířit na předpoklad simultánního normálního  rozložení dvou a více náhodných proměnných. Některé vícerozměrné postupy a  metody vycházejí z předpokladu vícerozměrného normálního rozdělení.  Vícerozměrné normální rozdělení může být také velmi užitečnou aproximací  různých jiných simultánních rozdělení.  3 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Rozdělení dat ve vícerozměrném prostoru 4 • Klasická jednorozměrná rozdělení a testy mají svůj protějšek ve vícerozměrném  prostoru; analogii lze nalézt v podstatě ke každému z nich  • Obrázky zobrazují 1D, 2D a 3D normální rozdělení • Při popisu vícerozměrných dat se uplatňují stejné charakteristiky jako při popisu  dat jednorozměrných, nicméně nyní již ne jako jedno číslo, ale jako vektor  5 6 7 8 9 10 11 12 13 14 15 0 50 100 150 200 250 300 350 400 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Pojmy popisu vícerozměrných rozdělení • Centroid – průměr nebo medián nebo jiná charakteristika středu spočtená pro všechny dimenze – Je popsán vektorem charakteristik středu – Používán jako popisná statistika nebo i jako součást výpočtu shlukovacích metod – „virtuální střed vícerozměrného shluku“  • Medoid – Medoid je reprezentativní objekt datového souboru nebo shluku v datech, jehož průměr  podobnosti od všech ostatních objektů v datech nebo ve shluku je minimální.  – Medoid má podobný význam jako průměr nebo centroid, jen je vždy reprezentován  reálným objektem z datového souboru.  – Medoid bývá nejčastěji používán tam, kde není definován průměr nebo centroid (např.  tří a vícerozměrný prostor). Tento termín se používá při shlukové analýze. 5 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Vícerozměrné charakteristiky rozdělení • Základní charakteristikou vícerozměrného rozdělení je vektor středních hodnot (vektor průměrů)  • a kovariační matice • kde je  kovariance dvou náhodných veličin, tj. 6                  )E(X )E(X )E(X E p 2 1  X                2 21 2 2 212 121 2 1 )cov()var( ppp p p        XXΣ ij        jjiijiij XEXXEXEX,Xcovσ  Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Příklady vícerozměrného rozdělení • R – knihovna MSBVAR 7 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Příklad vícerozměrného rozdělení I 8 vmat1=matrix(c(1,0,0, 0,1,0, 0,0,1),3,3) x1<‐rmultnorm(1000,c(10,10, 10), vmat1, tol = 1e‐10) write.table(x1,"x1.txt") Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Příklad vícerozměrného rozdělení II 9 vmat2=matrix(c(1,0.5,0.5, 0.5,1,0.5, 0.5,0.5,1),3,3) x2<‐rmultnorm(1000,c(10,10, 10), vmat2, tol = 1e‐10) write.table(x2,"x2.txt") Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Příklad vícerozměrného rozdělení III 10 vmat4=matrix(c(1,0.7,0.7, 0.7,1,0.7, 0.7,0.1,1),3,3) x4<‐rmultnorm(1000,c(10,10, 10), vmat4, tol = 1e‐10) write.table(x4,"x4.txt") Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Příklad vícerozměrného rozdělení IV 11 vmat3=matrix(c(1,1,1, 1,1,1, 1,1,1),3,3) x3<‐rmultnorm(1000,c(10,10, 10), vmat3, tol = 1e‐10) write.table(x3,"x3.txt") Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Wishartovo rozdělení • Wishartovo rozdělení je vícerozměrným zobecněním chi‐square rozdělení • Při odvození některých důležitých algoritmů ve vícerozměrné statistické analýze se  uplatňuje dále uvedená vlastnost Wishartova rozdělení.  • Součet nezávislých náhodných matic s Wishartovým rozdělením se shodnou střední hodnotou je rovněž Wishartovo rozdělení se stejnou střední hodnotou,  přičemž stupně volnosti se sčítají. 12                ΣA ΣA A...AAA 21 ,νW~ H1,2,...,h,,νW~ H 1h hph hph H Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Hotellingovo rozdělení • Jedná se o zobecnění t‐ rozdělení pro p‐rozměrný prostor • Uvažujme regulární čtvercovou matici A p‐tého řádu a rozdělením a na A nezávislý p‐ položkový vektor a s rozdělením Potom kvadratická forma má Hotellingovo rozdělení T2 (p, ν – p+1). • V jednorozměrném normálním rozdělení se při testování hypotéz o střední hodnotě používá statistika (jednovýběrový t‐test) • Druhou mocninu této statistiky můžeme upravit a zapsat ve tvaru Tento výraz odpovídá p‐rozměrné statistice, vhodné k úsudku o μ, která má Hotellingovo rozdělení T2 s p a n–p stupni volnosti, jedná se tedy o zobecnění t‐ rozdělení pro p‐rozměrný prostor. Můžeme tedy psát 13      pnp,T~SμxnΣμ,N~x 21T p    Σ,Wp   c N Σ,opp aAa 1T   cQ1      1-nt~ n xs μx σμ,N~ 2 2  X       μxxsμxnt 122   Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Normalita ve vícerozměrném prostoru • Normalita ve vícerozměrném prostoru 14 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Nenormální rozložení ve vícerozměrném prostoru 15 0 10 20 30 40 50 60 70 80 90 100 110 0 50 100 150 200 250 300 350 400 450 + 0 10 20 30 40 50 60 70 80 90 0 50 100 150 200 250 300 350 400 450 500 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Nenormální rozložení ve vícerozměrném prostoru 16 0 10 20 30 40 50 60 70 80 90 100 110 0 50 100 150 200 250 300 350 400 450 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Je normalita v jednorozměrném prostoru jedinou  podmínkou vícerozměrné normality?  17 + 5 6 7 8 9 10 11 12 13 14 15 0 50 100 150 200 250 300 350 400 6 7 8 9 10 11 12 13 14 0 50 100 150 200 250 300 350 400 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Je normalita v jednorozměrném prostoru jedinou  podmínkou vícerozměrné normality?  18 + 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Je normalita v jednorozměrném prostoru jedinou  podmínkou vícerozměrné normality?  19 + 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 12.0 12.5 13.0 13.5 14.0 0 20 40 60 80 100 120 140 160 180 200 6 7 8 9 10 11 12 13 14 6 7 8 9 10 11 12 13 14 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Vícerozměrný outlier 20 + 5 6 7 8 9 10 11 12 13 14 15 0 50 100 150 200 250 300 350 400 6 7 8 9 10 11 12 13 14 0 50 100 150 200 250 300 350 400 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Srovnání průměrů ve vícerozměrném prostoru • Pro zobecnění t‐testu pro p  rozměrů se využívá Hottelingovo rozdělení • kde (nejčastěji δ = 0), má opět Hotellingovo rozdělení s parametry p, n – p –1 21    δxxSδxx n nn T 21 1T 21 212   21 μμδ  Vícerozměrné statistické metody  Operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Pojmy vícerozměrných analýz  23 • Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena  jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a  každý z těchto parametrů můžeme považovat za jeden rozměr objektu. • Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice  tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty. • NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do  vícerozměrných analýz.  • Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další  výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď  objektů (Q mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší podle použité  metody a typu dat, některé metody umožňují použití uživatelských metrik.  Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Vstupní matice vícerozměrných analýz  24 Hodnoty parametrů pro jednotlivé objekty NxP MATICE ASOCIAČNÍ MATICE Korelace, kovariance, vzdálenost, podobnost Výpočet metriky  podobností/ vzdáleností