Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Význam rozdělení ve vícerozměrném prostoru •Použitelnost mnohých klasických statistických metod a postupů vyžaduje předpoklad o normálním rozdělení sledovaných proměnných. •Podmínka normality vyplývá z toho, že metody založené na tomto předpokladu mohou využít kompletní matematický aparát schovaný za danou statistickou metodou. Tyto metody jsou také relativně snadno pochopitelné a se získanými řešeními se dobře pracuje. •Ovšem v reálném světě bývá obtížné předpoklad o normálním rozložení dodržet, v mnohých oblastech přírodních a mnohdy i technických oborů není tento předpoklad samozřejmostí. •Předpokládejme však normalitu a předpoklad o jedné normálně rozložené náhodné proměnné můžeme rozšířit na předpoklad simultánního normálního rozložení dvou a více náhodných proměnných. Některé vícerozměrné postupy a metody vycházejí z předpokladu vícerozměrného normálního rozdělení. Vícerozměrné normální rozdělení může být také velmi užitečnou aproximací různých jiných simultánních rozdělení. • 3 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Rozdělení dat ve vícerozměrném prostoru 4 •Klasická jednorozměrná rozdělení a testy mají svůj protějšek ve vícerozměrném prostoru; analogii lze nalézt v podstatě ke každému z nich •Obrázky zobrazují 1D, 2D a 3D normální rozdělení •Při popisu vícerozměrných dat se uplatňují stejné charakteristiky jako při popisu dat jednorozměrných, nicméně nyní již ne jako jedno číslo, ale jako vektor • logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Pojmy popisu vícerozměrných rozdělení •Centroid –průměr nebo medián nebo jiná charakteristika středu spočtená pro všechny dimenze –Je popsán vektorem charakteristik středu –Používán jako popisná statistika nebo i jako součást výpočtu shlukovacích metod –„virtuální střed vícerozměrného shluku“ – •Medoid –Medoid je reprezentativní objekt datového souboru nebo shluku v datech, jehož průměr podobnosti od všech ostatních objektů v datech nebo ve shluku je minimální. –Medoid má podobný význam jako průměr nebo centroid, jen je vždy reprezentován reálným objektem z datového souboru. –Medoid bývá nejčastěji používán tam, kde není definován průměr nebo centroid (např. tří a vícerozměrný prostor). Tento termín se používá při shlukové analýze. 5 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vícerozměrné charakteristiky rozdělení •Základní charakteristikou vícerozměrného rozdělení je vektor středních hodnot (vektor průměrů) • • • •a kovariační matice • • • •kde je kovariance dvou náhodných veličin, tj. • • 6 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Příklady vícerozměrného rozdělení •R – knihovna MSBVAR 7 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Příklad vícerozměrného rozdělení I 8 vmat1=matrix(c(1,0,0, 0,1,0, 0,0,1),3,3) x1<-rmultnorm(1000,c(10,10, 10), vmat1, tol = 1e-10) write.table(x1,"x1.txt") logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Příklad vícerozměrného rozdělení II 9 vmat2=matrix(c(1,0.5,0.5, 0.5,1,0.5, 0.5,0.5,1),3,3) x2<-rmultnorm(1000,c(10,10, 10), vmat2, tol = 1e-10) write.table(x2,"x2.txt") logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Příklad vícerozměrného rozdělení III 10 vmat4=matrix(c(1,0.7,0.7, 0.7,1,0.7, 0.7,0.1,1),3,3) x4<-rmultnorm(1000,c(10,10, 10), vmat4, tol = 1e-10) write.table(x4,"x4.txt") logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Příklad vícerozměrného rozdělení IV 11 vmat3=matrix(c(1,1,1, 1,1,1, 1,1,1),3,3) x3<-rmultnorm(1000,c(10,10, 10), vmat3, tol = 1e-10) write.table(x3,"x3.txt") logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Wishartovo rozdělení •Wishartovo rozdělení je vícerozměrným zobecněním chi-square rozdělení •Při odvození některých důležitých algoritmů ve vícerozměrné statistické analýze se uplatňuje dále uvedená vlastnost Wishartova rozdělení. •Součet nezávislých náhodných matic s Wishartovým rozdělením se shodnou střední hodnotou je rovněž Wishartovo rozdělení se stejnou střední hodnotou, přičemž stupně volnosti se sčítají. • 12 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Hotellingovo rozdělení •Jedná se o zobecnění t- rozdělení pro p-rozměrný prostor •Uvažujme regulární čtvercovou matici A p-tého řádu a rozdělením a na A nezávislý p-položkový vektor a s rozdělením Potom kvadratická forma má Hotellingovo rozdělení T2 (p, ν – p+1). •V jednorozměrném normálním rozdělení se při testování hypotéz o střední hodnotě používá statistika (jednovýběrový t-test) • •Druhou mocninu této statistiky můžeme upravit a zapsat ve tvaru Tento výraz odpovídá p-rozměrné statistice, vhodné k úsudku o μ, která má Hotellingovo rozdělení T2 s p a n–p stupni volnosti, jedná se tedy o zobecnění t- rozdělení pro p-rozměrný prostor. Můžeme tedy psát • 13 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Normalita ve vícerozměrném prostoru •Normalita ve vícerozměrném prostoru 14 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Nenormální rozložení ve vícerozměrném prostoru 15 + logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Nenormální rozložení ve vícerozměrném prostoru 16 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 17 + logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 18 + logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 19 + logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vícerozměrný outlier 20 + logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Srovnání průměrů ve vícerozměrném prostoru •Pro zobecnění t-testu pro p rozměrů se využívá Hottelingovo rozdělení • • • •kde (nejčastěji δ = 0), má opět Hotellingovo rozdělení s parametry p, n – p –1 • 21 Vícerozměrné statistické metody Operace s vektory a maticemi logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Pojmy vícerozměrných analýz 23 •Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu. •Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty. •NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do vícerozměrných analýz. •Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik. logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vstupní matice vícerozměrných analýz 24 Hodnoty parametrů pro jednotlivé objekty NxP MATICE ASOCIAČNÍ MATICE Korelace, kovariance, vzdálenost, podobnost Výpočet metriky podobností/ vzdáleností