logo-IBA Analýza hlavních komponent (PCA) Bi8600: Vícerozměrné metody 3. cvičení Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová logo-IBA Analýza hlavních komponent – jaký je cíl? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová logo-IBA Analýza hlavních komponent – jaký je cíl? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová •V převážné většině případů existují mezi dimenzemi korelační vztahy, tedy dimenze se navzájem vysvětlují a pro popis kompletní informace v datech není třeba všech dimenzí vstupního souboru. 1.Popis a vizualizace vztahů mezi proměnnými 2.Výběr neredundantních proměnných pro další analýzy 3.Vytvoření zástupných faktorových os 4.Identifikace shluků/odlehlých objektů logo-IBA Analýza hlavních komponent – vstup? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová logo-IBA Analýza hlavních komponent – vstup? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová •Pracuje s asociační maticí korelací/kovariancí. •Jaký je vztah mezi kovariancí a korelací? •Kdy použijeme kterou matici? •Jaká bude dimenze matic? logo-IBA Jaký je vztah mezi kovariancí a korelací? •Kovariance popisuje vztah dvou proměnných; její rozsah závisí na variabilitě dat • • • •Korelace = kovariance standardizovaná na rozptyl proměnných. • • • • •Jaké hodnoty se nachází na diagonále korelační matice? •Má smysl použít metody redukce dimenzionality dat v situaci, kdy jsou hodnoty kovariance/korelace blízké nule? •Čemu odpovídá kovariance na standardizovaných datech? • Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová Pokud D(x1)=D(x2)=1 → kovariance = korelace logo-IBA Analýza hlavních komponent – předpoklady? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová logo-IBA Analýza hlavních komponent – předpoklady? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová •Více objektů než proměnných (obvykle se uvádí 10x větší počet objektů než proměnných) •Vícerozměrná technika – 100% vyplněnost dat (jedna chybějící hodnota vede k odstranění celého objektu z analýzy) •Souvisí s výpočtem asociační matice – korelace/kovariance vyžadují zhruba normální rozdělení proměnných. ALE! Jaké mohou být výjimky? logo-IBA Problémy s výpočtem korelačního koeficientu Identifikace shluků Identifikace odlehlých hodnot X r = 0,981 (p < 0,001) Y Y X r = 0,762 (p < 0,001) Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová •Výjimkou jsou situace, kdy provádíme analýzu za účelem identifikace shluků / odlehlých hodnot. logo-IBA Postup výpočtu PCA – primární data Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová ID x1 x2 A 2 1 B 3 4 C 5 0 D 7 6 E 9 2 Datový soubor Pozice objektů v původním prostoru logo-IBA Postup výpočtu PCA - standardizace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová •Proměnné jsou hodnoceny ve stejných jednotkách – proměnné jsou centrovány. logo-IBA Postup výpočtu PCA – kovarianční matice. Jaký význam mají vlastní čísla a vlastní vektory? logo-IBA Postup výpočtu PCA – vlastní čísla, vlastní vektory → % rozptylu, které popisuje první osa: 9/(9 + 5) *100 = 64,3 % → % rozptylu, které popisuje druhá osa: 5/(9 + 5) *100 = 35,7 % PCA pouze přerozděluje rozptyl původních dat do nových os logo-IBA Postup výpočtu PCA – pozice na nových osách - výpočet Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová •Nové osy (y1, y2) jsou lineární kombinací původních proměnných: logo-IBA Pozice objektů v novém prostoru Postup výpočtu PCA – pozice na nových osách - vizualizace Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová Výběrem faktorových os přicházíme o určité % variability původních dat ID x1 x2 y1 A 2 1 -3.578 B 3 4 -1.342 C 5 0 -1.342 D 7 6 3.130 E 9 2 3.130 Datový soubor •PCA natočí datový prostor a vytvoří nové osy tak, aby popisovali maximum variability původních dat. •Každá další osa popisuje rozptyl, který nebyl popsán osami předchozími – každá další osa je nezávislá = kolmá na osy předchozí. logo-IBA Grafické výstupy Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová Biplot korelací Variabilita vyčerpaná faktorovými osami Pozice proměnných Jednotková kružnice - Hranice příspěvku k definici faktorové osy Pozice objektů Variabilita vyčerpaná faktorovými osami Biplot vzdáleností logo-IBA Otázka: jaký počet os vybrat? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová •Pokud je cílem vizualizace dat: ideálně 2-3 osy. •Pokud chceme data zredukovat do menšího počtu nových proměnných, které budou vstupovat do další analýzy, definujeme počet os hlavně na základě % rozptylu původních dat, který vybranými osami popíšeme. •Kaiser-Gutmanovo kritérium • üPro další analýzu jsou vybrány osy s vlastním číslem >1 (korelace) nebo větším než je průměrné eigenvalue (kovariance) üLogika je vybírat osy, které přispívají k vysvětlení variability dat více než připadá rovnoměrným rozdělením variability • logo-IBA Jaký počet os popisuje dostatečně datový soubor? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová •Scree plot üGrafický nástroj hledající zlom ve vztahu počtu os a vyčerpané variability • •Zlom ve vztahu mezi počtem nových os a popsanou variabilitou – pro další analýzu budou použity první dvě faktorové osy. •Tyto osy popisují téměř 96 % rozptylu původních dat. logo-IBA Jaký počet os popisuje dostatečně datový soubor? Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, S. Littnerová, L. Brožová •Sheppardův diagram üVykresluje vzdálenosti v prostoru původních proměnných proti vzdálenostem na nových osách Za optimální z hlediska zachování vzdáleností objektů lze považovat dvě nebo tři dimenze. Při použití všech dimenzí jsou vzdálenosti perfektně zachovány.