Vit^ľwziii^ľiiíi íiiiíily'Zíi ílíil _ MU IBA ^ Jiří Jarkovský tiky a analýz án kurzu 0 Každých 14 dni 4 vyučovací hodiny 0 Ukončení zkouškou -»Písemná -»Zaměřená na principy a aplikace analýz 0 Cil kurzu -»Vysvětlit principy vícerozměrných analýz, jejich aplikaci v biologii a jejich interpretaci -»Přehled základního software ■»Příklady na reálných datech ___________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _mt L'"",,r Vícerozměrná analýza dat © Institut biostatistiky a analýz IfeV JBI/ Náplň kurzu I Vícerozměná analýza dat - smysl a cíle * Příklady užití vícerozměrných analýz Výhody a nevýhody vícerozměrné analýzy dat * Parametrická a neparametrická vícerozměrná statistika Statistické SW pro vícerozměrnou analýzu dat Podobnost a vzdálenost objektů ve vícerozměrném prostoru ■* Metriky podobnosti a vzdálenosti a jejich úskalí J Obecné metriky podobnosti a vzdálenosti j Metriky podobnosti pro biologická společenstva - problém double zero * Asociační matice j Struktura asociační matice □ Práce s asociační maticí □ Mantelův test Vícerozměrné statistické testy a rozložení * Vícerozměrné normální rozložení Vícerozměrné charakteristiky - medoid * Hottelingovo T, Wishartovo rozdělení Základy maticové algebry Typy matic a jejich využití při vícerozměrné analýze dat I Matematické operace s maticemi Eigenvalues (vlastní čísla) a eigenvectory (vlastní vektory) matic Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr Náplň kurzu II Shluková analýza Kriteria posuzování výsledků shlukovacích metod □ Minimální vnitroshluková varibilita □ Maximální mezishluková variabilita □ Silhouette width Hierarchické aglomerativní shlukování □ Shlukovací algoritmy • nearest neighbour (single linkage) • farthest neighbour (complete linkage) • UPGMA • WPGMA • UPGMC • WPGMC • Ward's method * Hierarchické divizivní shlukování □ TWINSPAN * Nehierarchické divizivní shlukování □ K-means clustering □ X-means clustering □ Partitioning around medoids (PAM) Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr Náplň kurzu III Ordinační analýzy Principy ordinačních analýz - redukce dimenzionality □ Eigenvektor □ Eigenvalue Základní typy ordinační analýzy a jejich užití □ PCA □ CA J DCA □ CCA □ DCCA J RDA J MDS □ PCoA □ Kanonická korelace Analýza hlavních komponent PCA na základě euklidovské vzdálenosti * PCA na základě korelací a kovariancí ■* Normalised PCA ■* Biplot a jeho interpretace Korespondenční analýza a její varianty * CA, DCA, CCA, DCCA MDS a PCoA - ordinační analýza na libovolné asociační matici Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr Software pro vícerozměrnou analýzu 0 „Klikaci všeobecne SW * Statistica \A * SAS 0 Specializované SW ■* PcORD * CANOCO * PAST * WEKA * ORANGE * SW pro microarray analýzu Nejrůznější utility na netu 0 Univerzálni SW R - ADE4 atd. Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ feit Základní statistické výpočty s vazbou na vícerozměrnou analýzu Vztah klasické a vícerozměrné statistiky 0 Vícerozměrná analýza dat využíva prístupu klasické statistiky 0 Zároveň je citlivá i na ieiich problémy ^ ^ 0 Agregace dat pres sumární statistiku nebo kontingenční tabulky - korespondenční analýza 0 Korelace - analýza hlavních komponent, faktorová analýza, diskriminační analýza Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Kontingenční tabulka 3 Důchodový vek p^-^^ Ano Ne ^ I Ano 20 82 102 I 1 Ne 10 54 64 I | Z 30 136 166 | 0 Kontingenční tabulka je používána pro hodnocení vztahu kategoriálních proměnných Kontingenční tabulka v obrázku Nákup: ANO c: 49% Důchodce Ekonomicky aktivní % Nákup: NE 84,4 Důchodce Ekonomicky aktivní Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Kontingenční tabulky - princip analýzy Binomické jevy (1/0) 2 Ľ I pozorovaná četnost očekávaná četnost ] očekávaná četnost 2 pozorovaná očekávaná 2 četnost četnost + očekávaná četnost Příklad I. jev 1 II. jev 2 / 10 000 lidí hází mincí rub: 4 000 případů (R) líc: 6 000 případů (L) Lze výsledek považovat za statisticky významně odlišný (nebo neodlišný) od očekávaného poměru R : L = 1 : 1 ? Stejným způsobem, tedy hodnocením odchylek od očekávaného vyrovnaného počtu případů hodnotí data i korespondenční analýza Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ Ißj Korelační analýza • Korelace - vztah (závislost) dvou znaků (parametrů) i Y- Korelace mezi parametry jsou základem faktorové analýzy a analýzy hlavních komponent, pokud vazby mezi parametry nejsou tyto metody postrádají smysl. Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA Rizika korelační analýzy Problém rozložení hodnot Problém typu modelu * ..v • • • •• • v. • • t y i • • • • ► r = 0,981 (p < 0,001) * *> r = 0,761 (p < 0,032) i r* • Problém velikosti vzorku r = 0,891 (p < 0,214) r = 0,212 (p < 0,008) • 0 m m •-> • Vícerozměrná analýza dat © Institut biostatistiky a analýz ■i .-■■"■ -. *— IUI MU IBA M změř Význam vícerozměrného hodnocení dat Vícerozměrné vnímání skutečnosti — nová kvalita analvzv dat skupina 2° ° skupina 2 Vícerozměrný systér* X2 j X2 i-----► l + I í—► skup. skup. skup. skup. 2 12 1 Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Bezna sumarizace dat „likviduje ______individualitu jedince______ 0 2 9 A A l 1 \ /r A A o JOL. . ~ Prumer ± SE \f \f BEZNA STATISTICKÁ SUMARIZACE s Zpřehlednění dat s Neodlišípůvodní měření Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ Ißj Vícerozměrné hodnocení ... s ohledem na individualitu ! Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Vícerozměrné hodnocení - nová kvalita Pouze kombinované parametry mají odpovídající informační sílu A A A BBB """V6 AbbbBbbB* aa b b b příklad: XI = Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Vícerozměrné hodnocení vychází z jednoduchých principů příklad: vícerozměrná vzdálenost měření mezi dvěma objekty (body) b = ifc- *i = 4 Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Vícerozměrné modelování je strategickou disciplínou Kn technické parametry automobilu ^n+: řidičovy schopnosti a jeho stav kp+i rychlost, povrch, situace Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ feit Základní principy vícerozměrného hodnocení dat Pojmy vícerozměrných analýz 0 0 0 0 Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu. Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty. NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do vícerozměrných analýz. Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik. Vícerozměrná analýza dat © Institut biostatistiky a analýz 1BA * Vstupní matice vícerozměrných analýz NxP MATICE asociační matice t- cm co i_ i— i— "S "S "ffi E E E ní ní ní Q. Q. . Q. z /\ \ objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 objekt 6 Hodnoty parametru pro jednotlivé bbjekty Výpočet metriky podobností/ vzdáleností t- (N CO ^ * lO (D _*: _*; ^ _*: _*; ^ a) aj a) a) aj a) .Q _Q .Q _Q _Q .Q o o o o o o objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 /\ objekt 6 ^H Korelace, kovariance, vzdálenost, podobnost Vícerozměrná analýza dat © Institut biostatistiky a analýz JfiA v^ í typy vícerozměrných analýz SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY vytvářeni shluku objektu na základě jejich podobnosti 0 identifikace typů objektů 0 zjednodušení vícerozměrného problému do menšího počtu rozměrů 0 principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Typy vícerozměrných analýz SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY t podobnost t t Faktorové J>sy t** 4-4 x n* x Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ MU IBA M změř Asociační matice Vícerozměrná vzdálenost a podobnost Seznam taxonů - vícerozměrný popis společenstva 0 Na seznam taxonu lze pohlížet take jako seznam rozmeru společenstva 0 Záznam o nalezených taxonech tak vlastně tvoří vícerozměrný popis daného společenstva 0 Společenstva můžeme srovnávat podle jejich vzájemné pozice v n-rozměrném prostoru 0 Pro srovnání společenstev lze teoreticky využít libovolnou metriku vícerozměrné podobnosti nebo vzdálenosti -l4{Xl,X2 ) — a a a {a + b)(a + c) ^{a + b)(a + c) Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr Faith (1983) e V tomto koeficientu je neshoda (přítomnost na jedné a absence na druhé lokalitě) vážena proti duplicitní prezenci. Hodnota S26 klesá s růstem double-zero a + d /2 ^ 26 V*í >-^ ) — p Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr MU IBA o*»*,„ m. změř Kvantitativní koeficienty »^ Klasické44 indexy podobnosti 0 Sorensenův kvantitativní koeficient, kde aN a bN jsou celkové počty jedinců v společenstvech A a B, jN je pak suma abundancí pokud se druh nachází v obou společenstvech, je počítána vždy z nižší abundance daného druhu ve společenstvu r = 2jN (aN + bN) 0 Morisita-Horn index, kde aN je celkový počet jedinců ve společenstvu A a an; počet jedinců druhu i ve společenstvu A (obdobně platí pro společenstvo B) ^mH (da + db).aN.bN da- Z an, aN' Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr Jednoduchý srovnávací koeficient (Sokal & Michener. iq<=;81 U 0 modifikovaný simple matching coefficient múze byt použit pro multistavove deskriptory - čitatel obsahuje počet deskriptorů, pro které jsou dva objekty ve stejném stavu - např. je-li dvojice objektů popsána následujícími deseti multistavovými deskriptory: hodnota SI,vypočítaná pro 10 multistavových deskriptorů bude Sl,(xl,x2) = 4 agreements/ 10 descriptors = 0.4 0 Podobným způsobem je možné rozšířit všechny binární koeficienty pro multistavove deskriptory. ol (X19X2 ) — agreements P Deskriptors S Object Xj 9 3 7 3 4 9 5 4 0 6 Object x2 2 3 2 1 2 9 3 2 0 6 Agreements 0 + 1 + 0 + 0 + 0 + 1 + 0 + 0 + 1 + 1 4 Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr Gowerův obecný koeficient podobnosti (1971) ___________________L____________ ■ 0 4z pj=i 'I2y Pro binární deskriptory sj=l (shoda) nebo 0 (neshoda). Gower navrhl dvě formy tohoto koeficientu. Následující forma je symetrická, dává sj=l double-zero. Druhá forma, Gowerův asymetrický koeficient S19 dává pro double-zero sj=0 Kvalitativní a semikvantitivní deskriptory jsou upraveny podle jednoduchého zaměňovacího pravidla, sj=l při souhlasu a s j = 0 při nesouhlasu deskriptorů. Double zero jsou ošetřeny stejně jako v předchozím odstavci. Kvantitativní deskriptory (reálná čísla) jsou zpracovány následovně: pro každý deskriptor se nejprve vypočte rozdíl mezi stavy obou objektů který je poté vydělen největším rozdílem (Rj), nalezeným pro daný deskriptor mezi všemi objekty ve studii (nebo v referenční populaci - doporučuje se vypočítat největší diferenci Rj každého deskriptoru j pro celou populaci, aby byla zajištěna konzistence výsledků pro všechny parciální studie). Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA '•$& Gowerův obecný koeficient podobnosti (1971) ___________________IL____________ ■ 0 normalizovaná vzdálenost může být odečtena od 1 aby byla transformována na podobnost: 0 Suj = 1 - y m - y 2j R Goweruv koeficent muže být nastaven tak, aby zahrnoval přídavný flexibilní prvek: žádné porovnání není vypočítáno u deskriptorů, u nichž chybí informace buď u jednoho, nebo u druhého objektu. Toto zajišťuje člen wj, nazývaný Kroneckerovo delta, popisující přítomnost/nepřítomnost informace v obou objektech: je-li informace o deskriptoru yj přítomna u obou objektů (w/=l), jinak (*v/=0), tento koeficient nabývá hodnot podobnosti mezi 0 a 1 (největší podobnost objektů). Další možností je vážení různých deskriptorů prostým přiřazením čísla v rozsahu 0-1 wj. o15(Xj,X2 ) — Wi2y*i2y P Z y m Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr feit Různé vícerozměrné metriky vzdáleností Euklidovská vzdálenost 0 Jde o základni metrické merítko vzdálenosti a pocita vzdálenost objektů obdobně jako Pythagorova věta počítá přeponu pravoúhlého trojúhelníku. Metoda je citlivá na rozdílný rozsah hodnot vstupujících proměnných (vhodným řešením může být standardizace) a double zero problém. Nemá horní hranici hodnot. Dl(xl,x2) = ^TJpj=l(ylj -y2j) Jako dalsi merítko se používa take čtverec teto vzdálenosti. . Jeho nevýhodou jsou semimetrické vlastnosti. y21 K /"\ Diíx^) / y22 X2^/ ,/ y12 y11 Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Průměrná vzdálenost 0 Euklidovská vzdálenost je prepočítaná na počet parametrů (druhů v případě vzdálenosti společenstev odběrů). 2 1 ^ D(x1,x2) = — IJP(yli -y2j) P D2(xl,x2) = ^JD Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Chord (Orlóci, 1967) 0 Odstraňuje double zero problém a vliv rozdílného počtu jedinců druhů ve vzorcích při výpočtu Euklidovské vzdálenosti. Její maximální hodnota je druhá odmocnina ze dvou a minimum 0. Při výpočtu počítá pouze s poměry druhů v rámci jednotlivých vzorků. Jde vlastně o Euklidovskou vzdálenost počítanou pro vektory vzorků standardizované na délku 1, nebo je možný přímý výpočet už zahrnující standardizaci. Vnitřní část výpočtu je vlastně cosinus úhlu svíraného vektory, zápis vzorce je možný i v této formě. / L>3 (Xj, X2 ) — \1 1- ^U y^y-ii \ \ zu y\, ZU ylj j D3 = 72(1 - cos e) Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA vffr Geodetická metrika 0 Počíta del ku vyseče jednotkové kružnice mezi normalizovanými vektory (viz. Chord distance). D4 (Xj x2) = arccos 1- U3 (Xj, x2) Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Mahalanobisova vzdálenost (Mahalanobis _________________1936^______________ 0 Jde o obecné měřítko vzdálenosti beroucí v úvahu korelaci mezi parametry a je nezávislá na rozsahu hodnot parametrů. Počítá vzdálenost mezi objekty v systému souřadnic jehož osy nemusí být na sebe kolmé. V praxi se používá pro zjištění vzdálenosti mezi skupinami objektů. Jsou dány dvě skupiny objektů wl a w2 o ni a n2 počtu objektů a popsané p parametry: D25{wx,w2) = dnV~xdn Kde dn je vektor o délce p rozdílů mezi průměry p parametrů v obou skupinách. V je vážená disperzní matice (matice kovariancí parametrů) uvnitř skupin objektů. v = 1 nx+n2-2 [(Wl-l)S1+(w-2)S2] kde SI a S2 jsou disperzní matice jednotlivých skupin. Vektor měří rozdíl mezi p- rozměrnými průměry skupin a V vkládá do rovnice kovariancí mezi parametry. Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ Ißj Minkowskeho metrika 0 Je obecnou formou výpočtu vzdálenosti - podle zadaného koeficientu může odpovídat např. Euklidovské nebo Manhattanske metrice. Se stoupající koeficientem umocňování stoupá významnost větších rozdílů. Existuje PH ještě obecnější forma, kdy koeficient umocňování a odmocňování je zadáván zvlášť. Manhattanska vzdálenost 0 Jde vlastně o součet rozdílů jednotlivých parametrů popisujících objekty JJrj yxx, x2 ) — 2-1'j=i y y - y2j Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Mean character difference (Czekanowski ____________wm±__________ 0 Manhattanska vzdálenost prepočítaná na počet parametrů. D%\xl,x2) — 2^/=1 P y u - y y Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ Ißj Whittakerův asociační index (Whittaker] 0 Je dobre použitelný pro data abundanci, kazdy druh je nejprve transformován ve svůj podíl ve společenstvu, následující výpočet je opět obdobou Manhattanské vzdálenosti. Dg (Xj , X2 ) — 2j ,-=1 2 yij yij i;=1 ytJ Y.pj=x y2j 0 Jeho hodnota je 0 v případě identických proporcí druhů. Stejný výsledek lze získat i jako součet nejmenších podílů v rámci obou vzorků. 9 \*^1 ? 2 / f 1-min y \ j \J-Uyjj Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ Ißj Canberra metric (Lance & Williams 1966) 0 Varianta Manhattanské vzdálenosti (před výpočtem musí být odstraněny double zero a není jimy tedy ovlivněna). Stejný rozdíl mezi početnými druhy ovlivňuje vzdálenost méně než mezi druhy vzácnějšími, p xy10(X1,X2 ) — / 7=1 K--JY Uy+J^) 0 Stephenson et al. (1972) a Moreau & Legendre (1979) použili tuto metriku jako součást koeficientu podobnosti S(xx, x2) = 1 Z)10 P Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ Ißj Koeficient divergence s Obdobná metrika jako DIO ale založená na Euklidovské vzdálenosti a vztažená na počet parametrů. i Dll{xl,x2)— /,,_, P r V y m - y v Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Coefficient of racial likeness (Pearson 1926) 0 Umožňuje srovnávat skupiny objektů podobně jako Mahalanobisova vzdálenost, ale na rozdíl od ní neeliminuje vliv korelace parametrů. Dvě skupiny objektů wl a w2 jsou charakterizovány (průměr parametrů ve skupinách) a (rozptyl parametrů ve skupinách). Dn (wi ^2) = 1 p \ p j=l bij-yijj fs2) + (4)\ 2_ P Vícerozměrná analýza dat © Institut biostatistiky a analýz IBA v^ %2 metrika (Roux & Reyssac 1975) První ze skupiny metrik založených na %2 pro výpočet vzdáleností odběrů založených na abundancích druhů nebo jiných frekvenčních datech (nejsou přípustné žádné záporné hodnoty). Data původní matice abundancí/frekvencí Y jsou nejprve přepočítána do matice poměrných frekvencí (součty frekvencí v řádcích (odběry) jsou rovny 1). Jako dodatečné charakteristiky uplatňované při výpočtu jsou spočteny součty řádků yi+ a sloupců y+j celé! matice n(i) odběrů x p(j) druhů. Y = y u y* -> y u yl+ D(xl,x2) = jY P /V v ^ yy yy y\+ y 2+ J [y+J K+ 0 Výpočet odstraňuje problém Rouble zero. Nejjednodušším výpočtem je obdoba Euklidpvské vzdálenosti 0 která je dále vážena součty jednotlivých druhů D15(x19x2) = W — ryy yij^1 m y+j Ui+ y 2 + j Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ X2 vzdálenost (Lébart & Fénelon 1971) 0 Výpočet je podobný %2 metrice, ale vážení je prováděno relativní četností řádku v matici místo jeho absolutního součtu, při výpočtu se užívá parametr y++ (celkový součet matice). Je využívána také při výpočtu vztahů řádků a sloupců kontingenční tabulky. lul6(xl,x2) — / , f m y+j yij y \ 2j V^l+ y2+ J ++ í yij y \ 2j Ui+ y^) Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/ Hellingerova vzdálenost (Rao 1995) 0 Koeficient související s D15 a D16. p Z^ 7 (x,, x?) — J 7, 7=1 yy yv -\2 y\ + y 2+ Vícerozměrná analýza dat © Institut biostatistiky a analýz fl^ VJBI/