Vícerozměrné statistické metody Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II Jiří Jarkovský, Simona Littnerová Vícerozměrné statistické metody Práce s asociační maticí logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vzdálenosti nebo podobnosti objektů ve vícerozměrném prostoru •Vícerozměrný popis objektů představuje jejich pozici ve vícerozměrném prostoru •Vztahy mezi objekty lze vyjádřit pomocí jejich vzdálenosti v prostoru •Existuje celá řada způsobů měření vzdálenosti v prostoru pro různé typy dat (binární, kategoriální, spojitá) •Výběr metriky vzdálenosti nebo podobnosti silně ovlivňuje výsledky analýzy, protože definuje jakým způsobem vztah mezi objekty interpretujeme • • 3 •Výběr metriky je dán dvěma pohledy: •Typ dat – s různými typy dat jsou spjaty různé metriky •Předpoklady výpočtu metriky – obdobně jako klasické statistické metody ani metriky nelze použít ve všech situacích a v některých by dokonce díky jejich předpokladům šlo o hrubou chybu •Expertní interpretace vztahů objektů • • logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Euklidovská vzdálenost jako princip výpočtu vícerozměrných analýz •Nejsnáze představitelným měřítkem vztahu dvou objektů ve vícerozměrném prostoru je jejich vzdálenost •Nejjednodušším typem této vzdálenosti (bohužel s omezeným použitím na data společenstev) je Euklidovská vzdálenost vycházející z Pythagorovy věty 4 a b c y11 y12 y21 y22 X1 X2 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Různé přístupy k měření vzdálenosti 5 A B Jednou na Manhattanu ……. logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Asociační matice •Typická asociační matice je čtvercová matice •Typická asociační matice je symetrická kolem diagonály –Ve speciálních případech existují i asymetrické asociační matice • •Diagonála obsahuje 0 (v případě vzdáleností) nebo identitu objektu se sebou samým (podobnosti, obvykle 1 nebo 100%) • •Asociační matice může být spočtena mezi objekty pomocí metrik podobnosti a vzdálenosti (Q mode analýza) nebo mezi proměnnými pomocí korelací a kovariancí (R mode analýza) • •Asociační matice mohou být jak vstupem do vícerozměrných analýz tak vstupem pro klasické jednorozměrné statistické výpočty, kdy základní jednotkou není jeden objekt, ale podobnost/vzdálenost dvojice objektů 6 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Příklad výpočtu asociační matice 7 Asociační matice euklidovských vzdáleností mezi rostlinami logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Histogram jako popis asociační matice 8 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vztahy mezi různými metrikami vzdáleností 9 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Metrika vzdálenosti/podobnosti jako klíčový bod vícerozměrné analýzy •Výběr metriky vzdálenosti/podobnosti je klíčovým bodem každé vícerozměrné analýzy: –Některé metody umožňují úplnou volnost ve výběru metriky podobnosti (hierarchická aglomerativní shluková analýza, multidimensional scaling) –Některé metody jsou přímo spjaté s konkrétní metrikou (PCA, CA, k-means clustering) – •Chybný výběr metriky může vést k chybným závěrům analýzy (stejně jako v klasické statistické analýze výběr nevhodného testu nebo popisné statistiky) • •Metriky podobností nebo vzdáleností kromě vícerozměrných statistických metod mohou vstupovat i do klasických statistických výpočtů: –Popisná statistika a vizualizace metrik –Analogie t-testů a ANOVA pro asociační matice –Korelace asociačních matic –Regrese asociačních matic 10 Vícerozměrné statistické metody Analogie klasických statistických metod s využitím asociačních matic logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Klasické statistické metody na asociační matici •Na datech asociačních koeficientů je možné počítat libovolné jednorozměrné statistické metody •Je nezbytné zohlednit –1 hodnota není jeden objekt, jde o vztah dvou objektů !!! –Hodnoty nejsou nezávislé !!! –Díky nesouladu mezi N hodnot a počtem stupňů volnosti není možné klasické statistické testování, ale je nezbytný permutační přístup •Pro vizualizaci i výpočet statistik je možné použít klasické statistické SW •Pro výpočet statistické významnosti a intervalů spolehlivosti je nezbytné použít specializovaný SW – 12 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Konverze asociační matice pro jednorozměrné analýzy 13 Konverzí horní trojúhelníkové matice získáme sloupec hodnot = míry asociace řádků a sloupců tabulky Tabulku je možné dále libovolně rozšiřovat o zařazení objektů do skupin nebo o asociace objektů pomocí jiných proměnných logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Příklad složitého souboru pro analýzu vztahů asociačních matic 14 row column Jaccard index Geographical distance Phylogenetic distance Temperature No fishes No microsatellites Y JTSK X JTSK No taxa No parasites Shannon index Shannon eveness Berger Parker index PL-VIS GE-RHI 0.389 907 0.658 5.5 26 7 906437 56332 9 385 0.303 0.182 0.001 PL-VIS PL-SLE 0.333 246 0.100 3.7 30 7 190920 156350 6 6 0.432 0.001 0.226 GE-RHI PL-SLE 0.357 746 0.555 1.8 4 0 715518 212681 3 391 0.129 0.181 0.226 PL-VIS CZ-ELO 0.190 433 0.330 0.5 5 17 377143 214481 9 783 1.307 0.136 0.543 GE-RHI CZ-ELO 0.333 594 0.281 5 21 24 529294 270812 0 1168 1.004 0.318 0.542 PL-SLE CZ-ELO 0.357 195 0.209 3.2 25 24 186223 58131 3 777 0.875 0.137 0.317 PL-VIS CZ-ELV 0.227 393 0.661 3.715 41 11 300529 254241 7 432 0.665 0.040 0.302 GE-RHI CZ-ELV 0.500 680 0.345 1.785 15 4 605908 310573 2 47 0.362 0.222 0.302 PL-SLE CZ-ELV 0.500 147 0.539 1.50E-02 11 4 109609 97892 1 438 0.233 0.042 0.076 CZ-ELO CZ-ELV 0.800 86 0.156 3.215 36 28 76614 39761 2 1215 0.642 0.095 0.241 PL-VIS CZ-KYJ 0.286 457 1.218 1.8 2 16 215024 403783 7 719 0.284 0.089 0.060 GE-RHI CZ-KYJ 0.200 830 0.359 3.7 28 23 691413 460115 2 334 0.019 0.093 0.060 PL-SLE CZ-KYJ 0.313 248 0.821 1.9 32 23 24104 247433 1 725 0.148 0.088 0.166 CZ-ELO CZ-KYJ 0.125 249 0.220 1.3 7 1 162119 189302 2 1502 1.023 0.225 0.483 CZ-ELV CZ-KYJ 0.176 172 0.171 1.915 43 27 85505 149542 0 287 0.381 0.130 0.242 PL-VIS CZ-MOR 0.333 467 1.218 3.4 5 5 218534 413948 10 764 0.577 0.116 0.106 GE-RHI CZ-MOR 0.364 833 0.356 2.1 31 12 687903 470280 1 379 0.274 0.066 0.106 PL-SLE CZ-MOR 0.286 259 0.847 0.3 35 12 27615 257599 4 770 0.145 0.115 0.120 CZ-ELO CZ-MOR 0.250 255 0.224 2.9 10 12 158609 199468 1 1547 0.730 0.252 0.437 CZ-ELV CZ-MOR 0.308 180 0.184 0.315 46 16 81995 159707 3 332 0.088 0.156 0.196 CZ-KYJ CZ-MOR 0.308 11 0.005 1.6 3 11 3510 10165 3 45 0.293 0.027 0.046 PL-VIS SK-DAN 0.350 540 1.118 8 6 14 190569 506010 7 647 0.278 0.092 0.102 GE-RHI SK-DAN 0.385 909 0.318 2.5 20 7 715869 562342 2 262 0.025 0.090 0.102 PL-SLE SK-DAN 0.500 349 0.807 4.3 24 7 351 349661 1 653 0.154 0.091 0.124 CZ-ELO SK-DAN 0.385 346 0.198 7.5 1 31 186574 291530 2 1430 1.029 0.228 0.441 CZ-ELV SK-DAN 0.429 275 0.199 4.285 35 3 109960 251769 0 215 0.387 0.132 0.200 CZ-KYJ SK-DAN 0.429 105 0.040 6.2 8 30 24455 102227 0 72 0.006 0.003 0.042 CZ-MOR SK-DAN 0.308 96 0.056 4.6 11 19 27966 92062 3 117 0.299 0.024 0.004 PL-VIS IT-RMO 0.190 1120 1.416 8 30 7 894871 676397 9 756 0.009 0.353 0.043 GE-RHI IT-RMO 0.333 731 0.142 2.5 4 0 11567 732728 0 371 0.294 0.171 0.044 PL-SLE IT-RMO 0.267 874 1.143 4.3 0 0 703951 520047 3 762 0.423 0.352 0.269 CZ-ELO IT-RMO 0.231 692 0.736 7.5 25 24 517728 461916 0 1539 1.298 0.489 0.586 CZ-ELV IT-RMO 0.286 728 0.711 4.285 11 4 594342 422156 2 324 0.656 0.393 0.346 CZ-KYJ IT-RMO 0.200 731 0.565 6.2 32 23 679847 272614 2 37 0.275 0.264 0.104 CZ-MOR IT-RMO 0.154 724 0.587 4.6 35 12 676336 262449 1 8 0.568 0.237 0.149 SK-DAN IT-RMO 0.385 723 0.483 0 24 7 704302 170387 2 109 0.269 0.261 0.146 PL-VIS BG-DAN 0.182 1002 1.079 7.5 28 1 203173 982589 8 92 0.257 0.147 0.042 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Permutační testování Je tu rozdíl? Jak by vypadal rozdíl, kdyby byl náhodný? Nasimulujme si ho !!! J Léčba Placebo X2 X1 X2 X1 X2 X1 …. Mnoho- krát Rozdíl ? Rozložení možných náhodných rozdílů Kde leží skutečný rozdíl? Jak moc je pravděpodobné, že je náhodný? 0 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Meansim – analogie k ANOVA • 16 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Meansim – analogie k ANOVA •Meansim pracuje s pojmy průměrná vnitroshluková vzdálenost a průměrná mezishluková vzdálenost •Ty mají obdobný význam jako variabilita uvnitř a mezi skupinami v klasické ANOVA •Rozdíl oproti ANOVA je ve výpočtu statistické významnosti: –Objekty (v řádcích a sloupcích) jsou náhodně zpřeházeny mezi skupinami –Je spočten poměr mezishlukové a vnitroshlukové variability –Postup je opakován x krát až získáme rozdělení náhodného vztahu asociace objektů ke kategoriím –Výsledek testu porovnán se simulovaným rozdělením náhodného vztahu asociace objektů ke kategoriím – 17 A B C A B C logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Mantel test – analogie ke korelaci •Počítán pomocí Pearsonovy nebo Spearmanovy korelace, lze použít libovolný korelační koeficient •Rozdíl je opět ve výpočtu statistické významnosti, která je počítána permutačně 18 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Regrese na asociačních maticích •Obdobná výpočtu klasické regrese, ale na maticích vzdáleností 19