BiBi 8600 V8600 Víícerozmcerozměěrnrnéé statistickstatistickéé metodymetody Danka HaruDanka Harušštiakovtiakováá Podzim 2009Podzim 2009 Inštitút bioštatistiky a analýz, Masarykova univerzita Plán kurzu Rozvrh: 3.11. 10.11. 24.11. 1.12. 15.12. Ukončenie: písomná skúška zameraná na princípy a aplikáciu analýz Cieľ kurzu: vysvetliť princípy viacrozmerných analýz, ich aplikácie v biológii a ich interpretácie prehľad základného software príklady na reálnych dátach ÚÚvodvod Vzťah klasickej a viacrozmernej štatistiky Viacrozmerná analýza dát využíva prístupy klasickej štatistiky Viacrozmerná analýza dát je zároveň citlivá na problémy klasickej štatistiky Kontingenčná tabuľka Korelácia Y2 X1 Áno Nie S Áno 20 82 102 Nie 10 54 64 S 30 136 166 Nákup Dôchodkový vek Agregácia dát cez sumárnu štatistiku alebo kontingenčné tabuľky ­ korešpondenčná analýza Korelácie - analýza hlavných komponent, faktorová analýza, diskriminační analýza Áno Nie S Áno 20 82 102 Nie 10 54 64 S 30 136 166 Kontingenčná tabuľka Kontingenčná tabuľka v obrázku Nákup Dôchodkový vek Kontingenčná tabuľka je používaná pre hodnotenie vzťahu kategoriálnych premenných 19.6 15.6 80.4 84.4 0 10 20 30 40 50 60 70 80 90 Dôchodca ÁNO, Nákup ÁNO % 12 6 49.4 32.6 a b c d % Dôchodca ÁNO, Nákup NIE Dôchodca NIE, Nákup ÁNO Dôchodca NIE, Nákup NIE Kontingenčné tabuľky ­ princíp analýzy Binomické javy (1/0) 2 )1( pozorovaná početnosť očakávaná početnosť očakávaná početnosť= + 2 pozorovaná početnost očakávaná početnosť očakávaná početnosť I. jav 1 II. jav 2 - 2 - 0 1 Príklad 10 000 ľudí hádže mincou rub: 4 000 prípadov (R) líc: 6 000 prípadov (L) Dá sa výsledok považovať za štatisticky významne odlišný (alebo neodlišný) od očakávaného pomeru R : L = 1 : 1 ? Rovnakým spôsobom, teda hodnotením odchýlok od očakávaného vyrovnaného počtu prípadov hodnotí dáta i korešpondenčná analýza Korelačná analýza Y2 X1 Y2 X1Y2 X1 Korelácie medzi parametrami sú základom faktorovej analýzy a analýzy hlavných komponentov. Pokiaľ väzby medzi parametrami nie sú, tak tieto metódy strácajú zmysel. Korelácia - vzťah (závislosť) dvoch znakov (parametrov) Rizika korelačnej analýzy Problém rozloženia hodnôt Problém typu modelu X Y X r = 0,981 (P < 0,001) r = 0,761 (P < 0,032) Y Problém veľkosti vzorky Y X Y X r = 0,891 (P < 0,214) r = 0,212 (P < 0,008) VýznamVýznam viacrozmernviacrozmernééhoho hodnoteniahodnotenia ddáátt Viacrozmerné vnímanie skutočnosti x1 x2 n skupina 1 x1 skupina 2 ViacrozmernýViacrozmerný systsystéémm skup. 1 skup. 2 x1 x2 x2 skup. 2skup. 1 KlasickKlasickáá jednorozmernjednorozmernáá analýzaanalýza Bežná sumarizácia dát ,,likviduje" individualitu jedinca Priemer SE BEŽNÁ ŠTATISTICKÁ SUMARIZÁCIA Sprehľadnenie dát Neodlíši pôvodné meranie ? Viacrozmerné hodnotenie XX22 XX33 ............ XXpp XX33 ............ XXpp WW XX11 XX33 ............ XXpp . . . . . . . . . . . XX11 . . . . . . . . . . . XX22 XX11 XX22 ... s ohľadom na individualitu ! Viacrozmerné hodnotenie ­ nová kvalita A A A A A A A A AA A A A A A A A A A B B B B B B B B B B B B B B B B B B B B A X2 X1 B B Len kombinovanLen kombinovanéé parametreparametre majmajúú odpovedajodpovedajúúcucu informainformaččnnúú silusilu Viacrozmerné hodnotenie vychádza z jednoduchých princípov PrPrííkladklad:: viacrozmernviacrozmernáá vzdialenosvzdialenosťť meraniamerania medzimedzi dvomadvoma objektamiobjektami X1 X2 X22 X21 X11 X12 a = x12 - x11 = d1 b = x22 - x21 = d2 1 2 c = a2 + b22 Viacrozmerné modelovanie je strategickou disciplínou XX11 XX22 XX55XX33 XX44 XXpp XX11 ............ XXnn technické parametre automobilu XXnn+1+1 ............ XXpp vodičove schopnosti a jeho stav XXpp+1+1 ............ XX22 rýchlosť, povrch, situácia ZZáákladnkladnéé princprincíípypy viacrozmernviacrozmernééhoho hodnoteniahodnotenia ddáátt Pojmy vo viacrozmerných analýzach Viacrozmerné metódy: názov ,,viacrozmerné", mnohorozmerné" ­ vychádza z typu vstupných dát dáta sú tvorené objektami (vzorky, lokality), každý z nich je charakterizovaný viacerými parametrami (druhmi) každý z týchto parametrov môžeme považovať za jeden rozmer objektu (vzorky) Hodnoty pre druhy (presencia/absencia; abundancia; dominancia) pre každú vzorku vzorka 1 druh1 druh2 druh3 vzorka 2 vzorka 3 vzorka 4 Maticová algebra: Základom práce s dátami a výpočtami viacrozmerných metód je maticová algebra. Matice tvoria vstupné aj výstupné dáta a prebiehajú na nich výpočty. Hodnoty parametrov pre jednotlivé objekty NxP MATICA ASOCIAČNÁ MATICA Korelácia, kovariancia, vzdialenosť, podobnosť Vstupná matica viacrozmerných analýz Výpočet metriky podobnosti/ vzdialenosti Dátová matica ­ N objektov, P parametrov Typy viacrozmerných analýz Vytvára zhluky objektov na základe ich podobnosti Identifikuje typy objektov Vytvárajú nové rozmery, ktoré lepšie vyčerpávajú variabilitu dát ­ zjednodušujú viacrozmerný priestor ORDINAČNÉ METÓDYZHLUKOVÁ ANALÝZA x y Faktorové osi y x podobnosť PodobnosPodobnosťť aa vzdialenosvzdialenosťť objektovobjektov vv mnohorozmernommnohorozmernom priestorepriestore Podobnosť a vzdialenosť Veľmi dôležitým pojmom je pojem podobnosti medzi jednotlivými objektami (miera podobnosti objektov). V literatúre sa možno stretnúť s troma základnými typmi popisu podobnosti ­ nepodobnosti objektov: 1. koeficienty asociácie 2. koeficienty korelácie 3. metriky miery podobnosti miery nepodobnosti Zoznam taxónov: viacrozmerný popis spoločenstva Na zoznam taxónov sa dá pozerať tiež ako na zoznam rozmerov spoločenstva Záznam o nájdených taxónoch tak vlastne tvorí viacrozmerný popis daného spoločenstva Spoločenstvá môžeme porovnávať podľa ich vzájomnej pozície v n-rozmernom priestore Pre porovnanie spoločenstiev sa dá teoreticky použiť ľubovoľný koeficient/metrika viacrozmernej podobnosti alebo vzdialenosti Problém dvoch núl (double zero problem) V prípade binárnych koeficientov (druh sa vyskytuje/nevyskytuje) nie je možné uvažovať rovnakou váhou pre súhlas prítomnosti (11) a neprítomnosti (00) taxónov (symetrický koeficient) Problémom využitia všetkých typov metrík pre dáta abundancií spočíva v odlišnom význame prítomnosti a neprítomnosti taxónov Pokiaľ sa taxón nachádza v oboch porovnávaných spoločenstvách znamená to, že spoločenstvá si budú v tomto ohľade podobné, pretože majú podmienky umožňujúce prítomnosť taxónu Pokiaľ sa taxón nenachádza ani v jednom z dvoch porovnávaných spoločenstiev ­ príčina môže byť najrôznejšia ­ double zero problém Pre odstránenie tohto problému sa používajú asymetrické koeficienty hodnotenie súhlasnej prítomnosti (11) a neprítomnosti (00) taxónov nie je symetrické Koeficienty podobnosti (indexy podobnosti) V ekológii sa využíva rada indexov podobnosti založených buď na prítomnosti/neprítomnosti taxónov alebo na abundanciách Binárne koeficienty podobnosti Spoločenstvo 1 Spo loče nstv o 2 dc0 ba1 01 a, b, c, d = počet prípadov, kedy súhlasí binárna charakteristika spoločenstiev 1 a 2 a+b+c+d=p Symetrické binárne koeficienty ­ nie je rozdiel medzi prípadom 1-1 a 0-0 Asymetrické binárne koeficienty - rozdiel medzi prípadom 1-1 a 0-0 Viac informácií a ďalšie merania vzdialenosti a podobnosti nájdete v knihe LEGENDRE, P. & LEGENDRE, L. (1998). Numerical ecology. Elseviere Science BV, Amsterdam. Symetrické binárne koeficienty Simple matching coefficient (Sokal & Michener, 1958) Obvyklou metódou pre výpočet podobnosti medzi dvoma objektami je podiel počtu deskriptorov, ktoré kódujú objekt rovnako, a celkového počtu deskriptorov. Pri použití tohto koeficientu predpokladáme, že nie je rozdiel medzi nastaním 0 a 1 u deskriptorov. p da xxS + =),( 211 Symetrické binárne koeficienty Rogers & Tanimoto koeficient (1960) Dáva väčšiu váhu rozdielom ako podobnostiam. dcba da xxS +++ + = 22 ),( 212 Symetrické binárne koeficienty Sokal & Sneath (1963) Ďalšie štyri navrhnuté koeficienty obsahujú double-zero, ale sú navrhnuté tak, aby sa znížil vplyv double-zero: tento koeficient dáva dvakrát väčšiu váhu zhodným deskriptorom než rozdielnym porovnáva zhody a rozdiely prostým podielem v merítku, ktoré ide od 0 do nekonečna porovnáva zhodné deskriptory so súčtami okrajov tabuľky je vytvorený z geometrických priemerov členov vzťahujúcich sa k a a d, podľa koeficientu S5. dcba da xxS 22 22 ),( 213 +++ + = cb da xxS + + =),( 214 + + + + + + + = dc d db d ca a ba a xxS 4 1 ),( 215 ))(())(( ),( 216 dcdb d caba a xxS ++++ = Symetrické binárne koeficienty Asymetrické binárne koeficienty Jaccardov koeficient (1900, 1901, 1908) Všetky členy majú rovnakú váhu cba a xxS ++ =),( 217 Asymetrické binárne koeficienty Srensenov koeficient (1948) (Coincidence index, Dice(1945)) Varianta predchádzajúceho koeficientu dáva dvojnásobnu váhu dvojitým prezenciám, pretože sa môže zdať, že prítomnosť druhov je viac informatívna než ich absencia, ktorá môže býť spôsobená rôznymi faktormi a nemusí nutne odrážať rozdielnosť prostredia. Prezencia druhu na oboch lokalitách je silným ukazovateľom ich podobnosti. S7 je monotónna k S8, preto podobnosť pre dve dvojice objektov vypočítaná podľa S7 bude podobná rovnakému výpočtu S8. Oba koeficienty sa líšia len v merítku. Tento index bol prvýkrát použitý Dicem v R-mode štúdii asociacií druhov. Iná varianta tohto koeficientu dáva duplicitným prezenciám trojnásobnu váhu. cba a xxS ++ = 2 2 ),( 218 cba a xxS ++ = 3 3 ),( 219 Asymetrické binárne koeficienty Russel & Rao (1940) navrhnutá miera umožňuje porovnanie počtu duplicitných prezencií (v čitateli) proti celkovému počtu druhov, nájdených na všetkých lokalitách, zahŕňajúcich druhy, ktoré chýbajú (d) na oboch uvažovaných lokalitách. p a xxS =),( 2111 Asymetrické binárne koeficienty Kulczynski (1928) koeficient porovnávající duplicitné prezencie s diferenciami cb a xxS + =),( 2112 Asymetrické binárne koeficienty Kvantitatívne koeficienty ,,Klasické" indexy podobnosti Srensenov kvantitatívny koeficient, kde aN a bN sú celkové počty jedincov v spoločenstvách A a B, jN je potom suma abundancií pokiaľ sa druh nachádza v oboch spoločenstvách, je počítaná vždy z nižšej abundancie daného druhu v spoločenstve Morisita-Horn index, kde aN je celkový počet jedincov v spoločenstve A a ani počet jedincov druhu i v spoločenstve A (obdobne platí pre spoločenstvo B) )( 2 bNaN jN CN + = bNaNdbda bnan C ii mH .).( )(2 + = 2 2 aN an da i= Kvantitatívne koeficienty Jednoduchý porovnávací koeficient (Sokal & Michener, 1958) modifikovaný simple matching coefficient môže byť použitý pre multistavové deskriptory - čitateľ obsahuje počet deskriptorov, pre ktoré sú dva objekty v rovnakom stave ­ napr. ak je dvojica objektov popísaná nasledujúcimi desiatimi multistavovými deskriptormi: hodnota S1, vypočítaná pre 10 multistavových deskriptorov bude S1 (x1,x2) = 4 / 10 = 0.4 Podobným spôsobom je možné rozšíriť všetky binárne koeficienty pre multistavové deskriptory. 4 + 1 + 1 + 0 + 0 + 1 + 0 + 0 + 0 + 1 0zhoda 6023921232Object x2 6045943739Object x1 Druhy p zhoda xxS =),( 211 Kvantitatívne koeficienty Gowerov všeobecný koeficient podobnosti (1971) I. Gower navrhol všeobecný koeficient podobnosti, ktorý môže kombinovať rôzne typy deskriptorov. Podobnosť medzi dvoma objektami je vypočítaná ako priemer podobností, vypočítaných pre všetky deskriptory. Pre každý deskriptor j je hodnota parciálnej podobnosti s12j medzi objektami x1 a x2 vypočítaná nasledovne: Pre binárne deskriptory sj=1 (zhoda) alebo 0 (nezhoda). Gower navrhol dve formy tohto koeficientu. Nasledujúca forma je symetrická, dáva sj=1 double-zero. Druhá forma, Gowerov asymetrický koeficient dáva pro double-zero sj=0 Kvalitatívne a semikvantitatívne deskriptory sú upravené podľa jednoduchého zameňovacieho pravidla, sj=1 pri súhlase a sj = 0 pri nesúhlase deskriptorov. Double zero sú ošetrené rovnako ako v predchádzajúcom odstavci. Kvantitatívne deskriptory (reálne čísla) sú spracované nasledovne: pre každý deskriptor sa nejprv vypočíta rozdiel medzi stavmi oboch objektov, ktorý je potom vydelený najväčším rozdielom (Rj), nájdeným pre daný deskriptor medzi všetkými objektami v štúdii (alebo v referenčnej populácii ­ doporučuje sa vypočítať najväčšiu diferenciu Rj každého deskriptoru j pro celú populáciu, aby bola zistená konzistencia výsledkov pre všetky parciálne štúdie). = = p j js p xxS 1 122115 1 ),( Gowerov všeobecný koeficient podobnosti (1971) II. normalizovaná vzdialenosť môže byť odpočítaná od 1 aby bola transformovaná na podobnosť. Gowerov koeficent môže byť nastavený tak, aby zahŕňal prídavný flexiblilný prvok: žiadne porovnanie nie je vypočítané u deskriptorov, u ktorých chýba informácia buď u jedného alebo u druhého objektu. Toto zaisťuje člen wj, nazývaný Kroneckerovo delta, popisujúcí prítomnosť/neprítomnosť informácie v oboch objetkoch: ak je informácia o deskriptore yj prítomná u oboch objektov (wj=1), inak (wj=0), tento koeficient nadobúda hodnôt podobnosti medzi 0 a 1 (najväčšia podobnosť objektov). Ďalšiou možnosťou je váženie rôznych deskriptorov prostým priradením čísla v rozsahu 0-1 wj. - -= j jj j R yy s 21 1 = = = p j j p j jj w sw xxS 1 12 1 1212 2115 ),( Metriky vzdialenosti Na miery nepodobnosti, t.j. metriky kladieme spravidla určité požiadavky: Mali by rešpektovať rozdielnu variabilitu jednotlivých štatistických znakov a prisudzovať väčší vplyv tým jednorozmerným vzdialenosťam, ktoré vykazujú nižšiu variabilitu. Súčasne by mala zvolená metrika rešpektovať štruktúru dát a to tak, aby väčší vplyv na viacrozmernú vzdialenosť mali tie vzdialenosti, ktoré boli zistené u nekorelovaných či len slabo korelovaných štatistických znakov. Metrika musi spĺňať 4 vlastnosti: 1. d(A,B) = d(B,A) 2. A B d(A,B) > 0 3. A = B d(A,B) = 0 4. d(A,B) d(A,C) + d(C,B) Viacrozmerné metriky vzdialenosti Metriky všeobecne Euklidovská vzdialenosť Ide o základné metrické merítko vzdialenosti a počíta vzdialenosť objektov obdobne ako Pythagorova veta (počíta preponu pravouhlého trojuholníka). Metóda je citlivá na rozdielny rozsah hodnôt vstupujúcich premenných (vhodným riešením môže byť štandardizácia) a double zero problém. Nemá hornú hranicu hodnôt. Ako ďalšie merítko sa používá tiež štvorec tejto vzdialenosti. Jeho nevýhodou sú semimetrické vlastnosti. 2 21121 2 )(),(1 jj p j yyxxD -= = y12 y11 y22 y21 X1 D1(X1,X2) X2 Viacrozmerné metriky vzdialenosti = -= p j jj yyxxD 1 2 21211 )(),( Vážená euklidovská vzdialenosť Varianta euklidovskej vzdialenosti ­ pripisuje jednotlivým premenným rôzne váhy a zohľadňuje tak ich význam. Problémom však zostáva správne určenie vektoru váh. Viacrozmerné metriky vzdialenosti Euklidovská vzdialenosť je využívaná častokrát úplne neoprávnene. Pri použití tejto metriky by sme mali byť veľmi obozretní, lebo jej využitím môžeme podstatne skresliť výsledky analýzy. Euklidovská metrika totiž neberie do úvahy korelovanosť jednotlivých parametrov (štatistických znakov). = -= p j jjj yywxxD 1 2 21211 )(),( Priemerná vzdialenosť Euklidovská vzdialenosť je prepočítaná na počet parametrov (druhov v prípade vzdialenosti spoločenstiev odberov). 2 21 22 ),( DxxD = Viacrozmerné metriky vzdialenosti = -= p j jj yy p xxD 1 2 2121 2 2 )( 1 ),( Chord distance (Orlóci, 1967) Odstraňuje double zero problém a vplyv rozdielneho počtu jedincov druhov vo vzorcoch pri výpočte Euklidovskej vzdialenosti. Jej maximálna hodnota je druhá odmocnina z počtu druhov a minimum 0. Pri výpočte počíta len s pomermi druhov v rámci jednotlivých vzoriek. Ide vlastne o Euklidovskú vzdialenosť počítanú pre vektory vzoriek štandardizovaných na dĺžku 1, alebo je možný priamy výpočet už zahŕňujúci štandardizáciu. Vnútorná čásť výpočtu je vlastne kosínus uhla zvieraného vektormi, zápis vzorca je možný i v tejto forme. ( )cos123 -=D Viacrozmerné metriky vzdialenosti -= == = 2 21 2 1 211 213 1 12),( j p j p j jj p j yy yy xxD j Geodetická metrika Počíta dĺžku výseče jednotkovej kružnice medzi normalizovanými vektormi (viz. Chord distance). -= 2 ),( 1arccos)( 21 2 3 2,14 xxD xxD Viacrozmerné metriky vzdialenosti Manhattanská vzdialenosť Ide vlastne o súčet rozdielov jednotlivých parametrov popisujúcich objekty jj p j yyxxD 211´217 ),( -= = Viacrozmerné metriky vzdialenosti Minkowského metrika Je všeobecnou formou výpočtu vzdialenosti ­ podľa zadaného koeficientu môže odpovedať napr. Euklidovskej alebo Manhattanskej metrike. So stúpajúcim koeficientom umocňovania stúpa významnosť väčších rozdielov. Existuje ešte obecnejšia forma, kedy koeficient umocňovánia a odmocňovania je zadávaný zvlášť. [ ]rr jj p j yyxxD 1 211´216 ),( -= = Viacrozmerné metriky vzdialenosti Mahalanobisova vzdialenosť (Mahalanobis 1936) Viacrozmerné metriky vzdialenosti Zohľadňuje vzájomné vzťahy medzi premennými, teda berie do úvahy ich skorelovanosť. Je nezávislá na rozsahu hodnôt premenných. Počíta tak vzdialenosť medzi objektami v systéme súradníc, kt. osi nemusia byť na seba kolmé. Je potrebné však upozorniť, že pri použití Mahalanobisovej vzdialenosti potlačujeme vplyv rozdielov vo variabilite premenných na výsledky, čo nemusí byť vždy žiadúce. Ak sú premenné nekorelované, párové korelačné koeficienty sú nulové a premenné vstupujúce do výpočtu sú prevedené na normovaný tvar, tak Mahalanobisova vzdialenosť odpovedá štvorcu euklidovskej vzdialenosti. Mahalanobisova vzdialenosť (Mahalanobis 1936) V praxi sa používa pre zistenie vzdialenosti medzi skupinami objektov. Sú dané dve skupiny objektov w1 a w2 o n1 a n2 počte objektov a popísané p parametrami: kde je vektor o dĺžke p rozdielov medzi priemermi p parametrov v oboch skupinách. V je vážená disperzná matica (matica kovariancií parametrov) vnútri skupín objektov. kde S1 a S2 sú disperzné matice jednotlivých skupín. Vektor meria rozdiel medzi p- rozmernými priemermi skupín a V vkladá do rovnice kovarianciu medzi parametrami. ` 12 1 1221 2 5 ),( dVdwwD - = 12d 12d ( ) ( )[ ]2211 21 11 2 1 SnSn nn V -+- -+ = Viacrozmerné metriky vzdialenosti Hodnoty parametrov pre jednotlivé objekty NxP MATICE ASOCIAČNÁ MATICA Korelácia, kovariancia, vzdialenosť, podobnosť Vstupná matica viacrozmerných analýz