MU CBA CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Biostatistický seminář Indexy podobností a vzdáleností ví*««* í Biostatistický seminář IV 3 typy diverzity Druhovou diverzitu můžeme rozdělit na a diverzitu, což je počet druhů ve společenstvu, ß diverzitu, zabývající se změnou druhů mezi společenstvy a y diverzitu, vyjadřující celkový počet druhů v regionu, neboli kombinaci a a ß diverzity ♦ a diverzitu můžeme hodnotit jednak indexy diverzity, které se ji snaží vyjádřit jediným číslem, nebo pomocí modelových rozložení, kdy se naše data snažíme přiřadit k některému modelovému rozložení ♦ ß diverzitu vyjadřujeme pomocí indexů změny společenstev podél gradientu nebo pomocí indexů podobnosti VÝUKA «Sr CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Podobnost společenstev ♦ Tzv. ß - diverzita - jak moc si jsou dvě společenstva podobná ♦ Klasický příklad I - změna složení společenstev na základě environmentálního gradientu ♦ Klasický příklad II - srovnání druhového složení dvou společenstev ♦ Podobnost společenstev může být vyjádřena na základě pouhé přítomnosti druhů (binární koeficienty podobnosti) nebo být navíc vážena jejich abundancí ♦ Indexy podobnosti mohou být základem složitější vícerozměrné analýzy -je vytvořena asociační matice podobností společenstev na základě indexů podobnosti VÝUKA «Sr CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV ß - diverzita jako změna složení podél gradientu ♦ Whittaker (1960) ßw, kde S je celkový počet druhů v systému (y divezita) a a průměrná diverzita v jednotlivých vzorcích podél gradientu b =--i a ♦ Cody (1975) ßc, kde g(H) je počet druhů získaných podél gradientu a l(H) počet druhů ztracených podél gradientu Ä = g(H) + l(H) ♦ Wilson and Shimida (1984) ßT, kde g(H) je počet druhů získaných podél gradientu, l(H) počet druhů ztracených podél gradientu a a průměrná diverzita v jednotlivých vzorcích podél gradientu ßc = g(H) + l(H) 2a VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV ß - diverzita, Routledge (1977) ♦ S - počet druhů, r- počet kombinací dvojic druhů, které se spolu vyskytly alespoň v jednom vzorku ä = 5*' (2r + S) -1 ♦ e, je počet vzorků, v nichž se druh i nachází, a, je druhová bohatost vzorku j 1 ^n . , . 1 ßi = log(T) -—2^ ei lo§(e,) -—L aj l°£(aJ) T T ♦ Exponenciální forma ß. A=exp(Ä)-l VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Seznam taxonů - vícerozměrný popis společenstva ♦ Na seznam taxonů lze pohlížet také jako seznam rozměrů společenstva ♦ Záznam o nalezených taxonech tak vlastně tvoří vícerozměrný popis daného společenstva ♦ Společenstva můžeme srovnávat podle jejich vzájemné pozice v n-rozměrném prostoru ♦ Pro srovnání společenstev lze teoreticky využít libovolnou metriku vícerozměrné podobnosti nebo vzdálenosti ^ / -V / / / /%/ / / / ////¥/// //////// / / / / / / / / , ;;\?u VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Double zero problém !!! ♦ V případě binárních metrik (druh se vyskytuje/nevyskytuje) není možné uvažovat stejnou váhu pro souhlas přítomnosti (11) a nepřítomnosti (00) taxonů (symetrický koeficient) ♦ Problémem využití všech typů metrik pro data abundancí spočívá v odlišném významu přítomnosti a nepřítomnosti taxonů ♦ Pokud se taxon nachází v obou srovnávaných společenstvech - znamená to že společenstva si budou v tomto ohledu podobná, protože mají podmínky umožňující přítomnost taxonu ♦ Pokud se taxon nenachází ani v jednom ze dvou srovnávaných společenstev - příčina může být nejrůznější - double zero problem ♦ Pro odstranění tohoto problému je použito asymetrické hodnocení souhlasné přítomnosti (11) a nepřítomnosti (00) taxonů (asymetrické koeficienty) VÝUKA mu CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Koeficienty podobosti (indexy podobnosti) ♦ V ekologii se využívá řada indexů podobnosti založených buď na přítomnosti/nepřítomnosti taxonů nebo na abundancích Binární koeficienty podobnosti Spol ečen stvo 2 Společenstvo 1 1 0 1 0 a b c d a, b, c, d = počet případů, kdy souhlasí binární charakteristika společenstev 1 a 2 a+b+c+d=p Symetrické binární koeficienty - není rozdíl mezi případem 1-1 a 0-0 Asymetrické binární koeficienty - rozdíl mezi případem 1-1 a 0-0 Více informací a další měření vzdáleností a podobností najdete v knize LEGENDRE, P. & LEGENDRE, L. (1998). Numerical ecology. Elseviere Science BV, Amsterodam. VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Symetrické binární koeficienty VYUKA gSr CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Simple matching coefficient (Sokal & Michener, 1958) ♦ Obvyklou metodou pro výpočet podobnosti mezi dvěma objekty je podíl počtu deskriptorů, které kódují objekt stejně, a celkového počtu deskriptorů. Při použití tohoto koeficientu předpokládáme, že není rozdíl mezi nastáním 0 a 1 u deskriptorů. Oj \Xl,X2) — a + d P VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Rogers & Tanimoto koeficient (1960) ♦ Dává větší váhu rozdílům než podobnostem. O2 (Xl,X2) — a + d a + 2b + 2c + d VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Sokal&Sneath(1963) ♦ Další čtyři navržené koeficienty obsahují double-zero, ale jsou navrženy tak, aby se snížil vliv double-zero: 2a + 2d O3 \xl,x2) — 2a + b + c + 2d ♦ tento koeficient dává dvakrát větší váhu shodným deskriptorům než rozdílným; ^4 V"^l •> "^2 / a + d b + c porovnává shody a rozdíly prostým podílem v měřítku jdoucím od 0 do nekonečna; o5 {xl,x2) — 1 a a d d -------+-------+-------+------- a+b a+c b+d c+d porovnává shodné deskriptory se součty okrajů tabulky; o6 \Xl,X2) — a d t](a + b)(a + c) yl(b + d)(c + d) je vytvořen z geometrických průměru členu vztahujících se k a a d, podle koeficientu S5. VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Hammannuv koeficient s = a+d-b-c P Yuleho koeficient s = ad -bc ad + bc Pearsonovo O (phi) 4> = ad -bc Xl) ~~ a + d 12 P VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Kvantitativní koeficienty VYUKA gSr CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV „Klasické" indexy podobnosti ♦ S0rensenův kvantitativní koeficient, kde aN a bN jsou celkové počty jedinců v společenstvech A a B, jN je pak suma abundancí pokud se druh nachází v obou společenstvech, je počítána vždy z nižší abundance daného druhu ve společenstvu 2jN r = (aN + bN) ♦ Morisita-Horn index, kde aN je celkový počet jedinců ve společenstvu A a anj počet jedinců druhu i ve společenstvu A (obdobně platí pro společenstvo B) ^mH 2£(awM) (da + db).aN.bN da = _Z an, aN' VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Jednoduchý srovnávací koeficient (Sokal & Michener, 1958) ♦ modifikovaný simple matching coefficient může být použit pro multistavové deskriptory - čitatel obsahuje počet deskriptorů, pro které jsou dva objekty ve stejném stavu - např. je-li dvojice objektů popsána následujícími deseti multistavovými deskriptory: hodnota S1,vypočítaná pro 10 multistavových deskriptorů bude S1,(x1,x2) = 4 agreements/10 descriptors = 0.4 ♦ Podobným způsobem je možné rozšířit všechny binární koeficienty pro multistavové deskriptory. Oj (X1?X2 ) — agreements P Deskriptors S Object Xj 9 3 7 3 4 9 5 4 0 6 Object x2 2 3 2 1 2 9 3 2 0 6 Agreements 0 + 1 + 0 + 0 + 0 + 1 + 0 + 0 + 1 + 1 4 VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Gowerův obecný koeficient podobnosti (1971) I. ♦ Gover navrhl obecný koeficient podobnosti, který může kombinovat různé typy deskriptorů. Podobnost mezi dvěma objekty je vypočítána jako průměr podobností, vypočítaných pro všechny deskriptory. Pro každý deskriptor j je hodnota parciální podobnosti s12j mezi objekty x1 a x2 vypočítána následovně: 1 p P M S Pro binární deskriptory sj=1 (shoda) nebo 0 (neshoda). Gower navrhl dvě formy tohoto koeficientu. Následující forma je symetrická, dává sj=1 double-zero. Druhá forma, Gowerův asymetrický koeficient S19 dává pro double-zero sj=0 S Kvalitativní a semikvantitivní deskriptory jsou upraveny podle jednoduchého zaměňovacího pravidla, sj=1 při souhlasu a sj = 0 při nesouhlasu deskriptorů. Double zero jsou ošetřeny stejně jako v předchozím odstavci. S Kvantitativní deskriptory (reálná čísla) jsou zpracovány následovně: pro každý deskriptor se nejprve vypočte rozdíl mezi stavy obou objektů který je poté vydělen největším rozdílem (Rj), nalezeným pro daný deskriptor mezi všemi objekty ve studii (nebo v referenční populaci - doporučuje se vypočítat největší diferenci Rj každého deskriptoru j pro celou populaci, aby byla zajištěna konzistence výsledků pro všechny parciální studie). VÝUKA gSr CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Gowerův obecný koeficient podobnosti (1971) II. ♦ normalizovaná vzdálenost může být odečtena od 1 aby byla transformována na podobnost: n Snj =l - RJ ♦ Gowerův koeficent může být nastaven tak, aby zahrnoval přídavný flexibilní prvek: žádné porovnání není vypočítáno u deskriptorů, u nichž chybí informace buď u jednoho, nebo u druhého objektu. Toto zajišťuje člen wj, nazývaný Kroneckerovo delta, popisující přítomnost/nepřítomnost informace v obou objektech: je-li informace o deskriptoru yj přítomna u obou objektů (w/-1), jinak (wj=0), tento koeficient nabývá hodnot podobnosti mezi 0 a 1 (největší podobnost objektů). Další možností je vážení různých deskriptorů prostým přiřazením čísla v rozsahu 0-1 wj. o15(X1,X2 ) — Z WnjSnj P E 7=1 w 12y VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Různé vícerozměrné metriky vzdáleností VÝUKA gSr CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Typy metrík VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Euklidovská vzdálenost ♦ Jde o základní metrické měřítko vzdálenosti a počítá vzdálenost objektů obdobně jako Pythagorova věta počítá přeponu pravoúhlého trojúhelníku. Metoda je citlivá na rozdílný rozsah hodnot vstupujících proměnných (vhodným řešením může být standardizace) a double zero problém. Nemá horní hranici hodnot. Dl(xl9x2) = 3 (Xj, X2 ) — \ Z 1- ^il^l/^2/ A i-7 £} y p v2 y p v2 D3 = ^2(1 - cos e) VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ 49 Biostatistický seminář IV Geodetická metrika ♦ Počítá délku výseče jednotkové kružnice mezi normalizovanými vektory (viz. Chord distance). D4 (xj x2) = arccos 1- U3 (Xj, x2) VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Mahalanobisova vzdálenost (Mahalanobis 1936) ♦ Jde o obecné měřítko vzdálenosti beroucí v úvahu korelaci mezi parametry a je nezávislá na rozsahu hodnot parametrů. Počítá vzdálenost mezi objekty v systému souřadnic jehož osy nemusí být na sebe kolmé. V praxi se používá pro zjištění vzdálenosti mezi skupinami objektů. Jsou dány dvě skupiny objektů w1 a w2 o n1 a n2 počtu objektů a popsané p parametry: Ds(wl9w2) = dl2V~lďl2 ♦ Kde dn je vektor o délce p rozdílů mezi průměry p parametrů v obou skupinách. V je vážená disperzní matice (matice kovarianci parametrů) uvnitř skupin objektů. V =-----l-—[(n1-í)Sl+(n-2)S2] nx+n2-2 ♦ kde S1 a S2 jsou disperzní matice jednotlivých skupin. Vektor d 12 men rozdíl mezi p- rozměrnými průměry skupin a V vkládá do rovnice kovarianci mezi parametry. VÝUKA mu CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Minkowskeho metrika ♦ Je obecnou formou výpočtu vzdálenosti - podle zadaného koeficientu může odpovídat např. Euklidovské nebo Manhattanské metrice. Se stoupající koeficientem umocňování stoupá významnost větších rozdílů. Existuje ještě obecnější forma, kdy koeficient umocňování a odmocňování je zadáván zvlášť. D6 yxx ,x2) — 7=1 y v - y 2j VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Manhattanska vzdálenost ♦ Jde vlastně o součet rozdílů jednotlivých parametrů popisujících objekty L)1 \XX ,X2) — Ľj=\ y u - y v VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Mean character difference (Czekanowski 1909) ♦ Manhattanska vzdálenost přepočítaná na počet parametrů. L>% \XX, X2 ) — 2w/=i p y\) - y a VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Whittakerův asociační index (Whittaker 1952) ♦ Je dobře použitelný pro data abundancí, každý druh je nejprve transformován ve svůj podíl ve společenstvu, následující výpočet je opět obdobou Manhattanské vzdálenosti. D9 yxl ,x2) — ^ 2-t j=\ 2 yij y-u S?=i y y S;=, y2J ♦ Jeho hodnota je 0 v případě identických proporcí druhů. Stejný výsledek lze získat i jako součet nejmenších podílů v rámci obou vzorků. 9 V^l ? ^2 ) í 1-min y \ \J-Uyjj VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Canberra metric (Lance & Williams 1966) ♦ Varianta Manhattanske vzdálenosti (před výpočtem musí být odstraněny double zero a není jimy tedy ovlivněna). Stejný rozdíl mezi početnými druhy ovlivňuje vzdálenost méně než mezi druhy vzácnějšími. 7=1 \y\i-yii Uiy+^J ♦ Stephenson et al. (1972) a Moreau & Legendre (1979) použili tuto metriku jako součást koeficientu podobnosti S(xl9x2) -1 Dl0 P VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Koeficient divergence ♦ Obdobná metrika jako D10 ale založená na Euklidovské vzdálenosti a vztažená na počet parametrů. L)n(xl9x2) — ^J / ,._ 7=1 í \2 y u - y v vy^j+yy) VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Coefficient of racial likeness (Pearson 1926) ♦ Umožňuje srovnávat skupiny objektů podobně jako Mahalanobisova vzdálenost, ale na rozdíl od ní neeliminuje vliv korelace parametrů. Dvě skupiny objektů w1 a w2 jsou charakterizovány yi} (průměr parametrů ve skupinách) a si (rozptyl parametrů ve skupinách). ^12(^1^2) = 1 p ^M-yijl fs2) + 2_ P VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV %2 metrika (Roux & Reyssac 1975) ♦ První ze skupiny metrik založených na %2 pro výpočet vzdáleností odběrů založených na abundancích druhů nebo jiných frekvenčních datech (nejsou přípustné žádné záporné hodnoty). Data původní matice abundancí/frekvencí Y jsou nejprve přepočítána do matice poměrných frekvencí (součty frekvencí v řádcích (odběry) jsou rovny 1). Jako dodatečné charakteristiky uplatňované při výpočtu jsou spočteny součty řádků yi+ a sloupců y+j celé! matice n(i) odběrů x p(j) druhů. Y = y„ y„ -» y„ [y+j K D(xl,x2) = ^\YJ P ( v v A y1L_yy ♦ Výpočet odstraňuje problém doubl^/zero. Nejjednodušším výpočtem je obdoba Euklidovské vzdálenosti ♦ která je dále vážena součty jednotlivých druhů ( yij yv Dl5(xl,x2) = ^----1 ^------- j=\ y+j yy\+ y2+ VYUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV %2 vzdálenost (Lébart & Fénelon 1971) ♦ Výpočet je podobný %2 metrice, ale vážení je prováděno relativní četností řádku v matici místo jeho absolutního součtu, při výpočtu se užívá parametr y++ (celkový součet matice). Je využívána také při výpočtu vztahů řádků a sloupců kontingenční tabulky. 1 Vl6(xl,x2)= \2^~ n y+j Ui+ y2+) = V3vJZ— (yu y2J ^ !=i y+j v^i+ y 2+) ++ VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Hellingerova vzdálenost (Rao 1995) ♦ Koeficient související s D15 a D16. P L>,7(Xi,X?) — J 7 k yij yv n2 y i+ y 2+ VÝUKA CßA CENTRUM BIOSTATISTIKY A ANALÝZ Biostatistický seminář IV Vstupní matice vícerozměrných analýz NxP MATICE t- (N CO i_ i— i— "55 "S3 "53 E E E ní ní ní Q_ o. . o. z /\ \ objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 objekt 6 Hodnoty parametrů pro jednotlivé objekty ASOCIAČNÍ matice t- cm co Tj- io CD -4—' ^_, ^_, ^_, ^_, ^_, _*; ^ _*: _*; ^ _*: Q) tt) ÜJ Q) 0) ÜJ iE1 Iq* iö1 iE1 Iq* íq1 o o o o o o objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 objekt 6 Korelace, kovariance, vzdálenost, podobnost VÝUKA CBA CENTRUM BIOSTATISTIKY A ANALÝZ