•Vícerozměrná analýza biodiverzity Metody analýzy biodiverzity • • • •X •Indexy diverzity •Species abundance modely •Vícerozměrná analýza Vícerozměrná analýza společenstev: výhody a nevýhody •Na data biodiverzity může být aplikována řada shlukovacích, ordinačních, regresních a klasifikačních vícerozměrných technik. • •Tyto metody hledají v rozsáhlých datech vícerozměrné vzory společenstev umožňující odpovědět na následující otázky: •Vztah druhů k prostředí •Prostorové vztahy •Interakce taxonů • •Výhody: •Shrnující výsledky postihující všechny aspekty dat •Identifikace skrytých interakcí a vztahů mezi proměnnými • •Nevýhody: •Náročné na data a metodiku •Vyžadují expertní znalosti jak v oblasti statistické metodiky, tak biologických společenstev, v opačném případě mohou vést k nesprávným závěrům a interpretacím • Cíle vícerozměrné analýzy dat •Každý objekt reálného světa můžeme popsat jeho pozicí v mnohorozměrném prostoru •Více než 3D prostor je pro nás vizuálně neuchopitelný a hledání vztahů ve více než 3 dimenzích je problematické •Vícerozměrná analýza se tento problém snaží řešit různými přístupy: •Redukce dimenzionality dat „sloučením“ korelovaných proměnných do menšího počtu „faktorových“ proměnných •Identifikace shluků objektů ve vícerozměrném prostoru a následná redukce vícedimenzionálního problému kategorizací objektů do zjištěných shluků • •Zjednodušení •Interpretace Vícerozměrná analýza dat = pohled ze správného úhlu •Vícerozměrná analýza nám pomáhá nalézt v x-dimenzionálním prostoru nejvhodnější pohled na data poskytující maximum informací o analyzovaných objektech •Všechny obrázky ukazují stejný objekt z různých úhlů v 3D prostoru. Vícerozměrná analýza dat = pohled ze správného úhlu uhel pohledu.jpg •Vícerozměrná analýza nám pomáhá nalézt v x-dimenzionálním prostoru nejvhodnější pohled na data poskytující maximum informací o analyzovaných objektech Obecný princip redukce dimenzionality dat •V převážné většině případů existují mezi dimenzemi korelační vztahy, tedy dimenze se navzájem vysvětlují a pro popis kompletní informace v datech není třeba všech dimenzí vstupního souboru •Všechny tzv. ordinační metody využívají principu identifikace korelovaných dimenzí a jejich sloučení do souhrnných nových dimenzí zastupujících několik dimenzí vstupního souboru •Pokud mezi dimenzemi vstupního souboru neexistují korelace, nemá smysl hledat zjednodušení vícerozměrné struktury takovéhoto souboru !!! • •Jednoznačný vztah dimenzí x a y umožňuje jejich nahrazení jedinou novou dimenzí z •x •y •z •x •y •? •? •? •? •? •? •? •? •V případě neexistence vztahu mezi x a y nemá smysl definovat nové dimenze – nepřináší žádnou novou informaci oproti x a y Příklad vícerozměrného popisu objektů Dimenze 1 Dimenze 2 Dimenze 3 Dimenze 4 ID objektu SEPALLEN SEPALWID PETALLEN PETALWID SETOSA 5.0 3.3 1.4 0.2 VIRGINIC 6.4 2.8 5.6 2.2 VERSICOL 6.5 2.8 4.6 1.5 VIRGINIC 6.7 3.1 5.6 2.4 VIRGINIC 6.3 2.8 5.1 1.5 SETOSA 4.6 3.4 1.4 0.3 VIRGINIC 6.9 3.1 5.1 2.3 VERSICOL 6.2 2.2 4.5 1.5 VERSICOL 5.9 3.2 4.8 1.8 SETOSA 4.6 3.6 1.0 0.2 … … … … iris.gif Obecný princip hledání shluků v datech •Vzájemnou pozici objektů ve vícerozměrném prostoru lze popsat jejich vzdáleností •Dle vzdálenosti objektů je můžeme slučovat do shluků a přiřazení objektů ke shlukům ve vícerozměrném prostoru následně využít pro zjednodušení jejich x-dimenzionálního popisu •Smysluplnost výsledků shlukování závisí jednak na objektivní existenci shluků v datech, jednak na arbitrárně nastavených kritériích definice shluků •Jednoznačné odlišení existujících shluků v datech (obdoba multimodálního rozložení) •Shluková analýza je možná i v tomto případě, nicméně hranice shluků jsou dány pouze naším rozhodnutím. Omezení vícerozměrné analýzy dat •Vícerozměrná analýza může přinést zjednodušení dimenzionality dat pouze v případě, kdy data skrývají nějakou identifikovatelnou vícerozměrnou strukturu •Mezi dimenzemi existují vztahy (korelace) umožňující nahrazení korelovaných dimenzí zástupnou souhrnnou dimenzí •Objekty vytváří v x-dimenzionálním prostoru shluky nebo jiné nenáhodné struktury •Pro náhodně rozmístěné objekty bez korelací mezi dimenzemi jejich x-dimenzionálního prostoru nepřináší vícerozměrná analýza žádné nové informace oproti původním dimenzím •Důležitý je poměr počtu objektů (řádky tabulky) a dimenzí (sloupce tabulky). Čím je tento poměr menší tím větší je šance, že výsledky analýzy jsou ovlivněny náhodnými procesy. Za minimální poměr pro získání validních výsledků je považováno 10 objektů na 1 dimenzi. •Pro vícerozměrné analýzy platí obdobné předpoklady jako pro jednorozměrnou statistickou analýzu; vzhledem k jejich možnému porušení na úrovni kombinace několika dimenzí je tyto předpoklady třeba kontrolovat ještě pečlivěji než u jednorozměrné analýzy •Kromě klasických statistických předpokladů je při vícerozměrných analýzách třeba věnovat pozornost výběru metrik vzdáleností mezi objekty (klíčové ovlivnění interpretace výsledků) a jejich předpokladům •Pokud výsledky vícerozměrné analýzy nejsou interpretovatelné je třeba zvážit, zda použití vícerozměrné analýzy přináší oproti sadě jednorozměrných analýz nějakou přidanou hodnotou •Využitelná vícerozměrná analýza by měla být: •Vybrána vhodná metoda pro řešení daného problému •korektně spočítána za dodržení všech předpokladů •Interpretovatelná a přinášející novou informaci oproti analýze původních dimenzí Korelace jako princip výpočtu vícerozměrných analýz •Kovariance a Pearsonova korelace je základem analýzy hlavních komponent, faktorové analýzy jakož i dalších vícerozměrných analýz pracujících s lineární závislostí proměnných •Předpokladem výpočtu kovariance a Pearsonovy korelace je: •Normalita dat v obou dimenzích •Linearita vztahu proměnných •Pro vícerozměrné analýzy je nejzávažnějším problémem přítomnost odlehlých hodnot •x •y •x •y •x •y •Lineární vztah – bezproblémové použití Pearsonovy korelace •Korelace je dána dvěma skupinami hodnot – vede k identifikaci skupin objektů v datech •Korelace je dána odlehlou hodnotu – analýza popisuje pouze vliv odlehlé hodnoty Analýza kontingenčních tabulek jako princip výpočtu vícerozměrných analýz •Abundance taxonů (nebo počet jakýchkoliv objektů) na lokalitách lze brát jako kontingenční tabulku a mírou vztahu mezi řádky (lokality) a sloupci (taxony) je velikost chi-kvadrátu •pozorovaná •četnost •očekávaná •četnost •očekávaná četnost •= •2 • • •- •Počítáno pro každou buňku tabulky N J A 10 0 B 0 10 •Pozorovaná tabulka N J A 5 5 B 5 5 •Očekávaná tabulka •Hodnota chi-kvadrátu definuje míru odchylky dané buňky (v našem kontextu vztahu taxon-lokalita) od situace, kdy mezi řádky a sloupci (taxon-lokalita) není žádný vztah Euklidovská vzdálenost jako princip výpočtu vícerozměrných analýz •Nejsnáze představitelným měřítkem vztahu dvou objektů ve vícerozměrném prostoru je jejich vzdálenost •Nejjednodušším typem této vzdálenosti (bohužel s omezeným použitím na data společenstev) je Euklidovská vzdálenost vycházející z Pythagorovy věty • •a •b •c •y11 •y21 •y12 •y22 •X1 •X2 Double zero problém •V případě binárních metrik (druh se vyskytuje/nevyskytuje) není možné uvažovat stejnou váhu pro souhlas přítomnosti (11) a nepřítomnosti (00) taxonů (symetrický koeficient) •Problémem využití všech typů metrik pro data abundancí spočívá v odlišném významu přítomnosti a nepřítomnosti taxonů •Pokud se taxon nachází v obou srovnávaných společenstvech – znamená to že společenstva si budou v tomto ohledu podobná, protože mají podmínky umožňující přítomnost taxonu •Pokud se taxon nenachází ani v jednom ze dvou srovnávaných společenstev – příčina může být nejrůznější – double zero problem • jpg95a_0_ •Pro odstranění tohoto problému je použito asymetrické hodnocení souhlasné přítomnosti (11) a nepřítomnosti (00) taxonů (asymetrické koeficienty) • •Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu. • •Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty. • •NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do vícerozměrných analýz. • •Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza). Měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik. Pojmy vícerozměrných analýz •Hodnoty parametrů pro jednotlivé objekty •NxP MATICE •ASOCIAČNÍ MATICE •Korelace, kovariance, vzdálenost, podobnost • • • •Výpočet metriky podobností/ •vzdáleností Vstupní matice vícerozměrných analýz Základní typy vícerozměrných analýz •Vytváření shluků objektů na základě jejich podobnosti •Identifikace typů objektů •Zjednodušení vícerozměrného problému do menšího počtu rozměrů •Principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat •Ordinace •Shluková analýza •x •y • • •Factor axes •y •x • • • • • • • •similarity Seznam taxonů – vícerozměrný popis společenstva •Na seznam taxonů lze pohlížet také jako seznam rozměrů společenstva •Záznam o nalezených taxonech tak vlastně tvoří vícerozměrný popis daného společenstva •Společenstva můžeme srovnávat podle jejich vzájemné pozice v n-rozměrném prostoru •Pro srovnání společenstev lze teoreticky využít libovolnou metriku vícerozměrné podobnosti nebo vzdálenosti •Metriky vzdálenosti Euklidovská vzdálenost •Jde o základní metrické měřítko vzdálenosti a počítá vzdálenost objektů obdobně jako Pythagorova věta počítá přeponu pravoúhlého trojúhelníku. Metoda je citlivá na rozdílný rozsah hodnot vstupujících proměnných (vhodným řešením může být standardizace) a double zero problém. Nemá horní hranici hodnot. • • • Jako další měřítko se používá také čtverec této vzdálenosti. Jeho nevýhodou jsou semimetrické vlastnosti. • Průměrná vzdálenost •Euklidovská vzdálenost je přepočítána na počet parametrů (druhů v případě vzdálenosti společenstev odběrů). • • Chord distance (Orlóci, 1967) • • • •Odstraňuje double zero problém a vliv rozdílného počtu jedinců druhů ve vzorcích při výpočtu Euklidovské vzdálenosti. Její maximální hodnota je druhá odmocnina ze dvou a minimum 0. Při výpočtu počítá pouze s poměry druhů v rámci jednotlivých vzorků. Jde vlastně o Euklidovskou vzdálenost počítanou pro vektory vzorků standardizované na délku 1, nebo je možný přímý výpočet už zahrnující standardizaci. Vnitřní část výpočtu je vlastně cosinus úhlu svíraného vektory, zápis vzorce je možný i v této formě. Geodetická metrika •Počítá délku výseče jednotkové kružnice mezi normalizovanými vektory (viz. Chord distance). • • •Koeficienty podobnosti Koeficienty podobosti (indexy podobnosti) •V ekologii se využívá řada indexů podobnosti založených buď na přítomnosti/nepřítomnosti taxonů nebo na abundancích •Binární koeficienty podobnosti Společenstvo 1 Společenstvo 2 1 0 1 a b 0 c d •a, b, c, d = počet případů, kdy souhlasí binární charakteristika společenstev 1 a 2 •a+b+c+d=p •Symetrické binární koeficienty - není rozdíl mezi případem 1-1 a 0-0 •Asymetrické binární koeficienty - rozdíl mezi případem 1-1 a 0-0 • •Více informací a další měření vzdáleností a podobností najdete v knize LEGENDRE, P. & LEGENDRE, L. (1998). Numerical ecology. Elseviere Science BV, Amsterodam. •Symetrické binární koeficienty Jednoduchý srovnávací koeficient (Sokal & Michener, 1958) •Obvyklou metodou pro výpočet podobnosti mezi dvěma objekty je podíl počtu deskriptorů, které kódují objekt stejně, a celkového počtu deskriptorů. Při použití tohoto koeficientu předpokládáme, že není rozdíl mezi nastáním 0 a 1 u deskriptorů. • Rogers & Tanimoto koeficient (1960) •Dává větší váhu rozdílům než podobnostem. • •Asymetrické binární koeficienty Jaccardův koeficient (1900, 1901, 1908) •Všechny členy mají stejnou váhu • Sørensenův koeficient (1948) (Coincidence index, Dice(1945)) •varianta předchozího koeficientu dává dvojnásobnou váhu dvojitým prezencím, protože se může zdát, že přítomnost druhů je více informativní než jejich absence, která může být způsobena různými faktory a nemusí nutně odrážet rozdílnost prostředí. Prezence druhu na obou lokalitách je silným ukazatelem jejich podobnosti. S7 je monotónní k S8, proto podobnost pro dvě dvojice objektů vypočítaná podle S7 bude podobná stejnému výpočtu S8. Oba koeficienty se liší pouze v měřítku. Tento index byl poprvé použit Dicem v R-mode studii asociací druhů. Jiná varianta tohoto koeficientu dává duplicitním prezencím trojnásobnou váhu. • • •Kvantitativní koeficienty „Klasické“ indexy podobnosti •Sørensenův kvantitativní koeficient, kde aN a bN jsou celkové počty jedinců v společenstvech A a B, jN je pak suma abundancí pokud se druh nachází v obou společenstvech, je počítána vždy z nižší abundance daného druhu ve společenstvu • • • •Morisita-Horn index, kde aN je celkový počet jedinců ve společenstvu A a ani počet jedinců druhu i ve společenstvu A (obdobně platí pro společenstvo B) •Bray-Curtis nepodobnost: •1-CN Jednoduchý srovnávací koeficient (Sokal & Michener, 1958) •modifikovaný jednoduchý srvonávací koeficient může být použit pro multistavové deskriptory - čitatel obsahuje počet deskriptorů, pro které jsou dva objekty ve stejném stavu – např. je-li dvojice objektů popsána následujícími deseti multistavovými deskriptory: hodnota S1,vypočítaná pro 10 multistavových deskriptorů bude S1(x1,x2) = 4 agreements/ 10 descriptors = 0.4 •Podobným způsobem je možné rozšířit všechny binární koeficienty pro multistavové deskriptory. Deskriptors S Object x1 9 3 7 3 4 9 5 4 0 6 Object x2 2 3 2 1 2 9 3 2 0 6 Agreements 0 +1 +0 +0 +0 +1 +0 +0 +1 +1 4 • Gowerův obecný koeficient podobnosti (1971) I. •Obecný koeficient podobnosti může kombinovat různé typy deskriptorů. Podobnost mezi dvěma objekty je vypočítána jako průměr podobností, vypočítaných pro všechny deskriptory. Pro každý deskriptor j je hodnota parciální podobnosti s12j mezi objekty x1 a x2 vypočítána následovně: • • • üPro binární deskriptory sj=1 (shoda) nebo 0 (neshoda). Gower navrhl dvě formy tohoto koeficientu (symetrická, dává sj=1 double-zero; asymetrická dává pro double-zero sj=0) üKvalitativní a semikvantitivní deskriptory jsou upraveny podle jednoduchého zaměňovacího pravidla, sj=1 při souhlasu a sj = 0 při nesouhlasu deskriptorů. Double zero jsou ošetřeny stejně jako v předchozím odstavci. üKvantitativní deskriptory (reálná čísla) jsou zpracovány následovně: pro každý deskriptor se nejprve vypočte rozdíl mezi stavy obou objektů který je poté vydělen největším rozdílem (Rj), nalezeným pro daný deskriptor mezi všemi objekty ve studii (nebo v referenční populaci – doporučuje se vypočítat největší diferenci Rj každého deskriptoru j pro celou populaci, aby byla zajištěna konzistence výsledků pro všechny parciální studie). • Gowerův obecný koeficient podobnosti (1971) II. •normalizovaná vzdálenost může být odečtena od 1 aby byla transformována na podobnost: • • • •Gowerův koeficent může být nastaven tak, aby zahrnoval přídavný flexibilní prvek: žádné porovnání není vypočítáno u deskriptorů, u nichž chybí informace buď u jednoho, nebo u druhého objektu. Toto zajišťuje člen wj, nazývaný Kroneckerovo delta, popisující přítomnost/nepřítomnost informace v obou objektech: je-li informace o deskriptoru yj přítomna u obou objektů (wj=1), jinak (wj=0), tento koeficient nabývá hodnot podobnosti mezi 0 a 1 (největší podobnost objektů). Další možností je vážení různých deskriptorů prostým přiřazením čísla v rozsahu 0-1 wj. • • •Shlukování dat biodiverzity Shluková analýza •Hierarchické metody •Aglomerativní shlukování •Divizivní shlukování •Monotetická metoda •Polytetická metoda •Asociační analýza •Two way indicator species analysis •jednospojná metoda •středospojná metoda •všespojná metoda •… •Nehierarchické metody •Metoda k-průměrů Hierarchické aglomerativní shlukování •Hierarchické metody •Aglomerativní shlukování •centroid •vzdálenost u jednospojné metody •vzdálenost u všespojné metody •jiné metody: •Vzdálenost mezi centroidy •Průměrná vzdálenost •… •začíná jednotlivými objekty, které jsou spojeny do větších shluků •vyžaduje matici podobností nebo nepodobností (site by site), kterou začíná •pro data prezence/absence i pro kvantitativní data existuje mnoho indexů podobnosti •všechny aglomerativní metody jsou založeny na spájení jednotlivých objektů (vzorek) nebo shluků do větších skupin •Vzdálenost mezi dvěma shluky je daná jako minimální vzdálenost mezi všemi možnými zástupci shluků. •Často se i velmi vzdálené objekty můžou sejít ve stejném shluku, když větší počet dalších objektů mezi nimi tvoří jakýsi most. •Metoda nejbližšího souseda •(jednospojná metoda, metoda jediné vazby, single linkage, the nearest neighbor method) • • • • • • • • • • • • • • • • • •A •B •d •1 •2 •3 •5 •4 Hierarchické aglomerativní shlukování •Vzdálenost mezi dvěma shluky je daná maximální vzdáleností mezi všemi možnými zástupci obou shluků. •Shluky jsou mezi sebou dobře oddělené. •Tendence ke tvorbě kompaktních shluků, ne ovšem velmi velkých. •Metoda nejvzdálenějšího souseda •(všespojná metoda, metoda úplné vazby, complete linkage, the furthest neighbor method) • • • • • • • • • • • • • • • • • •A •B •d •1 •2 •4 •3 •5 Hierarchické aglomerativní shlukování •Meziskupinová (ne)podobnost je definována jako průměrná (ne)podobnost mezi všemi možnými páry členů. •Metoda vede často k podobným výsledkům jako metoda najvzdálenějšího souseda. •Metoda průměrné vzdálenosti (středospojná metoda, metoda průměrné vazby, average linkage, UPGMA - unweighted pair-group method using arithmetic averages) •A •B • • • • • • • • Hierarchické aglomerativní shlukování •Tato metoda nevychází již z agregace informací o mezishlukových vzdálenostech objektů. Kritérium je euklidovská vzdálenost centroidů. Při této metodě je vzdálenost mezi shluky počítána jako vzdálenost mezi centroidy těchto shluků. •Centroidová metoda (Gowerova metoda, centroid method, UPGMC – unweighted pair-group method using centroids) • • • • • •x • • •E •D •A •B •1/5 •4/5 •C •centrální bod •ABDEC •1 •2 •3 •4 •5 Hierarchické aglomerativní shlukování •Mediánová metoda (median method, WPGMC – weighted pair-group method using centroids, weighted centroid clustering) • • • • • •x • • •E •D •A •B •C •centrální bod •ABDEC •centrální bod •ABDE Hierarchické aglomerativní shlukování •Wardova metoda (Minimum variance clustering) •Wardova metoda je podobná středospojné a centroidové metodě. Kritérium pro spojování shluků je příspěvek celkového vnitroskupinového součtu čtverců odchylek pozorování od shlukového průměru. Příspěvek je vyjádřen jako součet čtverců v novo vznikajícím shluku, zmenšený o součty čtverců v obou zanikajících shlucích. •Wardova metoda má tendenci odstraňovat malé shluky, teda tvořit shluky zhruba shodné velikosti. •1 •2 •4 •3 •5 Hierarchické aglomerativní shlukování obr18novy uMetoda nejbližšího souseda by v důsledku řetězení spojila do jednoho shluku plné trojúhelníky a do druhého prázdné trojúhelníky, zatím co Wardova metoda a metoda průměrné vzdálenosti by vytvořili skupiny ohraničené čárami (podle Everitt & Dunn 1983). Hierarchické aglomerativní shlukování •Výsledkem hierarchického aglomeratívního shlukování je dendrogram (strom). •V tomto případě jsme použily: uvšespojnou shlukovací metodu umíru vzdálenosti: Euklidovskou vzdálenost •Dendrogram znázorňuje podobnost společenstev korýšů šesti lokalit v záplavové oblasti Dunaje ve třech obdobích u 1: 1991-1992 před přehrazením Dunaje u 2: 1993-1997 prvních 5 let po přehrazení u 3: 1999-2004 dalších 6 let po přehrazení •Sledované lokality: u D: Dobrohošť u G: Gabčíkovo u B: Bodíky u I: Istragov u K: Kráľovská lúka u S: Sporná sihoť Hierarchické aglomerativní shlukování •Podle Kováře a Lepše (1986) mají transformace větší vliv na výsledek shlukování než metody shlukování. •důležitostná hodnota •(pokryvnost, početnost) •transformace, standardizace, •měření podobnosti •shlukovací algoritmus •Výsledek klasifikace je ovlivněn rozhodnutím na několika úrovních •Hierarchické aglomeratívne zhlukovanie • •Kritické problémy analýzy uVelké množství proměnných nebo objektů v dendrogramu je obtížné interpretovat uAnalýza je silně závislá na zvolení vhodné metriky vzdálenosti uAnalýza je silně závislá na shlukovacím algoritmu •Sběr dat •Hrubá data •Matice (ne) podobnosti •Dendrogram Hierarchické aglomerativní shlukování •a – graf je úplný, b – graf je nesouvislý a všechny izolované komponenty jsou úplné , c – graf je nesouvislý a alespoň jedna komponenta není úplná, d – graf je souvislý, ale není úplný •Shody (ties) uPři použití aglomerativních shlukovacích metod může nastat situace, kdy se v matici podobnosti vyskytnou tzv. shody (ties) uNejčastěji dochází ke shodám při analýze binárních dat, je tu veliká pravděpodobnost stejné vzdálenosti mezi objekty uNáhodné řešení takové situace může ovlivnit výslednou klasifikaci (dendrogram) Hierarchické aglomerativní shlukování •1 „silent mode (arbitrary)“ •Vazby se řeší náhodně, spojí se jenom poslední nalezená dvojice (je tu vliv pořadí objektů v primární matici) • •2 „single linkage“ •Všechny objekty, které jsou spojené vazbou, se spojí do jednoho shluku • •3 „suboptimal fusions“ •Nekompletní komponenty se ignorují a hledání nejmenších vzdáleností v matici pokračuje pokým se už žádné nekompletní komponenty nevyskytují • •1 •2 •3 •Řešení situací a)spojí se všechny objekty naráz b)paralelně se vytvoří více skupin (tzv. multiple fusion) •c) a d) tři možnosti řešení: Hierarchické aglomerativní shlukování •jednospojná metoda •všespojná metoda •středospojná metoda Hierarchické aglomerativní shlukování •REÁLNA DATA u6 lokalit, každá lokalita monitorována ve 3 obdobích udatová matice: 18 vzorek x 63 planktonních druhů korýšů; hodnoty = stupeň dominance •Dendrogramy vytvořeny pomocí tří různých shlukovacích algoritmů: •jednospojná, středospojná a všespojná metoda. •V prvním případě je zjevné silné řetězení objektů. •Hierarchické metody •Aglomerativní shlukování •Hierarchické metody •Divizivní shlukování udělení probíhá „shora“; začíná všemi objekty jako s jednou skupinou urozdělení souboru na dvě části - podskupiny udalší dělení podskupin •Časté použití ke klasifikaci biologických společenstev •x •y • • • • • • • • • • • • • • • • • • • • • • •x •y • • • • • • • • • • • • • • • • • • • • • •x •y • • • • • • • • • • • • • • • • • • • • • • • • • • • • Hierarchické divizivní shlukování Hierarchické divizivní shlukování •Hierarchické metody •Divizivní shlukování •Monotetická metoda •Asociační analýza •A binary key for identifying types of salt-marsh habitat (Ivemey-Cook, Proctor 1966) •Sper. med. •Glau. mar. •Coch. dan. •Cera. atr. •Psor. lur. •Agro. sto. •Puc. mar. •I •II •III •IV •V •VI •VII •VIII •+ •- •- •- •- •- •- •- •+ •+ •+ •+ •+ •Polytetická metoda •Two way indicator species analysis udělení na základě jednoho parametru unejdříve je nalezen druh, který je nejvíce asociovaný s ostatními druhy; skupiny jsou rozděleny na základě prezence/absence tohoto druhu •TWINSPAN • •Polytetická metoda udělení skupiny je založeno na všech druzích podle jejich skóre na první ose vytvořené ordinací (v TWINSPAN-e korespondenční analýza) udichotomie vzniká ordinací lokalit na základě diferenciálních druhů ubere do úvahy aj abundanci druhů vo formě tzv. pseudo-druhů => potřeba určit hraniční hodnoty (cut levels) •Two way indicator species analysis •TWINSPAN •Původní tabulka Species A B Cirsium oleraceum 0 1 Glechoma hederacea 6 0 Juncus tenuis 15 25 •Tabulka s pseudodruhy použitými v TWINSPAN Species A B Cirsoler1 0 1 Glechede1 1 0 Glechede2 1 0 Junctenu1 1 1 Junctenu2 1 1 Junctenu3 1 1 Junctenu4 0 1 •cut levels •1, 5 a 20 Hierarchické divizivní shlukování Hierarchické divizivní shlukování •Two way indicator species analysis uCut levels 0, 2, 5, 10, 20 •TWINSPAN for Windows, WinTWINS, http://www.canodraw.com/wintwins.htm •REÁLNA DATA u6 lokalit, každá lokalita monitorována ve 3 obdobích udatová matice: 18 vzorek x 63 planktonních druhů korýšů; hodnoty = stupeň dominance Hierarchické divizivní shlukování •Hierarchické metody •Divizivní shlukování •Monotetická metoda •Polytetická metoda •Asociační analýza •Two way indicator species analysis uzačíná se všemi objekty jako s jednou skupinou uskupina je rozdělena na dvě menší skupiny, … • • • • • • • • •neposkytuje jednoduchý klíč vhodný pro zařazení nové vzorky do dané třídy (skupiny) •poskytuje jednoduchý binární klíč, který sa dá použít ke klasifikaci dalšího vzorku •vytvořené skupiny – méně homogenní jako skupiny vytvořeny polytetickou metodou •vytvořené skupiny jsou více homogenní jako skupiny vytvořeny monotetickou metodou •jenom pro data prezence/absence •koneční klasifikace – není robustní •předpokládá jenom jeden základní trend v datech Hierarchické shlukování •Hierarchické metody •Divizivní shlukování •Aglomerativní shlukování • • • • •Neexistuje „správný“ shlukovací algoritmus •Výsledky se dramaticky mění s • různým shlukovacím algoritmem • různým indexem podobnosti • • • • •monoteticka metoda není robustní •Shlukování je intuitivní => je to nejpopulárnější klasifikační metoda •Aglomerativní shlukování není efektivní pro velmi velká data •divizivní techniky jsou pro velmi objemná data vhodnější jako aglomerativní techniky •jednoduchá interpretace výsledků •Výsledek je sumarizovaný v dendro-gramu – jednoduchá interpretace •polytetická metoda neposkytuje jednoduchý klíč vhodný poe zařazení nového vzorku do dané skupiny •Ukázka rozdělení objektů do shluků nehierarchickou metodou k-průměrů. •Výsledek je ovlivněn volbou počtu shluků. • •Vlevo: počet shluků k = 3 je dobrá volba; vpravo: počet shluků k = 2 je špatná volba. •Objekty jsou na základě zadaného počtu shluků rozděleny podle kritéria maximální homogenity shluků. • •x •y • • • • • • • • • • • • • • • • • • • • • •x •y • • • • • • • • • • • • • • • • • • • • • • • • • • •Nehierarchické metody Nehierarchické shlukování •Princip nehierarchického shlukování uPro výpočet se používá opakovaná relokační procedura. Začíná s k skupinami a pak přesouvá objekty tak, aby minimalizovala variabilitu uvnitř skupin a maximalizovala variabilitu mezi skupinami. uRelokační procedura se ukončí, když žádný další přesun už kriteria nezlepší. uTakto získáváme ovšem pouze lokální extrém, nemáme jistotu, že je taky globálním extrémem. uDoporučuje se začít s různými počátečními skupinami a sledovat, zda jsou výsledky těchto analýz stejné. •Rizika analýzy upři chybném odhadu počtu shluků dává metoda chybné výsledky uvýpočet je možný pouze na Euklidovských vzdálenostech se všemi jejími omezeními Nehierarchické shlukování •Nehierarchické metody •metoda k-průměrů uskupiny nejsou zahrnuty do nadskupin, ani neobsahují podskupiny urozděluje objekty do určitého počtu skupin umetoda k-průměrů pracuje s euklidovskými vzdálenostmi • • •Nehierarchické metody můžou být vhodnější jako hierarchické techniky •v případě většího objemu dat •v případě, že v datech neexistuje hierarchická struktura • • •metoda k-průměrů pracuje s euklidovskými vzdálenostmi •=> to může být problémem v případě, když euklidovská vzdálenost není „nejlepší“ metrikou •počet skupin k je třeba specifikovat předem uživatelem Nehierarchické shlukování •Shluková analýza – souhrn •Když data nemají úplně jednoznačnou a zřetelnou strukturu (jedná se spíše o náhodně rozptýleny objekty), je pravděpodobné, že použití různých shlukovacích technik přinese odlišné výsledky. • •Když různé shlukovací techniky dávají ze stejného datového souboru shodné, reps. podobné výsledky, je to do jisté míry potvrzení struktury obsáhlé v datech (ačkoliv shlukovací metody patří k postupům produkujícím hypotézy a nejsou určeny k jejich testování) • •Mnohé shlukovací techniky jsou citlivé na přítomnost odlehlých objektů (outliers, výrazně atypické případy). Před samotnou shlukovou analýzou je vhodné použít některou z metod na jejich odhalení, např. PCA. Výrazně odlehlé objekty zpravidla z ďalších analýz vyloučíme. • •Shlukové analýzy obecně nejsou vhodná na data, ktorá popisujú variabilitu znaku závislém na gradientu prostředí. Shluková analýza obecně Shluková analýza souhrn •Vstup shlukové analýzy: uMatice podobnosti anebo vzdálenosti objektů uTabulka objektů charakterizovaných několika parametry •Výstup shlukové analýzy: uStrom (dendrogram) při hierarchické shlukové analýze uZařazení objektů do předem definovaného počtu shluků při nehierarchické analýze •Při použití shlukové analýzy je nutné pamatovat na omezení: uAglomerativní shlukování není efektivní pro velmi velká data uPři hierarchické aglomerativní analýze je výsledek silně ovlivněn výběrem indexu podobnosti, resp. metrikou vzdálenosti a shlukovacím algoritmem u! neexistuje správný shlukovací algoritmus !!! uPři hierarchické divizivní analýze: Twinspan předpokládá jeden hlavní trend v datech a je ovlivněn nastavením hranic pseudo-druhů uPři nehierarchickém shlukování je nutné určit počet skupin předem •Ordinace dat biodiverzity a definice environmentálního gradientu Základní typy vícerozměrných analýz •Klasifikuje vzorky (lokality), druhy nebo proměnné •Nachází skupiny v datech •Uspořádá vzorky podél trendu v datech •Ordinace •Shluková analýza •x •y • • •Factor axes •y •x • • • • • • • •similarity Ordinační metody a data diverzity •environment •plants • •animals •environmental •data • •species data • • •sites •sites •1 2 3 ………………… i ………. n •1 2 3 ………………… i ………. n •1 •2 •. •. •. •j •. •. •q •1 •2 •. •. •. •. •k •. •. •m • •Direct gradient analysis • •Indirect gradient analysis •ordination diagram •Sumarizing by ordination • • • • • • • • • • • • • • uSeřadí objekty podél environmentálního gradientu uCílem ordinace je sformulovat hypotézy o vztahu mezi druhovým složením společenstva na lokalitách a základními environmentálními faktory uOrdinační metody nepředpokládají žádné apriorní seskupení objektů. uOrdinační metody používáme zejména ke tvorbě hypotéz. Ordinace •Ordinace a shluková analýza jsou jediné možné techniky, které můžeme použít bez naměřených environmentálních dat •Vysvětlující (explanatory) proměnné v ordinaci jsou teoretické proměnné = environmentální gradienty •species data • • •sites •1 2 3 ………………… i ………. n •1 •2 •. •. •. •. •k •. •. •m • •Každý vzorek zahrnuje hodnoty mnoho druhů. •vysvětlované = závislé proměnné •druhová data •ordination diagram • •Ordinační analýza: typy dat •species data • • •sites •1 2 3 ………………… i ………. n •1 •2 •. •. •. •. •k •. •. •m • •kvantitativní data upočet jedinců jednotlivých druhů uprocentická pokryvnost uodhad biomasy • •semikvantitativní data uBraun-Blanquetová stupnice • •kvalitativní data upřítomnost / nepřítomnost •Biodiverzitní data: Ordinační metody, gradientová analýza •Termín gradientová analýza používáme pro metody, které dávají do vztahu druhová data a gradienty prostředí (měřeny nebo hypotetické). •Gradientová analýza se zabývá vztahem složení společenstva k (známým nebo neznámým) gradientům prostředí. •Nepřímá gradientová analýza •Přímá gradientová analýza •Osi vytvořeny na základě druhových dat •Ordinace kombinovaná s regresí – ordinační osy jsou omezeny (constrained) nebo kanonické (canonical) – jsou lineárně závislé na měřených vysvětlujících proměnných. •(indirect gradient analysis) •(direct gradient analysis) •Odpověď druhů na gradient prostředí •lineární (linear) – nejjednodušší odhad (na krátkém gradientu dobře funguje lineární aproximace jakékoliv funkce) •unimodální (unimodal) – druh má na gradientu své optimum (na dlouhém gradientu není aproximace lineární funkcí vhodná) •Dva typy modelu odpovědi druhu na (známý nebo teoretický) gradient •Lineární aproximace unimodální odpovědi na krátké části gradientu •Lineární aproximace unimodální odpovědi na dlouhé části gradientu Základní techniky ordinačních metod •Nepřímá gradientová analýza •Přímá gradientová analýza •Lineární model •Unimodální model •Korespondenční analýza (CA) •Detrendovaná korespondenční analýza (DCA) •Analýza hlavních komponent (PCA) •Analýza hlavních koordinát (PCoA) •Lineární model •Unimodální model •Kanonická korespondenční analýza (CCA) •Redundanční analýza (RDA) •Kanonická korelační analýza •Nemetrická ordinace •Mnohonásobné škálování (NMDS) uvytvoří teoretickou preměnnou nejlépe charakterizující druhová data na základě lineárního nebo unimodálního modelu ugradient je lineární kombinací konkrétních environmentálních proměnných Příklady ordinačních diagramů •PCA •CA •RDA •CCA •Výsledky ordinací se obvykle prezentují jako ordinační diagramy. uvzorky: body udruhy: šipky uvzorky: body udruhy: body uproměnné kvantitativní: šipky uproměnné kvalitativní: body •Analýza hlavních komponent •Proměnné jsou vzájemně korelované, tedy část informace v souboru je duplicitní •Analýza odstraní duplicitu z dat a zobrazí pouze unikátní informaci – tj. nahradí původní soubor proměnných souborem nových proměnných vzájemně nekorelovaných. Analýza hlavních komponent (PCA) obr19novy •1. faktorová osa vyčerpá nejvíc celkové variability •Je založena na vlastní analýze (eigenanalysis) symetrických matic (korelační, kovarianční) Analýza hlavních komponent (PCA) •Cíl PCA: určení uhlů mezi původními a novými osami souřadnicové soustavy, souřadnice objektů v novém systému souřadnic. 7 •Vlastní čísla matice λ1, λ2, ... λp jsou interpretovatelné jako míry rozptylu zachycené komponenty y1, ... , yp. •Původně byla PCA navrhnuta pro kvantitativní znaky, může sa ovšem použít i na znaky binární a semikvantitativní. • • • •Indirect gradient analysis •Principal component analysis uPCA je postavena na lineárním modelu; abundance každého druhu roste ve směru šipky uPCA je definováná pro kovarianční a pro korelační matici uPCA není vhodna pro datovou matici s hodně nulami Analýza hlavních komponent (PCA) •REÁLNA DATA u6 lokalit, každá lokalita sledována ve 3 obdobích udatová matice: 18 vzorek x 63 plankt. dr. korýšů; hodnoty = stupeň dominance •Korespondenční analýza, Detrendovaná korešpondenční analýza Korespondenční analýza •Korespondenční analýza – nástroj pro analýzu vztahů mezi řádky a sloupci kontingenční tabulky => dvě kategoriální proměnné. •Abundance taxonů (nebo počet jakýchkoliv objektů) na lokalitách lze brát jako kontingenční tabulku a mírou vztahu mezi řádky (lokality) a sloupci (taxony) je velikost chi-kvadrátu • • Kategorie první proměnné Kategorie druhé proměnné • • S1 S2 S3 S4 S5 S6 •Korespondenční analýza a data biodiverzity • •Nepřímá gradientová analýza •Založená na unimodální odpovědi – odhaduje optimum druhu na teoretickém gradientu •sites • Korespondenční analýza •Realita •Teoretická vyrovnanosť Princip Korespondenční analýza hledá, které kombinace řádků a sloupců hodnocené tabulky nejvíce přispívají k její variabilitě •Korešpondenčná analýza •Nejjednodušší cestou jak odhadnou optimum druhu pro unimodální model je spočítat vážený průměr těch hodnot charakteristik prostředí, při kterých se druh vyskytuje. •Jako váha při výpočtu se používá početnost či jiná důležitostní hodnota druhu. •Při váženém přůměrování je implicitně zahrnuta standardizace po vzorcích i po druzích. •Korespondenční analýza •Základní myšlenkou metody korespondenční analýzy je odvodit indexy (osy), které budou kvantifikovat vztahy mezi řádkovými a sloupcovými kategoriemi. Z těchto indexů můžeme odvodit, která sloupcová kategorie má větší či menší váhu v daném řádku a opačně. •V grafu interpretujeme relativní pozice bodů řádků a sloupců jako váhy přislouchající danému sloupci a řádku. Korespondenční analýza obecně Korespondenční analýza a data diverzity •Korespondenční analýza Site1 Site2 Site3 WA1 WA2 WA3 WA4 Rhitrogena 0 0 3 13.000 10.000 10.000 10.000 Alainites 5 2 1 4.625 1.363 1.312 1.310 Baetis 6 2 0 3.250 0.113 0.062 0.060 Epeorus 8 1 0 2.556 0.050 0.028 0.027 initial value 2 7 13 WA1 3.319 3.661 10.906 WA1resc. 0.000 0.450 10.000 WA2 0.415 0.600 7.841 WA2resc. 0.000 0.249 10.000 WA3 0.377 0.555 7.828 WA3resc. 0.000 0.240 10.000 WA4 0.375 0.553 7.827 WA4resc. 0.000 0.239 10.000 Korespondenční analýza, Correspondence analysis (CA) Reciproční průměřování (reciprocal averaging) nebo vlastní analýza (eigenanalysis) CA Náhodne zvolené Site Scores Vypočítané Species Scores ako WA SS Vypočítané nové Site Scores ako WA SpS Štandardizácia Sp S Štandardizácia S S Je zmena v scóre? koniec NIE ÁNO Site1 Site2 Site3 WA4 Rhitrogena 0 0 3 10.000 Alainites 5 2 1 1.310 Baetis 6 2 0 0.060 Epeorus 8 1 0 0.027 WA4resc. 0.000 0.239 10.000 Korespondenční analýza, Correspondence analysis (CA) Reciproční průměřování (reciprocal averaging) nebo vlastní analýza (eigenanalysis) •Korespondenční analýza •Sampl1 •Sampl3 •Sampl2 •Epeorus •Baetis •Alainites •Rhitrogena • • •outlier •Korespondenční analýza: výsledky •Ordinační diagram: ordinační osy jsou ortogonální, tj. na sobě lineárně nezávislé •Skóre druhů a vzorků (řádky a sloupce původní kontingenční tabulky) •Vlastní hodnoty, vlastní vektory (eigenvalues, eigenvectors) Vlastní hodnota (eigenvalue) představuje informaci vysvětlenou danou osou. Vysoké skóre: druh s nízkou frekvenci Většinou interpretujeme pouze 2-3 ordinační osy. Korespondenční analýza (CA) •CA počítá s unimodální odpovědí druhů na gradient prostředí; každý druh se vyskytuje v určitém rozpětí hodnot hypotetického gradientu •CA se doporučuje pro data obsahující hodně nul •REÁLNA DATA ujepice (mayflies) udatová matice: 30 lokalit x 40 druhů • hodnoty= logaratimicky transformované abundance •První dvě ordinační osy korespondenční analýzy vysvětlují 24.7% variability druhových dat. •V diagramu jsou znázorněny pouze druhy s nejlepším fitem, lokality nejsou znázorněny. •CA počítá s unimodální odpovědí druhů na gradient prostředí •Silná unimodální odpověď může vést k tzv. podkovitému efektu „arch effect“ v ordinačním diagramu; jde o artefakt metody •Detrendovaná forma CA odstraňuje „arch effect“ •Korespondenční analýza: „arch effect“ •REÁLNA DATA usuchozemské slimáky udatová matice: 42 lokalit x 33 druhů slimáku • hodnoty = stupnice dominance •Korespondenční analýza: „arch effect“ „arch effect“, „horse shoe effect“ DCA Náhodne zvolené Site Scores Vypočítané Species Scores ako WA SS Vypočítané nové Site Scores ako WA SpS Je zmena v skóre? koniec NIE ÁNO Detrendovanie Site Scores Detrendovaná korespondenční analýza (DCA) •DCA je založena na unimodální odpovědi druhu na gradient prostředí •DCA odstraňuje „arch effect“ různými metodami •REÁLNA DATA usuchozemské slimáky udatová matice: 42 lokalit x 33 druhů slimáku • hodnoty = stupnice dominance •Mnohorozměrné škálování Nemetrické mnohorozměrné škálování uMnohorozměrné škálování se používá jako průzkumná metoda uCílem analýzy je zobrazit pozorované podobnosti nebo nepodobnosti (vzdálenosti) mezi zkoumanými objekty v euklidovském prostoru uPomocí NMDS můžeme analyzovat nejenom korelační matice (tak jako je tomu v PCA) ale i jakoukoliv jinou matici podobnosti/nepodobnosti • • •neparametrická ordinace je robustnější k vychýleným hodnotám (např. druh s výjimečně vysokou abundancí na lokalitě v jednom roku) •dá sa použít před použitím nehierarchického shlukování k-průměrů (v případech kdy není možné použít euklidovské vzdálenosti) • • •počet dimenzí musí byt určen předem •těžko interpretovatelné výsledky •Kanonická ordinační analýza Kanonické ordinační metody •Přímé (kanonické) ordinační metody: •Hledání nejlepších vysvětlujících proměnných. • • •V kanonických ordinacích jsou ordinační osy vážené charakteristiky prostředí. •Čím méně těchto proměnných máme, tím přísnější bude omezení. • Když je jejich počet větší než počet vzorků snížený o jednu, tak se • ordinace stává nepřímou. • •Neomezené (unconstrained) ordinační osy odpovídají směru největší variability v souboru dat. Omezené (constrained) ordinační osy odpovídají směru najvětší variability v datovém souboru, ktorá může být vysvětlena charakteristikami prostředí. • • Počet omezených os nemůže být větší než počet charakteristik prostředí. •Grafické znázornění jednoduchého lineárního regresného modelu •Y závislá proměnná (vysvětlovaná) •X nezávislá proměnná (vysvětlující) • •regresní reziduál, označený jako e: rozdíl mezi pozorovanými hodnotami vysvětlované proměnné Y a hodnotami predikovanými modelem (predikované hodnoty, Y se stříškou). •Všechny statistické modely mají dvě důležité složky: 1.systematická – část variability vysvětlovaných proměnných, kterou můžeme vysvětlit vysvětlujícími proměnnými (prediktormi) pomocí zvolené parametrické funkce. 2.stochastická – zbývající část variability hodnot vysvětlované proměnné, kterou nemůžeme předpovědět systematickou částí modelu. Kanonické ordinační metody uNepřímé gradientové analýzy hledaly teoretické gradienty, které byly „optimálními“ prediktory v regresních modelech lineární či unimodální odpovědi druhů. uMetody přímé gradientové analýzy se snaží o to samé, ale gradienty, které je těmto metodam „dovoleno najít“, jsou více omezené. Tyto gradienty jsou lineární kombinací vysvětlujících proměnných (charakteristik prostředí). Abundance jednotlivých druhů se snažíme vysvětlit pomocí složených proměnných, definovaných hodnotami pozorovaných charakteristik prostředí. uMetody přímé gradientové analýzy se podobají mnohorozměrné násobné regresi. uExistuje tolik kanonických os, kolik je nezávislých vysvětlujících proměnných. •Přímá gradientova analýza (direct gradient analysis; constrained, canonical ordination methods) – kombinace ordinace a regrese Kanonické ordinační metody •environmental •data • •sites •1 2 3 ………………… i ………. n •1 •2 •. •. •. •j •. •. •q • •Vysvětlující proměnné (charakteristiky prostředí) ukvantitativní proměnné usemikvantitativní proměnné ufaktoriální (kategoriální) proměnné - překódování do 0,1 •Kromě druhových dat máme k dispozici i vysvětlující proměnné •Můžou být použity k předpovídání hodnot vysvětlovaných proměnných uKategoriální proměnné – potřeba překódovat do tzv. indikátorových proměnných (dummy variables) vzorek Geo Vz 1 akal Vz 2 akal Vz 3 psamal Vz 4 pelal vzorek akal psamal pelal Vz 1 1 0 0 Vz 2 1 0 0 Vz 3 0 1 0 Vz 4 0 0 1 • Kanonická korespondenční analýza (CCA) •CCA •Náhodne zvolené LC Scores •Vypočítané Species Scores ako WA z LC S •Vytvorenie LC Site Scores predikciou z multiple regres. Je zmena v skóre? •koniec NIE ÁNO CCA je omezená ordinace udruhová data + vysvětlující proměnné upouze „smysluplné“ vysvětlující preměnné u Forward selection: •Vypočítané WA ako WA z SpS •Permutační test H0: •Vysvětlovací síla skupiny environmentálních proměnných se po přidání dané proměnné nezvýší víc, než kdybychom přidali takovou proměnnou, která má stejné distribuční vlastnosti jako uvažovaná proměnná, ale nemá vztah k druhovým datům. Kanonická korespondenční analýza (CCA) •Direct gradient analysis •Canonical correspondence analysis •REÁLNA DATA uspolečenstva makrozoobentosu udatové matice: • 60 lok. x 63 tax. (stupeň dominance) 60 lok. x 13 environm. faktorů (fs) uCCA je kanonická forma CA uCCA se doporučuje pro druhová data s velkým výskytem nulových hodnot Kanonická korespondenční analýza (CCA) •Závěrem Využití základních typů vícerozměrných analýz •Shluková analýza •Možnost využití libovolných asociačních koeficientů netrpících problémem double zero •Poskytuje rozdělení společenstev do shluků •Problematické použití při velkém počtu shluků •Korespondenční analýza •Na rozdíl od PCA apod. netrpí problémem double zero •Poskytuje pozici lokalit v xy grafu •Omezena pouze na chi-square vzdálenost •Arch effect •Multidimensional scaling •Poskytuje pozici lokalit v xy grafu •Možnost využití libovolných asociačních koeficientů netrpících problémem double zero •V řadě případů problematická interpretace os Software •Canoco for Windows (ter Braak & Šmilauer 2004) •SYN-TAX 2000 (Podani 1997) •Statistica (StatSoft, Inc. 2005) •PAST (Hammer, Harper, Ryan 2001) • http://folk.uio.no/ohammer/past/ •R, library vegan Canoco • •SYN-TAX 2000 •Děkuji za pozornost