•Vícerozměrná analýza biodiverzity


Metody analýzy biodiverzity
•
•
•
•X
•Indexy diverzity
•Species abundance modely
•Vícerozměrná analýza

Vícerozměrná analýza společenstev: výhody a nevýhody
•Na data biodiverzity může být aplikována řada shlukovacích, ordinačních, regresních a
klasifikačních vícerozměrných technik.
•
•Tyto metody hledají v rozsáhlých datech vícerozměrné vzory společenstev umožňující odpovědět na
následující otázky:
•Vztah druhů k prostředí
•Prostorové vztahy
•Interakce taxonů
•
•Výhody:
•Shrnující výsledky postihující všechny aspekty dat
•Identifikace skrytých interakcí a vztahů mezi proměnnými
•
•Nevýhody:
•Náročné na data a metodiku
•Vyžadují expertní znalosti jak v oblasti statistické metodiky, tak biologických společenstev, v
opačném případě mohou vést k nesprávným závěrům a interpretacím
•

Cíle vícerozměrné analýzy dat
•Každý objekt reálného světa můžeme popsat jeho pozicí v mnohorozměrném prostoru
•Více než 3D prostor je pro nás vizuálně neuchopitelný a hledání vztahů ve více než 3 dimenzích je
problematické
•Vícerozměrná analýza se tento problém snaží řešit různými přístupy:
•Redukce dimenzionality dat „sloučením“ korelovaných proměnných do menšího počtu „faktorových“
proměnných
•Identifikace shluků objektů ve vícerozměrném prostoru a následná redukce vícedimenzionálního
problému kategorizací objektů do zjištěných shluků
•
•Zjednodušení
•Interpretace

Vícerozměrná analýza dat = pohled ze správného úhlu
•Vícerozměrná analýza nám pomáhá nalézt v x-dimenzionálním prostoru nejvhodnější pohled na data
poskytující maximum informací o analyzovaných objektech
•Všechny obrázky ukazují stejný objekt z různých úhlů v 3D prostoru.

Vícerozměrná analýza dat = pohled ze správného úhlu
uhel pohledu.jpg
•Vícerozměrná analýza nám pomáhá nalézt v x-dimenzionálním prostoru nejvhodnější pohled na data
poskytující maximum informací o analyzovaných objektech

Obecný princip redukce dimenzionality dat
•V převážné většině případů existují mezi dimenzemi korelační vztahy, tedy dimenze se navzájem
vysvětlují a pro popis kompletní informace v datech není třeba všech dimenzí vstupního souboru
•Všechny tzv. ordinační metody využívají principu identifikace korelovaných dimenzí a jejich
sloučení do souhrnných nových dimenzí zastupujících několik dimenzí vstupního souboru •Pokud mezi
dimenzemi vstupního souboru neexistují korelace, nemá smysl hledat zjednodušení vícerozměrné
struktury takovéhoto souboru !!!
•
•Jednoznačný vztah dimenzí x a y umožňuje jejich nahrazení jedinou novou dimenzí z
•x
•y
•z
•x
•y
•?
•?
•?
•?
•?
•?
•?
•?
•V případě neexistence vztahu mezi x a y nemá smysl definovat nové dimenze – nepřináší žádnou novou
informaci oproti x a y

Příklad vícerozměrného popisu objektů

Dimenze 1
Dimenze 2
Dimenze 3
Dimenze 4
ID objektu
SEPALLEN
SEPALWID
PETALLEN
PETALWID
SETOSA
5.0
3.3
1.4
0.2
VIRGINIC
6.4
2.8
5.6
2.2
VERSICOL
6.5
2.8
4.6
1.5
VIRGINIC
6.7
3.1
5.6
2.4
VIRGINIC
6.3
2.8
5.1
1.5
SETOSA
4.6
3.4
1.4
0.3
VIRGINIC
6.9
3.1
5.1
2.3
VERSICOL
6.2
2.2
4.5
1.5
VERSICOL
5.9
3.2
4.8
1.8
SETOSA
4.6
3.6
1.0
0.2

…
…
…
…
iris.gif

Obecný princip hledání shluků v datech
•Vzájemnou pozici objektů ve vícerozměrném prostoru lze popsat jejich vzdáleností •Dle vzdálenosti
objektů je můžeme slučovat do shluků a přiřazení  objektů ke shlukům ve vícerozměrném prostoru
následně využít pro zjednodušení jejich x-dimenzionálního popisu •Smysluplnost výsledků shlukování
závisí jednak na objektivní existenci shluků v datech, jednak na arbitrárně nastavených kritériích
definice shluků
•Jednoznačné odlišení existujících shluků v datech (obdoba multimodálního rozložení)
•Shluková analýza je možná i v tomto případě, nicméně hranice shluků jsou dány pouze naším
rozhodnutím.

Omezení vícerozměrné analýzy dat
•Vícerozměrná analýza může přinést zjednodušení dimenzionality dat pouze v případě, kdy data
skrývají nějakou identifikovatelnou vícerozměrnou strukturu
•Mezi dimenzemi existují vztahy (korelace) umožňující nahrazení korelovaných dimenzí zástupnou
souhrnnou dimenzí
•Objekty vytváří v x-dimenzionálním prostoru shluky nebo jiné nenáhodné struktury
•Pro náhodně rozmístěné objekty bez korelací mezi dimenzemi jejich x-dimenzionálního prostoru
nepřináší vícerozměrná analýza žádné nové informace oproti původním dimenzím
•Důležitý je poměr počtu objektů (řádky tabulky) a dimenzí (sloupce tabulky). Čím je tento poměr
menší tím větší je šance, že výsledky analýzy jsou ovlivněny náhodnými procesy.  Za minimální poměr
pro získání validních výsledků je považováno 10 objektů na 1 dimenzi.
•Pro vícerozměrné analýzy platí obdobné předpoklady jako pro jednorozměrnou statistickou analýzu;
vzhledem k jejich možnému porušení na úrovni kombinace několika dimenzí  je tyto předpoklady třeba
kontrolovat ještě pečlivěji než u jednorozměrné analýzy
•Kromě klasických statistických předpokladů je při vícerozměrných analýzách třeba věnovat pozornost
výběru metrik vzdáleností mezi objekty (klíčové ovlivnění interpretace výsledků) a jejich
předpokladům
•Pokud výsledky vícerozměrné analýzy nejsou interpretovatelné je třeba zvážit, zda použití
vícerozměrné analýzy přináší oproti sadě jednorozměrných analýz nějakou přidanou hodnotou
•Využitelná vícerozměrná analýza by měla být:
•Vybrána vhodná metoda pro řešení daného problému
•korektně spočítána za dodržení všech předpokladů
•Interpretovatelná a přinášející novou informaci oproti analýze původních dimenzí

Korelace jako princip výpočtu vícerozměrných analýz
•Kovariance a Pearsonova korelace je základem analýzy hlavních komponent, faktorové analýzy jakož i
dalších vícerozměrných analýz pracujících s lineární závislostí proměnných
•Předpokladem výpočtu kovariance a Pearsonovy korelace je:
•Normalita dat v obou dimenzích
•Linearita vztahu proměnných
•Pro vícerozměrné analýzy je nejzávažnějším problémem přítomnost odlehlých hodnot
•x
•y
•x
•y
•x
•y
•Lineární vztah – bezproblémové použití Pearsonovy korelace
•Korelace je dána dvěma skupinami hodnot – vede k identifikaci skupin objektů v datech
•Korelace je dána odlehlou hodnotu – analýza popisuje pouze vliv odlehlé hodnoty

Analýza kontingenčních tabulek jako princip výpočtu vícerozměrných analýz
•Abundance taxonů (nebo počet jakýchkoliv objektů) na lokalitách lze brát jako kontingenční tabulku
a mírou vztahu mezi řádky (lokality) a sloupci (taxony) je velikost chi-kvadrátu
•pozorovaná
•četnost
•očekávaná
•četnost
•očekávaná četnost
•=
•2
•
•
•-
•Počítáno pro každou buňku tabulky
 N
J
A
10
0
B
0
10
•Pozorovaná tabulka
 N
J
A
5
5
B
5
5
•Očekávaná tabulka
•Hodnota chi-kvadrátu definuje míru odchylky dané buňky (v našem kontextu vztahu taxon-lokalita) od
situace, kdy mezi řádky a sloupci (taxon-lokalita) není žádný vztah

Euklidovská vzdálenost jako princip výpočtu vícerozměrných analýz
•Nejsnáze představitelným měřítkem vztahu dvou objektů ve vícerozměrném prostoru je jejich
vzdálenost •Nejjednodušším typem této vzdálenosti (bohužel s omezeným použitím na data
společenstev) je Euklidovská vzdálenost vycházející z Pythagorovy věty
•
•a
•b
•c
•y11
•y21
•y12
•y22
•X1
•X2

Double zero problém
•V případě binárních metrik (druh se vyskytuje/nevyskytuje) není možné uvažovat stejnou váhu pro
souhlas přítomnosti (11) a nepřítomnosti (00) taxonů (symetrický koeficient) •Problémem využití
všech typů metrik pro data abundancí spočívá v odlišném významu přítomnosti a nepřítomnosti taxonů
•Pokud se taxon nachází v obou srovnávaných společenstvech – znamená to že společenstva si budou v
tomto ohledu podobná, protože mají podmínky umožňující přítomnost taxonu •Pokud se taxon nenachází
ani v jednom ze dvou srovnávaných společenstev – příčina může být nejrůznější – double zero problem
•
jpg95a_0_
•Pro odstranění tohoto problému je použito asymetrické hodnocení souhlasné přítomnosti (11) a
nepřítomnosti (00) taxonů (asymetrické koeficienty)
•

•Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena
jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem
atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu.
•
•Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice
tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty.
•
•NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat
do vícerozměrných analýz.
•
•Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají
další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv.
metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza). Měřítko podobnosti se liší
podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik.
Pojmy vícerozměrných analýz

•Hodnoty parametrů pro jednotlivé objekty
•NxP MATICE
•ASOCIAČNÍ MATICE
•Korelace, kovariance, vzdálenost, podobnost
•
•
•
•Výpočet metriky podobností/
•vzdáleností
Vstupní matice vícerozměrných analýz

Základní typy vícerozměrných analýz
•Vytváření shluků objektů na základě jejich podobnosti
•Identifikace typů objektů
•Zjednodušení vícerozměrného problému do menšího počtu rozměrů
•Principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat
•Ordinace
•Shluková analýza
•x
•y
•
•
•Factor axes
•y
•x
•
•
•
•
•
•
•
•similarity

Seznam taxonů – vícerozměrný popis společenstva
•Na seznam taxonů lze pohlížet také jako seznam rozměrů společenstva
•Záznam o nalezených taxonech tak vlastně tvoří vícerozměrný popis daného společenstva
•Společenstva můžeme srovnávat podle jejich vzájemné pozice v n-rozměrném prostoru
•Pro srovnání společenstev lze teoreticky využít libovolnou metriku vícerozměrné podobnosti nebo
vzdálenosti

•Metriky vzdálenosti


Euklidovská vzdálenost
•Jde o základní metrické měřítko vzdálenosti a počítá vzdálenost objektů obdobně jako Pythagorova
věta počítá přeponu pravoúhlého trojúhelníku. Metoda je citlivá na rozdílný rozsah hodnot
vstupujících proměnných (vhodným řešením může být standardizace) a double zero problém. Nemá horní
hranici hodnot.
•
•
• Jako další měřítko se používá také čtverec této vzdálenosti. Jeho nevýhodou jsou semimetrické
vlastnosti.
•

Průměrná vzdálenost
•Euklidovská vzdálenost je přepočítána na počet parametrů (druhů v případě vzdálenosti společenstev
odběrů).
•
•

Chord distance (Orlóci, 1967)
•
•
•
•Odstraňuje double zero problém a vliv rozdílného počtu jedinců druhů ve vzorcích při výpočtu
Euklidovské vzdálenosti. Její maximální hodnota je druhá odmocnina ze dvou  a minimum 0. Při
výpočtu počítá pouze s poměry druhů v rámci jednotlivých vzorků. Jde vlastně o Euklidovskou
vzdálenost počítanou pro vektory vzorků standardizované na délku 1, nebo je možný přímý výpočet už
zahrnující standardizaci. Vnitřní část výpočtu je vlastně cosinus úhlu svíraného vektory, zápis
vzorce je možný i v této formě.

Geodetická metrika
•Počítá délku výseče jednotkové kružnice mezi normalizovanými vektory (viz. Chord distance).
•
•

•Koeficienty podobnosti


Koeficienty podobosti (indexy podobnosti)
•V ekologii se využívá řada indexů podobnosti založených buď na přítomnosti/nepřítomnosti taxonů
nebo na abundancích
•Binární koeficienty podobnosti
Společenstvo 1
Společenstvo 2
1
0
1
a
b
0
c
d
•a, b, c, d = počet případů, kdy souhlasí binární charakteristika společenstev 1 a 2
•a+b+c+d=p
•Symetrické binární koeficienty - není rozdíl mezi případem 1-1 a 0-0
•Asymetrické binární koeficienty - rozdíl mezi případem 1-1 a 0-0
•
•Více informací a další měření vzdáleností a podobností najdete v knize LEGENDRE, P. & LEGENDRE, L.
(1998). Numerical ecology. Elseviere Science BV, Amsterodam.

•Symetrické binární koeficienty


Jednoduchý srovnávací koeficient
(Sokal & Michener, 1958)
•Obvyklou metodou pro výpočet podobnosti mezi dvěma objekty je podíl počtu deskriptorů, které
kódují objekt stejně, a celkového počtu deskriptorů. Při použití tohoto koeficientu předpokládáme,
že není rozdíl  mezi nastáním 0 a 1 u deskriptorů.
•

Rogers & Tanimoto koeficient (1960)
•Dává větší váhu rozdílům než podobnostem.
•

•Asymetrické binární koeficienty


Jaccardův koeficient  (1900, 1901, 1908)
•Všechny členy mají stejnou váhu
•

Sørensenův koeficient  (1948) (Coincidence index, Dice(1945))
•varianta předchozího koeficientu dává dvojnásobnou váhu dvojitým prezencím, protože se může zdát,
že přítomnost druhů je více informativní než jejich absence, která může být způsobena různými
faktory a nemusí nutně odrážet rozdílnost prostředí. Prezence druhu na obou lokalitách je silným
ukazatelem jejich podobnosti. S7 je monotónní k S8, proto podobnost pro dvě dvojice objektů
vypočítaná podle S7 bude podobná stejnému výpočtu S8. Oba koeficienty se liší pouze v měřítku.
Tento index byl poprvé použit Dicem v R-mode studii asociací druhů. Jiná varianta tohoto
koeficientu dává duplicitním prezencím trojnásobnou váhu.
•
•

•Kvantitativní koeficienty


„Klasické“ indexy podobnosti
•Sørensenův kvantitativní koeficient, kde aN a bN jsou celkové počty jedinců v společenstvech A a
B, jN je pak suma abundancí pokud se druh nachází v obou společenstvech, je počítána vždy z nižší
abundance daného druhu ve společenstvu
•
•
•
•Morisita-Horn index, kde aN je celkový počet jedinců ve společenstvu A a ani počet jedinců druhu i
ve společenstvu A (obdobně platí pro společenstvo B)
•Bray-Curtis nepodobnost:
•1-CN

Jednoduchý srovnávací koeficient (Sokal & Michener, 1958)
•modifikovaný jednoduchý srvonávací koeficient může být použit pro multistavové deskriptory -
čitatel obsahuje počet deskriptorů, pro které jsou dva objekty ve stejném stavu – např. je-li
dvojice objektů popsána následujícími deseti multistavovými deskriptory: hodnota S1,vypočítaná pro
10 multistavových deskriptorů bude S1(x1,x2) = 4 agreements/ 10 descriptors = 0.4
•Podobným způsobem je možné rozšířit všechny binární koeficienty pro multistavové deskriptory.
Deskriptors
S
Object x1
9
3
7
3
4
9
5
4
0
6

Object x2
2
3
2
1
2
9
3
2
0
6

Agreements
0
+1
+0
+0
+0
+1
+0
+0
+1
+1
4
•

Gowerův obecný koeficient podobnosti (1971) I.
•Obecný koeficient podobnosti může kombinovat různé typy deskriptorů. Podobnost mezi dvěma objekty
je vypočítána jako průměr podobností, vypočítaných pro všechny deskriptory. Pro každý deskriptor j
je hodnota parciální podobnosti s12j  mezi objekty x1 a x2 vypočítána následovně:
•
•
•
üPro binární deskriptory sj=1 (shoda) nebo 0 (neshoda). Gower navrhl dvě formy tohoto koeficientu
(symetrická, dává sj=1 double-zero; asymetrická dává pro double-zero sj=0)
üKvalitativní a semikvantitivní deskriptory jsou upraveny podle jednoduchého zaměňovacího pravidla,
sj=1 při souhlasu a sj = 0 při nesouhlasu deskriptorů. Double zero jsou ošetřeny stejně jako
v předchozím odstavci.
üKvantitativní deskriptory (reálná čísla) jsou zpracovány následovně: pro každý deskriptor se
nejprve vypočte rozdíl mezi stavy obou objektů  který je poté vydělen největším rozdílem (Rj),
nalezeným pro daný deskriptor mezi všemi objekty ve studii (nebo v referenční populaci – doporučuje
se vypočítat největší diferenci Rj každého deskriptoru j pro celou populaci, aby byla zajištěna
konzistence výsledků pro všechny parciální studie).
•

Gowerův obecný koeficient podobnosti (1971) II.
•normalizovaná vzdálenost může být odečtena od 1 aby byla transformována na podobnost:
•
•
•
•Gowerův koeficent může být nastaven tak, aby zahrnoval přídavný flexibilní prvek: žádné porovnání
není vypočítáno u deskriptorů, u nichž chybí informace buď u jednoho, nebo u druhého objektu. Toto
zajišťuje člen wj, nazývaný Kroneckerovo delta, popisující přítomnost/nepřítomnost  informace
v obou objektech: je-li informace o deskriptoru yj přítomna u obou objektů (wj=1), jinak (wj=0),
tento koeficient nabývá hodnot podobnosti mezi 0 a 1 (největší podobnost objektů). Další možností
je vážení různých deskriptorů prostým přiřazením čísla v rozsahu 0-1 wj.
•
•

•Shlukování dat biodiverzity


Shluková analýza
•Hierarchické metody
•Aglomerativní shlukování
•Divizivní shlukování
•Monotetická metoda
•Polytetická metoda
•Asociační analýza
•Two way indicator species analysis
•jednospojná metoda
•středospojná metoda
•všespojná metoda
•…
•Nehierarchické metody
•Metoda k-průměrů

Hierarchické aglomerativní shlukování
•Hierarchické metody
•Aglomerativní shlukování
•centroid
•vzdálenost u jednospojné metody
•vzdálenost u všespojné metody
•jiné metody:
•Vzdálenost mezi centroidy
•Průměrná vzdálenost
•…
•začíná jednotlivými objekty, které jsou spojeny do větších shluků
•vyžaduje matici podobností nebo nepodobností (site by site), kterou začíná
•pro data prezence/absence i pro kvantitativní data existuje mnoho indexů podobnosti
•všechny aglomerativní metody jsou založeny na spájení jednotlivých objektů (vzorek) nebo shluků do
větších skupin

•Vzdálenost mezi dvěma shluky je daná jako minimální vzdálenost mezi všemi možnými zástupci shluků.
•Často se i velmi vzdálené objekty můžou sejít ve stejném shluku, když větší počet dalších objektů
mezi nimi tvoří jakýsi most.
•Metoda nejbližšího souseda
•(jednospojná metoda, metoda jediné vazby, single linkage, the nearest neighbor method)
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•A
•B
•d
•1
•2
•3
•5
•4
Hierarchické aglomerativní shlukování

•Vzdálenost mezi dvěma shluky je daná maximální vzdáleností mezi všemi možnými zástupci obou
shluků.
•Shluky jsou mezi sebou dobře oddělené.
•Tendence ke tvorbě kompaktních shluků, ne ovšem velmi velkých.
•Metoda nejvzdálenějšího souseda
•(všespojná metoda, metoda úplné vazby, complete linkage, the furthest neighbor method)
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•A
•B
•d
•1
•2
•4
•3
•5
Hierarchické aglomerativní shlukování

•Meziskupinová (ne)podobnost je definována jako průměrná (ne)podobnost mezi všemi možnými páry
členů.
•Metoda vede často k podobným výsledkům jako metoda najvzdálenějšího souseda.
•Metoda průměrné vzdálenosti (středospojná metoda, metoda průměrné vazby, average linkage, UPGMA -
unweighted pair-group method using arithmetic averages)
•A
•B
•
•
•
•
•
•
•
•
Hierarchické aglomerativní shlukování

•Tato metoda nevychází již z agregace informací o mezishlukových vzdálenostech objektů. Kritérium
je euklidovská vzdálenost centroidů. Při této metodě je vzdálenost mezi shluky počítána jako
vzdálenost mezi centroidy těchto shluků.
•Centroidová metoda (Gowerova metoda, centroid method, UPGMC – unweighted pair-group method using
centroids)
•
•
•
•
•
•x
•
•
•E
•D
•A
•B
•1/5
•4/5
•C
•centrální bod
•ABDEC
•1
•2
•3
•4
•5
Hierarchické aglomerativní shlukování

•Mediánová metoda (median method, WPGMC – weighted pair-group method using centroids, weighted
centroid clustering)
•
•
•
•
•
•x
•
•
•E
•D
•A
•B
•C
•centrální bod
•ABDEC
•centrální bod
•ABDE
Hierarchické aglomerativní shlukování

•Wardova metoda (Minimum variance clustering)
•Wardova metoda je podobná středospojné a centroidové metodě. Kritérium pro spojování shluků je
příspěvek celkového vnitroskupinového součtu čtverců odchylek pozorování od shlukového průměru.
Příspěvek je vyjádřen jako součet čtverců v novo vznikajícím shluku, zmenšený o součty čtverců v
obou zanikajících shlucích.
•Wardova metoda má tendenci odstraňovat malé shluky, teda tvořit shluky zhruba shodné velikosti.
•1
•2
•4
•3
•5
Hierarchické aglomerativní shlukování

obr18novy
uMetoda nejbližšího souseda by v důsledku řetězení spojila do jednoho shluku plné trojúhelníky a do
druhého prázdné trojúhelníky, zatím co Wardova metoda a metoda průměrné vzdálenosti by vytvořili
skupiny ohraničené čárami (podle Everitt & Dunn 1983).
Hierarchické aglomerativní shlukování

•Výsledkem hierarchického aglomeratívního shlukování je dendrogram (strom).
•V tomto případě jsme použily:
uvšespojnou shlukovací metodu
umíru vzdálenosti: Euklidovskou vzdálenost
•Dendrogram znázorňuje podobnost společenstev korýšů šesti lokalit v záplavové oblasti Dunaje ve
třech obdobích
u   1: 1991-1992 před přehrazením Dunaje
u   2: 1993-1997 prvních 5 let po přehrazení
u   3: 1999-2004 dalších 6 let po přehrazení
•Sledované lokality:
u   D: Dobrohošť
u   G: Gabčíkovo
u   B: Bodíky
u   I: Istragov
u   K: Kráľovská lúka
u   S: Sporná sihoť
Hierarchické aglomerativní shlukování

•Podle Kováře a Lepše (1986) mají transformace větší vliv na výsledek shlukování než metody
shlukování.
•důležitostná hodnota
•(pokryvnost, početnost)
•transformace, standardizace,
•měření podobnosti
•shlukovací algoritmus
•Výsledek klasifikace je ovlivněn rozhodnutím na několika úrovních
•Hierarchické aglomeratívne zhlukovanie
•
•Kritické problémy analýzy
uVelké množství proměnných nebo objektů v dendrogramu je obtížné interpretovat
uAnalýza je silně závislá na zvolení vhodné metriky vzdálenosti
uAnalýza je silně závislá na shlukovacím algoritmu
•Sběr dat
•Hrubá data
•Matice (ne) podobnosti
•Dendrogram
Hierarchické aglomerativní shlukování

•a – graf je úplný, b – graf je nesouvislý a všechny izolované komponenty jsou úplné , c – graf je
nesouvislý a alespoň jedna komponenta není úplná, d – graf je souvislý, ale není úplný
•Shody (ties)
uPři použití aglomerativních shlukovacích metod může nastat situace, kdy se v matici podobnosti
vyskytnou tzv. shody (ties)
uNejčastěji dochází ke shodám při analýze binárních dat, je tu veliká pravděpodobnost stejné
vzdálenosti mezi objekty
uNáhodné  řešení takové situace může ovlivnit výslednou klasifikaci (dendrogram)
Hierarchické aglomerativní shlukování

•1 „silent mode (arbitrary)“
•Vazby se řeší náhodně, spojí se jenom poslední nalezená dvojice (je tu vliv pořadí objektů v
primární matici)
•
•2 „single linkage“
•Všechny objekty, které jsou spojené vazbou, se spojí do jednoho shluku
•
•3 „suboptimal fusions“
•Nekompletní komponenty se ignorují a hledání nejmenších vzdáleností v matici pokračuje pokým se už
žádné nekompletní komponenty nevyskytují
•
•1
•2
•3
•Řešení situací
a)spojí se všechny objekty naráz
b)paralelně se vytvoří více skupin (tzv. multiple fusion)
•c) a d) tři možnosti řešení:
Hierarchické aglomerativní shlukování

•jednospojná metoda
•všespojná metoda
•středospojná metoda
Hierarchické aglomerativní shlukování
•REÁLNA DATA
u6 lokalit, každá lokalita monitorována ve 3 obdobích
udatová matice: 18 vzorek x 63 planktonních druhů korýšů; hodnoty = stupeň dominance
•Dendrogramy vytvořeny pomocí tří různých shlukovacích algoritmů:
•jednospojná, středospojná a všespojná metoda.
•V prvním případě je zjevné silné řetězení objektů.
•Hierarchické metody
•Aglomerativní shlukování

•Hierarchické metody
•Divizivní shlukování
udělení probíhá „shora“; začíná všemi objekty jako s jednou skupinou
urozdělení souboru na dvě části - podskupiny
udalší dělení podskupin
•Časté použití ke klasifikaci biologických společenstev
•x
•y
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•x
•y
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•x
•y
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Hierarchické divizivní shlukování

Hierarchické divizivní shlukování
•Hierarchické metody
•Divizivní shlukování
•Monotetická metoda
•Asociační analýza
•A binary key for identifying types of salt-marsh habitat (Ivemey-Cook, Proctor 1966)
•Sper.  med.
•Glau. mar.
•Coch. dan.
•Cera. atr.
•Psor. lur.
•Agro. sto.
•Puc. mar.
•I
•II
•III
•IV
•V
•VI
•VII
•VIII
•+
•-
•-
•-
•-
•-
•-
•-
•+
•+
•+
•+
•+
•Polytetická metoda
•Two way indicator species analysis
udělení na základě jednoho parametru
unejdříve je nalezen druh, který je nejvíce asociovaný s ostatními druhy; skupiny jsou rozděleny na
základě prezence/absence tohoto druhu
•TWINSPAN

•
•Polytetická metoda
udělení skupiny je založeno na všech druzích podle jejich skóre na první ose vytvořené ordinací (v
TWINSPAN-e korespondenční analýza)
udichotomie vzniká ordinací lokalit na základě diferenciálních druhů
ubere do úvahy aj abundanci druhů vo formě tzv. pseudo-druhů => potřeba určit hraniční hodnoty (cut
levels)
•Two way indicator species analysis
•TWINSPAN
•Původní tabulka
Species
A
B
Cirsium oleraceum
0
1
Glechoma hederacea
6
0
Juncus tenuis
15
25
•Tabulka s pseudodruhy použitými v TWINSPAN
Species
A
B
Cirsoler1
0
1
Glechede1
1
0
Glechede2
1
0
Junctenu1
1
1
Junctenu2
1
1
Junctenu3
1
1
Junctenu4
0
1
•cut levels
•1, 5 a 20
Hierarchické divizivní shlukování

Hierarchické divizivní shlukování
•Two way indicator species analysis
uCut levels 0, 2, 5, 10, 20
•TWINSPAN for Windows, WinTWINS, http://www.canodraw.com/wintwins.htm
•REÁLNA DATA
u6 lokalit, každá lokalita monitorována ve 3 obdobích
udatová matice: 18 vzorek x 63 planktonních druhů korýšů; hodnoty = stupeň dominance

Hierarchické divizivní shlukování
•Hierarchické metody
•Divizivní shlukování
•Monotetická metoda
•Polytetická metoda
•Asociační analýza
•Two way indicator species analysis
uzačíná se všemi objekty jako s jednou skupinou
uskupina je rozdělena na dvě menší skupiny, …
•
•
•
•
•
•
•
•
•neposkytuje jednoduchý klíč vhodný pro zařazení nové vzorky do dané třídy (skupiny)
•poskytuje jednoduchý binární klíč, který sa dá použít ke klasifikaci dalšího vzorku
•vytvořené skupiny – méně homogenní jako skupiny vytvořeny polytetickou metodou
•vytvořené skupiny jsou více  homogenní jako skupiny vytvořeny monotetickou metodou
•jenom pro data prezence/absence
•koneční klasifikace – není robustní
•předpokládá jenom jeden základní trend v datech

Hierarchické shlukování
•Hierarchické metody
•Divizivní shlukování
•Aglomerativní shlukování
•
•
•
•
•Neexistuje „správný“ shlukovací algoritmus
•Výsledky se dramaticky mění s
•  různým shlukovacím algoritmem
•  různým indexem podobnosti
•
•
•
•
•monoteticka metoda není robustní
•Shlukování je intuitivní => je to nejpopulárnější klasifikační metoda
•Aglomerativní shlukování není efektivní pro velmi velká data
•divizivní techniky jsou pro velmi objemná  data vhodnější jako aglomerativní techniky
•jednoduchá interpretace výsledků
•Výsledek je sumarizovaný v dendro-gramu – jednoduchá interpretace
•polytetická metoda neposkytuje jednoduchý klíč vhodný poe zařazení nového vzorku do dané  skupiny

•Ukázka rozdělení objektů do shluků nehierarchickou metodou k-průměrů.
•Výsledek je ovlivněn volbou počtu shluků.
•
•Vlevo: počet shluků k = 3 je dobrá volba; vpravo: počet shluků k = 2 je špatná volba.
•Objekty jsou na základě zadaného počtu shluků rozděleny podle kritéria maximální homogenity
shluků.
•
•x
•y
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•x
•y
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•Nehierarchické metody
Nehierarchické shlukování

•Princip nehierarchického shlukování
uPro výpočet se používá opakovaná relokační procedura. Začíná s k skupinami a pak přesouvá objekty
tak, aby minimalizovala variabilitu uvnitř skupin a maximalizovala variabilitu mezi skupinami.
uRelokační procedura se ukončí, když žádný další přesun už kriteria nezlepší.
uTakto získáváme ovšem pouze lokální extrém, nemáme jistotu, že je taky globálním extrémem.
uDoporučuje se začít s různými počátečními skupinami a sledovat, zda jsou výsledky těchto analýz
stejné.
•Rizika analýzy
upři chybném odhadu počtu shluků dává metoda chybné výsledky
uvýpočet je možný pouze na Euklidovských vzdálenostech se všemi jejími omezeními
Nehierarchické shlukování

•Nehierarchické metody
•metoda k-průměrů
uskupiny nejsou zahrnuty do nadskupin, ani neobsahují podskupiny
urozděluje objekty do určitého počtu skupin
umetoda k-průměrů pracuje s euklidovskými vzdálenostmi
•
•
•Nehierarchické metody můžou být vhodnější jako hierarchické techniky
•v případě většího objemu dat
•v případě, že v datech neexistuje hierarchická struktura
•
•
•metoda k-průměrů pracuje s euklidovskými vzdálenostmi
•=> to může být problémem v případě, když euklidovská vzdálenost není „nejlepší“ metrikou
•počet skupin k je třeba specifikovat předem uživatelem
Nehierarchické shlukování

•Shluková analýza – souhrn


•Když data nemají úplně jednoznačnou a zřetelnou strukturu (jedná se spíše o náhodně rozptýleny
objekty), je pravděpodobné, že použití různých shlukovacích technik přinese odlišné výsledky.
•
•Když různé shlukovací techniky dávají ze stejného datového souboru shodné, reps. podobné výsledky,
je to do jisté míry potvrzení struktury obsáhlé v datech (ačkoliv shlukovací metody patří k
postupům produkujícím hypotézy a nejsou určeny k jejich testování)
•
•Mnohé shlukovací techniky jsou citlivé na přítomnost odlehlých objektů (outliers, výrazně atypické
případy). Před samotnou shlukovou analýzou je vhodné použít některou z metod na jejich odhalení,
např. PCA. Výrazně odlehlé objekty zpravidla z ďalších analýz vyloučíme.
•
•Shlukové analýzy obecně nejsou vhodná na data, ktorá popisujú variabilitu znaku závislém na
gradientu prostředí.
Shluková analýza obecně

Shluková analýza souhrn
•Vstup shlukové analýzy:
uMatice podobnosti anebo vzdálenosti objektů
uTabulka objektů charakterizovaných několika parametry
•Výstup shlukové analýzy:
uStrom (dendrogram) při hierarchické shlukové analýze
uZařazení objektů do předem definovaného počtu shluků při nehierarchické analýze
•Při použití shlukové analýzy je nutné pamatovat na omezení:
uAglomerativní shlukování není efektivní pro velmi velká data
uPři hierarchické aglomerativní analýze je výsledek silně ovlivněn výběrem indexu podobnosti, resp.
metrikou vzdálenosti a shlukovacím algoritmem
u! neexistuje správný shlukovací algoritmus !!!
uPři hierarchické divizivní analýze: Twinspan předpokládá jeden hlavní trend v datech a je ovlivněn
nastavením hranic pseudo-druhů
uPři nehierarchickém shlukování je nutné určit počet skupin předem

•Ordinace dat biodiverzity a definice environmentálního gradientu


Základní typy vícerozměrných analýz
•Klasifikuje vzorky (lokality), druhy nebo proměnné
•Nachází skupiny v datech
•Uspořádá vzorky podél trendu v datech
•Ordinace
•Shluková analýza
•x
•y
•
•
•Factor axes
•y
•x
•
•
•
•
•
•
•
•similarity

Ordinační metody a data diverzity
•environment
•plants
•
•animals
•environmental
•data
•
•species data
•
•
•sites
•sites
•1 2 3 ………………… i ………. n
•1 2 3 ………………… i ………. n
•1
•2
•.
•.
•.
•j
•.
•.
•q
•1
•2
•.
•.
•.
•.
•k
•.
•.
•m
•
•Direct gradient analysis
•
•Indirect gradient analysis
•ordination diagram
•Sumarizing  by ordination
•
•
•
•
•
•
•
•
•
•
•
•
•
•
uSeřadí objekty podél environmentálního gradientu
uCílem ordinace je sformulovat hypotézy o vztahu mezi druhovým složením společenstva na lokalitách
a základními environmentálními faktory
uOrdinační metody nepředpokládají žádné apriorní seskupení objektů.
uOrdinační metody používáme zejména ke tvorbě hypotéz.

Ordinace
•Ordinace a shluková analýza jsou jediné možné techniky, které můžeme použít bez naměřených
environmentálních dat
•Vysvětlující (explanatory) proměnné v ordinaci jsou teoretické proměnné = environmentální
gradienty
•species data
•
•
•sites
•1 2 3 ………………… i ………. n
•1
•2
•.
•.
•.
•.
•k
•.
•.
•m
•
•Každý vzorek zahrnuje hodnoty mnoho druhů.
•vysvětlované = závislé proměnné
•druhová data
•ordination diagram
•

•Ordinační analýza: typy dat
•species data
•
•
•sites
•1 2 3 ………………… i ………. n
•1
•2
•.
•.
•.
•.
•k
•.
•.
•m
•
•kvantitativní data
upočet jedinců jednotlivých druhů
uprocentická pokryvnost
uodhad biomasy
•
•semikvantitativní data
uBraun-Blanquetová stupnice
•
•kvalitativní data
upřítomnost / nepřítomnost
•Biodiverzitní data:

Ordinační metody, gradientová analýza
•Termín gradientová analýza používáme pro metody, které dávají do vztahu druhová data a gradienty
prostředí (měřeny nebo hypotetické).
•Gradientová analýza se zabývá vztahem složení společenstva k (známým nebo neznámým) gradientům
prostředí.
•Nepřímá gradientová analýza
•Přímá gradientová analýza
•Osi vytvořeny na základě druhových dat
•Ordinace kombinovaná s regresí – ordinační osy jsou omezeny (constrained) nebo kanonické
(canonical) –  jsou lineárně závislé na měřených vysvětlujících proměnných.
•(indirect gradient analysis)
•(direct gradient analysis)

•Odpověď druhů na gradient prostředí
•lineární (linear) – nejjednodušší odhad (na krátkém gradientu dobře funguje lineární aproximace
jakékoliv funkce)
•unimodální (unimodal) – druh má na gradientu své optimum (na dlouhém gradientu není aproximace
lineární funkcí vhodná)
•Dva typy modelu odpovědi druhu na (známý nebo teoretický) gradient
•Lineární aproximace unimodální odpovědi na krátké části gradientu
•Lineární aproximace unimodální odpovědi na dlouhé části gradientu

Základní techniky ordinačních metod
•Nepřímá gradientová analýza
•Přímá gradientová analýza
•Lineární model
•Unimodální model
•Korespondenční analýza (CA)
•Detrendovaná korespondenční analýza (DCA)
•Analýza hlavních komponent (PCA)
•Analýza hlavních koordinát (PCoA)
•Lineární model
•Unimodální model
•Kanonická korespondenční analýza (CCA)
•Redundanční analýza (RDA)
•Kanonická korelační analýza
•Nemetrická ordinace
•Mnohonásobné škálování (NMDS)
uvytvoří teoretickou preměnnou nejlépe charakterizující druhová data na základě lineárního nebo
unimodálního modelu
ugradient je lineární kombinací konkrétních environmentálních proměnných

Příklady ordinačních diagramů
•PCA
•CA
•RDA
•CCA
•Výsledky ordinací se obvykle prezentují jako ordinační diagramy.
uvzorky: body
udruhy: šipky
uvzorky: body
udruhy: body
uproměnné kvantitativní: šipky
uproměnné kvalitativní: body

•Analýza hlavních komponent


•Proměnné jsou vzájemně korelované, tedy část informace v souboru je duplicitní
•Analýza odstraní duplicitu z dat a zobrazí pouze unikátní informaci – tj. nahradí původní soubor
proměnných souborem nových proměnných vzájemně nekorelovaných.
Analýza hlavních komponent (PCA)
obr19novy
•1. faktorová osa vyčerpá nejvíc celkové variability
•Je založena na vlastní analýze (eigenanalysis) symetrických matic (korelační, kovarianční)

Analýza hlavních komponent (PCA)
•Cíl PCA: určení uhlů mezi původními a novými osami souřadnicové soustavy, souřadnice objektů v
novém systému souřadnic.
7
•Vlastní čísla matice λ1, λ2, ... λp jsou interpretovatelné jako míry rozptylu zachycené komponenty
y1, ... , yp.
•Původně byla PCA navrhnuta pro kvantitativní znaky, může sa ovšem použít i na znaky binární a
semikvantitativní.
•
•
•

•Indirect gradient analysis
•Principal component analysis
uPCA je postavena na lineárním modelu; abundance každého druhu roste ve směru šipky
uPCA je definováná pro kovarianční a pro korelační matici
uPCA není vhodna pro datovou matici s hodně nulami
Analýza hlavních komponent (PCA)
•REÁLNA DATA
u6 lokalit, každá lokalita sledována ve 3 obdobích
udatová matice: 18 vzorek x 63 plankt. dr. korýšů; hodnoty = stupeň dominance

•Korespondenční analýza, Detrendovaná korešpondenční analýza


Korespondenční analýza
•Korespondenční analýza – nástroj pro analýzu vztahů mezi řádky a sloupci kontingenční tabulky =>
dvě kategoriální proměnné.
•Abundance taxonů (nebo počet jakýchkoliv objektů) na lokalitách lze brát jako kontingenční tabulku
a mírou vztahu mezi řádky (lokality) a sloupci (taxony) je velikost chi-kvadrátu
•
•
Kategorie první proměnné
Kategorie druhé proměnné
•
•
S1
S2
S3
S4
S5
S6
•Korespondenční analýza a data biodiverzity
•
•Nepřímá gradientová analýza
•Založená na unimodální odpovědi – odhaduje optimum druhu na teoretickém gradientu
•sites
•

Korespondenční analýza
•Realita
•Teoretická vyrovnanosť
Princip
Korespondenční analýza hledá, které kombinace řádků a sloupců hodnocené tabulky nejvíce přispívají
k její variabilitě

•Korešpondenčná analýza
•Nejjednodušší cestou jak odhadnou optimum druhu pro unimodální model je spočítat vážený průměr
těch hodnot charakteristik prostředí, při kterých se druh vyskytuje.
•Jako váha při výpočtu se používá početnost či jiná důležitostní hodnota druhu.
•Při váženém přůměrování je implicitně zahrnuta standardizace po vzorcích i po druzích.
•Korespondenční analýza
•Základní myšlenkou metody korespondenční analýzy je odvodit indexy (osy), které budou
kvantifikovat vztahy mezi řádkovými a sloupcovými kategoriemi. Z těchto indexů můžeme odvodit,
která sloupcová kategorie má větší či menší váhu v daném řádku a opačně.
•V grafu interpretujeme relativní pozice bodů řádků a sloupců jako váhy přislouchající danému
sloupci a řádku.
Korespondenční analýza obecně
Korespondenční analýza a data diverzity

•Korespondenční analýza
Site1
Site2
Site3
WA1
WA2
WA3
WA4
Rhitrogena
0
0
3
13.000
10.000
10.000
10.000
Alainites
5
2
1
4.625
1.363
1.312
1.310
Baetis
6
2
0
3.250
0.113
0.062
0.060
Epeorus
8
1
0
2.556
0.050
0.028
0.027
initial value
2
7
13
WA1
3.319
3.661
10.906
WA1resc.
0.000
0.450
10.000
WA2
0.415
0.600
7.841
WA2resc.
0.000
0.249
10.000
WA3
0.377
0.555
7.828
WA3resc.
0.000
0.240
10.000
WA4
0.375
0.553
7.827
WA4resc.
0.000
0.239
10.000
Korespondenční analýza, Correspondence analysis (CA)
Reciproční průměřování (reciprocal averaging)
nebo  vlastní analýza (eigenanalysis)
CA
Náhodne zvolené Site Scores
Vypočítané Species Scores ako WA SS
Vypočítané nové Site Scores ako WA SpS
Štandardizácia Sp S
Štandardizácia S S
Je zmena v scóre?
koniec
NIE
ÁNO

Site1
Site2
Site3
WA4
Rhitrogena
0
0
3
10.000
Alainites
5
2
1
1.310
Baetis
6
2
0
0.060
Epeorus
8
1
0
0.027
WA4resc.
0.000
0.239
10.000
Korespondenční analýza, Correspondence analysis (CA)
Reciproční průměřování (reciprocal averaging) nebo  vlastní analýza (eigenanalysis)
•Korespondenční analýza
•Sampl1
•Sampl3
•Sampl2
•Epeorus
•Baetis
•Alainites
•Rhitrogena
•
•
•outlier

•Korespondenční analýza: výsledky
•Ordinační diagram: ordinační osy jsou ortogonální, tj. na sobě lineárně nezávislé
•Skóre druhů a vzorků (řádky a sloupce původní kontingenční tabulky)
•Vlastní hodnoty, vlastní vektory (eigenvalues, eigenvectors)
Vlastní hodnota (eigenvalue) představuje informaci vysvětlenou danou osou.
Vysoké skóre: druh s nízkou frekvenci
Většinou interpretujeme pouze 2-3 ordinační osy.

Korespondenční analýza (CA)
•CA počítá s unimodální odpovědí druhů na gradient prostředí; každý druh se vyskytuje v určitém
rozpětí hodnot hypotetického gradientu
•CA se doporučuje pro data obsahující hodně nul
•REÁLNA DATA
ujepice (mayflies)
udatová matice: 30 lokalit x 40 druhů
• hodnoty= logaratimicky transformované abundance
•První dvě ordinační osy korespondenční analýzy vysvětlují 24.7% variability druhových dat.
•V diagramu jsou znázorněny pouze druhy s nejlepším fitem, lokality nejsou znázorněny.

•CA počítá s unimodální odpovědí druhů na gradient prostředí
•Silná unimodální odpověď může vést k tzv. podkovitému efektu „arch effect“ v ordinačním diagramu;
jde o artefakt metody
•Detrendovaná forma CA odstraňuje „arch effect“
•Korespondenční analýza: „arch effect“
•REÁLNA DATA
usuchozemské slimáky
udatová matice: 42 lokalit x 33 druhů slimáku
• hodnoty = stupnice dominance

•Korespondenční analýza: „arch effect“
„arch effect“, „horse shoe effect“
DCA
Náhodne zvolené Site Scores
Vypočítané Species Scores ako WA SS
Vypočítané nové Site Scores ako WA SpS
Je zmena v skóre?
koniec
NIE
ÁNO
Detrendovanie Site Scores

Detrendovaná korespondenční analýza (DCA)
•DCA je založena na unimodální odpovědi druhu na gradient prostředí
•DCA odstraňuje „arch effect“ různými metodami
•REÁLNA DATA
usuchozemské slimáky
udatová matice: 42 lokalit x 33 druhů slimáku
• hodnoty = stupnice dominance

•Mnohorozměrné škálování


Nemetrické mnohorozměrné škálování
uMnohorozměrné škálování se používá jako průzkumná metoda
uCílem analýzy je zobrazit pozorované podobnosti nebo nepodobnosti (vzdálenosti) mezi zkoumanými
objekty v euklidovském prostoru
uPomocí NMDS můžeme analyzovat nejenom korelační matice (tak jako je tomu v PCA) ale i jakoukoliv
jinou matici podobnosti/nepodobnosti
•
•
•neparametrická ordinace je robustnější k vychýleným hodnotám (např. druh s výjimečně vysokou
abundancí na lokalitě v jednom roku)
•dá sa použít před použitím nehierarchického shlukování k-průměrů (v případech kdy není možné
použít euklidovské vzdálenosti)
•
•
•počet dimenzí musí byt určen předem
•těžko interpretovatelné výsledky

•Kanonická ordinační analýza


Kanonické ordinační metody
•Přímé (kanonické) ordinační metody:
•Hledání nejlepších vysvětlujících proměnných.
•
•
•V kanonických ordinacích jsou ordinační osy vážené charakteristiky prostředí.
•Čím méně těchto proměnných máme, tím přísnější bude omezení.
• Když je jejich počet větší než počet vzorků snížený o jednu, tak se
• ordinace stává nepřímou.
•
•Neomezené (unconstrained) ordinační osy odpovídají směru největší variability v souboru dat.
Omezené (constrained) ordinační osy odpovídají směru najvětší variability v datovém souboru, ktorá
může být vysvětlena charakteristikami prostředí.
•
• Počet omezených os nemůže být větší než počet charakteristik prostředí.

•Grafické znázornění jednoduchého lineárního regresného modelu
•Y závislá proměnná (vysvětlovaná)
•X nezávislá proměnná (vysvětlující)
•
•regresní reziduál, označený jako e: rozdíl mezi pozorovanými hodnotami vysvětlované proměnné Y a
hodnotami predikovanými modelem (predikované hodnoty, Y se stříškou).
•Všechny statistické modely mají dvě důležité složky:
1.systematická – část variability vysvětlovaných proměnných, kterou můžeme vysvětlit vysvětlujícími
proměnnými (prediktormi) pomocí zvolené parametrické funkce.
2.stochastická – zbývající část variability hodnot vysvětlované proměnné, kterou nemůžeme
předpovědět systematickou částí modelu.
Kanonické ordinační metody

uNepřímé gradientové analýzy hledaly teoretické gradienty, které byly „optimálními“ prediktory v
regresních modelech lineární či unimodální odpovědi druhů.
uMetody přímé gradientové analýzy se snaží o to samé, ale gradienty, které je těmto metodam
„dovoleno najít“, jsou více omezené. Tyto gradienty jsou lineární kombinací vysvětlujících
proměnných (charakteristik prostředí). Abundance jednotlivých druhů se snažíme vysvětlit pomocí
složených proměnných,  definovaných hodnotami pozorovaných charakteristik prostředí.
uMetody přímé gradientové analýzy se podobají mnohorozměrné násobné regresi.
uExistuje tolik kanonických os, kolik je nezávislých vysvětlujících proměnných.
•Přímá gradientova analýza (direct gradient analysis; constrained, canonical ordination methods) –
kombinace ordinace a regrese
Kanonické ordinační metody

•environmental
•data
•
•sites
•1 2 3 ………………… i ………. n
•1
•2
•.
•.
•.
•j
•.
•.
•q
•
•Vysvětlující proměnné (charakteristiky prostředí)
ukvantitativní proměnné
usemikvantitativní proměnné
ufaktoriální (kategoriální) proměnné - překódování do 0,1
•Kromě druhových dat máme k dispozici i vysvětlující proměnné
•Můžou být použity k předpovídání hodnot vysvětlovaných proměnných
uKategoriální proměnné – potřeba překódovat do tzv. indikátorových proměnných (dummy variables)
vzorek
Geo
Vz 1
akal
Vz 2
akal
Vz 3
psamal
Vz 4
pelal
vzorek
akal
psamal
pelal
Vz 1
1
0
0
Vz 2
1
0
0
Vz 3
0
1
0
Vz 4
0
0
1
•
Kanonická korespondenční analýza (CCA)

•CCA
•Náhodne zvolené LC Scores
•Vypočítané Species Scores ako WA z LC S
•Vytvorenie LC Site Scores predikciou z multiple regres.
Je zmena v skóre?
•koniec
NIE
ÁNO
CCA je omezená ordinace
udruhová data + vysvětlující proměnné
upouze „smysluplné“ vysvětlující preměnné
u Forward selection:
•Vypočítané WA ako WA z SpS
•Permutační test H0:
•Vysvětlovací síla skupiny environmentálních proměnných se po přidání dané proměnné nezvýší víc,
než kdybychom přidali takovou proměnnou, která má stejné distribuční vlastnosti jako uvažovaná
proměnná, ale nemá vztah k druhovým datům.
Kanonická korespondenční analýza (CCA)

•Direct gradient analysis
•Canonical correspondence analysis
•REÁLNA DATA
uspolečenstva makrozoobentosu
udatové matice:
• 60 lok. x 63 tax. (stupeň dominance) 60 lok. x 13 environm. faktorů (fs)
uCCA je kanonická forma CA
uCCA se doporučuje pro druhová data s velkým výskytem nulových hodnot
Kanonická korespondenční analýza (CCA)

•Závěrem


Využití základních typů vícerozměrných analýz
•Shluková analýza
•Možnost využití libovolných asociačních koeficientů netrpících problémem double zero
•Poskytuje rozdělení společenstev do shluků
•Problematické použití při velkém počtu shluků
•Korespondenční analýza
•Na rozdíl od PCA apod. netrpí problémem double zero
•Poskytuje pozici lokalit v xy grafu
•Omezena pouze na chi-square vzdálenost
•Arch effect
•Multidimensional scaling
•Poskytuje pozici lokalit v xy grafu
•Možnost využití libovolných asociačních koeficientů netrpících problémem double zero
•V řadě případů problematická interpretace os

Software
•Canoco for Windows (ter Braak & Šmilauer 2004)
•SYN-TAX 2000 (Podani 1997)
•Statistica (StatSoft, Inc. 2005)
•PAST (Hammer, Harper, Ryan 2001)
• http://folk.uio.no/ohammer/past/
•R, library vegan
Canoco
•
•SYN-TAX 2000

•Děkuji za pozornost