ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV
JAKUB TĚŠITEL S POUŽITÍM MATERIÁLŮ VÍTA SYROVÁTKY A DAVIDA ZELENÉHO


2



3
Obsah obrázku text, hmyz, objekt v exteriéru Popis byl vytvořen automaticky


4

We compared diversity patterns in (sub)alpine springs in three contrasting European high mountain
regions:
Swiss Alps, Bulgarian high mountains and Western Carpathians.
b-Diversity (dispersion of groups) of vascular plants was highest in Swiss Alps and lowest in
Western Carpathians,
 while no difference was found for bryophytes.

5



6

Aim: To evaluate frugivorous butterflies as indicators of forest disturbance in the Brazilian
Atlantic Forest
Disturbance – habitat fragmentation.
Prestoze zadny indicator diversity nebyl citlivy k fragmentaci, druhove slozeni spolecenstva motylu
se lisilo mezi rezervaci a fragmentovanymi zbytky lesa.
Correspondence analysis confirmed the general tendency of reserve and fragment sampling units to
segregate into distinct groups along the first axis (Fig. 5), and, as in the cluster analysis, the
fragments showed a tendency to group by size.
Brassolinae are more related to reserve sampling units, as well as the larger Satyrinae in the
genus Taygetis.
Conversely, most Biblidinae and Charaxinae species were associated with the fragmented landscape.
The small-sized Satyrinae, in turn, showed no clear pattern along.

OSNOVA PŘEDNÁŠKY
oPříprava dat pro numerické analýzy
•typy sbíraných dat, čištění dat, odlehlé body, transformace, standardizace, EDA
oDesign ekologických experimentů
•manipulativní experimenty vs. pozorování
oIndexy druhové bohatosti
•alfa, beta a gama diverzita, akumulační druhová křivka, rarefaction
oEkologická nepodobnost
•indexy nepodobnosti mezi vzorky
oOrdinace
•lineární vs. unimodální, přímá vs. nepřímá, artefakty, ordinační diagramy, permutační testy,
rozklad variance, parciální analýza, příkladové studie
oKlasifikace
•hierarchická vs. nehierarchická, aglomerativní vs. divisivní
7

SOFTWARE
oR – umí vše potřebné, zadarmo + kvalitní grafika, ovládání přes příkazový řádek
•Balíček Vegan (a další)
oR – https://cran.r-project.org/bin/windows/
o
•
o
oCANOCO 5 – ordinační analýzy, diagramy, odpovědní křivky druhů, grafický interface
o
o
o
o
•
•
•
o
8
Jari Oksanen
Petr Šmilauer
Jan „Šuspa“ Lepš
Cajo ter Braak

LITERATURA
•V češtině
oLepš J. & Šmilauer P. (2001) Mnohorozměrná analýza ekologických dat
•v anglické verzi vyšlo v nakladatelství Cambridge v roce 2003 jako Multivariate Analysis of
Ecological Data using CANOCO 5 (v roce 2014 vyšlo druhé vydání pro CANOCO 5)
oHerben T. & Münzbergová Z. (2003) Zpracování geobotanických dat v příkladech. Část 1. Data o
druhovém složení
•
•V angličtině
oLegendre P. & Legendre L. (2012) Numerical Ecology (Third English Edition). Elsevier.
oLepš, Šmilauer (2014) Multivariate analysis of Ecological Data using Canoco. Cambridge University
press. Nejen pro uživatele Canoca
•Webové zdroje
oDavid Zelený – Analysis of community ecology data in R
http://www.davidzeleny.net/anadat-r/doku.php/en:start
oPalmer M. – Ordination methods for ecologists, website http://ordination.okstate.edu/
•
•R friendly
oBorcard D., Gillet F. & Legendre P. (2011) Numerical Ecology with R. Springer.
9

ORGANIZAČNÍ INFORMACE KE KURZU
oMateriály k předmětu – postupně se budou objevovat v ISu
•přednášky, příklady/data ke cvičení, studijní materiály
oCvičení
•probíhat bude v počítačové učebně a zaměřené bude na analýzu dat a jejich vizualizaci v programu R
–
oZkouška
•Vypracování závěrečné práce - esej
•Prezentace eseje na kolokviu
10

TYPY SBÍRANÝCH DAT
EXPLORAČNÍ ANALÝZA DAT
ÚPRAVA DAT PRO ANALÝZU

MNOHOROZMĚRNÁ DATA
12


DATA V EKOLOGII SPOLEČENSTEV
ospolečenstvo je studovaná (závislá) „proměnná“ (response variable)
ospolečenstvo je vícerozměrná „proměnná“ – zaznamenána v matici (data matrix) okaždý druh - jeho
přítomnost nebo kvantita - představuje jeden rozměr společenstva ozaznamenaný vzorek společenstva
je reprezentativní pro určitou plochu a daný čas •(závislá, vícerozměná proměnná nemusí nutně být
tvořena druhy: mohou to být např. proměnné prostředí, vlastnosti druhů, atd.)
o
oprediktory (nezávislé proměnné) popisují najčastěji prostředí, zkoumáme jejich efekt na strukturu
společenstva
13
Společenstvo je soubor druhů, které se vyskytují společně v prostoru a v čase.
 (Begon 2007)

USPOŘÁDÁNÍ DAT
1.druhová tabulka (matice)
•abundance, pokryvnosti, prezence/absence druhů
2.proměnné prostředí
•hodnoty naměřených proměnných prostředí
3.(geografické proměnné)
•souřadnice lokalit
4.(popisné proměnné)
•další proměnné popisující vzorkovací schéma, např. studovaná oblast, determinátor organismů,
vzorkující, datum/období odběru...
14

TYPY PROMĚNNÝCH
oKategoriální (kvalitativní, nominální, prezenčně-absenční)
•např. substrát, půdní typy, geografická oblast
•binární proměnné (přítomnost-absence druhu)
•kategorie jsou unikátní (každý jedinec/pozorování spadá právě do jedné z nich)
•kategorie nelze smysluplně seřadit
oOrdinální (semikvantitativní)
•např. Ellenbergovy indikační hodnoty pro druhy, Braun-Blanquetova stupnice pro odhad pokryvnosti
druhů
•jednotlivé stupně (kategorie) lze seřadit, rozdíly mezi sousedními stupni jsou různě velké
oKvantitativní
•diskrétní (počty jedinců, měření s malou přesností), rozdíly mezi sousedními stupni jsou stejně
velké
•kontinuální (přesná měření, např. množství biomasy,)
o
15

KVANTITATIVNÍ VS. SEMIKVANTITATIVNÍ
okvantitativní sice přesnější
oale semikvantitativní rychlejší a levnější
otrade-off mezi počtem vzorků a přesností
•Počet vzorků obvykle zvyšuje vypovídací hodnotu analýzy podstatně více než přesnost dat (zákon
velkých čísel)
osemikvantitativní často postačující
•Neboť statistika je přece soubor přesných metod, popisujících, jak zacházet s nepřesnými daty
16

PRIMÁRNÍ DATA - SBĚR
o
17
D:\My Dropbox\Camera Uploads\2016-02-18 16.52.58.jpg D:\My Dropbox\Camera Uploads\2016-02-18
16.57.39.jpg
Ideálně ihned po návratu naskenujeme a pečlivě uložíme papírovou i digitální verzi

PRIMÁRNÍ DATA – PŘEPIS
otabulkový editor (spreadsheet)
•např. Microsoft Excel
opřepisujeme co nejdřív
•zachycení chybějících dat
•v poznámkách se snáz orientujeme, po čase přestanou být srozumitelné
•dvě kopie je obtížnější ztratit nebo zničit
•přítomnost dat v počítači podpoří jejich rychlé zpracování
•
o
ometadata – data o datech
•jméno studie
•kdo a kde data sbíral, za jakým účelem
•popis experimentálních jednotek, objektů
•metodika sběru dat a měření  (velmi oceníme při psaní práce)
•popis proměnných, jednotky
•popisy zkratek
18
http://cdn.digital-photo-secrets.com/tip/wp-content/uploads/2006/10/exif.jpg

PRIMÁRNÍ DATA – SPREADSHEET
ov řádcích studované objekty
•Vzorky (samples)
ov sloupcích proměnné, kterými objekty charakterizujeme
•Druhy (species), proměnné prostředí (predictors, descriptors)
•
19
vysvětlivky k proměnným

ZÁLOHA DAT
oUchování a zpřístupnění primárních dat
•problematika dlouhodobé archivace a nosičů dat (nejlepší je stále papír bez volných kyselin +
laserová tiskárna)
•zpřístupnění primárních dat (některé časopisy, např. Ecological Monographs, Journal of Ecology
aj., to mají jako podmínku zveřejnění článku)
•uložení dat ve veřejně dostupných elektronických repositoriích (např. Dryad Digital Repository,
www.datadryad.org) nebo databázích (např. Česká Národní Fytocenologická Databáze)
o
20
http://www.philnel.com/wp-content/uploads/2010/10/stack-of-papers.jpeg

KONTROLA DAT
ochyby (errors)
•někdy se chovají jako odlehlé body, je třeba zkontrolovat původní záznam a případně data opravit
•Velmi omezená možnost kontroly dat zadávaných přímo digitálně (třeba do telefonu)
ochybějící data (missing data, NA)
•Mnohorozměrné metody typicky netolerují NAs
•možnosti jejich nahrazení (interpolace, model)
•vyloučení proměnné nebo vzorku který má hodně chybějících hodnot
oodlehlé body (outliers)
odalší úpravy:
•sjednocení taxonomické nomenklatury
•taxonomická adjustace (např. kombinace dvou nerozlišitelných druhů)
21

EXPLORATORY DATA ANALYSIS (EDA)
o
•Proč EDA:
oodhalení odlehlých bodů (outliers)
oprozkoumání rozložení hodnot
•střední hodnota
•rozsah
•tvar rozložení (normalita, bimodalita, sešikmenost)
oodhalení vztahů mezi proměnnými
oposouzení nutnosti transformace
oměla by zabrat ~20% celkového času studie
o
22

HISTOGRAM
23
http://www.cem.ufpr.br/atlas_poli/familias/nereididae/laeonereis/vista%20geral.gif
Laeonereis acuta
data ze Zuur et al. 2007

KONDICIONÁLNÍ BOXPLOT
24
http://www.cem.ufpr.br/atlas_poli/familias/nereididae/laeonereis/vista%20geral.gif
Laeonereis acuta
24
Q2 - medián
Q1 – spodní kvartil
Q3 – horní kvartil
outlier (hodnota je vyšší než horní kvartil + 1.5 x interkvartilový rozsah,
minimální hodnota
maximální hodnota
Laeonereis acuta
data ze Zuur et al. 2007

BODOVÝ GRAF (SCATTER PLOT)
A.outlier z hlediska vztahu Y a X
B.
B.outlier z hlediska rozložení hodnot X i Y
C.
C.outlier z hlediska rozložení hodnot i vztahu Y a X
25
A
B
C
Y
X

BODOVÝ GRAF (SCATTER PLOT)
odramatický vliv outlierů na výsledky analýz
26
A
C

BODOVÝ GRAF (SCATTER PLOT)
27
data z Altaje, Chytrý et al., in prep.

PÁROVÝ GRAF (PAIR PLOT)
28


CO S OUTLIERY?
oautomatické odstranění z datasetu – špatně!
oodstranění pouze když:
•data chybně zaznamenána
•nespadají do zamýšleného studovaného prostoru (sample space), např. v důsledku havárie čističky
nad lokalitou, nebo louka rozježděna čtyřkolkami
oněkteré body se jeví jako outliery jen proto, že je nutíme do normálního rozložení
•extrémy v datech z log-normálního nebo exponenciálního rozložení po transformaci krásně zapadnou
mezi ostatní
29