ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV JAKUB TĚŠITEL S POUŽITÍM MATERIÁLŮ VÍTA SYROVÁTKY A DAVIDA ZELENÉHO 2 3 Obsah obrázku text, hmyz, objekt v exteriéru Popis byl vytvořen automaticky 4 We compared diversity patterns in (sub)alpine springs in three contrasting European high mountain regions: Swiss Alps, Bulgarian high mountains and Western Carpathians. b-Diversity (dispersion of groups) of vascular plants was highest in Swiss Alps and lowest in Western Carpathians, while no difference was found for bryophytes. 5 6 Aim: To evaluate frugivorous butterflies as indicators of forest disturbance in the Brazilian Atlantic Forest Disturbance – habitat fragmentation. Prestoze zadny indicator diversity nebyl citlivy k fragmentaci, druhove slozeni spolecenstva motylu se lisilo mezi rezervaci a fragmentovanymi zbytky lesa. Correspondence analysis confirmed the general tendency of reserve and fragment sampling units to segregate into distinct groups along the first axis (Fig. 5), and, as in the cluster analysis, the fragments showed a tendency to group by size. Brassolinae are more related to reserve sampling units, as well as the larger Satyrinae in the genus Taygetis. Conversely, most Biblidinae and Charaxinae species were associated with the fragmented landscape. The small-sized Satyrinae, in turn, showed no clear pattern along. OSNOVA PŘEDNÁŠKY oPříprava dat pro numerické analýzy •typy sbíraných dat, čištění dat, odlehlé body, transformace, standardizace, EDA oDesign ekologických experimentů •manipulativní experimenty vs. pozorování oIndexy druhové bohatosti •alfa, beta a gama diverzita, akumulační druhová křivka, rarefaction oEkologická nepodobnost •indexy nepodobnosti mezi vzorky oOrdinace •lineární vs. unimodální, přímá vs. nepřímá, artefakty, ordinační diagramy, permutační testy, rozklad variance, parciální analýza, příkladové studie oKlasifikace •hierarchická vs. nehierarchická, aglomerativní vs. divisivní 7 SOFTWARE oR – umí vše potřebné, zadarmo + kvalitní grafika, ovládání přes příkazový řádek •Balíček Vegan (a další) oR – https://cran.r-project.org/bin/windows/ o • o oCANOCO 5 – ordinační analýzy, diagramy, odpovědní křivky druhů, grafický interface o o o o • • • o 8 Jari Oksanen Petr Šmilauer Jan „Šuspa“ Lepš Cajo ter Braak LITERATURA •V češtině oLepš J. & Šmilauer P. (2001) Mnohorozměrná analýza ekologických dat •v anglické verzi vyšlo v nakladatelství Cambridge v roce 2003 jako Multivariate Analysis of Ecological Data using CANOCO 5 (v roce 2014 vyšlo druhé vydání pro CANOCO 5) oHerben T. & Münzbergová Z. (2003) Zpracování geobotanických dat v příkladech. Část 1. Data o druhovém složení • •V angličtině oLegendre P. & Legendre L. (2012) Numerical Ecology (Third English Edition). Elsevier. oLepš, Šmilauer (2014) Multivariate analysis of Ecological Data using Canoco. Cambridge University press. Nejen pro uživatele Canoca •Webové zdroje oDavid Zelený – Analysis of community ecology data in R http://www.davidzeleny.net/anadat-r/doku.php/en:start oPalmer M. – Ordination methods for ecologists, website http://ordination.okstate.edu/ • •R friendly oBorcard D., Gillet F. & Legendre P. (2011) Numerical Ecology with R. Springer. 9 ORGANIZAČNÍ INFORMACE KE KURZU oMateriály k předmětu – postupně se budou objevovat v ISu •přednášky, příklady/data ke cvičení, studijní materiály oCvičení •probíhat bude v počítačové učebně a zaměřené bude na analýzu dat a jejich vizualizaci v programu R – oZkouška •Vypracování závěrečné práce - esej •Prezentace eseje na kolokviu 10 TYPY SBÍRANÝCH DAT EXPLORAČNÍ ANALÝZA DAT ÚPRAVA DAT PRO ANALÝZU MNOHOROZMĚRNÁ DATA 12 DATA V EKOLOGII SPOLEČENSTEV ospolečenstvo je studovaná (závislá) „proměnná“ (response variable) ospolečenstvo je vícerozměrná „proměnná“ – zaznamenána v matici (data matrix) okaždý druh - jeho přítomnost nebo kvantita - představuje jeden rozměr společenstva ozaznamenaný vzorek společenstva je reprezentativní pro určitou plochu a daný čas •(závislá, vícerozměná proměnná nemusí nutně být tvořena druhy: mohou to být např. proměnné prostředí, vlastnosti druhů, atd.) o oprediktory (nezávislé proměnné) popisují najčastěji prostředí, zkoumáme jejich efekt na strukturu společenstva 13 Společenstvo je soubor druhů, které se vyskytují společně v prostoru a v čase. (Begon 2007) USPOŘÁDÁNÍ DAT 1.druhová tabulka (matice) •abundance, pokryvnosti, prezence/absence druhů 2.proměnné prostředí •hodnoty naměřených proměnných prostředí 3.(geografické proměnné) •souřadnice lokalit 4.(popisné proměnné) •další proměnné popisující vzorkovací schéma, např. studovaná oblast, determinátor organismů, vzorkující, datum/období odběru... 14 TYPY PROMĚNNÝCH oKategoriální (kvalitativní, nominální, prezenčně-absenční) •např. substrát, půdní typy, geografická oblast •binární proměnné (přítomnost-absence druhu) •kategorie jsou unikátní (každý jedinec/pozorování spadá právě do jedné z nich) •kategorie nelze smysluplně seřadit oOrdinální (semikvantitativní) •např. Ellenbergovy indikační hodnoty pro druhy, Braun-Blanquetova stupnice pro odhad pokryvnosti druhů •jednotlivé stupně (kategorie) lze seřadit, rozdíly mezi sousedními stupni jsou různě velké oKvantitativní •diskrétní (počty jedinců, měření s malou přesností), rozdíly mezi sousedními stupni jsou stejně velké •kontinuální (přesná měření, např. množství biomasy,) o 15 KVANTITATIVNÍ VS. SEMIKVANTITATIVNÍ okvantitativní sice přesnější oale semikvantitativní rychlejší a levnější otrade-off mezi počtem vzorků a přesností •Počet vzorků obvykle zvyšuje vypovídací hodnotu analýzy podstatně více než přesnost dat (zákon velkých čísel) osemikvantitativní často postačující •Neboť statistika je přece soubor přesných metod, popisujících, jak zacházet s nepřesnými daty 16 PRIMÁRNÍ DATA - SBĚR o 17 D:\My Dropbox\Camera Uploads\2016-02-18 16.52.58.jpg D:\My Dropbox\Camera Uploads\2016-02-18 16.57.39.jpg Ideálně ihned po návratu naskenujeme a pečlivě uložíme papírovou i digitální verzi PRIMÁRNÍ DATA – PŘEPIS otabulkový editor (spreadsheet) •např. Microsoft Excel opřepisujeme co nejdřív •zachycení chybějících dat •v poznámkách se snáz orientujeme, po čase přestanou být srozumitelné •dvě kopie je obtížnější ztratit nebo zničit •přítomnost dat v počítači podpoří jejich rychlé zpracování • o ometadata – data o datech •jméno studie •kdo a kde data sbíral, za jakým účelem •popis experimentálních jednotek, objektů •metodika sběru dat a měření (velmi oceníme při psaní práce) •popis proměnných, jednotky •popisy zkratek 18 http://cdn.digital-photo-secrets.com/tip/wp-content/uploads/2006/10/exif.jpg PRIMÁRNÍ DATA – SPREADSHEET ov řádcích studované objekty •Vzorky (samples) ov sloupcích proměnné, kterými objekty charakterizujeme •Druhy (species), proměnné prostředí (predictors, descriptors) • 19 vysvětlivky k proměnným ZÁLOHA DAT oUchování a zpřístupnění primárních dat •problematika dlouhodobé archivace a nosičů dat (nejlepší je stále papír bez volných kyselin + laserová tiskárna) •zpřístupnění primárních dat (některé časopisy, např. Ecological Monographs, Journal of Ecology aj., to mají jako podmínku zveřejnění článku) •uložení dat ve veřejně dostupných elektronických repositoriích (např. Dryad Digital Repository, www.datadryad.org) nebo databázích (např. Česká Národní Fytocenologická Databáze) o 20 http://www.philnel.com/wp-content/uploads/2010/10/stack-of-papers.jpeg KONTROLA DAT ochyby (errors) •někdy se chovají jako odlehlé body, je třeba zkontrolovat původní záznam a případně data opravit •Velmi omezená možnost kontroly dat zadávaných přímo digitálně (třeba do telefonu) ochybějící data (missing data, NA) •Mnohorozměrné metody typicky netolerují NAs •možnosti jejich nahrazení (interpolace, model) •vyloučení proměnné nebo vzorku který má hodně chybějících hodnot oodlehlé body (outliers) odalší úpravy: •sjednocení taxonomické nomenklatury •taxonomická adjustace (např. kombinace dvou nerozlišitelných druhů) 21 EXPLORATORY DATA ANALYSIS (EDA) o •Proč EDA: oodhalení odlehlých bodů (outliers) oprozkoumání rozložení hodnot •střední hodnota •rozsah •tvar rozložení (normalita, bimodalita, sešikmenost) oodhalení vztahů mezi proměnnými oposouzení nutnosti transformace oměla by zabrat ~20% celkového času studie o 22 HISTOGRAM 23 http://www.cem.ufpr.br/atlas_poli/familias/nereididae/laeonereis/vista%20geral.gif Laeonereis acuta data ze Zuur et al. 2007 KONDICIONÁLNÍ BOXPLOT 24 http://www.cem.ufpr.br/atlas_poli/familias/nereididae/laeonereis/vista%20geral.gif Laeonereis acuta 24 Q2 - medián Q1 – spodní kvartil Q3 – horní kvartil outlier (hodnota je vyšší než horní kvartil + 1.5 x interkvartilový rozsah, minimální hodnota maximální hodnota Laeonereis acuta data ze Zuur et al. 2007 BODOVÝ GRAF (SCATTER PLOT) A.outlier z hlediska vztahu Y a X B. B.outlier z hlediska rozložení hodnot X i Y C. C.outlier z hlediska rozložení hodnot i vztahu Y a X 25 A B C Y X BODOVÝ GRAF (SCATTER PLOT) odramatický vliv outlierů na výsledky analýz 26 A C BODOVÝ GRAF (SCATTER PLOT) 27 data z Altaje, Chytrý et al., in prep. PÁROVÝ GRAF (PAIR PLOT) 28 CO S OUTLIERY? oautomatické odstranění z datasetu – špatně! oodstranění pouze když: •data chybně zaznamenána •nespadají do zamýšleného studovaného prostoru (sample space), např. v důsledku havárie čističky nad lokalitou, nebo louka rozježděna čtyřkolkami oněkteré body se jeví jako outliery jen proto, že je nutíme do normálního rozložení •extrémy v datech z log-normálního nebo exponenciálního rozložení po transformaci krásně zapadnou mezi ostatní 29