Metody fyzické geografie 3: Biogeografie & ekologie Jan Divíšek Geografický ústav & Ústav botaniky a zoologie Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Metody fyzické geografie 3 – 24. 10. 2017 • Teoretická část • Příprava dat pro analýzy – EDA, transformace • Korelace • Regresní analýza – lineární regresní modely a GLM • Praktická část • Import dat do R, sumární statistiky, boxploty, histogramy • Transformace dat • Korelační analýzy • Lineární regrese Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Explorativní analýza, transformace a standardizace dat Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Data v biogeografii a ekologii • Vysvětlovaná proměnná (Dependent variable(s)) • Distribuce druhů (přítomnost/nepřítomnost), abundance, složení společenstva, vlastnosti druhů atp. • společenstvo je typicky sledováno na určité ploše (v případě rostlin a některých málo mobilních živočichů) nebo např. inventarizací jedinců (např. ulovených v pastech v případě mobilních živočichů) • složení živého společenstva je popsáno přítomností jednotlivých druhů daného typu organismů, na jedné ploše (v jedné pasti) se většinou vyskytuje více než jeden druh • Vysvětlující proměnná (Explanatory variable(s)) • Environmentální faktory, vzdálenosti, fylogenetická podobnost atp. • Prostředí je popisováno jednou nebo více proměnnými, o kterých se předpokládá, že ovlivňují studovaný typ organismů • Jednorozměrná data (univariate data) • pouze jedna proměnná, např. počet druhů • Vícerozměrná data (multivariate data) • matice dat (data matrix), např. lokality × druhy Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Typy proměnných Typ proměnné Příklady binární (dvoustavový, presence-absence) přítomnost nebo absence druhu mnohostavový neseřazený geologický substrát seřazený semikvantitativní (ordinální) stupnice pokryvností druhy kvantitativní (měření) diskontinuální (počty, diskrétní) počet jedinců kontinuální teplota, hloubka půdy Legendre & Legendre (1998) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Explorační analýza dat (exploratory data analysis, EDA) • průzkum dat – kontrola a čištění • chyby (errors) • někdy se chovají jako odlehlé body, je třeba zkontrolovat původní záznam a případně data z analýzy odstranit • chybějící data (missing data, NA) • možnosti jejich nahrazení (interpolace, model) • vyloučení proměnné nebo vzorku který má hodně chybějících hodnot • odlehlé body (outliers) • jejich detekce (outlier analysis) • hledání hypotéz, které stojí za to testovat • grafická EDA slouží k • odhalení odlehlých bodů (outlier analysis) • distribuce dat (normalita) a nutnost transformace -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 XERSSW (head index) 0 10 20 30 40 50 Frequency Median 25%-75% Range Outliers-8 -6 -4 -2 0 2 4 XERSSW potenciálně chybná hodnota Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Krabicové grafy (boxplots) maximální hodnota Q3 – horní kvartil Q2 ─ medián Q1 – spodní kvartil spodní kvartil + 1.5 × interkvartilový rozsah minimální hodnota ─ outlier Klasický boxplot (střední hodnota = medián) Definice odlehlých bodů a extrémů (STATISTICA) boxplot() Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Histograms, PDF plots & Q-Q plots Histogram x Frequency -3 -2 -1 0 1 2 3 050100150200 -4 -2 0 2 4 0.00.10.20.30.4 Probability density function N = 1000 Bandwidth = 0.2285 Density hist() density() Testování normality dat: • Shapiro-Wilkův test: shapiro.test() • Kolmogorovův-Smirnovův test: ks.test() -3 -2 -1 0 1 2 3 -3-2-10123 Normal Q-Q Plot Theoretical Quantiles SampleQuantiles qqnorm() Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Mají data normální rozložení? variable Frequency -3 -2 -1 0 1 2 3 050100150200 variable Frequency -8 -6 -4 -2 0 2 050100150200 variable Frequency 0 2 4 6 8 10 12 0100200300400500600 -3 -2 -1 0 1 2 3 -3-2-10123 Sample quantiles Theoreticalquantiles 0 5 10 15 20 -3-2-10123 Sample quantiles Theoreticalquantiles -5 -4 -3 -2 -1 0 1 -3-2-10123 Sample quantiles Theoreticalquantiles normální rozdělení (symetrical) pozitivně (doprava) sešikmené (right skewed) negativně (doleva) sešikmené (left skewed) ekologická data jsou často zešikmená pozitivně (doprava), protože jsou omezená nulou na začátku Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Transformace dat • mění relativní vzdálenosti mezi jednotlivými hodnotami a tím i tvar jejich distribuce • Proč data transformovat? • parametrické testy jsou založené na předpokladu, že data mají nějaké určité (často normální) rozdělení • protože lineární vztahy se dají popsat přímkou a lépe se interpretují než vztahy nelineární • škála měření je arbitrární a nemusí odpovídat ekologickému významu proměnné (používáme desítkovou soustavu) https://en.wikipedia.org/wiki/Species-area_curve Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Transformace dat • Na co si dát při transformaci pozor? • aby transformace rozložení dat ještě nezhoršila a nevytvořila nové odlehlé body • abychom při komentování výsledků používali netransformované hodnoty proměnných • Typy transformace • lineární • přičtení konstanty nebo vynásobení konstantou • nemění výsledky statistického testování nulových hypotéz • např. převod teploty měřené ve stupních Celsia na stupně Fahrenheita • nelineární • log transformace, odmocninová transformace atd. • může změnit výsledky statistického testování Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Typy transformací • Logaritmická transformace (log transformation) • pro data s výrazně pozitivně (doprava) šikmou distribucí (right skewed), u kterých existuje vztah mezi směrodatnou odchylkou a průměrem (lognormální rozložení) Y′ = log Y případně Y′ = log 𝑎Y + 𝑐 • na základě logaritmu nezáleží (10, 2, e) • konstanta a = 1; pokud je Y z intervalu <0;1>, potom a > 1 • konstanta c se přidává, pokud proměnná Y obsahuje nuly • c může být např. 1, nebo arbitrárně zvolené malé číslo (0,001) • na konstantě c může záležet výsledek analýz (ANOVA), a proto je dobré vybírat takové číslo, aby transformovaná proměnná byla co nejvíce symetrická Histogram of x x Frequency 0 5 10 15 200200400600 Histogram of log(x) log(x) Frequency -3 -2 -1 0 1 2 3 050100150200 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Typy transformací • Odmocninová transformace (square-root transformation) • vhodná pro mírně doprava zešikmená data (right skewed), např. počty druhů (Poisson distribution) • třetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá odmocnina se používá pro abundance druhů s mnoha nulami a několika vysokými hodnotami) • Mocninná transformace (power transformation) • vhodná pro data negativně (doleva) sešikmená (left skewed) Histogram of x x Frequency 0 10 20 30 40 050100150200250300 Histogram of sqrt(x) sqrt(x) Frequency 0 1 2 3 4 5 6 050100150200 Y′ = Y Y′ = Y + 𝑐případně • konstanta c se přičítá, pokud soubor obsahuje nuly • c může být např. 0,5, nebo 3/8 (0,325) Y′ = Y 𝑝 • pokud p < 1 - odmocninová transformace (p = 0,5 – druhá odmocnina, p = 0,25 – čtvrtá odmocnina atd.) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Transformace Münch. Med. Wschr. 124, 1982 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Další transformace • Transformace pomocí arcsin (angular transformation) • vhodná pro procentické hodnoty (a obecně podíly) • Reciproká transformace (reciprocal transformation) • vhodná pro poměry (například výška/hmotnost, počet dětí v populaci na počet žen atd.) • Box-Cox transformace (zobecněná mocninná transformace) Y′ = sin Y Y′ = sin Ypřípadně • použitelná pro hodnoty v intervalu <-1; 1> • transformované hodnoty jsou v radiánech Y′ = 1/ Y • zobecněná parametrická transformace • iterativní hledání parametru λ (lambda), pro které je rozdělení transformované proměnné nejblíže normálnímu rozdělení • používá se v případě, že nemáme a priori představu, jakou transformaci použít Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Standardizace dat • vyrovnává rozdíly v relativním významu (váze) jednotlivých ekologických proměnných (měřené na různých škálách), druhů nebo vzorků • mění data pomocí statistiky, která je spočtená na datech samotných, např. průměr, součet, rozsah aj. (data dependent) • ve své podstatě je to další typ transformace Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Standardizace dat • Centrování (centring) • výsledná proměnná má průměr roven nule • Standardizace v úzkém slova smyslu • výsledná proměnná má průměr roven nule a směrodatnou odchylku rovnu jedné • „synchronizuje” proměnné měřené v různých jednotkách a na různých stupnicích • Změna rozsahu hodnot (ranging) • výsledná proměnná je v rozsahu [0, 1] Y′𝑖 = Y𝑖 − průměr (Y) Y′𝑖 = (Y𝑖−průměr (Y))/směrodatná odchylka (Y) Y′𝑖 = Y𝑖 Y 𝑚𝑎𝑥 Y′𝑖 = (𝑌𝑖+abs(Y 𝑚𝑖𝑛))/(𝑌 𝑚𝑎𝑥+abs 𝑌 𝑚𝑖𝑛 )nebo Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Kódování dat • Dummy variables • metoda, jak převést kvalitativní (kategoriální) proměnnou na kvantitativní (binární) proměnné použitelné v analýzách • pokud má kategoriální proměnná n stavů (hodnot), pro její vyjádření stačí n-1 dummy proměnných (jedna z proměnných je vždy lineárně závislá na ostatních) • dummy{dummies} hodnoty dummy proměnné KAMB LITO RANK FLUVI kambizem 1 0 0 0 litozem 0 1 0 0 ranker 0 0 1 0 fluvizem 0 0 0 1 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Kódování dat • např. nahrazení kódů u alfa-numerických stupnic, např. Braun-Blanquetovy stupnice dominance-abundance Braun-Blanquetova stupnice: r + 1 2 3 4 5 ordinální hodnoty: 1 2 3 4 5 6 7 střední hodnoty procent: 1 2 3 13 38 63 88 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Korelační a regresní analýza Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Korelační analýza • Korelace = vzájemný vztah mezi dvěma procesy nebo veličinami • Ve statistice popisuje vzájemný lineární vztah mezi veličinami x a y • Míru korelace vyjadřuje korelační koeficient, který může nabývat hodnot od −1 až po +1. • Pearsonův korelační koeficient (r) • Spearmanův koeficient pořadové korelace (ρ nebo rs) cor() cor.test() https://en.wikipedia.org/wiki/Correlation_and_dependence Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Borcard et al. (2011) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regrese • Lineární regresní model popisuje vztah mezi jednou závislou proměnnou a jednou nebo více vysvětlujícími proměnnými 𝑦𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜀𝑖 𝜀𝑖 ~ 𝑁 0, 𝜎2 , cor 𝜀𝑖, 𝜀𝑖′ = 0 pro 𝑖 ≠ 𝑖′ hodnota vysvětlované proměnné pro dané pozorování absolutní člen směrnice přímky (určuje sklon) hodnota vysvětlující proměnné pro dané pozorování náhodná složka (chyba) chyby mají normální rozdělení (N) s nulovou střední hodnotou (0) a rozptylem (𝜎2) který je stejný pro všechna pozorování vzájemná korelace chyb je nulová lm() Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regrese • Lineární regresní model popisuje vztah mezi jednou závislou proměnnou a jednou nebo více vysvětlujícími proměnnými 𝑦 = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽 𝑘 𝑥 𝑘 + 𝜀 kde 𝜀 ~ 𝑁 0, 𝜎2 , nezávisle pro různá měření Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regrese -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 0 5 10 15 20 25 30 Environmental variable Dependentvariable -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 0 5 10 15 20 25 30 Environmental variable Dependentvariable predikované hodnoty reziduály predict() resid() -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 0 5 10 15 20 25 30 Environmental variable Dependentvariable regresní přímka intercept (absolutní člen α) lm() Vegetační snímky z Terénního cvičení z krajinné ekologie 2013 na Kralickém Sněžníku. Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Vysvětlená variabilita v regresi 𝑅2 = 1 − 𝑅𝑆𝑆 𝑇𝑆𝑆 http://en.wikipedia.org/wiki/Coefficient_of_determination 𝑇𝑆𝑆 = 𝑖=1 𝑛 𝑦𝑖 − 𝑦 2 𝑅𝑆𝑆 = 𝑖=1 𝑛 𝑦𝑖 − 𝑦𝑖 2 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regresní model v R m <- lm(Y ~ X) anova(m) stupně volnosti (Degrees of freedom) sumy čtverců (Sum of Squares) pro vysvětlující proměnné (model sum of squares): 𝑀𝑆𝑆 = 𝑖=1 𝑛 𝑦𝑖 − 𝑦 2 pro reziduály (resudual sum of squares): 𝑅𝑆𝑆 = 𝑖=1 𝑛 𝑦𝑖 − 𝑦𝑖 2 𝑇𝑆𝑆 = 𝑀𝑆𝑆 + 𝑅𝑆𝑆 průměrné sumy čtverců (Sum Sq/Df) hodnoty F-testového kritéria (podíl Mean Sq pro danou proměnnou a Mean Sq pro rezidua) statistická významnost Analysis of Variance Table Response: Species Df Sum Sq Mean Sq F value Pr(>F) Altitude 1 503.89 503.89 17.488 0.0005604 *** Residuals 18 518.66 28.81 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regresní model v R m <- lm(Y ~ X1 + X2 + … + X5) anova(m) Analysis of Variance Table Response: Species Df Sum Sq Mean Sq F value Pr(>F) Altitude 1 503.89 503.89 31.3657 6.541e-05 *** Slope 1 2.61 2.61 0.1622 0.693243 pH 1 182.77 182.77 11.3768 0.004551 ** Moisture 1 76.63 76.63 4.7702 0.046465 * E3_cover 1 31.73 31.73 1.9753 0.181690 Residuals 14 224.91 16.07 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regresní model v R m <- lm(Y ~ X1 + X2 + … + X5) anova(m) Analysis of Variance Table Response: Species Df Sum Sq Mean Sq F value Pr(>F) pH 1 667.23 667.23 41.5325 1.536e-05 *** Slope 1 6.50 6.50 0.4044 0.53511 Altitude 1 15.55 15.55 0.9678 0.34192 Moisture 1 76.63 76.63 4.7702 0.04647 * E3_cover 1 31.73 31.73 1.9753 0.18169 Residuals 14 224.91 16.07 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Slope pH Moisture E3_cover Altitude 0.296 -0.759 0.268 -0.331 Slope -0.221 0.085 -0.408 pH -0.229 0.461 Moisture 0.149 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regresní model v R summary(m) Call: lm(formula = Species ~ ., data = dat) Residuals: Min 1Q Median 3Q Max -7.4215 -1.9238 0.6839 2.3229 6.6599 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 12.8500 0.8962 14.338 9.24e-10 *** Altitude -2.0206 1.4600 -1.384 0.1880 Slope 0.1462 1.0439 0.140 0.8906 pH 4.0380 1.5358 2.629 0.0198 * Moisture 1.6358 1.0076 1.623 0.1268 E3_cover 1.6526 1.1758 1.405 0.1817 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.008 on 14 degrees of freedom Multiple R-squared: 0.78, Adjusted R-squared: 0.7015 F-statistic: 9.93 on 5 and 14 DF, p-value: 0.0003219 statistická významnost hodnoty t-testu nulové hypotézy (H0) o tom, že skutečná hodnota daného koeficientu je nulová odhady koeficientů střední chyba variabilita v Y vysvětlená modelem (R2) adjustovaný R2 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Vysvětlená variabilita (R2) • vysvětlená variabilita stoupá s počtem vysvětlujících proměnných (i když jsou náhodné) a klesá s počtem vzorků v datovém souboru • platí pro mnohonásobnou regresi i pro přímou (kanonickou) ordinační analýzu Peres-Neto et al. (2006) Ecology vysvětlenávariabilita počet vysvětlujících proměnných počet vzorků v datovém souboru Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Vysvětlená variabilita (R2) a adjustovaný R2 • adjustovaný R2 se nemění s počtem vysvětlujících proměnných a počtem vzorků v souboru vysvětlenávariabilita počet vysvětlujících proměnných počet vzorků v datovém souboru Peres-Neto et al. (2006) Ecology Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Výpočet adjustovaného R2 • pomocí Ezekielovy formule • pomocí permutace dat n ... počet vzorků p ... počet vysvětlujících proměnných R2 Y|X ... vysvětlená variabilita bez adjustace R2 𝑅2 𝑅perm 2 variabilita vysvětlená proměnnými prostředí variabilita vysvětlená proměnnými prostředí po jejich znáhodnění o kolik variability vysvětlí proměnné prostředí víc než by vysvětlily náhodné proměnné? 𝑅adj 2 = 1 − 1 1 − 𝑅perm 2 1 − 𝑅2 𝑅2 adj RsquareAdj {vegan} Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Rezidua lineárního regresního modelu • Rezidua by neměla: • vykazovat trendy vůči kterékoliv proměnné, vysvětlující ani závislé • mít heterogenní rozptyl (přes různé úrovně vysvětlující či závislé proměnné), tj. neměla by bý heteroskedastická • mít „podivné“ rozdělení (předpokládá se normální) • být závislá mezi sebou (autokorelovaná) resid() Pekár & Brabec (2009) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Zobecněné lineární modely (GLM) • Umožňují modelovat proměnné, které nesplňují předpoklady lineárního modelu • „nenormální“ rozložení dat (Lognormální, Poissonovo, Binomické atp.) • rozptyl se mění s průměrem • … • Parametry GLM • Trasnformační funkce (link) – volí se podle typu rozložení dat • Lineární prediktor • Náhodná složka 𝜂𝑖 = 𝛼 + 𝑗=1 𝑝 𝛽𝑗 𝑥𝑗𝑖 𝑦𝑖 = 𝑦𝑖 + 𝜀𝑖, kde 𝑔 𝑦𝑖 = 𝜂𝑖 kanonická link funkce glm() Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Typy rozdělení Lognormální rozdělení Gamma rozdělení Poissonovo rozdělení Negativně binomické rozdělení Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Binární proměnné • Např. přítomnost (1) × nepřítomnost (0) druhu • Binární proměnná + GLM + logit link → logistická regrese (logistic regression) Histogram of x bin Frequency 0.0 0.2 0.4 0.6 0.8 1.0 0200400600800 Legendre & Legendre (2012) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Kanonické link funkce Rozdělení Jméno linku Link funkce Rozptyl Vysvětlovaná proměnná Hodnoty Typy údajů Gaussovo (normální) identity 𝑦 1 jakékoliv reálné s ohledem na ostatní možnosti skoro žádné Gamma inverse 1 𝑦 𝑦2 kladné reálné velikosti, hmotnosti, jejich podíly Poissonovo log log 𝑦 𝑦 celé nezáporné počty případů Binomické logit log 𝑦 1 − 𝑦 𝑦(1 − 𝑦) 𝑛 podíly z počtů pravděpodobnosti jevů či výsledků Pekár & Brabec (2009); Šmilauer (2007) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek GLM v prostředí R m <- glm(Y ~ X1 + X2 + … + X5, family = poisson) anova(m, test="Chisq") stupně volnosti (Degrees of freedom) analogie součtu čtverců (MSS) v LM; pro GLM s Gaussovým linkem totožné se součtem čtverců; jinak se výpočet liší analogie reziduálnímu součtu čtverců (RSS) v LM; pro GLM s Gaussovým linkem totožné se součtem čtverců; jinak se výpočet liší Výsledek χ2 testu (pokud Poissnovo rozdělení); pokud byl vhodnější F-test nutné specifikovat v argumentu 'test' Analysis of Deviance Table Model: poisson, link: log Response: Species Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev Pr(>Chi) NULL 19 71.975 Altitude 1 41.217 18 30.758 1.363e-10 *** Slope 1 0.454 17 30.305 0.500606 pH 1 10.081 16 20.224 0.001498 ** Moisture 1 5.241 15 14.983 0.022061 * E3_cover 1 0.720 14 14.263 0.396138 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek GLM v prostředí R m <- glm(Y ~ X1 + X2 + … + X5, family = poisson) summary(m) tzv. Waldovy statistiky – jejich předpoklady často nejsou splněny statistická významnost odhady koeficientů a jejich chyby; pokud je použita logaritmická link funkce lze převést na jednotky Y pomocí exponenciální funkce exp() analogie TSS analogie RSS Akaikeho informační kritérium … Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.44461 0.06888 35.490 <2e-16 *** Altitude -0.21654 0.11605 -1.866 0.0620 . Slope -0.03097 0.06996 -0.443 0.6581 pH 0.24419 0.11070 2.206 0.0274 * Moisture 0.13165 0.07494 1.757 0.0789 . E3_cover 0.07156 0.08460 0.846 0.3976 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 71.975 on 19 degrees of freedom Residual deviance: 14.263 on 14 degrees of freedom AIC: 111.69 Number of Fisher Scoring iterations: 4 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Rezidua v GLM • U modelů s jiným než identickým linkem (Gaussovo rozdělení) je několik typů reziduí • Rezidua na trasformované škále (např. log při Poissonově rozdělení): type = "working" • Pearsonova rezidua (obdoba standardizovaných reziduí v LM): type = "pearson" • Prostá reziuda na původní škále: type = "response" resid() Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Další vychytávky (nelineární trendy) • Lowess and loess smoothing methods • Neparametrický odhad trendu pořízený na základě velmi flexibilní lokální regrese • Fituje křivku na data → dobré pro ukázání vztahu proměnných • Vhodné jen pro n < 1000, pokud více → GAM loess.smooth() lowess() -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 0 5 10 15 20 25 30 Environmental variable Dependentvariable Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Další vychytávky (nelineární trendy) • Generalized Aditive Models (GAM) gam() Altitude Temperature Precipitation Continentality ETo Grasslands' patchiness Area of forests Area of rep. grasslands Carp. flysch sedim. 10 20 30 40 50 10 20 30 40 50 ObservedPredicted 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 Environment Diversity Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Literatura • Pekár, S. & Brabec, M. (2009): Moderní analýza biologických dat. Scientia, Praha. • Legendre, P. & Legendre, L. (2012): Numerical ecology. Third Edition. Elsevier, Amsterdam. • Borcard, D., Gillet, F. & Legendre, P. (2011): Numerical ecology with R. Springer, New York.