Metody fyzické geografie 3: Biogeografie & ekologie Jan Divíšek Geografický ústav & Ústav botaniky a zoologie Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Korelační a regresní analýza Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Korelační analýza • Korelace = vzájemný vztah mezi dvěma procesy nebo veličinami • Ve statistice popisuje vzájemný lineární vztah mezi veličinami x a y • Míru korelace vyjadřuje korelační koeficient, který může nabývat hodnot od −1 až po +1. • Pearsonův korelační koeficient (r) • Spearmanův koeficient pořadové korelace (ρ nebo rs) cor() cor.test() https://en.wikipedia.org/wiki/Correlation_and_dependence Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Borcard et al. (2011) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regrese • Lineární regresní model popisuje vztah mezi jednou závislou proměnnou a jednou nebo více vysvětlujícími proměnnými 𝑦𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜀𝑖 𝜀𝑖 ~ 𝑁 0, 𝜎2 , cor 𝜀𝑖, 𝜀𝑖′ = 0 pro 𝑖 ≠ 𝑖′ hodnota vysvětlované proměnné pro dané pozorování absolutní člen směrnice přímky (určuje sklon) hodnota vysvětlující proměnné pro dané pozorování náhodná složka (chyba) chyby mají normální rozdělení (N) s nulovou střední hodnotou (0) a rozptylem (𝜎2) který je stejný pro všechna pozorování vzájemná korelace chyb je nulová lm() Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regrese • Lineární regresní model popisuje vztah mezi jednou závislou proměnnou a jednou nebo více vysvětlujícími proměnnými 𝑦 = 𝛼 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽 𝑘 𝑥 𝑘 + 𝜀 kde 𝜀 ~ 𝑁 0, 𝜎2 , nezávisle pro různá měření Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regrese -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 0 5 10 15 20 25 30 Environmental variable Dependentvariable -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 0 5 10 15 20 25 30 Environmental variable Dependentvariable predikované hodnoty rezidua predict() resid() -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 0 5 10 15 20 25 30 Environmental variable Dependentvariable regresní přímka intercept (absolutní člen α) lm() Vegetační snímky z Terénního cvičení z krajinné ekologie 2013 na Kralickém Sněžníku. Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Vysvětlená variabilita v regresi 𝑅2 = 1 − 𝑅𝑆𝑆 𝑇𝑆𝑆 http://en.wikipedia.org/wiki/Coefficient_of_determination 𝑇𝑆𝑆 = ෍ 𝑖=1 𝑛 𝑦𝑖 − ത𝑦 2 𝑅𝑆𝑆 = ෍ 𝑖=1 𝑛 𝑦𝑖 − ො𝑦𝑖 2 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regresní model v R m <- lm(Y ~ X) anova(m) stupně volnosti (Degrees of freedom) sumy čtverců (Sum of Squares) pro vysvětlující proměnné (model sum of squares): 𝑀𝑆𝑆 = σ𝑖=1 𝑛 ො𝑦𝑖 − ത𝑦 2 pro reziduály (residual sum of squares): 𝑅𝑆𝑆 = σ𝑖=1 𝑛 𝑦𝑖 − ො𝑦𝑖 2 𝑇𝑆𝑆 = 𝑀𝑆𝑆 + 𝑅𝑆𝑆 průměrné sumy čtverců (Sum Sq/Df) hodnoty F-testového kritéria (podíl Mean Sq pro danou proměnnou a Mean Sq pro rezidua) statistická významnost Analysis of Variance Table Response: Species Df Sum Sq Mean Sq F value Pr(>F) Altitude 1 503.89 503.89 17.488 0.0005604 *** Residuals 18 518.66 28.81 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regresní model v R m <- lm(Y ~ X1 + X2 + … + X5) anova(m) Analysis of Variance Table Response: Species Df Sum Sq Mean Sq F value Pr(>F) Altitude 1 503.89 503.89 31.3657 6.541e-05 *** Slope 1 2.61 2.61 0.1622 0.693243 pH 1 182.77 182.77 11.3768 0.004551 ** Moisture 1 76.63 76.63 4.7702 0.046465 * E3_cover 1 31.73 31.73 1.9753 0.181690 Residuals 14 224.91 16.07 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regresní model v R m <- lm(Y ~ X1 + X2 + … + X5) anova(m) Analysis of Variance Table Response: Species Df Sum Sq Mean Sq F value Pr(>F) pH 1 667.23 667.23 41.5325 1.536e-05 *** Slope 1 6.50 6.50 0.4044 0.53511 Altitude 1 15.55 15.55 0.9678 0.34192 Moisture 1 76.63 76.63 4.7702 0.04647 * E3_cover 1 31.73 31.73 1.9753 0.18169 Residuals 14 224.91 16.07 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Slope pH Moisture E3_cover Altitude 0.296 -0.759 0.268 -0.331 Slope -0.221 0.085 -0.408 pH -0.229 0.461 Moisture 0.149 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regresní model v R summary(m) Call: lm(formula = Species ~ ., data = dat) Residuals: Min 1Q Median 3Q Max -7.4215 -1.9238 0.6839 2.3229 6.6599 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 12.8500 0.8962 14.338 9.24e-10 *** Altitude -2.0206 1.4600 -1.384 0.1880 Slope 0.1462 1.0439 0.140 0.8906 pH 4.0380 1.5358 2.629 0.0198 * Moisture 1.6358 1.0076 1.623 0.1268 E3_cover 1.6526 1.1758 1.405 0.1817 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 4.008 on 14 degrees of freedom Multiple R-squared: 0.78, Adjusted R-squared: 0.7015 F-statistic: 9.93 on 5 and 14 DF, p-value: 0.0003219 statistická významnost hodnoty t-testu nulové hypotézy (H0) o tom, že skutečná hodnota daného koeficientu je nulová odhady koeficientů střední chyba variabilita v Y vysvětlená modelem (R2) adjustovaný R2 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Vysvětlená variabilita (R2) • vysvětlená variabilita stoupá s počtem vysvětlujících proměnných (i když jsou náhodné) a klesá s počtem vzorků v datovém souboru • platí pro mnohonásobnou regresi i pro přímou (kanonickou) ordinační analýzu Peres-Neto et al. (2006) Ecology vysvětlenávariabilita počet vysvětlujících proměnných počet vzorků v datovém souboru Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Vysvětlená variabilita (R2) a adjustovaný R2 • adjustovaný R2 se nemění s počtem vysvětlujících proměnných a počtem vzorků v souboru vysvětlenávariabilita počet vysvětlujících proměnných počet vzorků v datovém souboru Peres-Neto et al. (2006) Ecology Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Výpočet adjustovaného R2 • pomocí Ezekielovy formule • pomocí permutace dat n ... počet vzorků p ... počet vysvětlujících proměnných R2 Y|X ... vysvětlená variabilita bez adjustace R2 𝑅2 𝑅perm 2 variabilita vysvětlená proměnnými prostředí variabilita vysvětlená proměnnými prostředí po jejich znáhodnění o kolik variability vysvětlí proměnné prostředí víc než by vysvětlily náhodné proměnné? 𝑅adj 2 = 1 − 1 1 − ത𝑅perm 2 1 − 𝑅2 𝑅2 adj RsquareAdj {vegan} Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Rezidua lineárního regresního modelu • Rezidua by neměla: • vykazovat trendy vůči kterékoliv proměnné, vysvětlující ani závislé • mít heterogenní rozptyl (přes různé úrovně vysvětlující či závislé proměnné), tj. neměla by bý heteroskedastická • mít „podivné“ rozdělení (předpokládá se normální) • být závislá mezi sebou (autokorelovaná) resid() Pekár & Brabec (2009) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Zobecněné lineární modely (GLM) • Umožňují modelovat proměnné, které nesplňují předpoklady lineárního modelu • „nenormální“ rozložení dat (Lognormální, Poissonovo, Binomické atp.) • rozptyl se mění s průměrem • … • Parametry GLM • Transformační funkce (link) – volí se podle typu rozložení dat • Lineární prediktor • Náhodná složka 𝜂𝑖 = 𝛼 + ෍ 𝑗=1 𝑝 𝛽𝑗 𝑥𝑗𝑖 𝑦𝑖 = ො𝑦𝑖 + 𝜀𝑖, kde 𝑔 ො𝑦𝑖 = 𝜂𝑖 kanonická link funkce glm() Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Typy rozdělení Lognormální rozdělení Gamma rozdělení Poissonovo rozdělení Negativně binomické rozdělení Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Binární proměnné • Např. přítomnost (1) × nepřítomnost (0) druhu • Binární proměnná + GLM + logit link → logistická regrese (logistic regression) Histogram of x bin Frequency 0.0 0.2 0.4 0.6 0.8 1.0 0200400600800 Legendre & Legendre (2012) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Kanonické link funkce Rozdělení Jméno linku Link funkce Rozptyl Vysvětlovaná proměnná Hodnoty Typy údajů Gaussovo (normální) identity ො𝑦 1 jakékoliv reálné s ohledem na ostatní možnosti skoro žádné Gamma inverse 1 ො𝑦 ො𝑦2 kladné reálné velikosti, hmotnosti, jejich podíly Poissonovo log log ො𝑦 ො𝑦 celé nezáporné počty případů Binomické logit log ො𝑦 1 − ො𝑦 ො𝑦(1 − ො𝑦) 𝑛 podíly z počtů pravděpodobnosti jevů či výsledků Pekár & Brabec (2009); Šmilauer (2007) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek GLM v prostředí R m <- glm(Y ~ X1 + X2 + … + X5, family = poisson) anova(m, test="Chisq") stupně volnosti (Degrees of freedom) analogie součtu čtverců (MSS) v LM; pro GLM s Gaussovým linkem totožné se součtem čtverců; jinak se výpočet liší analogie reziduálnímu součtu čtverců (RSS) v LM; pro GLM s Gaussovým linkem totožné se součtem čtverců; jinak se výpočet liší Výsledek χ2 testu (pokud Poissnovo rozdělení); pokud byl vhodnější F-test nutné specifikovat v argumentu 'test' Analysis of Deviance Table Model: poisson, link: log Response: Species Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev Pr(>Chi) NULL 19 71.975 Altitude 1 41.217 18 30.758 1.363e-10 *** Slope 1 0.454 17 30.305 0.500606 pH 1 10.081 16 20.224 0.001498 ** Moisture 1 5.241 15 14.983 0.022061 * E3_cover 1 0.720 14 14.263 0.396138 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek GLM v prostředí R m <- glm(Y ~ X1 + X2 + … + X5, family = poisson) summary(m) tzv. Waldovy statistiky – jejich předpoklady často nejsou splněny statistická významnost odhady koeficientů a jejich chyby; pokud je použita logaritmická link funkce lze převést na jednotky Y pomocí exponenciální funkce exp() analogie TSS analogie RSS Akaikeho informační kritérium … Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.44461 0.06888 35.490 <2e-16 *** Altitude -0.21654 0.11605 -1.866 0.0620 . Slope -0.03097 0.06996 -0.443 0.6581 pH 0.24419 0.11070 2.206 0.0274 * Moisture 0.13165 0.07494 1.757 0.0789 . E3_cover 0.07156 0.08460 0.846 0.3976 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 71.975 on 19 degrees of freedom Residual deviance: 14.263 on 14 degrees of freedom AIC: 111.69 Number of Fisher Scoring iterations: 4 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Rezidua v GLM • U modelů s jiným než identickým linkem (Gaussovo rozdělení) je několik typů reziduí • Rezidua na trasformované škále (např. log při Poissonově rozdělení): type = "working" • Pearsonova rezidua (obdoba standardizovaných reziduí v LM): type = "pearson" • Prostá reziuda na původní škále: type = "response" resid() Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Další vychytávky (nelineární trendy) • Lowess and loess smoothing methods • Neparametrický odhad trendu pořízený na základě velmi flexibilní lokální regrese • Fituje křivku na data → dobré pro ukázání vztahu proměnných • Vhodné jen pro n < 1000, pokud více → GAM loess.smooth() lowess() -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 0 5 10 15 20 25 30 Environmental variable Dependentvariable Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Další vychytávky (nelineární trendy) • Generalized Aditive Models (GAM) gam() Altitude Temperature Precipitation Continentality ETo Grasslands' patchiness Area of forests Area of rep. grasslands Carp. flysch sedim. 10 20 30 40 50 10 20 30 40 50 ObservedPredicted 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 0.0 0.25 0.5 0.75 1 Environment Diversity Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Forward selection a variation partitioning v lineární regresi Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regresní model v R m <- lm(Y ~ X1 + X2 + … + X5) anova(m) Analysis of Variance Table Response: Species Df Sum Sq Mean Sq F value Pr(>F) Altitude 1 503.89 503.89 31.3657 6.541e-05 *** Slope 1 2.61 2.61 0.1622 0.693243 pH 1 182.77 182.77 11.3768 0.004551 ** Moisture 1 76.63 76.63 4.7702 0.046465 * E3_cover 1 31.73 31.73 1.9753 0.181690 Residuals 14 224.91 16.07 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Lineární regresní model v R m <- lm(Y ~ X1 + X2 + … + X5) anova(m) Analysis of Variance Table Response: Species Df Sum Sq Mean Sq F value Pr(>F) pH 1 667.23 667.23 41.5325 1.536e-05 *** Slope 1 6.50 6.50 0.4044 0.53511 Altitude 1 15.55 15.55 0.9678 0.34192 Moisture 1 76.63 76.63 4.7702 0.04647 * E3_cover 1 31.73 31.73 1.9753 0.18169 Residuals 14 224.91 16.07 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Slope pH Moisture E3_cover Altitude 0.296 -0.759 0.268 -0.331 Slope -0.221 0.085 -0.408 pH -0.229 0.461 Moisture 0.149 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Forward selection • Metoda pro výběr souboru „nejlepších“ vysvětlujících proměnných z celého setu proměnných, které mám k dispozici • Cílem je redukovat počet proměnných, ale zachovat maximální vysvětlenou variabilitu • Dobře použitelné pro ekologické studie s korelovanými proměnnými (nikoliv pro laboratorní experimenty s propracovaným designem) • Použitelné v lineární regresi a vícerozměrných metodách (RDA, CCA) • V R několik funkcí • ordistep {vegan} • ordiR2step {vegan} • forward.sel {packfor} Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Jak pracuje forward selection? • Předem je nutné otestovat signifikanci celého modelu, tj. se všemi vysvětlujícími proměnnými → pokud není signifikantní, nemá smysl dělat FS • Kroky forward selection: 1. Každá vysvětlující proměnná se použije v samostatném modelu → zaznamená se vysvětlená variabilita 2. Seřadí proměnné podle vysvětlené variability od „nejlepší“ po „nejhorší“ 3. Zjistí zda variabilita vysvětlená nejlepší proměnnou je statisticky signifikantní (v regresi použije F-test), pokud není → zastaví výběr 4. Zjistí kolik variability vysvětlí každá ze zbylých proměnných zatímco první vybraná proměnná je zahrnuta v modelu jako kovariáta 5. Seřadí proměnné podle vysvětlené variability a pro nejlepší proměnnou otestuje statistickou významnost jejího příspěvku do modelu, pokud nevýznamný → zastaví výběr 6. Opakuje body 4 a 5 dokud další proměnné významně přispívají do modelu Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Jak pracuje forward selection? • Kritéria pro zastavení výběru 1. Statistická signifikance 2. Adjustovaný R2 globálního modelu (tj. modelu se všemi proměnnými) • Lze použít v lineární regresi a přímé ordinaci (RDA, CCA) • Alternativy k forward selection • backward selection • forward-backward selection Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Rozklad variance (variation partitioning) • Umožňuje rozložit variabilitu vysvětlenou danými proměnnými na následující části: [a] Variabilitu vysvětlenou čistým vlivem první proměnné (nebo sadou proměnných) [b] Variabilitu vysvětlenou sdíleným vlivem první a druhé proměnné (případně první a druhou sadou proměnných) [c] Variabilitu vysvětlenou čistým vlivem druhé proměnné (nebo sadou proměnných) • Je možné použít i více proměnných (jejich sad), ale většinou se končí u 3 až 4 • Lze testovat statistickou signifikanci „čistých vlivů“ • Pokud se skupiny liší počtem proměnných → adjustovaný R2 • Čím více jsou proměnné korelované tím větší bude sdílená variabilita varpart {vegan} Borcard, el al. (1992) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Rozklad variance (variation partitioning) • Umožňuje rozložit variabilitu vysvětlenou danými proměnnými na následující části: [a] Variabilitu vysvětlenou čistým vlivem první proměnné (nebo sadou proměnných) [b] Variabilitu vysvětlenou sdíleným vlivem první a druhé proměnné (případně první a druhou sadou proměnných) [c] Variabilitu vysvětlenou čistým vlivem druhé proměnné (nebo sadou proměnných) • Je možné použít i více proměnných (jejich sad), ale většinou se končí u 3 až 4 • Lze testovat statistickou signifikanci „čistých vlivů“ • Pokud se skupiny liší počtem proměnných → adjustovaný R2 • Čím více jsou proměnné korelované tím větší bude sdílená variabilita varpart {vegan} Borcard, el al. (1992) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Rozklad variance (variation partitioning) • Umožňuje rozložit variabilitu vysvětlenou danými proměnnými na následující části: [a] Variabilitu vysvětlenou čistým vlivem první proměnné (nebo sadou proměnných) [b] Variabilitu vysvětlenou sdíleným vlivem první a druhé proměnné (případně první a druhou sadou proměnných) [c] Variabilitu vysvětlenou čistým vlivem druhé proměnné (nebo sadou proměnných) • Je možné použít i více proměnných (jejich sad), ale většinou se končí u 3 až 4 • Lze testovat statistickou signifikanci „čistých vlivů“ • Pokud se skupiny liší počtem proměnných → adjustovaný R2 • Čím více jsou proměnné korelované tím větší bude sdílená variabilita varpart {vegan} Borcard, el al. (1992) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek kalandra zpěvná (Melanocorypha calandra) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Literatura • Legendre, P. & Legendre, L. (2012): Numerical ecology. Third Edition. Elsevier, Amsterdam. • Borcard, D., Gillet, F. & Legendre, P. (2011): Numerical ecology with R. Springer, New York. • Borcard, D., Legendre, P. & Drapeau, P. (1992): Partialling out the spatial component of ecological variation. Ecology, 73: 1045–1055 • Pekár, S. & Brabec, M. (2009): Moderní analýza biologických dat. Scientia, Praha.