Metody fyzické geografie 3: Biogeografie & ekologie Jan Divíšek Geografický ústav & Ústav botaniky a zoologie Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Metody fyzické geografie 3 – 22. 5. 2017 • Teoretická část • Modelování rozšíření druhů • Machine-learning methods • CART • Random Forest • MaxEnt • Prostorová autokorelace • Praktická část • zítra Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Modelování v biogeografii a ekologii • Postup využívající numerické metody k předpovězení geografického rozšíření druhu na základě pozorovaného vztahu k environmentálním faktorům • Geografická reprezentace rozšíření (1/0) nebo pravděpodobnosti výskytu duhu • Alternativní názvy • Environmental niche modelling (ENM) • Species distribution modelling (SDM) • Climate envelope modelling • Habitat suitability modelling Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Teoretické základy • Modelování rozšíření druhů staví na Hutchinsonově (1957) teorii fundamentální a realizované niky • Neexistuje všeobecný konsenzus o tom, co modely vlastně vyjadřují • Většina modelů nezahrnuje druhové interakce a další faktory omezující rozšíření druhu → fundamentální nika (např. Soberón & Peterson, 2005) • Modely jsou založeny na pozorovaných prezencích (a případně absencích) druhu → realizovaná nika (např. Guisan & Zimmermann, 2000) • Mezidruhové interakce • Pozitivní – součást fundamentální niky (rozšiřují prostor existence organismu) • Negativní – součást realizované niky (limitují prostor existence organismu) • Modelování probíhá v určitém měřítku (rozlišení) → i když se dva druhy vyskytují ve stejném kvadrátu nemusí spolu přicházet do kontaktu Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Obecný postup modelování Franklin (2009) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Obecný postup modelování Guisan & Zimmerman (2000) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Klíčové kroky 1. Teorie, hypotézy, otázky… 2. Data o rozšíření druhu (velikost vzorku, sampling bias, absenční data…) 3. Environmentální data (dostupnost, rozlišení…) 4. Modelovací metoda 5. Testovací a validační metody 6. Finální projekce modelu do prostoru Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Data o výskytu druhu – velikost vzorku • Čím více, tím lépe? • Reprezentativní pokrytí • Areál • Environmentální gradient • Důležitější extrémy než průměr Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Sample size • Porovnání 12 modelovacích metod • 46 druhů z 6 různých oblastí • 3 velikosti vzorků (10, 30 a 100) • Se snižujícím se počtem vzorků klesala přesnost modelů • Nejméně citlivý byl MaxEnt • Žádná metoda nefungovala dobře s n < 30 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Data o výskytu druhu – sampling bias • Přesnost lokalizace • Lokality zaměřené GPS vs. data z gridů • Oversampling × undersampling • Některým územím je věnována vyšší pozornost než jiným (preferenční snímkování) • Pseudo-replikace • Vzdálenost vzorků nižší než rozlišení enviro. dat • Autokorelace • Téměř vždy • Pokud nezůstává v reziduích modelu, je to OK • Pokud ano, obtížné testování vlivu env. proměnných • Chybějící důležitý prediktor Trávníky z EVA Lesní snímky z ČNFD Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek • 10 modelovacích metod • 40 druhů ve 4 odlišných regionech • Chyba lokalizace • Posun každé souřadnice o číslo náhodně vybrané z normálního rozdělení s průměrem 0 a SD = 5 km • Chyba v lokalizaci vzorků snížila přesnost modelu ve 3 ze 4 regionů • I přes chybu v lokalizaci bylo možné pro většinu druhů postavit relativně přesné modely • MaxEnt a Boosted Regression Trees byly nejméně závislé na nepřesnostech v lokalizaci vzorků Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Absenční data • Ne vždy dostupné nebo použitelné • Některé metody vyžadují: • jen prezenční data (MaxEnt) • prezenční a absenční data (GLM, Random Forests) • Pokud nejsou dostupné, používají se tzv. pseudo-absences (background points) • Náhodně vygenerované body v daném regionu • Jejich počet a rozmístění může zásadně ovlivnit výsledek modelu • Pokud nemáme reprezentativní vzorek areálu druhu doporučuje se omezit prostor pro generování pseudo-absences Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Environmentální data • Výběr environmentálních dat vždy závisí na: • otázkách, které řeším • relevanci vzhledem biologickým datům • dostupnosti a jejich kvalitě • prostorovém měřítku, resp. rozlišení • Používat plochojevná zobrazení Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek • Relevance env. prediktorů a frekvence jejich použití v SDMs • 200 studií zamřených na modelování (2010-2015) • Většina studií nepoužila některé důležité ekofyziologické environmentální proměnné (vlhkost, půdní pH, živiny atp.) • Počet používaných relevantních prediktorů stagnuje posledních 15 let Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek • 10 modelovacích metod • 50 druhů ve 5 odlišných regionech • 10× snížené rozlišení env. proměnných Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Metody • Základní 3 kategorie modelovacích metod 1) Profile techniques (jednoduché metody využívající např. environmentální vzdálenosti mezi vzorky) • BIOCLIM • DOMAIN • Ecological Niche Factor Analysis (ENFA) 2) Regression-based techniques • Generalized Linear Models (GLM) • Generalized Additive Models (GAM) • Multivariate Adaptive Regression Splines (MARS) 3) Machine-learning techniques • Boosted Regression Trees (BRT) • Random Forests (RF) • Support Vector Machines (SVM) • MaxEnt Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Machine-learning methods Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Klasifikační a regresní stromy (Classification And Regression Trees, CART) • Rozhodovací strom – sada hierarchicky uspořádaných rozhodovacích pravidel • Podle typu závislé proměnné je dělíme na: • Klasifikační • Regresní • Postupně dělí závislou proměnnou tak, aby její hodnoty uvnitř uzlu byly co nejhomogennější a zároveň mezi uzly co nejrozdílnější • Homogenitu počítá pomocí kriteriální statistiky • Minimální kvadratická chyba pro regresní stromy 𝑄 T • Gini index pro klasifikační stromy 𝑦𝑡 = 1 𝑁𝑡 ෍ 𝑦𝑖(𝑡) 𝑄𝑡 T = 1 𝑁𝑡 ෍ 𝑖=1 𝑁𝑡 𝑦𝑖 − ത𝑦𝑡 2 𝑁𝑡 je počet pozorování v uzlu 𝑡; 𝑦𝑖(𝑡) jsou hodnoty závislé proměnné v uzlu 𝑡 𝐺𝐼 = ෍ 𝑐=1 𝐽 𝑝𝑡𝑐(1 − 𝑝𝑡𝑐) = 1 − ෍ 𝑐=1 𝐽 𝑝𝑡𝑐 2 𝑝𝑐𝑡 je pravděpodobnost kategorie 𝑐 v uzlu 𝑡 Komprdová (2012) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Algoritmus růstu stromu CART 1. Rozděl soubor na trénovací a testovací. Tento poměr se určuje na základě počtu pozorování a účelu studie 2. Najdi nejlepší rozdělení každého z prediktorů a) Pro spojité proměnné - seřaď hodnoty každého prediktoru (spojitého nebo ordinálního) od nejmenší po největší → pro všechna možná dělení závislé proměnné na dva dceřiné uzly spočítej kriteriální statistku → rozdělení (dělící hodnota), pro které je kriteriální statistika nejmenší se použije pro rozdělení závislé proměnné b) Pro kategoriální proměnné – vyzkoušej všechny možnosti rozdělení závislé proměnné pomocí kategorií vysvětlující proměnné a pro každé dělení spočítej kriteriální statistiku → rozdělení (dělící hodnota), pro které je kriteriální statistika nejmenší se použije pro rozdělení závislé proměnné 3. Rozděl soubor na dva dceřiné uzly t1 a t2 podle hodnoty prediktoru vybrané v kroku 2 4. Opakuj krok 2 a 3, dokud není dosaženo některého z pravidel pro zastavení růstu stromu 5. Použij testovací soubor k ověření vhodné velikosti stromu, a pokud je strom příliš velký, prořež strom (prune tree) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Kritéria pro zastavení růstu stromu (stopping rules) 1. Terminální uzel obsahuje pouze jedno pozorování 2. Všechna pozorování v uzlu mají stejnou hodnotu všech prediktorů (s použitím vybraných prediktorů již nelze závislou proměnnou dále dělit) 3. Všechna pozorování v uzlu mají stejnou hodnotu závisle proměnné (uzel je zcela homogenní) Definovaná kritéria 1. Maximální počet větvení daného stromu 2. Maximální počet pozorování v koncovém uzlu 3. Frakce pozorování v uzlu, která již nemůže být oddělena 4. Velikost chyby v potenciálních dceřiných uzlech (uzel se nerozdělí, pokud střední kvadratická chyba (MSE) nebo procento nesprávně klasifikovaných vzorků v důsledku rozdělení překročí určitou hranici) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Počet pozorování v daném uzlu CART v R FLUVISOL <> 0.5 27.4 ; 97 obs; 43.4% pH <> 4.255 24.4 ; 81 obs; 12.5% pH <> 3.675 22 ; 59 obs; 4.3% 15.9 10 obs 1 ELEVATION >< 457.5 23.2 ; 49 obs; 2.3% CAMBISOL <> 0.5 21.7 ; 33 obs; 1.8% 17.1 7 obs 2 COVERE3 >< 62.5 22.9 ; 26 obs; 1% 20.8 13 obs 3 24.9 13 obs 4 26.4 16 obs 5 COVERE1 >< 65 30.9 ; 22 obs; 1.8% 26.7 7 obs 6 32.9 15 obs 7 42.7 16 obs 8 Total deviance explained = 67.1 % n= 97 node), split, n, deviance, yval * denotes terminal node 1) root 97 10293.5100 27.41237 2) FLUVISOL< 0.5 81 4807.3580 24.39506 4) pH< 4.255 59 2303.9320 21.96610 8) pH< 3.675 10 296.9000 15.90000 * 9) pH>=3.675 49 1563.9590 23.20408 18) ELEVATION>=457.5 33 841.3333 21.66667 36) CAMBISOL< 0.5 7 104.8571 17.14286 * 37) CAMBISOL>=0.5 26 554.6538 22.88462 74) COVERE3>=62.5 13 211.6923 20.84615 * 75) COVERE3< 62.5 13 234.9231 24.92308 * 19) ELEVATION< 457.5 16 483.7500 26.37500 * 5) pH>=4.255 22 1221.8180 30.90909 10) COVERE1>=65 7 511.4286 26.71429 * 11) COVERE1< 65 15 529.7333 32.86667 * 3) FLUVISOL>=0.5 16 1015.4380 42.68750 * Proměnná a její hodnota použitá pro dělení Průměrná hodnota závislé proměnné v daném uzlu Variabilita vysvětlená dělením Číslo terminálního uzlu Průměrná hodnota závislé proměnné v terminálním uzlu Počet pozorování v terminálním uzlu Variabilita vysvětlená regresním stromem rpart {rpart} Vegetační snímky z transektů v údolí Vltavy. Zelený & Chytrý (2007) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Výběr optimálního stromu • K určení optimální velikosti stromu lze použít kritérium složitosti stromu (costcomplexity criterium) • Složitost stromu = jeho velikost (počet terminálních uzlů) 𝐶 𝛼 𝑇1 = 𝐷𝑇1 + 𝛼 𝑇1 𝑇1 je počet terminálních uzlů stromu; 𝐷𝑇1 je chyba stromu 𝑇1 Parametr 𝛼 ≥ 0 vyjadřuje kompromis mezi velikostí stomu a jeho přesností K odhadu α se používá křížová validace Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Křížová validace (Cross-validation) • Pozorování jsou rozdělena do k nezávislých podsouborů • Jeden podsoubor se vždy použije pro testování (pozorování nejsou použita při tvorbě modelu) • Ostatní podsoubory, tj. k-1 skupin se použije pro tvorbu modelu • Celkem je vytvořeno k modelů otestovaných na k testovacích souborech • Vybereme strom s největší přesností, ale zároveň rozdíl v chybě mezi testovacím a trénovacím souborem musí být co nejmenší • Přesnost stromu • Klasifikační strom – podíl správně zařazených pozorování • Regresní stromu – koeficient determinance (R2) • Chyba regresního • Pro trénovací soubor • Pro testovací soubor 𝑒 𝑡 = 1 − 𝑅𝑡𝑟𝑒𝑛 2 𝑒′ 𝑡 = 1 − 𝑅𝑡𝑒𝑠𝑡 2 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Křížová validace (Cross-validation) cp X-valRelativeError 0.40.60.81.01.2 Inf 0.23 0.073 0.032 0.02 0.018 0.014 0.01 1 2 3 4 5 6 7 8 size of tree FLUVISOL <> 0.5 27.4 ; 97 obs; 43.4% pH <> 4.255 24.4 ; 81 obs; 12.5% 22 59 obs 1 30.9 22 obs 2 42.7 16 obs 3 Total deviance explained = 55.9 % Složitost stromu Počet terminálních uzlů Minimální cross-validovaná chyba + 1SE (standardní chyba odhadu) Vegetační snímky z transektů v údolí Vltavy. Zelený & Chytrý (2007) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Výhody a nevýhody CART Výhody • Neklade žádné podmínky na typ rozdělení závisle proměnné ani prediktorů • Závisle proměnná i prediktory mohou být všech typů (kategoriální, ordinální i spojité) • Je možné použít korelované prediktory, protože strom roste hierarchicky a pro dělení se vybírá vždy jen jeden prediktor (mj. ze všech možných korelovaných) • Výsledky přesnosti stromu lze snadno porovnat s výsledky jiných modelů (R2) • Snadné grafické znázornění v podobě grafu se stromovou strukturou, z čehož plyne jednoduchá interpretace získaných výsledků Nevýhody • Nestabilita - malá změna v datech způsobí změny v rozhodovacích pravidlech uvnitř uzlů, což může vést ke změně výsledných klasifikací/predikcí • Vzhledem k nestabilitě je nutná opatrnost při interpretaci stromu • Stromy jsou nevhodné pro malý počet vzorků a velký počet kategorií závisle proměnné • Měření přesnosti stromu je výrazně závislé na krosvalidačním mechanizmu a dalších parametrech při validaci modelu ve fázi učení (např. pravidla pro zastavení růstu stromu) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Náhodné lesy Random Forests Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Náhodné lesy (Random Forest) • Metoda je založena na CART → kombinací více stromů vzniká náhodný les • Náhodné lesy odstraňují problémy spojené s CART, zejména jejich nestabilitu • Jsou však složitější a méně přehledné → někdy (dříve) považováno za tzv. „black- box“ • Původně pro velké soubory s velkým množstvím prediktorů • Lze použít (stejně jako CART) pro klasifikaci a regresi • V biogeografii se dnes často používají pro prostorové modelování rozšíření druhů → velice efektivní randomForest {randomForest} Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Princip výpočtu náhodného lesa 1. Vytvoř bootstrapový podsoubor Li o velikosti N → trénovací soubor • bootstrapový výběr = náhodný výběr 2. Vyber náhodně 𝑚 prediktorů 3. Vytvoř strom Ti na bootstrapovém souboru Li pouze s použitím 𝑚 náhodně vybraných prediktorů • pro klasifikaci je hodnota 𝑚 = 𝑝 a minimální velikost uzlu je 1 • pro regresi je hodnota 𝑚 = 𝑝/3 a minimální velikost koncového uzlu je 5 4. Pomocí vytvořeného stromu predikuj oob (out-of-bag, out of bootstrap sample) data (testovací soubor) → výpočet chyby stromu 5. Opakuj kroky 1-4 až do konečného počtu stromů v lese (500 ale lze nastavit uživatelem) 6. Spočítej celkový výsledek klasifikace/predikce celého lesa většinovým hlasováním/průměrováním Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Výsledek náhodného lesa v R Call: randomForest(x = env, y = div, ntree = 200, mtry = 7, importance = T, nPerm = 999) Type of random forest: regression Number of trees: 200 No. of variables tried at each split: 7 Mean of squared residuals: 54.87076 % Var explained: 49.44 Počet stromů v lese Počet proměnných k dispozici pro každé dělení Vysvětlená variabilita Průměr ze čtverců reziduálních hodnot randomForest {randomForest} Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Důležitost proměnných v modelu Tertiary volcanic rocks Cretaceous sediments Heat load index Proterozoic and Palaeozoic rocks Upper Tertiary and Quaternary sediments Topographic wetness index Build-up area Limestone and calcareous sediments Terrain ruggedness Total area of grasslands Connectivity of grassland patches Actual evapotranspiration Continentality Mean annual temperature Length of grassland edges Average patch perimeter-area ratio Area of fields Carpathian flysch sediments Area of forests Reference evapotranspiration Area of semi-natural grasslands Annual precipitation Altitude Plot size 10 15 20 25 30 35 40 %IncMSE Tertiary volcanic rocks Cretaceous sediments Limestone and calcareous sediments Upper Tertiary and Quaternary sediments Proterozoic and Palaeozoic rocks Build-up area Connectivity of grassland patches Area of fields Length of grassland edges Heat load index Plot size Area of forests Total area of grasslands Terrain ruggedness Average patch perimeter-area ratio Mean annual temperature Topographic wetness index Actual evapotranspiration Altitude Continentality Reference evapotranspiration Area of semi-natural grasslands Annual precipitation Carpathian flysch sediments 0 10000 30000 50000 IncNodePurity RF.grass.9.25.1950.max.filter02.gridstratID50ps Mean decrease in accuracy Mean decrease in node impurity O kolik permutace (znáhodnění) dané proměnné zhorší predikci testovacích dat (oob dat). Čím nižší predikční schopnost (větší predikční chyba MSE) modelu tím významnější proměnná. Měří jak dobře je vysvětlující proměnná schopna dělit závislou proměnnou. Čím homogennější shluky oddělí tím je významnější. importance {randomForest} varImpPlot {randomForest} Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Důležitost proměnných v modelu Mean decrease in accuracy (%) 1. Pro každý strom je spočítána chyba na testovacích datech (oob data) • Pro klasifikací se měří podílem chybně klasifikovaných vzorků (misclassification rate) • Pro regresi MSE 2. Testovaná proměnná se zamíchá a opět se spočítá predikční chyba 3. Spočítá se rozdíl predikčních chyb pro daný strom 4. Rozdíly se zprůměrují přes všechny stromy a podělí se směrodatnou odchylkou Mean decrease in node impurity 1. Vždy, když je proměnná použita pro dělení se spočítá o kolik poklesne míra „heterogenity“ uzlu • Pro klasifikaci se měří Gini indexem • Pro regresi reziduální sumou čtverců (RSS) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Partial dependence plot • Ukazuje marginální efekt vybrané proměnné, tj. vztah závislé a vysvětlující proměnné • Jedná se o vztah mezi závislou a vysvětlující proměnnou za situace, kdy vlivy všech ostatních proměnných jsou zprůměrovány 200 400 600 800 1000 1200 1400 35.536.036.537.037.538.038.5 Partial Dependence on "Altitude" "Altitude" partialPlot {randomForest} Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek 200 400 600 800 1000 1200 1400 35.536.036.537.037.538.038.5 Partial Dependence on "Altitude" "Altitude" Numberofspecies Temp Prec Altitude pH Slope Samp1 6.5 435 400 6.1 3.9 Samp2 5.9 869 400 5.9 5.8 Samp3 6.2 501 400 6.2 2.4 Samp4 7.1 467 400 6.6 1.2 … … … … … … SampN 2.1 1102 400 5.2 9.5 Temp Prec Altitude pH Slope Samp1 6.5 435 300 6.1 3.9 Samp2 5.9 869 300 5.9 5.8 Samp3 6.2 501 300 6.2 2.4 Samp4 7.1 467 300 6.6 1.2 … … … … … … SampN 2.1 1102 300 5.2 9.5 Princip výpočtu Temp Prec Altitude pH Slope Samp1 6.5 435 253 6.1 3.9 Samp2 5.9 869 560 5.9 5.8 Samp3 6.2 501 280 6.2 2.4 Samp4 7.1 467 200 6.6 1.2 … … … … … … SampN 2.1 1102 1400 5.2 9.5 Maximum = 1400Minimum = 200 200 300 400 500 1200 1400 ………………………………………….. Temp Prec Altitude pH Slope Samp1 6.5 435 200 6.1 3.9 Samp2 5.9 869 200 5.9 5.8 Samp3 6.2 501 200 6.2 2.4 Samp4 7.1 467 200 6.6 1.2 … … … … … … SampN 2.1 1102 200 5.2 9.5 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Random Forest in species distribution modelling Edwards et al., ECOCHANGE, Lausanne, Sep 2009 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Predikce druhové bohatosti travinné vegetace ČR Var. explained: 45.5% Var. explained: 50.1% Var. explained: 25.3% Var. explained: 53.8% Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Predikce druhové bohatosti lesní vegetace ČR Var. explained: 46.5% Var. explained: 45.8% Var. explained: 46.0% Var. explained: 34.3% Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Predikce druhové bohatosti lesní vegetace Evropy Večeřa et al. (in prep.) Var. explained: 44.2% Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Maximum entropy modeling Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek MaxEnt • Metoda „strojového učení“ a software uvedený v r. 2004 pro modelování prezenčních dat • „The model minimizes the relative entropy between two probability densities (one estimated from the presence data and one, from the landscape) defined in covariate space“ (Elith et al. 2011) • JAVA program, R knihovna dismo, SDMtoolbox pro ArcGIS Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Data • Prezenční data • Souřadnice X a Y lokalit výskytu druhu (csv formát) • Absenční data • Využívá tzv. background points (pseudo-absences), které charakterizují environmentální podmínky studované oblasti • Background points (zpravidla 10 000) jsou náhodně vybírané z celé studované oblasti, nebo z předdefinovaného prostoru (bias file) • Environmentální data • Rastrové vrstvy (ascii) ve stejném rozlišení a rozměru Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Výstup MaxEntu Pravděpodobnostní (0…0.5….1) Kategoriální (0/1) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Evaluace modelu • Pro kategoriální model • Threshold-dependent measures (např. Kappa) • Pro pravděpodobnostní model • Threshold-independent measures (např. AUC) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Evaluace kategoriálního modelu • The confusion (error) matrix presence (1) absence (0) presence(1) n n absence(0) n n Testovací data Model Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Evaluace kategoriálního modelu • The confusion (error) matrix presence (1) absence (0) presence(1) n n absence(0) n n Testovací data Model Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Evaluace kategoriálního modelu • The confusion (error) matrix presence (1) absence (0) presence(1) n n absence(0) n n Testovací data Model True positives (TP) True negatives (TN) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Evaluace kategoriálního modelu • The confusion (error) matrix presence (1) absence (0) presence(1) n n absence(0) n n Testovací data Model Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Evaluace kategoriálního modelu • The confusion (error) matrix presence (1) absence (0) presence(1) n n absence(0) n n Testovací data Model False positives (FP) False negatives (FN) omission error commission error Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Evaluace kategoriálního modelu • The confusion (error) matrix presence (1) absence (0) presence(1) n n absence(0) n n Testovací data Model Sensitivity (% true positives) Specificity (% true negatives) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Evaluace kategoriálního modelu Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Evaluace pravděpodobnostního modelu • Receiver Operating Characteristic (ROC curve) Truepositiverate False positive rate Hodnoty pro různé thresholdy (0,0.1…1) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Evaluace pravděpodobnostního modelu • Area Under ROC Curve (AUC) Truepositiverate False positive rate Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Literatura • Legendre, P. & Legendre, L. (2012): Numerical ecology. Third Edition. Elsevier, Amsterdam. • Borcard, D., Gillet, F. & Legendre, P. (2011): Numerical ecology with R. Springer, New York. • Haruštiaková, D., Jarkovský, J., Littnerová, S. & Dušek, L. (2012): Vícerozměrné statistické metody v biologii. Akademické nakladatelství CERM, s.r.o., Brno. • Komprdová, K. (2012): Rozhodovací stromy a lesy. Akademické nakladatelství CERM, s.r.o., Brno. • http://rspatial.org/index.html • Elith, J., S.J. Phillips, T. Hastie, M. Dudik, Y.E. Chee, C.J. Yates, 2011. A statistical explanation of MaxEnt for ecologists. Diversity and Distributions 17:43-57.