Centrum pro výzkum toxických Látek v prostředí Prostorové modelování -Interpolační techniky -stanovení prostorové autokorelace Klára Komprdová Hf evropský ?0ci?'ní>.„ " ministerstvo školství, fondvCR EVROPSKÁ UNIE mládeže a tělovýchovy pro konkurenceschopnost INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Interpolace x Extrapolace Interpolace — pro „známé" území (oblast o které máme informace) □ nejsou potřeba žádné další informace o podmínkách daného území □ parametry modelu jsou voleny libovolně či empiricky □ neodhaduje se predikční chyba □ většinou nejsou kladeny žádné statistické předpoklady Extrapolace — použití modelu na nové území □ potřebujeme další informace o podmínkách daného území □ složitější modely □ odhad chyby predikce □ statistické předpoklady □ sada parametrických i neparametrických metod Interpolace, aproximace, extrapolace X *0 X1 *2 X3 extrapolace interpolace extrapolace F. Ježek (2006) Interpolace funkcí Interpolace x Extrapolace Extrapolace - prediktivní modelování Interpolační metody rozdělení metod: Deterministické (MECHANICAL/EMPIRICAL MODELS ) - ( , Splines ...) □ parametry modelu jsou voleny libovolně či empiricky neodhaduje se predikční chyba □ většinou nejsou kladeny žádné statistické předpoklady □ Geostotistické (STATISTICAL (PROBABILITY) MODELS) - využívají prostorovou strukturu celého pole, pro celé pole lze spočítat chybu interpolace (různé typy -obyčejný, univerzální, blokový, cokriging, Bayesian Maximum Entropy) □ odhad parametrů v modelu objektivně-teorie pravděpodobnosti □ odhad chyby predikce □ statistické přepoklady □ Metody prediktivniho modelování □ Sada parametrických i neparametrických metod Pokročilejší modelovací přístupy Ordinace, interpolace Přímá ordinace Klasifikace Metody založené na stromech Lineární dikriminační analýza Neuronové sítě Metoda podpůrných vektorů Logistická regrese Bayesovský klasifikátor • • • Regrese Klasický lineání model Lineární zobecněné a aditivní modely Nelineární regrese Na stromech založené techniky Neuronové sítě Metoda podpůrných vektorů Na stromech založené techniky Prostorová autokorelace "everything is related to everything else, but near things are more related than distant things" Waldo Tobler Prostorová autokorelace existence autokorelace prostorových dat je obvyklá způsobuje selhávání některých základních předpokladů statistické analýzy zejména: □ nezávislosti jednotlivých pozorování □ nedostatku předpokladů, týkajících se chyb a reziduí v regresní analýze Nevhodné použití klasických metod korelační a regresní analýzy u dat, která nesou prostorovou informaci byly vyvinuty prostorové modely a metody zohledňující autokorelaci řada způsobů pro testování existence prostorové autokorelace Interpolační metody Využívají prostorové autokorelace Nejznámější kriging a metoda inverzní vzdálenosti IDW - Inverse distance weighted - inverzní vážená vzdálenost Nejjednodušší neparametrická technika Interpolační prostor (povrch) by měl být ovlivněn spíše bližšími body než vzdálenými Interpolační prostor je váženým průměrem rozložení bodů a váha přiřazená každému bodu se zmenšuje se vzrůstající vzdáleností od interpolovaného bodu koncentrace [lig.m"3] I I 5-10 j 10-15 I 15-20 j 20-25 I I 25-30 I | 30-40 j 40-50 ■ 50-00 □ > 60 = IH Příklad použití metody IDW- koncentrace SO„ Obr. 2-97 Pole ročních aritmetických průměrů koncentrací, oxid siřičitý, 1990 a2000 webČHMÚ IDW - Inverse distance weighted - inverzní vážená vzdálenost Velikost příspěvku je přímo úměrná velikosti hodnoty a na druhé straně nepřímo úměrná vzdálenosti. r = ^dXl+dY' lim M Y =M „M"je známá hodnota v i-tém místě, „r" vzdálenost i-tého místa od místa X, „k" je vhodná mocnina vzdálenosti (např. 1 nebo 2) a n je počet bodů. M. Klimánek, Prostorová interpolace dat Příklad — IDW — jaká je hodnota na lokalitě L3? Souřadnice X Kriging Francouzský matematik Georges Matheron odvodil matematický popis krigingu na základě práce důlního inženýra Daniela Gerharduse Kriga, po němž tuto metodu také roku 1 962 nazval při hledání zlatých dolů v jižní Africe! Daniel Gerhardus Krige 26 August 1919 V městě Santa Monica, Kalifornie - byl detekován MTBE (Methyl-3-butyl ether se přidává do benzínu jako antidetonátor) ve spodní vodě v koncentracích ve stovkách ppm (parts per million). Protože MTBE koncentrace byly deset tisíckrát větší než hodnoty doporučené pro pitnou vodu, byly uzavřeny tři z pěti studní, které poskytovaly vodu 40% populace města. MTBE C once r rit r at Ion Prediction In Groundwater by Using Simple Kriging of Geostatistical Analyst 4L zi :4,~ - lid: : -|iTT*tm»ii ■* a0002 DOM A -+- 30006 Meiers Dat& May 17. 2003 Kriging II Sofistikovanější IDW-jak odhadnout váhy jednotlivých bodů? □ odhadnout váhy které odrážejí skutečnou prostorovou autokorelační strukturu □ Semivariance - rozdíly mezi nejbližšími body -> teoretický variogram sill range Variogram ► sumarizuje sílu asociace mezi pozorováními jako funkci vzdálenosti • Experimentální variogram je graf, který ukazuje jak se Ví mocninného rozdílu mezi dvěma hodnotami (semivariance) mění se vzdáleností mezi pozorováními. • Očekáváme menší semivarianci v menších vzdálenostech a stabilní semivarianci mezi hodně vzdálenými pozorováními r(h) i i=\ - Y[Z(Xi) - Z(Xi + h)] (a) SAND —I—I—I—I—I—I— 357- >••> Svislá - nikoliv kolmá vzdálenost k přímce!!! b je výběrovým odhadem skutečné hodnoty /5 Y i * * • * J___L x Každý odhad je zatížen nějakou chybou - z variability dat můžeme spočítat střední chybu odhadu b Hypoteticky základní soubor dat, s regresním koeficientem (3 rovným nule. Zakroužkované body mohou být možným výběrem pěti pozorování. V případě nezávislosti j3=0 Y .• • • J • . * .* • . •••• • . •■ . • ;si • .... Dosažená hladina významnosti pro test H0: /3=0 je pravděpodobnost, že takhle dobrou závislost dostaneme čistě náhodou, pokud jsou proměnné nezávislé i......_i_i_i_i x Koeficient determinace - procento vysvětlené variability 2 variabilita _vysvětlena _modelem residualni _variabilita i=l R = = =1--= = 1 celková variabilita Y celková variabilita Y í=i 2 S S REG « SS, R =-= 1 - SStot ss tot Polynomiální regrese Polynomiální regrese - libovolnou funkci lze nahradit (v omezeném rozsahu hodnot prediktoru) polynomem Mám představu (třeba z nějaké teorie), jak má závislost vypadat, a věřím, že residuály budou náhodně kolem predikované hodnoty tradiční názvy kvadratická regrese, kubická regrese Polynomiální regrese Y = a + j3\X+ /3iX2 + fiiX3 +... + /3mXm +s aplikace mnohonásobné lineární regrese, kde prediktory jsou X, X2, X3 atd. počítá se stejně (tj. opět kriterium nejmenšího součtu residuálních čtverců, které má opět (normálně) jedno minimum). Do modelu jsou přidávány pouze proměnné, které snižují residuální chybu modelu: (forward elimination) - začínáme s konstantou (interceptem) a postupně se přidávají jednotlivé členy (backward elimination) - začínáme se všemi členy, postupně se odebírají ty, které přispívají k nejmenšímu snížení residuální chyby Obdobný význam má i R2 Se zvyšujícím se stupněm polynomu stoupá "flexibilita" 100 2P0 3 00 4.00 Váha, v kilogramech - 0 w i 9 g % • % 9 w • á ft \ v 1 w 6 X 8 10 kvadratická regrese může být vysoce průkazná, i když lineární regrese průkazná není průkaznost kvadratického členu můžeme chápat jako důkaz nelinearity vztahu 12 Zpět k trendové analýze! většinou polynom max. 3. stupně zkoumáme závislost proměnné na prostorové struktuře máme představu (z teorie), jak má závislost vypadat proměnnou můžeme rozdělit na dvě komponenty - trend a odchylky od trendu (residua) (lineární -klesající, stoupající; kvadratický, kubický) □ y = a + jSqX + fty + (32x2 + /33xy + /34y2 Globální trend 1st degree inend surface 2nd degree trend surface 3rd degree trend surface Lineární Kvadratický Kubický příklad 1. Globální gradient + lokální změny http://www. kgs. ku. edu Pouze gradient http://www. kgs. ku. edu Pouze lokální změny po odstranění gradientu Azimuth-35* (0* is South), elevation 35* residua —> lokální změny http://www. kgs. ku. edu Příklad - koncentrace aerobních bakterií Legendre, 2003 říklad — koncentrace aerobních bakterií Začínáme s rovnicí 3. řádu Rovnice 1. řádu (X, Y, X*Y) R2 = 0.02 (p = 0.52) - není významný lineární trend Rovnice 2. řádu (X2, V2,...) R2 = 0.39 (p = 0.21) - stále nevýznamný trend Rovnice 3. řádu (X3, V3,...) R2 = 0.87 pro všechny členy- významný trend-některé členy můžeme odstranit - Používáme pouze je-li viditelná jednoduchá závislost! SDD[SJG>[GJ.riD jAGJ.GJ.SGjÓ [\J^^\\f Prostorová autokorelace Negativní Náhodná Pozitivní Měření prostorové autokorelace Statistické měření pro zjištění prostorové autokorelace - Moranův index (I) a Gearyho index (C) n n 7J7 É £ »>» (y„ - yh, - y) i S £ w« - *): J « v y 1 " a y, jsou hodnoty pozorované na místě h a /', wjsou váhy a y je průměr hodnot Moranův index - podobný Pearsonovu korelačnímu koeficientu (-1,1) Gearyho index - vzdálenostního typu (0, > 1) Moranův index (I) Nulová hodnota znamená náhodnou prostorovou distribuci Pro testování hypotézy se hodnoty Moranova indexu transformuhí na z-skóre (hodnoty větší než 1.96 nebo menší než -1.96 —> prostorová autokorelace je významná na hladině významnosti 5% x-x z =- (7 x je skóre, které chceme standardizovat a a je směrodatná odchylka Kriging má smysl provádět, pokud distribuce není náhodná! Normální rozdělení Procento vzorků tvořící plochu pod křivkou v osmi regionech Standardní odchylka Kumulativní procento Percentily Z-skóre Tskóre Norma!, Betl-shaped Curve +40| + "I I T 10 20 30 40 50 60 70 80 -1-1- r 99 -2.0 +1.0 ♦ +2.0 —I— +3.0 t +4.0 2C 30 53 70 SO wikipedia Zamítnutí / nezamítnutí nulové hypotézy -r o o o Oboustranný test při a = 0,05 Ho:0l=02 7/t :0X*01 Jednostranný test při a = 0,05 fhA=o0 Hx-.ex>e, o Padne-li testová statistika sem — zamítáme Hn Padne-li testová statistika sem - nezamítáme H„ Padne-li testová statistika sem — zamítáme Hn Padne-li testová statistika sem - nezamítáme Hn Padne-li testová statistika sem - zamítáme H„ Kvantily standardizovaného normálního rozdělení Prostorový korelogram Prostorový korelogram - autokorelační hodnoty x vzdálenosti pozorování x matice vzdáleností mezi pozorováními o. 12345 6789 vzdálenost -\-1-1-1-1-1-1-1-1-1-1-1-1-1-1-r 3 6 9 12 15 1S 21 24 27 Distanoe Výpočet indexů pro jednotlivé vzdálenosti Legendre, 2003 Měření prostorové autokorelace existence autokorelace prostorových dat je obvyklá před výpočtem prostorových autokorelačních koeficientů je potřeba spočítat matici geografických vzdáleností mezi lokalitami d= [Dh] Autokorelační koeficienty jsou spočítány pro jednotlivé vzdálenostní třídy d Váhy whj (Kronecker deltaš) kde: whj = 1 - lokalita h a / jsou ve vzdálenosti d whi = 0 jinak pouze páry lokalit (h,i) ve vzdálenostní třídě d jsou použity pro výpočet příslušného koeficientu l/l/je suma všech vah whj pro danou vzdálenostní třídu (počet párů použitých k vypočítání koeficientu) Přesná ukázka výpočtu zde: http://www.gittaJnfo/DiscrSpatVari/en/html/spat_dependJearningObject8.htm^ hodnoty 25 20 25 10 10 5 5 1 1 Vzdálenost 1 1 1 2 2 3 3 3 3 (km) Prostorový korelogram id) Gradient Moran's correlograms Geary's correlograms 2 -1 * 5 6 7 x <} |0 IM2 13 14 15 16 Distance classes 11 II34S67S9I0 I! 12 13 14 [5 If. Distance classes 11 12 13 14 IS Ifi Distance classes i—i—i—i—i—i—i—i—i—i—i—i 3 4 5 6 7 a 9 10 11 12 13 14 15 lí Distance classes if) Sampling grid (15 x 15) .1500 '53 1(KK) e 2500 C _ 2IKK! o ISOO [i. (g) Histogram I 2 .1 4 5 f. 7 8 9 101 1 12 1.1 14 IS If. Distance classes 0 I 2 3456789 10 II 12 11 14 15 16 Distance classes Legendre, 2003 Prostorovy korelogram II (a) Nine bumps Moran's correlograms 3456789 10 11 12 13 14 15 16 Distance classes Geary's correlograms 1 2 3 4 5 6 7 8 9 10 II 12 13 14 15 16 Distance classes (b) Waves (cj Single bump 0 I 2 3 4 5 6 7 8 'J 10 II 12 13 14 15 16 Distance classes 0 I 2 3 4 5 6 7 8 9 10 II 12 13 14 15 16 Distance classes 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Distance classes 5 6 7 8 9 10 11 12 13 14 Distance classes Legendre, 2003 Ukázali jsme si tři techniky pro prostorovou interpolaci: - nejjednodušší, vhodný pro velký počet bodů k „vyhlazení" plochy —> váženo pouze vzdáleností - několik druhů; není potřeba pravidelné vzorkování; váhy odrážejí prostorovou strukturu —> semivariogram - pozor na stat. předpoklady! - využívá polynomiální regrese; k odhadu prostorové závislosti využívá souřadnice; pozor na stat. předpoklady! Tyto metody se v environm. vědách používají nejčastěji —> existují další interpolační metody- někdy příště © Prostorovou distribuci můžeme předem otestovat pomocí ); v ArcGIS dostupný pouze Moranův □ Distribuce: Cvičení v ArcGIS - úkol Každý pro svůj kraj (okres) zjistí prostorovou strukturu koncentrací Hg a Pb v půdě pomocí Moranova Indexu (soubor kovyCR.sta) Na základě výsledků prostorové distribuce zvolte vhodné interpolační metody a vytvořte mapu Úkol pošlete ve Wordu —> všechny výsledky + postup a zvolená nastavení HENGL, T. A Practical Guide to Geostatistical Mapping of Environmental Variables. Luxemburg: EUR 22904 EN Scientific and Technical Research series, Office for Official Publications of the European Communities, 2007. 143 s. ISBN 978-92-79-0690. Legendre P., Legendre L, 1998. Numerical ecology (second ed.). Elsevier, Amsterdam. Legendre, P., 1993. Spatial autocorrelation: trouble or new paradigm? Ecology 74, 1659-1673.