■ MUNI SCI Popisná statistika bodových dat Statistický popis prostorového uspořádání bodů Statistická analýza plošných jevů podzim 2023 Lukáš Herman herman.lu@mail.muni.cz 1 Ii'Ii V T I •! • O čem článek (v kostce) je? • Co je prostorová autokorelace? Článek Open Journal of Civil Engineering, 2017, 7, 208-221 ^j^^ Scientific http://www.scirp.org/iournal/ojce Research — -— - ▼♦V Publishing ISSN Online: 2164-3172 ♦ ISSN Print: 2164-3164 A Novel Hybrid Method for Measuring the Spatial Autocorrelation of Vehicular Crashes: Combining Moran's Index and Getis-Ord Gj Statistic Azad Abdulhafedh* Department of Civil and Environmental Engineering, University of Missouri, Columbia, MO, USA Email: asa8cd@mail.missuuri.edu How to cite this paper: Abdulhafedh, A. (2017) A Novel Hybrid Method tor Measuring the Spatial Autocorrelation of Vehicular Crashes: Combining Moran's Index and Gelis-Ord G* Statistic. Open Journal of Civil Engineering, 7, 208-221. https://doi.org/ 1Q.4236/O)ce-2017.72013 Received: February 13, 2017 Accepted: June 3, 2017 Published: June 6, 2017 Copyright © 2017 by author and Scientific Research Publishing Inc. This work is licensed under the Creative Commons Attribution International Abstract Spatial autocorrelation is a measure of the correlation of an observation with other observations through space. Most statistical analyses are based on the assumption that the values of observations are independent of one another. Spatial autocorrelation violates this assumption, because observations at nearby locations are related to each other, and hence, the consideration of spatial autocorrelations has been gaining attention in crash data modeling in recent years, and research have shown that ignoring this factor may lead to a biased estimation of the modeling parameters. This paper examines two spatial autocorrelation indices: Moran's Index; and Getis-Ord G* statistic to measure The spatial autocorrelation of vehicle crashes occurred in Boone County roads in the state of Missouri, USA for the years 2013-2015. Since each index can identify different clustering patterns of crashes, therefore this paper introduces a m...... "■ mc II i ■ Prostorová autokorelace 1 ii i li Hodnoty atributu spolu korelují v závislosti na jejich vzájemné II poloze. II To může být v důsledku podobných přirozených (přírodních) 1 podmínek {např. produkce zemědělských podniků) či v důsledku přirozené spojitosti jevů. • Příklad - okresy Jihomoravského kraje: pozitivní prostorové autokorelace {shlukové uspořádání - vlevo) a negativní prostorové autokorelace {disperzní uspořádání - vpravo) Il 11 Prostorová autokorelace l-P -Pea+ures were randomly dis+ribu+ed ... population densi+y map o-P +he US would look like this elevation map o-P +he US would look like this nil ■ 'i ■ Článek Jaké příklady prostorových statistik/analýz clanek popisuje? V čem spočívá „novost" představené hybridní metody? jfáf Scientific ♦»jl^ Research ▼j^t Publishing Open Journal of Civil Engineering, 2017,7,208-221 http://www.scirp.orE/iournal/oice ISSN Online: 2164-3172 ISSN Print: 2164-3164 A Novel Hybrid Method for Measuring the Spatial Autocorrelation of Vehicular Crashes: Combining Moran's Index and Getis-Ord G*; Statistic Azad Abdulhafedh* Department of Civil and Environmental Engineering, University of Missouri, Columbia, MO, USA Email: asa8cd@mail.missouri.edu How to cite this paper: Abdvdhafedh, A. (2017) A Novel Hybrid Method tor Measuring the Spatial Autocorrelation of Vehicular Crashes: Combining Moran's Index and Getis-Ord g' Statistic. Open Journal of Chil Engineering, 7, 208-221. hnps://doi.orfl/l0.4236/oice.2017.72013 Received: February 13,2017 Accepted: June 3, 2017 Published: June 6, 2017 Copyright 2017 by author and Scientific Research Publishing Inc. This work is licensed under the Creative Commons Attribution International Abstract Spatial autocorrelation is a measure of the correlation of an observation with other observations through space. Most statistical analyses are based on the assumption that the values of observations are independent of one another. Spatial autocorrelation violates this assumption, because observations at nearby locations are related to each other, and hence, the consideration of spatial autocorrelations has been gaining attention in crash data modeling in recent years, and research have shown that ignoring this factor may lead to a biased estimation of the modeling parameters. This paper examines two spatial autocorrelation indices: Moran's Index; and Getis-Ord G' statistic to measure the spatial autocorrelation of vehicle crashes occurred in Boone County roads in the state of Missouri, USA for the years 2013-2015. Since each index can identify different clustering patterns of crashes, therefore this paper introduces a nil ■ 'i ■ Článek Odhalili jste nějaké specifikum z hlediska geometrie použitých prostorových dat? Odhalili jste v článku nějaká problém (nedostatek, chybu)? jfáf Scientific ♦»jl^ Research ▼j^t Publishing Open Journal of Civil Engineering, 2017,7,208-221 http://www.scirp.orE/iournal/oice ISSN Online: 2164-3172 ISSN Print: 2164-3164 A Novel Hybrid Method for Measuring the Spatial Autocorrelation of Vehicular Crashes: Combining Moran's Index and Getis-Ord G*; Statistic Azad Abdulhafedh* Department of Civil and Environmental Engineering, University of Missouri, Columbia, MO, USA Email: asa8cd@mail.missouri.edu How to cite this paper: Abdvdhafedh, A. (2017) A Novel Hybrid Method tor Measuring the Spatial Autocorrelation of Vehicular Crashes: Combining Moran's Index and Getis-Ord g' Statistic. Open Journal of Chil Engineering, 7, 208-221. hnps://doi.orfl/l0.4236/oice.2017.72013 Received: February 13,2017 Accepted: June 3, 2017 Published: June 6, 2017 Copyright 2017 by author and Scientific Research Publishing Inc. This work is licensed under the Creative Commons Attribution International Abstract Spatial autocorrelation is a measure of the correlation of an observation with other observations through space. Most statistical analyses are based on the assumption that the values of observations are independent of one another. Spatial autocorrelation violates this assumption, because observations at nearby locations are related to each other, and hence, the consideration of spatial autocorrelations has been gaining attention in crash data modeling in recent years, and research have shown that ignoring this factor may lead to a biased estimation of the modeling parameters. This paper examines two spatial autocorrelation indices: Moran's Index; and Getis-Ord G' statistic to measure the spatial autocorrelation of vehicle crashes occurred in Boone County roads in the state of Missouri, USA for the years 2013-2015. Since each index can identify different clustering patterns of crashes, therefore this paper introduces a 1 Ii Ii Iii i ill 1 Prostorová statistiky bodových a plošných dat1 Charakteristiky polohy Charakteristiky rozptylu Průměrný střed Vážený průměrný střed Mediánový střed Agregovaný průměrný střed Charakteristiky asymetrie Charakteristiky špičatosti Analýza kvadrátů Směrodatná vzdálenost Vážená směrodatná vzdálenost Koeficient relativního rozptylu Směrodatná elipsa odchylek Prostorové uspořádání Prostorová autokorelace Metoda nejbližšího souseda Prostorová autokorelace Globální míry Lokální míry - Joint Count Statistics - LISA - Moranův index I - Lokální verze G statistiky Gearyho poměr C G statistika ■ I li ii ■ 11 lil Popisná statistika bodových U 1 1 objektů 1 Charakteristiky polohy Charakteristiky rozptylu Charakteristiky asymetrie Charakteristiky špičatosti Pozitivní šikmost: negativní šikmost: o o o Ifc. . ° ° o * o • • • Liver, .ol o © O < o o • ° ° • 1 0 o ^ ■ I 'I 'I' I M ,|P Charakteristiky polohy 1 • Průměrný střed (mean center) • Vážený průměrný střed (weighted mean center) • Agregovaný průměrný střed • Mediánový střed (median center) 1 Ii Ii Průměrný střed Průměrný střed leží na průměru souřadnic X a Y. Vzorec: - Xpraměr = Součet hodnot X souřadnic všech bodů / počet bodů - Yprůměr = Součet hodnot Y souřadnic všech bodů / počet bodů Má stejné nevýhody jako aritmetický průměr - je to především citlivost na extrémní hodnoty. - Například v případě shlukového uspořádání bodů průměrný střed dobře nereprezentuje množinu bodů |Geoprocessing © Mean Center Parameters Environments * Input Feature Class Output Rozčlenení bodu na kategorie ® (f) v B Output Feature Class IB Weight Field Case Field Dimension Field 1 The mean center and media center of fire stations in Austin, Texas. Note that some fire stations are in the Austin extra territorialjurisdiction (ETJ) area, and therefore are located outside of the city boundary. Data source: data. A ustin Texas, go v Příklad Legend + + Median Center Mean Center Fire Stations Major Roads Austin City Boundary 1 Ii Ii 1 lľ iľ Vážený průměrný střed Používá se v případě výskytu více událostí/objektu na stejném místě. Pak má každý bod váhu přímo úměrnou počtu událostí/objektů na tomto místě. Např.: při výpočtu prostorového průměru několika měst bude průměrný střed dávat realističtější představu o centrální tendenci, jestliže ho budeme vážit počtem obyvatel jednotlivých měst Geoprocessing © Mean Center Parameters Environments v í X ® * Input Feature Class * Output Feature Class □ Case Field □ Dimension Field Illl 'I' if I Mean Center of Population for the United States: 1790 to 2000 11 íl "ľ I -I ,lf ' ' I Mediánový střed a) najdeme medián na ose X a Y a vedeme z nich linie kolmé na směr osy. Takto definovaný „medián ze souřadnic" ale nemusí odpovídat mediánu souboru bodů, protože distribuce nemusí být mezi kvadranty vyrovnaná. b) (UK): Mediánový střed je střed, kterým se studovaná plocha dělí do čtyř kvadrantů, z nichž každý obsahuje stejný počet bodů. c) (US): Mediánový střed jako střed vyžadující minimální (nejkratší) cestu. Tj. celková vzdálenost z mediánového středu do každého z bodů je minimální. Jinak řečeno - cesta z jakéhokoliv jiného místa do všech bodů oblasti bude delší než cesta z mediánového středu. Output ArcGIS Pro: Identifies the location that minimizes overall Euclidean distance to the features in a dataset. Geoprocessing Median Center s v x © Parameters Environments * Input Feature Class * Output Feature Class Weight Field Case Field Attribute Field ...... Vlastnosti charakteristik polohy Průměrný střed minimalizuje sumu čtverců vzdáleností Mediánový střed minimalizuje sumu vzdáleností - jeho interpretace je jednodušší Nejčastěji se využívá váženého mediánového středu (demografie) - Př.: srovnání vývoje osídlení v čase Charakteristiky polohy bez uvedení charakteristik rozptylu mají malou vypovídací schopnost a mohou být zavádějící ...... II 1 1 Charakteristiky rozptylu 1 Směrodatná vzdálenost (standard distance circle) Vážená směrodatná vzdálenost (weighted standard distance) Koeficient relativního rozptylu (coefficient of relative dispersion) Směrodatná elipsa odchylek (standard deviational ellipse) Ii Ii Směrodatná vzdálenost Směrodatná vzdálenost je nejčastěji používána ve formě kružnice kolem průměrného středu (Standard distance circle), jejíž poloměr je právě hodnota směrodatné vzdálenosti. Tyto kružnice nám dávají představu o rozptylu hodnot kolem střední hodnoty pro jednotlivé typy jevů. A polygon feature class that™ will contain a circle polygon for each input center. These circle polygons graphically portray the standard distance at each center point. Geoprocessing © Standard Distance Parameters Environments © <2> Input Feature Class a Output Standard Distance Feature Class Circle Size 1 standard deviation v Weight Field Case Field ...... f 1 1 Směrodatná vzdálenost1 Mohou být použity i pro studium dynamiky jevů - př.: různé kružnice pro jeden jev v různých časových horizontech Směrodatná vzdálenost (standard distance) je absolutní mírou - je problematické její použití k porovnání několika souborů Vhodnější jsou míry relativní Vážená směrodatná vzdálenost * Output Standard Distance Feature Class Circle Size ^^taüdärd d evi ati o n v Weight Field J Case Field ■ I ■! ľ f Koeficient relativního rozptylu 1 • Poměr směrodatné vzdálenosti a poloměru kruhu se stejnou plochou jakou má studovaná oblast. • Řeší problém použití absolutní míry směrodatné vzdálenosti. • Je-li oblast různě velká (ohraničená), vznikají zavádějící hodnoty. • K získání relativní míry při studiu variability obyvatelstva se někdy používá poloměr země nebo státu místo poloměru kruhu se stejnou plochou jakou má studovaná oblast. Geoprocessing v í X © Minimum Bounding Geometry © Parameters Environments nput Features Output Feature Class a Geometry Type Circle M " None v Add geometry characteristics as attributes to output CRD = lOO*-*- = 100*^É= = 100*Sd* A, 'R 71 R poloměr z plochy kruhu: R = V (Pln) 1 llll 'ľ ľ I 11 I Směrodatná elipsa odchylek • V mnoha případech může vykazovat prostorové rozdělení jevů určité rysy směrovosti (directional bias), např.: - rozdělení míst nejčastějších dopravních nehod podél dálnice. • V tomto případě se použití kružnice jako míry rozptylu hodnot jeví jako nevhodné. • Jako logické rozšíření směrodatné kružnice odchylek se může jevit použití směrodatné elipsy odchylek. Tuto elipsu popisují tři atributy: - úhel rotace - směrodatná odchylka podél hlavní osy elipsy - směrodatná odchylka podél vedlejší osy elipsy • Maximální rozptyl bude orientován v souladu s hlavní osou elipsy. 1 Ii Ii ľ Směrodatná elipsa odchylek Př.: - Množství kontaminující látky ve vzorku studní může indikovat trend jejích šíření - Porovnání velikosti, tvaru resp. překryvu elips k porovnání změn v rozšiřování etnik či rostlinných resp. živočišných společenstev - Epidemiologie - vystižení hlavního trendu šíření onemocnění v populaci INPUT OUTPUT v 1JX Geoprocessing © Directional Distribution (Standard Deviation... © Parameters Environments f Input Feature Class * Output Ellipse Feature Class Ellipse Size 1 standard deviation Weight Field Case Field Standard deviation ellipse created based on Austin fire station locations Data source: da ta. Austin Texas, go v Legend ■ ■ Standard Deviation Ellipse * Fire Stations Major Roads Austin City Boundary Příklad ■Ml Poznámky k deskripci bodů hustota bodů v ploše (počet/plocha = n/R), charakteristiky založené na vzdálenosti mezi body či na relativních vzdálenostech jako je např. di/dmax. použití - porovnávání (např. v čase) při výpočtech v relativně malých oblastech používáme euklidovskou geometrii, protože se v nich neprojeví zakřivení Země. uvedené míry mohou být aplikovány i na plochy. - Jakým způsobem? 1 I 'li 1 I 1 ■ I ■■■ Základní metody statistického popisu 1 prostorového uspořádání bodů Analýza kvadrátů - testujeme, zda rozmístění bodů v ploše je náhodné či nikoliv. Metoda nejbližšího souseda - porovnává průměrnou vzdálenost mezi nejbližšími sousedy pole bodů k teoretickému rozmístění. Regular Random Clustered r* * u Prostorová autokorelace - měří jak podobné či nepodobné jsou hodnoty atributu sousedních bodu. * * Ti " 1 ■ I lil ■ 11 ■ I 11 lil Metody statistického popisu bodů -1 obecně • Rozmístění bodů v prostoru je výsledkem určitých procesů či vhodných podmínek (lokace měst je výsledkem působení faktorů jako reliéf, přírodní zdroje, komunikace, atd.) • Cílem studia prostorového rozmístění bodů je zjistit: - jak daleko má konkrétní rozmístění objektů k rozmístění teoretickému - jak se liší rozmístění bodů ve dvou různých oblastech - jak se mění rozmístění bodů v rámci jedné oblasti v čase. • Statisticky prokázaný výskyt určitého prostorového uspořádání může být základem pro zjišťování příčin, které vedly k pozorovanému uspořádání. • Problémy: - měřítko - rozsah studované oblasti - kartografická projekce 1 ll íl Analýza kvadrátů Je založena na hodnocení změn hustoty bodů v prostoru. Je porovnáváno, zda rozmístění bodů v prostoru je náhodné, či má blíže k uspořádání shlukovému či pravidelnému. Studovaná plocha je rozdělena pravidelnou sítí na buňky a je zjištěn počet bodů v každé buňce. Viewl lf Ohcities.shp 1 -si u -: ■ i , -.1 \m ■ ■ ■ ■ ■ 7 h —i | "i ■ i / m *J— ■ J ■ r- Analýza kvadrátů Je analyzováno rozdělení četností buněk s určitým počtem bodů. Toto rozdělení je porovnáváno s náhodným rozdělením četností. - Extrémně shlukové uspořádání - většina bodů v jedné či několika málo buňkách. - Extrémně pravidelné - ve všech buňkách přibližně stejně Buňky se označují jako kvadráty a nemusí jít o čtverce, ale např. i o kruhy či šestiúhelníky - je to dáno empirií. V rámci jedné analýzy však tvar a velikost buněk musí být konstantní. 11 11 '!i Optimální velikost kvadrátů (QS) - QS = (2*A)/n - A: plocha studované oblasti - n: počet analyzovaných bodů. Velikost strany vhodného kvadrátu - V(2A/n) n Analýza kvadrátů Legend Study area has been divided into 4*5 uniformly shaped quadrats of 81 km2, and the top left quadrat has a density of 1/81. Quadrats Fire Stations -Major Roads City Boundary Praktický postup testování výsledků analýzy kvadrátů 1. (HO) - neexistuje statistiky významný rozdíl (je-li rozdíl malý, může být výsledkem náhody, čím je větší, s tím větší pravděpodobností náhodný není, ale je statistiky významný). 2. Zvolíme hladinu významnosti a = 0,05 3. Vypočteme kumulované četnosti 4. Vypočteme testovací kritérium: D = max|0r - E} 1,36 5. Vypočteme kritickou hodnotu: Da = D„ =1,36 ,tr>l + 1U' 6. Je-li vypočtená hodnota D větší než kritická hodnota Du, potom rozdíl mezi oběma uspořádáními je statisticky významný. Analýza kvadrátů Materiály předmětu Z6101 Základy geostatistiky Testování výsledků analýzy kvadrátů K-S testem Počet měst v Zjištěné Relativní Kumulativní Pravidelné Relativní Kumulativní Absolutní každém čtverci rozdělení četnosti četnosti rozdělení četnosti četnosti diference 0 36 0;450 0,450 0 0,000 0,00 0,45 1 17 0,213 0.663 26 0,325 0,33 0.34 2 10 0;125 0.788 26 0,325 0,65 0.14 3 3 0,038 0.825 26 0,325 0,98 0,15 4 2 0.025 0,850 2 0,025 1,00 0.15 5 2 0,025 0,875 0 0,000 1,00 0,13 6 1 0,013 0.888 0 0,000 1.00 0,11 7 1 0,013 0.900 0 0,000 1,00 0,10 8 1 0,013 0,913 0 0,000 1,00 0.09 9 1 0,013 0.925 0 0,000 1,00 0.08 10 1 0,013 0,938 0 0,000 1,00 O.OS 11 1 0,013 0,950 0 0,000 1,00 0.05 12 1 0,013 0,953 0 0,000 1,00 0,04 13 1 0,013 0,975 0 0,000 1,00 0.03 14 1 0,013 0,988 0 0,000 1,00 0.01 28 1 0,013 1,000 0 0,000 1,00 0.00 164 0 0.000 1,000 0 0,000 1,00 0.00 Testovací kritérium: Kritická hodnota pro a = 0,05: D D 0,45 = 0,2115 Zamítáme nulovou hypotézu - rozdělení měst se statisticky významně liší od rozdělení pravidelného ...... '"li 1 Metoda nejbližšího souseda • NEAREST NEIGHBOUR ANALYSIS • Metoda analýzy kvadrátů je založena na konceptu hustoty (počet bodů v ploše) • Metoda analýzy nejbližšího souseda je naopak založena na konceptu vzdálenosti (spacing - plocha připadající na bod). • Metoda analýzy nejbližšího souseda je založena na porovnání pozorované průměrné vzdálenosti mezi nejbližšími sousedy a této průměrné vzdálenosti u známého (teoretického) prostorového uspořádání (pravidelného či náhodného). • K testováni, zda má určité rozloženi bodů v ploše jistý vzorek lze využit R statistiku (R -randomness). 1 ll íl Metoda nejbližšího souseda Distribution of mean NND clustered : random I disperse 1' * • ***** • • • - * • * * Clustered Random (CSR) Uniform (dispersed) 1 ll íl Metoda nejbližšího souseda R statistika Určí se jako poměr mezi pozorovanou a očekávanou průměrnou vzdáleností nejbližších sousedů v určité oblasti: y _ obs exp Hodnotu robs zjistíme tak, že určíme vzdálenost mezi daným bodem a všemi jeho sousedy. Dále najdeme nejkratší vzdálenost - tedy nejbližšího souseda. Tento proces se opakuje pro všechny body. Ze všech nejkratších vzdáleností se vypočte průměr. Hodnotu rexp zjistíme ze vztahu: r = exp 2^ÍA Interpretace hodnot R statistiky Čím je hodnota R < 1, tím více se prostorové rozložení bodů blíží rozložení shlukovému {rob< rexp). Čím je hodnota R > 1, tím více se prostorové rozložení bodů blíží rozložení pravidelnému (robs > rexp). R = 0 R = 0 R = 1 R = 2,149 R = 0.51 SHLUKOVÉ R= 1.0 R= 1.48 PRAVIDELNÉ R = 1.90 zcela shlukové uspořádání náhodné uspořádání zcela pravidelné uspořádání Geoprocessing © Average Nearest Neighbor Parameters Environments v í X © f?) * nput Feature Class Distance Method Eudidean t/J Generate Report Area II ľ Metoda nejbližšího souseda Average Nearest Neighbor Summary Nearest Neighbor Ratio 0,398885 z-score -42,190160 p-value 0,000000 Significance Level (p-value) 0.01 0.05 laj Oc-O." u Inu Mokrj-Hoftkc Critical Value (z-score) < -2.58 -2.58 - -1.96 0.10 im -1.96- -1.65 — -1.65 - 1.65 0.10 CZl 1.65-1.96 0.05 H 1.96 - 2.5S O.Ol IM > 2.58 Average Nearest Neighbor Summary Observed Mean Distance Expected Mean Distance Nearest neighbor Ratio z-score p-value Clustered Random Dispersed Given the z-score of -42.19016, there is a less than 1% likelihood that this clustered pattern could be the result of random chance, 98,193552 246,170249 0,398885 -42,190160 0,000000 Average Nearest Neighbor Summary Observed Mean Distance 98,1936 Meters Expected Mean Distance 246,1702 Meters Nearest Neighbor Ratio 0,398885 z-score -42,190160 p-value 0,000000 Metoda nejbližšího souseda • Nelze spoléhat na vizuální srovnání prostorového rozložení ani na vypočtenou hodnotu R. Ta by měla byt doplněna hodnotou ZR (Z skóre) pro ověřeni statistické významnosti pozorovaného rozdílu. • Výsledky jsou vysoce citlivé k měřítku (lokální vs. regionální) • V závislosti na studovaném jevu musi byt věnovaná pozornost vymezeni studované plochy (administrativní či přirozené hranice). Pomocí směrodatné chyby lze vypočítat standardizovanou hodnotu (Z-score): SK, = 0,26136 z SE, ..........,ll Prostorová autokorelace - koncepce Jak analýza kvadrátů tak analýza vzdálenosti nejbližšího souseda pracují pouze s polohou bodů. Nerozlišují body podle hodnot jejich atributů. Oba parametry (polohu i atributy) hodnotí prostorová autokorelace (SA) - je tedy metodou vhodnější. Východiska prostorové autokorelace: Většina jevů se v prostoru mění spojitě. Blízké body budou mít i podobné hodnoty studovaného jevu a naopak. - First law o f geography - Tobler (1970) ' lili T ' l 'I , ' ' Prostorová autokorelacc Mezi nejpoužívanější koeficienty prostorové autokorelace náleží: - Gearyho poměr C (Geary's Ratio) - Moranův index I (Moran's I) Lze jich využít pro intervalová a poměrová data. Rozdíly mezi oběma indexy jsou dány způsobem výpočtu rozdílů mezi hodnotami atributu. Obor hodnot, kterých mohu oba indexy nabývat se tedy také liší, jak uvádí následující tabulka: Prostorové uspořádání Gearyho poměr C Moranův index I Shlukové uspořádání, sousední body vykazují podobné hodnoty 0 < C <1 I >E(I) Náhodné uspořádání, body nevykazují znaky podobnosti C ~ 1 I ~ E(l) Pravidelné uspořádání, sousední body vykazují rozdílné charakteristiky 1 < C < 2 I < E(l) kde E(l) = (-1 )/(n-1) je očekávaná hodnota indexu nu 'ľ ľ Jak autor popisuje p-hodnotu (p-value) a Z-skore? Respektíve jaká je mezi nimi souvislost? jfáf Scientific ♦»jl^ Research ▼j^t Publishing Open Journal of Civil Engineering, 2017,7,208-221 http://www.scirp.orE/iournal/oice ISSN Online: 2164-3172 ISSN Print: 2164-3164 A Novel Hybrid Method for Measuring the Spatial Autocorrelation of Vehicular Crashes: Combining Moran's Index and Getis-Ord G*i Statistic Azad Abdulhafedh* Department of Civil and Environmental Engineering, University of Missouri, Columbia, MO, USA Email: asa8cd@mail.missouri.edu How to cite this paper: Abdvdhafedh, A. (2017) A Novel Hybrid Method tor Measuring the Spatial Autocorrelation of Vehicular Crashes: Combining Moran's Index and Getis-Ord g' Statistic. Open Journal of'CivilEngineering, 7, 208-221. hnps://doi.orfl/l0.4236/oice.2017.72013 Received: February 13,2017 Accepted: June 3, 2017 Published: June 6, 2017 Copyright 2017 by author and Scientific Research Publishing Inc. This work is licensed under the Creative Commons Attribution International Abstract Spatial autocorrelation is a measure of the correlation of an observation with other observations through space. Most statistical analyses are based on the assumption that the values of observations are independent of one another. Spatial autocorrelation violates this assumption, because observations at nearby locations are related to each other, and hence, the consideration of spatial autocorrelations has been gaining attention in crash data modeling in recent years, and research have shown that ignoring this factor may lead to a biased estimation of the modeling parameters. This paper examines two spatial autocorrelation indices: Moran's Index; and Getis-Ord G' statistic to measure the spatial autocorrelation of vehicle crashes occurred in Boone County roads in the state of Missouri, USA for the years 2013-2015. Since each index can identify different clustering patterns of crashes, therefore this paper introduces a / A Spatial Aut Started: Today at 11:5 Completed: Today at Elapsed Time: 1 Secoi WARNING 001601 are analyzed usi Parameters Envirc o i © Start Time: titer A WARNING 00169; are analyzed usii A WARNING 00085] Global Moran Moran's Index Expected Index Variance p-value Spatial Autocorrelation Report Moran's Index 0,069576 z-score 1,974404 p-value 0,048336 Significance Level (p-value) 0.01 0.05 0.10 £ä3 W m Dispersed Random Clustered Critical Value (z-score) < 2.58 -2.58--1.96 -1.96 - -1.65 1.65 - 1.65 1.65 - 1.96 1.96 - 2.58 > 2.58 Given the z-score of 1.974404, there is a less than 5% likelihood that this clustered pattern could be the result of random chance. Global Moran's I Summary ll autokorelace * Geoprocessing v ¥ X ochoz © Spatial Autocorrelation (Global Moran's I) © Parameters Environments na mesicjt denj 11 zaff patel Moran's Index 0,069576 Expected Index -0,000851 Variance 0,001272 z-score 1,974404 p-value 0,048336 I # J1 ~ , Statistická analýza plošných * ■ jevů ľ porovnaní prostorového uspořádaní studovaného jevu s uspořádáním teoretickým ^shlukovým, pravidelným či náhodným) typologie prostorového uspořádání jevů (bez uzemní souvislosti) regionalizace - seskupování jednotek (polygonů) do vyšších územně souvisejících celků interpolace a vyhlazování areálových dat Positive autocorrelation Negative autocorrelation No spatial autocorrelation ...... 1 1 Prostorová autokorelace njt Prostorová autokorelace měří stupeň podobnosti atributu mezi danou plochou a plochami sousedními. Nejprve proto musí být J l/ztahy sousedství jistým způsobem kvantifikovány. II způsoby definováni sousedství (Rook's case - věž, Queen's case -II Dáma) I • Binární matice konektivity (sousedí - 1, nesousedí - 0) • Stochastická matice = matice se standardizovanými řádkovými vahami (RSWM) - záleží na počtu sousedů (př.: 4 -> 0,25) [Brnp-venkoy........ ;;i o.oooo 0.2000 0.2000 | 0.2000 0.0000 0.2000J 0.2000 Blansko J 0.3333 O.OOOCľ [ 0.33331 0.3333 [ 0.0000 0.0000] 0.0000 Vyškov I 0.2500 0.2500 " 0.00001 0.0000 [ 0.2500 o.oooo! 0.2500 Brno-rněsto í 0.5000 O.SOOcf [ 0.00001 0.0000 [ 0.0000 0.0000] 0.0000 Hodonín I 0.0000 0.0000 [ 0.50001 0.0000 [ 0.0000 o.oooo] 0.5000 Znojmo j 0.5000 o.ooocľ [ 0.0000 j 0.0000 [ 0.0000 o.oooo] 0.5000 Břeclav í 0.2500 äiiiooo1 0.2500! 0.0000 0.2500 0.2500! 0.0000 • Vedle sousedství je další běžně užívanou mírou prostorové relace objektů jejich vzdálenost (v případě polygonů např. vzdálenost centroidů) I I ill III I ill Míry prostorové autokorelace1] areálů 1 Globální míry prostorové autokorelace: I - Data nominální | • Joint Count Statistics (JSC) - Statistika charakteru sousedství - Data intervalová a poměrová • Moranův index I • Gearyho poměr C • G statistika Prostorová autokorelace se muže měnit v rámci studované oblasti -> Lokální míry prostorové autokorelace: - Local Indicator of Saptial Association (LISA) - Lokální verze G statistiky (local G-statistics). • Ke grafickým prostředkům hodnotícím prostorovou autokorelaci patří také Moranův scatterplot diagram. Ii Ii Joint count statistics (JCS) Touto metodou lze zjistit, zda uspořádání ploch, které mohou nabývat binárních hodnot vykazuje prvky náhodnosti. [Tedy zda existuje pozitivní (clustered pattern) či negativní (random pattern) prostorová autokorelace. Podstata metody: - U - zástavba, R - volná krajina. - Čtyři typy sousedství: UU, RR, UR, RU. - UR + RU < 50% -> pozitivní prostorová autokorelace. - UR + RU > 50% -> negativní prostorová autokorelace II íl ľ Joint count statistics (JCS) JfljxJ BDED gg] Sc* 1:12 836 8J4 ZASTOUPENÍ SENIORŮ VE 20 VYBRANÝCH OBCÍCH JIHOMORAVSKÉHO KRAJE k 31.12. 2009 1:200 000 0 1 2 3 4 5 10 km li Počet pozorovaných AA sousedů = 40 Počet pozorovaných BB sousedů = 0 Počet pozorovaných AB sousedů = 2 Očekávaní AB sousedé = 37.905 Očekávaní BB sousedé = 0.105 Očekávaní AB sousedé = 3.99 Variance AA sousedů = 16.6421 Variance BB sousedů = 0.1406 Variance AB sousedů = 22.8314 Z skóre pro AA sousedy = 0.513547 Z skóre pro BB sousedy = -0.280025 Z skóre pro AB sousedy = -0.416473 Podii občanů starších 64 let ku celkovému počtu obyvatel 1 I podprůměrný (<6.30334) i nadprůměrný (>6.30334) Jihomoravský kraj Počet obyvatel: 1150454 Počet obyvatel starších 64 let: 182515 Průměr z poměru celkového počtu obyvatel v obci ku počtu obyvatel starších 64 let: 6.30334 V našem případě: A = nadprůměrný podíl občanů starších 64 let k celkovému počtu obyvatel B = podprůměrný podíl občanů starších 64 let k celkovému počtu obyvatel ■ I lil ■ I ■ I I lil Indexy pro hodnocení prostorové1! autokorelace plošných jevů Moranův (I) index a Gearyho (C) index Jsou využitelné pro intervalová a poměrová data Jsou založeny na porovnávání hodnot atributu sousedních ploch Mají-li tyto sousední plochy v celé studované oblasti podobné hodnoty, potom obě statistiky budou svědčit o silné pozitivní prostorové autokorelaci a naopak. Obě statistiky využívají odlišný přístup k porovnávání hodnot sousedních ploch Vhodnější vlastnosti vzhledem k rozdělení hodnot má Moranův index 1 Ii Ii Moranův (I) index Hodnota indexu kolísá od -1 pro negativní prostorovou autokorelaci po +1 pro pozitivní prostorovou autokorelaci. l/ypočteme hodnoty I a E(I) a následně musíme zjistit, zda rozdíl mezi nimi je statisticky významný. Tento rozdíl je opět nutné vztáhnout k míře variability (např. rozptylu) a pomocí ní odvodit standardizovanou hodnotu z-skóre Pokud je hodnota Zn(I) menší (resp. větší) než -1,96 (resp. 1,96) je hodnota indexu I statisticky významně negativní (resp. pozitivní) na hladině významnosti a = 0,05. Moran's I Inden = -OJ 4 Z Score = -2,73 standard deviations Dispersed m EU Significance Level: [1.01 0.05 0.10 RANDOM Critical Values: (-2.58) (-1.96) (-1.65) 0.10 0.05 0.01 (1.65) (1.96) (2.59) There is less than 1% likelihood that this dispersed pattern could be the result of random chance. Moranův index = -0,144 Očekávaný Moranův index = -0,053 Varia nee/rozptyl = 0,001 Z skóre = -2,727 Ii Ii Moranův (I) index Spatial Autocorrelation Report • Spatial Statistics Tools Moran's Index 0,261557 z-score 7,406022 p-value 0,000000 A Spatial Autocorrelation {Global Moran's I) (Spatial Statistics Tools) ) Started: Today at 10:17:51 Completed: Today at 10:17:52 Elapsed Time: 1 Second A WARNING 691665: Distances for Geographic Coordinates (degrees^ minutes, seconds) are analyzed using Chordal Distances in meters. Parameters Environments Messages (4) ! O Global Moran's I Summary Moran's Index 0,261567 Geoprocessing v ij x © Spatial Autocorrelation (Global Moran's I) © ® Parameters Environments Input Feature Class Significance Level (p-value) 0,01 0,05 O.IO 0,10 0,05 0.D1 I brno_obyv_20-9-2021 Input Field o byv_cas1_ @ Generate Report Conceptualization of Spatial Relationships Expected Index Variance p-value Writing html report.... C: \Usgrs\Lukas\DocLinnents\ArcGlS\PrQJect5\níiQbily_brrQ_test\Koransl_ríe5ult_l0443_ll2S^ Succeeded at pondělí 26. března 2823 10:17:52 (Elapsed Time: 1,74 seconds) Contiguity edges only Standardization Critical Value < -2.58 -2,58- -1,96 -1.96 - -1.65 -1.65-1.65 1.65 - 1.96 1.96 - 2.5B > 2.5B 'Mi Di&per&ed Rando Clustered Jiven the z-score of 7,406022, there is a less than 1% likelihood that this clustered pattern could be the result of random chance, Global Moran's I Summary Moran's Index 0,261567 Expected Index -0,003390 Variance 0,001280 z-score 7,406022 D-value 0.00G000 ■M ľ "I f ' ' I Gearyho poměr C ' "Pro hodnotu indexu není rozhodující, která z hodnot je větší či [menší, ale jaký je jejich absolutní rozdíl - jejich nepodobnost (ve výrazu je druhá mocnina jejich rozdílu). Gearyho index nabývá hodnot v intervalu 0 až 2. Hodnota 0 indikuje dokonalou pozitivní autokorelaci (všechny sousední hodnoty atributu jsou stejné). Naopak hodnota 2 indikuje dokonalou negativní prostorovou autokorelaci. Hodnota 1 znamená nulovou prostorovou autokorelaci - náhodné uspořádání Očekávaná hodnota Gearyho poměru nezávisí na počtu posuzovaných ploch, ale má vždy hodnotu 1. Pro prokázání statisticky významného rozdílu je nutné vypočítat hodnotu rozptylu a Z-skóre. Hodnota rozptylu se opět vypočte rozdílně v závislosti na předpokladu normality či náhodnosti. Z výše uvedeného plyne, že negativní hodnota Z-skóre značí pozitivní prostorovou autokorelaci a kladná hodnota Z-skóre značí negativní. 1999 2003 BoxMap (Hinge-1 .5): MURDER.99 Lower outlier (0) <25%(25) 25%-50% (26) 50%-75% (26) H >75%(19) Upper outlier (7) BoxMap (Hmge=1.5) : MURDER_CG Lower outlier (0) ■ <25%(25) 25%-50% (26) 50%-75% (26) >75%(18) Upper outlier (8) t Porovnání https: //www, resea rchqate. net/ publication/226212823 Geoqra phical distribution of crime in Italian provinces A spatial e conometric analysis/figures?lo = 1 Moran'sl Z Score Geary's C Z Score Murders 1999 0.4842*** 7.1832 0.5372*** -6.3997 Murders 2003 0.4446*** 6.6067 0.5745*** -5.8839 I -I I1 H Omezení globálních měr I, C Pouze řeší, zda: - Podobné blízko sebe - pozitivní prostorová autokorelace - Nepodobné blízko sebe - negativní prostorová autokorelace V realitě hrají roli také: - Rozsah studované oblasti - Počet objektů (ploch) Nevýhody: - Nejsou však efektivní ▼ k identifikaci rozdílných shluků prostorového uspořádání uvnitř oblasti. - Identifikují oblasti s podobnými hodnotami atributů, nerozlišují však, zda podobné hodnoty nabývají vysokých či nízkých hodnot. Il íl Obecná G statistika Před výpočtem G(d) je nutné určit vzdálenost d (např.: 30km), která definuje plochy, které budou považovány za sousedy plochy posuzované. Musí být vhodně zvolena tak, aby posuzovaná plocha měla alespoň jednoho souseda. K interpretaci G(d) je nutné vyčíslit očekávanou hodnotu E(G) a následně standardizovanou hodnotu z-skóre a tedy i rozptyl hodnoty G(d). Např. je-li vypočtená hodnota G(d) větší než očekávaná E(G), můžeme říci, že pozorované uspořádání vykazuje pozitivní prostorovou asociaci. Statistickou významnost tohoto tvrzení je opět nutné testovat výpočtem hodnoty rozptylu a Z-skóre. Hodnota Z-skóre menší než 1,96 indikuje statisticky nevýznamný výsledek na hladině a = 0,05. IO distmatriK.dbf té Geauga fí/ľa/;oge Tn/mhíá St/nmiff Fertage Äs^ahi/La laf.e | Geauga 0.0000 1.0000 1.0000 0.0000 1.0000 1.0000 1.0000. a. Cuyahoga 1.0000 lijľoooo" 0.0000 iľoooo" 0.0000 oľoooo" i.obbo] Trumbull T.0000 lijľoooo" 0.0000 oľoooo T.booo Tľo'ooo b.bbbb] Summit 0.0000 iľiicióii oľ'oooo oľoooo T.booo oľoooo" b.bbbb] Portage T.oooo lijľoooo" iľocioii iľoooo" oľoooo' oľoooo" b.bbbb] Ashtabula T.oooo lijľoooo" iľocioii oľoooo oľoooo' oľoooo" i.bbbb] Lake T.oooo i'ľobb'o" oľ'oooo oľoooo oľoooo' Tľo'ooo b.bbbb: H ■ ■ ■-. . . .-. . . .-. . . .-. . . .-. . . .—L y] G-Statistics = 0.555756 The Expected G = 0.52381 The Variance of G = 0.00356303 Z-Value of G = 0.345226 1 I 'I II ■ i I I lil Lokální statistiky prostorové autokorelace 1 Předešlé zmiňované indexy jsou příkladem indexu globálních. Hodnoty prostorové autokorelace se mohou v různých suboblastech měnit. Navíc můžeme očekávat, že pozitivní autokorelaci lze nalézt v jednom sub-regionu a negativní v jiném. LISA (Local Indicators of Spatial Association) - lokální verze Moranova a Gearyho indexu. Ke zjištění úrovně prostorové autokorelace na lokální úrovni se vypočte hodnota indexu pro každou plochu zpracovávaného území. Lokální Moranův index: - Vysoké hodnoty indexu I mají ty areály, jejichž sousedé mají velmi podobné hodnoty studované charakteristiky. 1 Ii 'Ii iľ Lokální Moranův index Barevná škála by mohla být lepší ú Valtrovi ce Křídlůvky Moranův index -0,005000 -0,003000 -0,001500 ■ -0,000080 -0,000030 0,000001 ' 0,000030 Slup -Penter obyvatel starších 64 let " 5,000 - 7,250 • 7,251 - 7,750 • 7,751 - 8,500 • 8,501 - 9,000 • 9,001 - 17,000 hranice obce Valtrovice -6,26561 Křídlůvky -2,50806 Nový Přerov 0,26236 Z skóre Moranova indexu _ -6,50 ™ -1,96 0,00 1,96 Slup -0,14065 hranice obce a příslušné z skóre Lukáš HERMAN, 4. ročník KART Geografický ústav PřF MU Brno Vytvořeno v květnu 2010 v Brně Zdroj dat: ČSÚ Souřadnicový systém: S-42 1 I l| , L ■ li Lokální statistiky prostorové 2.58 Jeste jeden príklad... iľ N A Legend X Pumps • Cholera Death # Mean Center Pump ID 1 ■ 2 3 4 5 6 7 0 50 100 200 Meters I—I—i i I i—i—i—I jeden příklad... Legend N A 0 K Pumps • Cholera Death it Mean Center Kernel Density Very Low Low Medium High Very High 100 200 Meters I—i—i—i l i—i—i—I 1 i Zdroje: https://qistbok.ucqis.org/bok-topics/kernels-and-density-estimation littps://qistbok.ucqis.orq/bok-topics/point-pattern-analysis [van, L, Horák, J. (2015): Metodika identifikace anomálních lokalit kriminality pomocí jádrových odhadu. Dostupné z: http://qisak.vsb.cz/GIS Ostrava/GIS Ova 2016/sbornik/papers/qis 2016568b7fa9bf442.pdf Materiály předmětu Z6101 Základy geostatistiky A odkazy přímo na slajdech Další materiály: • Volební výsledky v Praze: https://www.youtube.com/watch?v=GWRh dq3U U