ppt_sablona_pozadi ZnaÄ�ka MUNI SCI - Barevné provedenà Popisná statistika bodových dat Modelování prostorového uspořádání bodů Kernel density jaro 2023 Lukáš Herman herman.lu@mail.muni.cz ppt_sablona_pozadi Popisná statistika bodových objektů •Charakteristiky polohy •Charakteristiky rozptylu •Charakteristiky asymetrie •Charakteristiky špičatosti 1 Popisná statistika. 1.1 Základní pojmy. 1.2 Třídění dat. Četnosti. Grafické znázornění. Rozdělení znaků. Statistika I - PDF Free Download ppt_sablona_pozadi Charakteristiky polohy •Průměrný střed (mean center) •Vážený průměrný střed (weighted mean center) •Agregovaný průměrný střed •Mediánový střed (median center) ppt_sablona_pozadi Průměrný střed •Průměrný střed leží na průměru souřadnic X a Y. •Vzorec: –Xprůměr = Součet hodnot X souřadnic všech bodů / počet bodů –Yprůměr = Součet hodnot Y souřadnic všech bodů / počet bodů • •Má stejné nevýhody jako aritmetický průměr – je to především citlivost na extrémní hodnoty. –Například v případě shlukového uspořádání bodů průměrný střed dobře nereprezentuje množinu bodů – Rozčlenění bodů na kategorie Mean Center tool illustration ppt_sablona_pozadi Příklad The mean center and media center of fire stations in Austin, Texas. Note that some fire stations are in the Austin extraterritorialjurisdiction (ETJ) area, and therefore are located outside of the city boundary. Data source: data.AustinTexas.gov ppt_sablona_pozadi Vážený průměrný střed • – •Používá se v případě výskytu více událostí/objektů na stejném místě. •Pak má každý bod váhu přímo úměrnou počtu událostí/objektů na tomto místě. •Např.: při výpočtu prostorového průměru několika měst bude průměrný střed dávat realističtější představu o centrální tendenci, jestliže ho budeme vážit počtem obyvatel jednotlivých měst ppt_sablona_pozadi Příklad ppt_sablona_pozadi Mediánový střed • – a)najdeme medián na ose X a Y a vedeme z nich linie kolmé na směr osy. Takto definovaný „medián ze souřadnic“ ale nemusí odpovídat mediánu souboru bodů, protože distribuce nemusí být mezi kvadranty vyrovnaná. b)(UK): Mediánový střed je střed, kterým se studovaná plocha dělí do čtyř kvadrantů, z nichž každý obsahuje stejný počet bodů. c)(US): Mediánový střed jako střed vyžadující minimální (nejkratší) cestu. Tj. celková vzdálenost z mediánového středu do každého z bodů je minimální. Jinak řečeno – cesta z jakéhokoliv jiného místa do všech bodů oblasti bude delší než cesta z mediánového středu. Median Center tool illustration ArcGIS Pro: Identifies the location that minimizes overall Euclidean distance to the features in a dataset. ppt_sablona_pozadi Vlastnosti charakteristik polohy •Průměrný střed minimalizuje sumu čtverců vzdáleností •Mediánový střed minimalizuje sumu vzdáleností – jeho interpretace je jednodušší •Nejčastěji se využívá váženého mediánového středu (demografie) –Př.: srovnání vývoje osídlení v čase •Charakteristiky polohy bez uvedení charakteristik rozptylu mají malou vypovídací schopnost a mohou být zavádějící ppt_sablona_pozadi Charakteristiky rozptylu •Směrodatná vzdálenost (standard distance circle) •Vážená směrodatná vzdálenost (weighted standard distance) •Koeficient relativního rozptylu (coefficient of relative dispersion) •Směrodatná elipsa odchylek (standard deviational ellipse) • ppt_sablona_pozadi Směrodatná vzdálenost •Směrodatná vzdálenost je nejčastěji používána ve formě kružnice kolem průměrného středu (Standard distance circle), jejíž poloměr je právě hodnota směrodatné vzdálenosti. •Tyto kružnice nám dávají představu o rozptylu hodnot kolem střední hodnoty pro jednotlivé typy jevů. •Mohou být použity i pro studium dynamiky jevů (př.: různé kružnice pro jeden jev v různých časových horizontech) • A polygon feature class that will contain a circle polygon for each input center. These circle polygons graphically portray the standard distance at each center point. ppt_sablona_pozadi Směrodatná vzdálenost •Mohou být použity i pro studium dynamiky jevů –př.: různé kružnice pro jeden jev v různých časových horizontech •Směrodatná vzdálenost (standard distance) je absolutní mírou – je problematické její použití k porovnání několika souborů •Vhodnější jsou míry relativní • Vážená směrodatná vzdálenost ppt_sablona_pozadi Koeficient relativního rozptylu •Poměr směrodatné vzdálenosti a poloměru kruhu se stejnou plochou jakou má studovaná oblast. •Řeší problém použití absolutní míry směrodatné vzdálenosti. •Je-li oblast různě velká (ohraničená), vznikají zavádějící hodnoty. •K získání relativní míry při studiu variability obyvatelstva se někdy používá poloměr země nebo státu místo poloměru kruhu se stejnou plochou jakou má studovaná oblast. • poloměr z plochy kruhu: R = √ (P/π) ppt_sablona_pozadi Směrodatná elipsa odchylek •V mnoha případech může vykazovat prostorové rozdělení jevů určité rysy směrovosti (directional bias), např.: –rozdělení míst nejčastějších dopravních nehod podél dálnice. •V tomto případě se použití kružnice jako míry rozptylu hodnot jeví jako nevhodné. •Jako logické rozšíření směrodatné kružnice odchylek se může jevit použití směrodatné elipsy odchylek. Tuto elipsu popisují tři atributy: –úhel rotace –směrodatná odchylka podél hlavní osy elipsy –směrodatná odchylka podél vedlejší osy elipsy •Maximální rozptyl bude orientován v souladu s hlavní osou elipsy. • ppt_sablona_pozadi Směrodatná elipsa odchylek •Př.: –Množství kontaminující látky ve vzorku studní může indikovat trend jejích šíření –Porovnání velikosti, tvaru resp. překryvu elips k porovnání změn v rozšiřování etnik či rostlinných resp. živočišných společenstev –Epidemiologie – vystižení hlavního trendu šíření onemocnění v populaci • Directional Distribution (Standard Deviational Ellipse)—Help | ArcGIS Desktop ppt_sablona_pozadi Příklad Standard deviation ellipse created based on Austin fire station locations Data source: data.AustinTexas.gov ppt_sablona_pozadi Poznámky k deskripci bodů •hustota bodů v ploše (počet/plocha = n/R), •charakteristiky založené na vzdálenosti mezi body či na relativních vzdálenostech jako je např. di/dmax. •použití – porovnávání (např. v čase) •při výpočtech v relativně malých oblastech používáme euklidovskou geometrii, protože se v nich neprojeví zakřivení Země. •uvedené míry mohou být aplikovány i na plochy. –Jakým způsobem? • ppt_sablona_pozadi Základní metody statistického popisu prostorového uspořádání bodů •Analýza kvadrátů – testujeme, zda rozmístění bodů v ploše je náhodné či nikoliv. • •Metoda nejbližšího souseda – porovnává průměrnou vzdálenost mezi nejbližšími sousedy pole bodů k teoretickému rozmístění. • •Prostorová autokorelace – měří jak podobné či nepodobné jsou hodnoty atributů sousedních bodů. ppt_sablona_pozadi Metody statistického popisu bodů – obecně •Rozmístění bodů v prostoru je výsledkem určitých procesů či vhodných podmínek (lokace měst je výsledkem působení faktorů jako reliéf, přírodní zdroje, komunikace, atd.) •Cílem studia prostorového rozmístění bodů je zjistit: –jak daleko má konkrétní rozmístění objektů k rozmístění teoretickému –jak se liší rozmístění bodů ve dvou různých oblastech –jak se mění rozmístění bodů v rámci jedné oblasti v čase. •Statisticky prokázaný výskyt určitého prostorového uspořádání může být základem pro zjišťování příčin, které vedly k pozorovanému uspořádání. •Problémy: –měřítko –rozsah studované oblasti –kartografická projekce ppt_sablona_pozadi Analýza kvadrátů •Je založena na hodnocení změn hustoty bodů v prostoru. •Je porovnáváno, zda rozmístění bodů v prostoru je náhodné, či má blíže k uspořádání shlukovému či pravidelnému. •Studovaná plocha je rozdělena pravidelnou sítí na buňky a je zjištěn počet bodů v každé buňce. ppt_sablona_pozadi Analýza kvadrátů •Je analyzováno rozdělení četností buněk s určitým počtem bodů. •Toto rozdělení je porovnáváno s náhodným rozdělením četností. –Extrémně shlukové uspořádání – většina bodů v jedné či několika málo buňkách. –Extrémně pravidelné – ve všech buňkách přibližně stejně •Buňky se označují jako kvadráty a nemusí jít o čtverce, ale např. i o kruhy či šestiúhelníky – je to dáno empirií. •V rámci jedné analýzy však tvar a velikost buněk musí být konstantní. ppt_sablona_pozadi Analýza kvadrátů •Optimalní velikost kvadrátů (QS) –QS = (2*A)/n – –A - plocha studované oblasti –n - počet analyzovaných bodů. • •Velikost strany vhodného kvadrátu –√(2A/n) Study area has been divided into 4*5 uniformly shaped quadrats of 81 km2, and the top left quadrat has a density of 1/81. ppt_sablona_pozadi Analýza kvadrátů Materiály předmětu Z6101 Základy geostatistiky ppt_sablona_pozadi Metoda nejbližšího souseda •NEAREST NEIGHBOUR ANALYSIS •Metoda analýzy kvadrátů je založena na konceptu hustoty (počet bodů v ploše) •Metoda analýzy nejbližšího souseda je naopak založena na konceptu vzdálenosti (spacing – plocha připadající na bod). •Metoda analýzy nejbližšího souseda je založena na porovnání pozorované průměrné vzdálenosti mezi nejbližšími sousedy a této průměrné vzdálenosti u známého (teoretického) prostorového uspořádání (pravidelného či náhodného). ppt_sablona_pozadi Metoda nejbližšího souseda ppt_sablona_pozadi Metoda nejbližšího souseda •NEAREST NEIGHBOUR ANALYSIS •Metoda analýzy kvadrátů je založena na konceptu hustoty (počet bodů v ploše) •Metoda analýzy nejbližšího souseda je naopak založena na konceptu vzdálenosti (spacing – plocha připadající na bod). •Metoda analýzy nejbližšího souseda je založena na porovnání pozorované průměrné vzdálenosti mezi nejbližšími sousedy a této průměrné vzdálenosti u známého (teoretického) prostorového uspořádání (pravidelného či náhodného). ppt_sablona_pozadi Metoda nejbližšího souseda •NEAREST NEIGHBOUR ANALYSIS •Metoda analýzy kvadrátů je založena na konceptu hustoty (počet bodů v ploše) •Metoda analýzy nejbližšího souseda je naopak založena na konceptu vzdálenosti (spacing – plocha připadající na bod). •Metoda analýzy nejbližšího souseda je založena na porovnání pozorované průměrné vzdálenosti mezi nejbližšími sousedy a této průměrné vzdálenosti u známého (teoretického) prostorového uspořádání (pravidelného či náhodného). •K testováni, zda má určité rozloženi bodů v ploše jistý vzorek lze využit R statistiku (R - randomness). • ppt_sablona_pozadi Metoda nejbližšího souseda •… ppt_sablona_pozadi Metoda nejbližšího souseda ppt_sablona_pozadi Metoda nejbližšího souseda •Nelze spolehat na vizualni srovnani prostoroveho rozloženi ani na vypočtenou hodnotu R. Ta by měla byt doplněna hodnotou ZR (Z skóre) pro ověřeni statistické významnosti pozorovaného rozdílu. •Výsledky jsou vysoce citlivé k měřítku (lokální vs. regionální) •V zavislosti na studovanem jevu musi byt věnovana pozornost vymezeni studované plochy (administrativní či přirozené hranice). ppt_sablona_pozadi Prostorová autokorelace – koncepce •Jak analýza kvadrátů tak analýza vzdálenosti nejbližšího souseda pracují pouze s polohou bodů. •Nerozlišují body podle hodnot jejich atributů. •Oba parametry (polohu i atributy) hodnotí prostorová autokorelace (SA) – je tedy metodou vhodnější. •Východiska prostorové autokorelace: Většina jevů se v prostoru mění spojitě. Blízké body budou mít i podobné hodnoty studovaného jevu a naopak. –First law of geography – Tobler (1970) ppt_sablona_pozadi Prostorová autokorelace •Mezi nejpoužívanější koeficienty prostorové autokorelace náleží: –Gearyho poměr C (Geary’s Ratio) –Moranův index I (Moran’s I) •Lze jich využít pro intervalová a poměrová data. ppt_sablona_pozadi Prostorová autokorelace ppt_sablona_pozadi Metoda jádrových odhadů •Hlavní metodou pro identifikaci anomálních lokalit, které bývají často nazývány jako hot spots, je metoda jádrových odhadů (kernel density estimation) či jádrového vyhlazení. • •Jaká je hlavní nevýhoda?? –Základním nedostatkem je subjektivita v intepretaci výsledků. –Stejná podkladová data mohou být zobrazena značně rozdílně jen s využitím rozdílného nastavení metody a způsobu zobrazení. •Použité parametry je vhodné uvést. –Z tohoto důvodu je potřeba zvýraznit statisticky významné výsledky. V odborné literatuře je představena široká škála analytických postupů, které je možné pro identifikaci lokalit se zvýšenou intenzitou kriminality použít. Nejzákladnější přístupy tvoří nástroje prostorové explorační analýzy dat (percentilová mapa, kvartilová mapa apod.) (Anselin et al., 2005). Tyto metody pracují s daty agregovanými do polygonů (pravidelných, nepravidelných). Nad těmito agregovanými daty je pak možné také posuzovat, nakolik se shlukují jednotlivé polygony s vysokými, resp. nízkými hodnotami. K tomuto slouží metody pro hodnocení globální a lokální prostorové autokorelace (LISA – Moranovo I, metody Gi a Gi* apod.) (Anselin, 1995; Getis, Ord, 1992). Další metody identifikace anomálních lokalit pracující přímo s bodovými událostmi. Posuzují, zda bodová distribuce deliktů má tendenci se shlukovat či je naopak rozmístěna náhodně. Používají se např. metoda nejbližších sousedů (O’Sullivan, Unwin, 2014), K-funkce (Ripley, 1977) apod. ppt_sablona_pozadi Metoda jádrových odhadů • ppt_sablona_pozadi Předpoklady užití metody •Není vhodná pro zobrazení rozsáhlých území. •Vhodná pro mapy větších měřítek (obce či jejich části). •Není doporučena pro větší územní celky (okres, kraj, ČR) à toto záleží na zobrazovaném jevu •Neexistuje také žádná hranice pro minimální počet událostí v oblasti. •Doporučujeme však brát v potaz počet bodů a plochu analyzované oblasti. Pokud je oblast menší, je možné pracovat i s menším počtem událostí. •V případě malých počtů na větší ploše použití jádrového vyhlazení není doporučeno. ppt_sablona_pozadi Krok I – PŘEDZPRACOVÁNÍ DAT •Základní podmínkou - kvalitní data. •Nutné se zaměřit na: –správnost a přesnost souřadnicového určení polohy, –časové určení, –tematické určení. •Rozlišit případy, kdy již záznam deliktu obsahuje souřadnice, od těch, kde je poloha vyjádřena pouze adresou či jiným referencováním. •Pokud jsou body lokalizovány na jedno místo, tak zde vznikají umělé shluky, které mylně identifikují lokalitu jako anomální. –Řešení – náhodné rozmístění událostí podél/uvnitř lokalizovaného objektu. • ppt_sablona_pozadi Krok II – VOLBA METODY •KDE? v celé ploše území vs výskyt omezen pouze na jisté části území. •jádrové odhady plošné (2D) a jednorozměrné (1D), modelující výskyt pouze na liniích. •Obecně metoda jádrových odhadů přiřazuje každému bodu v mapě odhad intenzity na základě vzdálenosti k ostatním událostem. Nemůžeme však tuto intenzitu počítat pro každý bod, jelikož těch je nekonečně mnoho, a tak je analyzované území proloženo čtvercovým gridem a intenzity jsou počítány pro centroidy jednotlivých buněk. •V prvním kroku je potřeba vybrat metodu jádrového odhadu: –Jednoduchý –Duální •Dále je nutné volit mezi jádrovým odhadem s dosahem: –Fixní –Adaptivní V prvním kroku je nutno posoudit, zda se lokalizované události mohou vyskytovat v celé ploše území, či je jejich výskyt omezen pouze na jisté části území. I když je zřejmé, že řada deliktů je vázána pouze na určitý typ prostředí, v současnosti umíme rozlišit pouze jádrové odhady plošné (2D) a jednorozměrné (1D), modelující výskyt pouze na liniích (Ivan, Tesla, 2015; Bíl et al., 2013). Teoretické principy jádrových odhadů jsou detailně popsány v odborné literatuře (O’Sullivan, Unwin, 2014; Chainey, Ratcliffe, 2005; Eck et al., 2005 apod.). Obecně metoda jádrových odhadů přiřazuje každému bodu v mapě odhad intenzity na základě vzdálenosti k ostatním událostem. Nemůžeme však tuto intenzitu počítat V prvním kroku je potřeba vybrat jednoduchý nebo duální jádrový odhad. Jednoduchý jádrový odhad se využívá v případě, kdy chceme pracovat s absolutními výskyty událostí. Tedy zajímá nás jejich absolutní intenzita v oblasti. Do výpočtu vstupují jen bodově lokalizované události. Duální jádrový odhad poskytuje odhad relativní intenzity výskytu deliktů vůči jinému jevu. Typicky jsou to situace, kdy výskyt deliktů je determinován výskytem určitých objektů, které podmiňují nebo silně přitahují konkrétní typy deliktů, tj. existují v území skryté vztahy, které chceme pomocí duálního odhadu demaskovat. Data pro tento postup je však problematické získat. Typ a zdroj referenčních dat závisí na typu deliktu, který je hodnocen. Obecně mezi hlavní typy referenčních dat řadíme data o počtu obyvatel a počtu bytů či objektů. Doporučujeme využívat výhradně jednoduché jádrové odhady. Dále je nutné volit mezi jádrovým odhadem s fixním či adaptivním dosahem. Fixní používá stejnou velikost dosahu, zatímco adaptivní ji mění podle hustoty okolních bodů (čím větší hustota bodů, tím menší šířka pásma, aby více vynikly lokální variance). Důležitá je v tomto případě vlastní implementace této metody. Postup s využitím geometrického průměru fixních pilotních jádrových odhadů doporučuje ppt_sablona_pozadi Krok III – NASTAVENÍ VYHLAZOVACÍ FUNKCE •šest různých vyhlazovacích funkcí: normální, rovnoměrná, kvartická, kuželová, kvadratická a záporná exponenciální. •nejčastěji se využívá kvartická funkce, ppt_sablona_pozadi Závislost na zvolené vyhlazovací funkci Trojúhelníková vs. Gausova (normální) ppt_sablona_pozadi Velikost buňky •GRID = nezbytné správně zvolit jeho prostorové rozlišení. •Velikost buňky tohoto gridu ovlivňuje získané výsledky z pohledu detailnosti a také velikosti souboru. •nehraje na přesnost výsledků tak důležitou roli, jako další dva parametry. •Jak stanovit? –MBR (kratší strana/150). –ČR – města a obce velikost buňky 50 m, minimum 10 m. –Výjimky? Velikost buňky Výsledek jádrového vyhlazování je grid a je tedy nezbytné správně zvolit jeho prostorové rozlišení. Velikost buňky tohoto gridu ovlivňuje získané výsledky z pohledu detailnosti a také velikosti souboru. Velikost buňky nehraje na přesnost výsledků tak důležitou roli, jako další dva parametry (Chainey, 2013). V literatuře se doporučuje pro stanovení velikosti buňky vyjít z hodnoty, která odpovídá délce kratší hrany minimálního ohraničujícího obdélníku vydělené hodnotou 150 (např. Ratcliffe, 2004, Chainey, 2013). Na základě praktických zkušeností ale doporučujeme použít menší velikost, která umožní sledovat výsledky s větším prostorovým detailem. Pro území měst a obcí doporučujeme používat podle plochy obce maximální velikost buňky 50 metrů. Při větší velikosti buňky se již pro vizuální posouzení skryjí lokální anomálie. Jako minimální velikost doporučujeme 10 metrů. Pokud by se však analyzovalo malé území, jako např. prostor nákupního centra, pak může být velikost buňky mnohem menší (i 1 metr). ppt_sablona_pozadi Dosah (šířka pásma) •Pro výsledky jádrových odhadů je klíčová především volba dosahu vyhlazovací funkce. Neexistuje žádné obecné pravidlo, jak určit nejvhodnější hodnotu dosahu. •Vždy záleží na prostorové distribuci bodů, typu události a měřítku – závislost dosahu konkrétního trestného činu. •Explorace (vývoj území) vs. Identifikace anomálií (hot spots). Dosah (šířka pásma) Pro výsledky jádrových odhadů je klíčová především volba dosahu vyhlazovací funkce. Neexistuje žádné obecné pravidlo, jak určit nejvhodnější hodnotu dosahu. Vždy záleží na prostorové distribuci bodů, typu události a měřítku. Je nutné zvážit také cíle a účel analýzy, zejména to, zda má být výsledkem zmapování vývoje území (explorativní analýza) nebo identifikace několika nejzávažnějších anomálií (hot spots analýza). V prvním případu je důležitá plynulost vývoje v území a proto se volí větší hodnota dosahu. Ve druhém případu stačí identifikovat několik jader; doporučuje se zvolit kratší dosah a následně výsledek jádrového odhadu upravit vhodným způsobem vizualizace. Obecně se také doporučuje při návrhu vyhlazovací funkce a velikosti dosahu zvážit podstatu kriminálního deliktu. Pro optimalizaci dosahu je vhodné využít postupů citlivostní analýzy (např. Inspektor, 2011). Chainey (2011) doporučuje pro nastavení dosahu použít pětinásobek velikosti buňky, který je však podle našich zkušeností příliš velký. Zjištěná výchozí hodnota dosahu bude pravděpodobně vytvářet zvýšenou intenzitu kolem každé události a dále bude existovat malý počet shluků s vyšší intenzitou deliktů spáchaných na stejném místě. Následně se přistupuje k optimalizaci dosahu. Hodnoty postupně zvětšujeme po násobcích výchozího nastavení dosahu a vizuálně posuzovat výsledek (např. 50 metrů a pak testovat hodnoty 100, 150, 200, 250, 300, 350 a 400 metrů). Je nutné si stanovit určité maximum, za které již nemá smysl jít. Tato hodnota odpovídá polovině předpokládaného maximálního rozměru společně posuzované lokality. Výsledky těchto analýz je možné porovnat na obrázcích níže, kdy byly postupně testovány jednotlivé fixní dosahy při použití kvartické funkce a velikosti buňky 20 metrů (obr. 3). Problematická může být situace, kdy je v území málo událostí, které jsou rozptýlené ve větším území a vytváří samostatné oblasti. V tomto případě doporučujeme používat dostatečně velký fixní dosah. Pokud je počet událostí velmi nízký, je vhodné použít jádrové vyhlazení jedině v případě, kdy je malá i analyzovaná oblast. ppt_sablona_pozadi GIS4SG 50 – 200 – 400 m rozsah Dvoustupňová analýza Adaptivní dosah Hledání vhodné hodnoty dosahu se může výrazně zjednodušit, pokud předpokládáme možnost využití více výstupů, kdy se zobrazí celé území s vyšší hodnotou dosahu, která je vhodná pro sledování kontinuálního vývoje intenzity deliktů v území, a následně jednotlivé části (detaily) s kratším dosahem. Pro výběr konkrétního dosahu v prvním kroku vybereme dosah, při kterém je možné v mapě identifikovat několik lokalit se zvýšenou intenzitou výskytu událostí. V druhém kroku pak zacílíme přímo na dané lokality a použijeme menší dosahy, aby byly rozlišeny konkrétní rozdíly v daných lokalitách. Kromě fixního dosahu je možné využít také adaptivní dosah. Ten upravuje velikost dosahu podle lokální situace. Platí, že pro většinu situací je vhodnější a plně dostačující použití fixního jádrového odhadu. ppt_sablona_pozadi Krok IV - PROVĚŘENÍ STATISTICKÉ VÝZNAMNOSTI •Výstup = grid s intenzitami událostí, sám o sobě neposkytuje informaci o výskytu statisticky významných oblastí a jeho interpretace je velmi subjektivní. •Nejpoužívanějším postupem pro hodnocení výsledků jádrových odhadů je Getis-Ord Gi* index. •Pro výpočet Gi* doporučeno použít topologické okolí definované pohybem královny prvního řádu. Doporučujeme zobrazit jen statisticky významné výsledky na hladině významnosti nejméně 95 %. •Následně hranici těchto významných shluků zobrazit spolu s výsledky jádrového vyhlazení a vyznačit v tomto výstupu hranice těchto statisticky významných anomálních oblastí. grid s intenzitami událostí. Tento výstup sám o sobě neposkytuje informaci o výskytu statisticky významných oblastí a jeho interpretace je velmi subjektivní. To patří k hlavní nevýhodě jádrových odhadů. Doporučujeme tento výstup dále analyzovat a určit statisticky významné anomální oblasti. Zřejmě nejpoužívanějším postupem pro hodnocení výsledků jádrových odhadů je Gi* index (Chainey, Ratcliffe, 2005). Pro výpočet Gi* doporučujeme použít topologické okolí definované pohybem královny prvního řádu (tedy 8 sousedních buněk). Doporučujeme zobrazit jen statisticky významné výsledky na hladině významnosti nejméně 95 %. Následně hranici těchto významných shluků zobrazit spolu s výsledky jádrového vyhlazení a vyznačit v tomto výstupu hranice těchto statisticky významných anomálních oblastí. Finální výsledky na obrázcích níže (obr. 4) zobrazují statistické výsledky na hladině významnosti 95 % (vlevo) a 99 % (vpravo). ppt_sablona_pozadi Getis-Ord GI* •Ukazatel významnosti shluku. •Gi* statistika vrací pro každý prvek v datové sadě tzv. Z skóre (z-score). •Statisticky významné pozitivní z-score = čím větší, tím je intenzivnější shluk vysokých hodnot (hot spot). •Statisticky významné negativní Z skóre = čím menší Z skóre, tím intenzivnější shluk nízkých hodnot (cold spot). Výsledek obrázku pro smajlíky ppt_sablona_pozadi GI a GI* statistika •Každá buňka má jednoznačnou hodnotu. •Nulová hypotéza: •Není žádný vztah mezi hodnotami počtu trestných činů v buňce a v jejím okolí, a to až do vzdálenosti d měřené ve všech směrech. Srovnáno se sumou hodnot na celém studovaném území. • there is no association between the values of crime counts at site i and its neighbours, which we will call the js, up to a distance of d, measured from i in all directions – The sum of values at all the j sites within a radius d of i is not more (or less) than one would expect by chance given all the values in the entire study area (both within and beyond the distance d). ppt_sablona_pozadi GI a GI* statistika •Srovnání lokálního s globálním •Existuje lokální prostorová asociace? •Hodně vysokých hodnot v blízkosti buňky. –Gi* hodnoty budou pozitivní pro všechny buňky •Hodně nízkých hodnot pohromadě –Gi* hodnoty budou negativní pro všechny buňky • •Příklad: Pro hodnotu 9 v centru vzorku platí: –Gi* value = 4.1785 –Gi* hodnota je pozitivní •V relativním porovnání (lokální vs. globální) se jedná o hodně buněk s vysokou hodnotou jevu. • ppt_sablona_pozadi GI a GI* statistika •Gi* výsledky jsou Z skóre •Z skóre indikují umístění dané hodnoty v datové sadě vzhledem k průměru, standardizované s ohledem na směrodatnou odchylku (standard deviation). –Z = 0 odpovídá průměru –Z < 0 méně než průměr –Z > 0 – •Z skóre používáno pro určení prahu spolehlivosti a zhodnocení statistické významnosti. Indikují umístění dané hodnoty v datové sadě vzhledem k průměru, standardizované s ohledem na směrodatnou odchylku (standard deviation). indicate the place of a particular value in a dataset relative to the mean, standardized with respect to the standard deviation is used extensively in determining confidence thresholds and in assessing statistical significance ppt_sablona_pozadi GI a GI* statistika •Statistická významnost •Z-skóre hodnoty pro úrovně (hladiny) statistické významnosti: –90% >= 1.645 –95% >= 1.960 –99% >= 2.576 –99.9% >= 3.291 •Univerzální Z skóre bez ohledu na jevu, umístění, velikosti území… –Příklad: •Gi* hodnota = 4.1785 •Větší než 99.9% významnost! Výsledek obrázku pro smajlíky ppt_sablona_pozadi Jak to udělat prakticky? •Conversion Tools > From Raster > Raster to Point •Data Management Tools > Sampling > Create Fishnet. –Vlastnosti identické jako v rastru (velikost buněk, rozsah)! •Data Management Tools > Features > Feature To Polygon –Propojení bodů a polygonů (Fishnet), případně použít Spatial Join •Spatial Statistics > … > Hot Spot Analysis (Getis-Ord Gi*) • • Hot Spot Analysis illustration ppt_sablona_pozadi Statistická významnost •Finální výsledky zobrazující statistické výsledky na hladině významnosti 95 % (vlevo) a 99 % (vpravo). ppt_sablona_pozadi Statistická významnost •Jak zlepšit zacílení na významné oblasti? •Testovat statistickou významnost jen na nejvyšších hodnotách. •Kombinovaný postup, z výsledku jádrového vyhlazení vybereme jen 20 % nejvyšších hodnot a z těchto hodnot vybereme jen statisticky významné výsledky metodou Gi*. • • V obrázcích výše však není identifikováno jen několik oblastí pro zacílení aktivit, jak doporučujeme. Proto je vhodné testovat statistickou významnost jen na nejvyšších hodnotách. Doporučujeme kombinovaný postup, kdy z výsledku jádrového vyhlazení vybereme jen 20 % nejvyšších hodnot (může být také méně i více) a z těchto hodnot vybereme jen statisticky významné výsledky metodou Gi*. Ve finální vizualizaci (obrázek 5 vlevo) pak zobrazíme celkový výsledek, ve kterém vyznačíme statisticky významné výsledky pro 20 % nejvyšších hodnot. Doporučujeme také kombinovat výsledky jednoduchého a duálního vyhlazení. Na obrázku 5 (vpravo) je vidět výstup, kdy jsou vícebarevnou metodou zobrazeny výsledky jednoduchého vyhlazení a šrafovanou ohraničenou plochou pak statisticky významné výsledky pro duální jádrové vyhlazení. ppt_sablona_pozadi POSTPROCESSING A VIZUALIZACE •Vizuální omezení – podpora rozhodování dle zadání a uživatelské skupině. Plná data 10% nejvyšších hodnot V rámci postprocesingu můžeme dále ovlivnit výsledek zpracování dodatečnými výběry, jejich zpracováním a samozřejmě vhodnou formou vizualizace. V situaci, kdy potřebujeme identifikovat jen několik anomálií vysokých hodnot, doporučujeme využít následujícího postupu, kdy se provede zobrazení buněk pouze s nejvyššími intenzitami, čímž zdůrazníme jen opravdu významné anomální oblasti. Nejedná se o statistickou metodu, která by ověřovala statistickou významnost. Pro vizuální identifikaci je však dostatečná. Pro tento postup je nutné zvolit určité procento nejvyšších hodnot. Konkrétní procento však není možné stanovit univerzálně. Pro nejběžnější příklady doporučujeme zobrazit 10 % nejvyšších hodnot (viz obr. 6). V určitých mimořádných případech je potřeba toto procento zvýšit. Mezi tyto případy patří nejčastěji situace, kdy jsou události koncentrovány převážně do několika málo lokalit (např. obchodní centra), ale cílem je zobrazit i další ne tak významné anomální lokality. ppt_sablona_pozadi 3D plots Vizualizace – „alternativní“ •Metody zobrazení –Vícebarevné –3D –Izolinie •Škály •Podklad –Topografická mapa –Ortofoto –… Z hlediska vizualizace doporučujeme tři různé metody zobrazení – vícebarevné, trojrozměrné a izoliniové. Pro běžné zobrazení anomálních lokalit doporučujeme použít vícebarevné zobrazení (podobně jako u map výše). Použitá paleta používá odstíny modré pro nejnižší hodnoty, přechází dále do odstínů žluté až do odstínů červené pro nejvyšší intenzity. Je možné použít také jednobarevnou škálu, která však nezdůrazňuje rozdíly intenzit tak dobře. Doporučujeme výsledek doplnit také vhodným topografickým podkladem, který ulehčí následnou intepretaci výsledků a hledání dalších souvislostí mezi existencí anomální lokality a daným místem. Podle měřítka mapy doporučujeme použít ortofoto mapu, topografickou mapu, základní mapu apod. ppt_sablona_pozadi Vizualizace – empirické testování •Nétek & Slezáková (2018): Implementation of Heat Maps in Geographical Information System – Exploratory Study on Traflc Accident Data. https://doi.org/10.1515/geo-2018-0029 –Most of the users chose bright colors with a negative feeling, such as red, for traffic accident visualization. –The best settings for transparency was identified to be around 50%. –The final questions were about map readability based on radius. This setting is tied to mapscale but follows a common trend throughout the research. ppt_sablona_pozadi Ještě jeden příklad… •John Snow (1812 – 1858) –Syn farmáře, asistent chirurga a lékárník –1854 – mapa Londýna •výskyt cholery = úmrtí •Měřítko 1:2000 •Tečková metoda •Pomocí prostorové analýzy došlo k identifikaci ohniska nákazy, které bylo možné následně omezit ppt_sablona_pozadi Ještě jeden příklad… • ppt_sablona_pozadi Ještě jeden příklad… • ppt_sablona_pozadi Ještě jeden příklad… • ppt_sablona_pozadi Ještě jeden příklad… • ppt_sablona_pozadi Zdroje: •https://gistbok.ucgis.org/bok-topics/kernels-and-density-estimation •https://gistbok.ucgis.org/bok-topics/point-pattern-analysis •Ivan, I., Horák, J. (2015): Metodika identifikace anomálních lokalit kriminality pomocí jádrových odhadů. Dostupné z: http://gisak.vsb.cz/GIS_Ostrava/GIS_Ova_2016/sbornik/papers/gis2016568b7fa9bf442.pdf •Materiály předmětu Z6101 Základy geostatistiky •A odkazy přímo na slajdech • – – –