Kontrola kvality dat a homogenizace •Mgr. Petr Štěpánek, Ph.D. •Mgr. Pavel Zahradníček, Ph.D. • • •V Brně, dne 22.3..2017 12:00-13:45 mapa_obal •Změna a kolísání klimatu •Geografický ústav, Brno graf1 chmu logo_chmu příspěvková organizace spadající pod MŽP územní působnost: celá ČR (6 poboček plus centrum v Praze) cca. 700 zaměstnanců Český hydrometeorologický ústav Ø Ø Ø regrozt ČHMÚ - Územní působnost poboček •Pobočky ústavu se sídlem v Praze, Českých Budějovicích, Plzni, Ústí nad Labem, Hradci Králové, Brně a Ostravě zajištují úkoly ústavu ve vymezených regionech. Zřizují a spravují staniční sítě meteorologie, včetně agrometeorologie a fenologie, dále hydrologie povrchových a podzemních vod a ochrany čistoty ovzduší, v nichž funkci pozorovatelù vykonávají dobrovolní pracovníci nebo jsou sítě plně automatizovány. •Pobočky provádějí sběr a prvotní zpracování hydrometeorologických údajú, poskytují odborným uživatelùm a veřejnosti operativní a režimové informace z území své púsobnosti a podle pověření vykonávají některé specializované činnosti v zastoupení celého ústavu. •Meteorologická profesionální •stanice Plzeň, Mikulka Jak se měří počasí? • • Øcelkem 37 stanic Øpozorují nepřetržitě Øcelkem 181 stanic ØMěření a pozorování 3 x denně (07:00, 14:00, 21:00) ØAutomatizované stanice většinou •Klimatologická dobrovolnická •stanice Rožnov p. Radhoštěm st_cz stprec_cz Brno – Tuřany (profesionální stanice) Ø turany Dukovany (profesionální stanice) Ø B2DUKO01_23 ØStožár na měření rychlosti větru Ø5 pater měření rychlosti větru (18,42,79,119 a 136 m) P8250055 Dukovany (profesionální stanice) Ø B2DUKO01_23 Dukovany (profesionální stanice) Dyjákovice (automatická stanice) ØData v 10 minutovém kroku (v minulosti v 15 minutovém) B2DYJA01_31 ØData v papírových výkazech jednou za měsíc, nutná digitalizace P6222528 Lednice (manuální stanice) logo_chmu •Oddělení meteorologie a klimatologie vitr_Vaisala srazky logo_chmu •Oddělení meteorologie a klimatologie tlak Slunecni_svit Proces před analýzou dat diagram_upr5 Kontrola kvality ØV období 1961-2010 bylo testováno od 329 do 413 klimatologických stanic a 1481 srážkoměrných stanic qc_mapa_orez Kontrola kvality dat ØZákladní přístupy: lPoužití mezikvartilových odchylek •Absolutně: pokud není dostatečné množství kvalitních sousedních stanic •Relativně: porovnání řady odchylek/poměrů mezi testovanou a referenční řadou l l Ø Kontrola kvality dat ØZákladní přístupy: lPoužití mezikvartilových odchylek •Absolutně: pokud není dostatečné množství kvalitních sousedních stanic •Relativně: porovnání řady odchylek/poměrů mezi testovanou a referenční řadou l lPorovnání testované hodnoty s okolními stanicemi Ø Kontrola kvality: Referenční řady ØPro měsíční i denní data Ø ØKritérium pro volbu stanic: lNejlépe korelující nebo nejbližší stanice (korelace počítány z 1. diferencí) lNastaveny maximální limity pro vzdálenost, korelace a rozdíl nadmořské výšky l ØSousední stanice standardizovány průměr a směrodatnou odchylku a nebo nadmořskou výšku testované stanice Ø ØPorovnáno s vypočtenou „očekávanou“ hodnotou – získána metodou IDW (různá síla váhy/vzdálenost podle meteorologického prvku) ze standartizovaných okolních stanic t_leden_new •leden t_cervenec_new t_rok_new •červenec •rok •Prostorová korelace – • teplota vzduchu Kontrola kvality dat sra_leden_new sra_cervenec_new sra_rok_new •leden •červenec •rok •Prostorová korelace – • srážkové úhrny Kontrola kvality dat F_leden F_cervenec F_září •leden •červenec •rok •Prostorová korelace - rychlost větru Kontrola kvality dat c_1 c_f_4 c_f_7 c_f_10 legenda_correl •leden •duben •červenec •říjen •Kontrola kvality dat - Prostorová korelace - rychlost větru Výběr sousedů pro výpočet referenční řady pro kontrolu kvality dat mapy_sousedi •Každých 10 let nový výběr •Velké Pavlovice Ø Výpočet „očekávané“ hodnoty – validace, kontrola kvality dat ØStanice s nižší nadmořskou výškou – RMSE po celý rok vyrovnané ØHorské stanice: větší rozdíl v zimních měsících – pravděpodobně teplotní inverzí mapa_stanice hist_bod_sluc ØStanice Velké Pavlovice ØTeplota vzduchu: 33 % hodnot rozdíl do 0,2°C, koeficient korelace = 0,998 ØSrážky: 68 % hodnot rozdíl do 0,2 mm, koeficient korelace = 0,911 Výpočet „očekávané“ hodnoty – validace, kontrola kvality dat Ukázka výstupu detekovaných potenciálních chyb neighbours Problematické detekce Ø sra Problematické detekce – kombinace s radary a nebo jevy Ø radar Procento detekovaných potenciálních chyb za období 1961-2009 vyjádřeno k celkovému množství testovaných hodnot – nutné testovat termínové data Ø errors_all Roční chod detekovaných potenciálních chyb ØVětšina meteorologických prvků více detekcí v letních měsících než v zimních ØT, TMI: maximum v červenci ØE, F: maximum v srpnu ØSRA: dvě maxima (léto, zima) a dvě minima (jaro, podzim) ØSSV: maximum v lednu a prosinci errors_monthly_t errors_monthly_f Počet detekovaných potenciálních chyb 1961-2009 – vztaženo k počtu stanic errors_t errors_sra errors_e errors_f Počet detekovaných potenciálních chyb 1961-2009 – vztaženo k počtu stanic errrors_tma errors_tmi errors_ssv • T, TMA – rok 2003 – výkyv způsobila jen stanice 07RYMA01 • SRA – rok 2002 – výkyv nezpůsobila žádná konkrétní stanice Rozdíl mezi potenciální detekovanou chybou a vypočtenou hodnotou dif_t dif_e diff_f diff_sra Ø Rozdíl mezi potenciální detekovanou chybou a vypočtenou hodnotou diff_tma diff_tmi Prostorové rozložení potenciálních chyb – reprezentativnost stanic Ø mapa_f_errors Homogenizace ØNehomogenity v průměru, rozdílu a trendu • • • • D:\Data\konference\seminar_brno_2017\vitr\Fig_3.jpg 1.Metra Anemograf 2.Vaisala 3.Ultrasonic •Brázdil a kol. (2016) •Foto: OMK Ostrava • • • • D:\Data\konference\EMS_2016\grafy\btur\hist_f.tiff D:\Data\konference\EMS_2016\grafy\btur\hist_fmax.tiff • • • • D:\Data\konference\EMS_2016\grafy\O1CERV01_30_LS_1954.JPG D:\Data\konference\EMS_2016\grafy\O1CERV01_30_LS_2006.JPG •Stanice Červená – změna 1954 – 2006 •Foto: OMK Ostrava •Days, Months, seasons, year • • Referenční řady ØPro měsíční data ØKritérium pro volbu stanic: lNejlépe korelující nebo nejbližší stanice (korelace počítány z 1. diferencí) lNastaveny maximální limity pro vzdálenost, korelace a rozdíl nadmořské výšky l ØSousední stanice standardizovány průměr a směrodatnou odchylku testované stanice ØPorovnáno s vypočtenou „očekávanou“ hodnotou – získána metodou IDW (různá síla váhy/vzdálenost podle meteorologického prvku) ze standardizovaných okolních stanic Detekce nehomogenit – relativní testy ØTestovaná řada by neměla být delší než 40 let (použité testy pro jeden zlom v řadě) ØJinak rozděleno na více úseků ØTestuje se s překryvem 10 let ØPři najití zlomu se testují znovu úseky před a po zlomu Ø Ø Dostupné testy lAlexandersson SNHT lBivariate test of Maronna and Yohai lMann – Whitney – Pettit test lt-test lEasterling and Peterson test lVincent method l… Ø Detekce nehomogenit – relativní testy Detekce nehomogenit – relativní testy •Detekce zlomu •Oprava ØPři homogenizaci je snaha pro každou testovanou řadu získat co největší počet výsledků testování homogenity (tzv. ensemblový přístup k homogenizaci). Detekce nehomogenit ØVýsledky jsou sesumovány ØVypočítaný podíl výskytu nehomogenit v daném roku na teoreticky možném počtu daného testovaného úseku ØPro lepší orientaci, stanoveny empericky limity (15%, 10-15% pokud jsou metadata Detekce nehomogenit Detekce nehomogenit ØNutné propojení s metadaty Detekce nehomogenit - výsledky ØTestováno 1750 řad 7 klimatologických prvků ØVíce než 42% z nich je nehomogenních (například rychlost větru až 75 %) ØČasové řady obsahují i více než jeden zlom (75% - 1 zlom, 22% - 2 zlomy, 3% - 3 zlomy) • • • • •1. V roce 2008 – období 1961-2007 •2. V roce 2017 – období 1961-2015 179 176 98 3 5 13 158 Homogenizace - metadata Ø44 % zlomů bylo vysvětleno pomocí metadat ØNejvíce zlomů je vysvětlitelných pomocí metadat u maximální teploty vzduchu, naopak jen 30 % zlomů bylo objasněno u tlaku vodní páry. Ø pocet_breaku Roční chod nehomogenit ØU statisticky významných nehomogenit lze pozorovat typický roční chod ØVětšinou je více nehomogenit v teplé části roku ØNaopak srážky v zimě ØNejvíce nehomogenit detekovany v ročních a sezonních hodnotách ØTlak vodní páry a rychlost větru – roční chod není pozorován Ø 4_3a 4_3d 4_3f Meziroční kolísání nehomogenit zlomy_t2 zlomy_sra2 zlomy_tma2 zlomy_tmi2 zlom_f2 zlomy_ssv2 legenda_zlomy •T •TMA •TMI •SRA •F •SSV Oprava nehomogenit pro měsíční data ØPoužití referenční řady vypočtené na základě korelací ØVelikost opravy: 20 hodnot před a po zlomu daného měsíce ØAby se opravovalo je nutné aby byl zlom minimálně 4 roky před koncem nebo po počátku ØK opravě se používají shlazené hodnoty například 5-letým Gauss nizkofrekvenčním filtrem – fyzikálně zdůvodnitelné (hladký roční chod Oprava nehomogenit pro denní data ØOprava na denních datech ØVlastní přístup - vychází z principu metod Deque, Trewin a Trewitt, Della-Marta = tzv. „variable“ correction metoda ØNaše DAP (Distribution Adjusting by Percentiles) metoda: porovnání rozdílů percentilů mezi testovanou a referenční řadou ØKaždý měsíc je zpracováván individuálně, ale také se bere do počtu hodnot sousedním měsíců před a po, aby byl zajištěn hladší průběh z jednoho měsíce do dalšího ØDiference mezi testovanou a referenční řadou pro individuální percentily, jsou dále rozděleny před a po zlom a shlazeny nízkofrekvenčním filtrem a tím je získán finální základ úpravy pro dané percentily Ø •Hodnota opravy pro stanice Velké Pavlovice •Porovnání teploty vzduchu před a po zlomu Oprava nehomogenit pro denní data – další metody a nastavení • 4 metody • DAP (1-100 percentily) • emperická CDF • Hom: Paul Della Marta • Splidhom: Olivier Mestre • velikost shlazení – např.: 75, 50, 25 • počet měsíců kolem – 0 nebo 1 • počet let pro výpočet opravy – 10, 5, 2 Ø •DAP, 75 •DAP, 25 •CDF, 75 •CDF, 25 Ø •HOM •SPLIDHOM •DAP, 75 •CDF, 75 Velikost opravy – roční chod ØTeplotní charakteristiky mají typický roční chod – větší opravy v letních měsících ØT v průměru o 0,26°C, TMI = 0,43°C ØVětší opravy u nehomogenit potvrzených v metadatech – o 0,1°C ØE o 0,7 hPa, F o 0,55 m/s (leden například o 0,88 m/s). adjust_t_meta2 adjust_e_meta2 adjust_f_meta2 •T •E •F legenda_adjust_meta Korelace ØPo opravě časové řady je podstatné aby došlo k nárůstu korelačního koeficientu mezi testovanou a referenční řadou Ø Pokud tomu tak není, řada není opravovaná ØPo korekci nejvíce vzrostly korelační koeficienty v případě teploty vzduchu v letních měsících a u srážek v zimních měsících. ØNejvětší nárůst korelačních koeficientů byl zaznamenán u rychlosti větru (0,690→0,720) 4_6a 4_6f •Temperature •Wind speed Iterační proces ØNutné všechny tyto kroky (detekce, oprava) opakovat v několika kolech, jelikož získáváme stále kvalitnější výsledky, jelikož i referenční řady se počítají už z částečně zhomogenizovaných řad Ø ØPočet detekovaných nehomogenit v datasetu postupně klesá Ø ØPro ČR kolem 3-4 kol, pro Rakousko až 6 kol Doplnění chybějících hodnot ØDoplnění teprve až po homogenizaci ØPřed homogenizací: zatíženy chybou jelikož se počítají z nehomogenních řad ØPřed homogenizací: znesnadňovali by správnou detekci nehomogenit, hlavně v případě pokud by chybělo více roků za sebou ØDoplnění měsíčních dat: metodou lineární regrese mezi doplňovanou a referenční řadou ØDoplnění denních dat: postup použitý u kontroly kvality dat a vypočtu očekávané hodnoty • • • • D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\B1HOLE01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\B1PROT01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\B1STRN01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\B1VIZO01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\B2BYSP01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\B2KMYS01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\C1LENO01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\C2CERN01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\C2JHRA01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\H3HRAD01.png •automatizace •kalibrace D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\L1DOMA01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\L2STRI01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\O1CERV01.png •Zalesněni??? D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\O1JABL01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\O2OLOM01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\O3VSET01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\P1PRUZ01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\U2CELI01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\U2DOKY01.png D:\Data\konference\seminar_brno_2017\vitr\homogenizace\grafy\U2VARN01.png • • • • D:\Data\konference\EMS_2016\grafy\box_fmax15.tif > • • • • D:\Data\konference\EMS_2016\grafy\box_fmax10.tif D:\Data\konference\EMS_2016\grafy\box_fmax20.tif • • • • D:\Data\konference\EMS_2016\tab_pocet_nehom.tif D:\Data\konference\EMS_2016\grafy\metadata.tif • • • • D:\Data\konference\EMS_2016\grafy\breaky_roky.tif •Vaisala •Ultrasonic/kalibrace COST ES061 ØEvropský projekt, který podporuje mobilitu a spolupráci ve vědecké činnosti (setkání, krátkodobé vědecké stáže atd.) ØCOST ES061 je zaměřen na homogenizaci ØV projektu je 26 zemí Ø2007-2011 ØCíle: lvytvořit kompletní seznam literatury, lvytvoření testovací databáze a její použití pro testování různých metod homogenizace používané na celém světě (to proběhlo v roce 2010, stejně jako vyhodnocení), ltestování různých metod korekce oprav denních dat (rok 2011) Cost benchmark dataset ØDatabáze vytvořena Victorem Venemou (univerzita Bonn), komplexně podchycuje všechny typy nehomogenit a jejich velikost a umístění v řadě. ØPro teplotu vzduchu a srážkové úhrny (měsíční data) Ø3 skupiny dat lReálná: bez znalosti všech metadat a nehomogenit lSyntetický: umělá, pro „běžné“ učely nepoužíváno lNáhradní (surrogate): na základě reálných dat byly vymodelovány nové řady se statistickými vlastnostmi těch reálných a do nich byli implementovány chyby a nehomogenity. Na základě této řady bylo prováděno hodnocení jednotlivých metod Ø Ø mapa_cost4b male Cost benchmark dataset-stanice Ø Cost benchmark dataset-data overview_data simple_map correlations COST ES061-dosavadní závěry Øabsolutní metody homogenizace) nejenom že nezlepšují původní nehomogenní databázi, ale naopak ji ještě zhoršují, jinými slovy, absolutní homogenizace nejenom že nevede k homogenním údajům, ale naopak data ještě pokazí Øpomocí této testovací databáze (po odhalení pravdy) byly občas nalezeny „programovací“ chyby v použitých metodách Ølepších výsledků dosahovali samotní tvůrci metod (v porovnání s běžnými uživateli) Ømnoho manuálních metod je horších než ty nejlepší automatické Øautomatické algoritmy mohou dosáhnout velmi dobrých výsledků Øpro správné vyhodnocení metod je potřeba mít několik sítí testovací databáze (tzn. benchmark dataset) Ø HOME.R ØSoftware vznikl jako výstup z projektu COST ØVychází hlavně z metody Prodige – Olivier Mestre (MeteoFrance) ØZaložena na „pair-wise“ porovnání se sousedními stanicemi ØZůstává-li detekovaný zlom konstantní (tedy ten samý) v množině případů porovnávajících testovanou řadu s jejími sousedy, může být připsán testované řadě. Toto přiřazení vyžaduje vstup uživatele, který prochází vytvořené grafy s naznačenými zlomy a subjektivně se rozhoduje, které zlomy se shodují a měly by se opravit. ØOprava je poté provedena na všech řadách pomocí dvoufaktorového modelu ANOVA (Caussinus, Mestre, 2004), kdy každá řada pozorování je modelována jako součet složek regionálního klimatického signálu, signálu samotné stanice a složky náhodného bílého šumu. Ø qc Ø Ø SW_1 AnClim software AnClim_14b2 AnClim software ProcData software ProclimDB ProClimDB_new2sm Ø European Climate Assessment & Dataset (ECA&D ) ØECA&D project initiated by European Climate Support Network of EUMETNET in 2002 Øhttp://eca.knmi.nl ØCoordinated by the Royal Netherlands Meteorological Institute (KNMI) ØECA&D participants: 58 institutions in 62 countries Ø Ø Ø Ø Ø Ø Ø Ø Ø Ø ØDesignated as Regional Climate Centre on climate data for WMO Region VI (Europe) ØECA&D services: •data gathering •archiving •quality control •analysis •dissemination of web-based products Ø European Climate Assessment & Dataset (ECA&D ) ØDaily dataset of 31 058 quality controlled series of 12 climate variables at 6596 meteorological stations in 62 countries (~ half publicly available) Ø Spatial correlation ØCorrelation coefficient decrease with distance ØSpatial correlation is low for distance >100 km D:\data\ECAD\T\zpr\correl_kmean.tif D:\data\ECAD\T\zpr\ecad_correl_k1.jpg D:\data\ECAD\T\zpr\ecad_correl_k4.jpg D:\data\ECAD\T\zpr\ecad_correl_k7.jpg D:\data\ECAD\T\zpr\ecad_correl_k10.jpg •January •April •July •October Outliers •Example 1: 190.6°C Example 2: many zeros •Flag: 0 = valid • 1 = suspect • Děkuji za pozornost >