1 Statistické metody a zpracování dat Analýza časových řad Petr Dobrovolný Základní pojmy nyyy ,,, 21 L ty , kde t=1, 2, ..., n y = ukazatel t = časová proměnná n = počet členů řady ( )tfyt = Časová řada je chronologicky uspořádaná posloupnost hodnot určitého statistického ukazatele. Pomocí časových řad můžeme zkoumat dynamiku jevů v čase. Mají základní význam pro analýzu příčin, které na tyto jevy působily a ovlivňovaly jejich chování v minulosti, tak pro předvídání jejich budoucího vývoje. Vývoj cen akcií Objem obchodování na burze Vývoj počtu obyvatelstva určité lokality Maximální denní srážkové úhrny na určité stanici Průměrné měsíční teploty vzduchu na určité stanici Průměrný roční odtok vody z povodí Příklady časových řad a jejich použití Obchodní den 0 50 100 150 200 250 300 2 4 6 8 10 12 14 16 18 20 Objem obchodu (úseková řada) Kurz akcie (okamžiková řada) Základní typy časových řad Časové řady deterministické - neobsahují prvek náhody (sin(x)) a stochastické (realizace náhodného procesu) Časové řady absolutních veličin (přímo zjišťovaných) ˇ okamžikové (počet obyvatel ­ k datu sčítání) ˇ intervalové (denní úhrn srážek) Časové řady odvozené ˇ průměrných veličin (řada klouzavých průměrů) ˇ poměrných ­ relativních veličin (řada hektarových výnosů) Časové řady ekvidistantní a neekvidistantní ˇ Problém volby časových bodů pozorování ˇ Problémy s délkou časové řady ˇ Problémy s kalendářem ˇ Problémy s nesrovnatelností jednotlivých měření Problémy při sestavování časových řad Uvedené problémy mohou vést k narušení homogenity časové řady Zásady pro sestavování časových řad Metadata (data o datech) ­ historie měření vyšetřovaného prvku na meteorologické stanici, data výměny přístrojů, změny pozorovatelů, změny metodiky měření, ... Homogenita časové řady ­ hodnoty jednotlivých členů pozorované řady odrážejí jen přirozenou proměnlivost studované veličiny a nejsou ovlivněny vnějšími vlivy. ˇ absolutní homogenita řady ˇ relativní homogenita řady ­ posuzování homogenity vůči řadě homogenní (vzorové) Doplňování chybějících členů řady Vylučování odlehlých hodnot. 2 b 0 10 20 30 40 50 60 70 80 90 1921 1931 1941 1951 1961 1971 1981 1991 a 10 15 20 25 30 35 40 45 1921 1931 1941 1951 1961 1971 1981 1991 Příklad nehomogenní řady Maximální denní nárazy větru a počty dnů s nárazy větru na stanici Praha, Karlov v období 1921-1990 Okamžikové časové řady Jsou spojité v čase, záleží u nich na rozhodném okamžiku šetření. Hodnota nezávisí na délce intervalu, za který je znak zjišťován. Okamžikové ukazatele za několik intervalů nesčítáme. Je však pro ně typické počítání průměrů v čase. Průměr okamžikové veličiny za určité období označujeme jako tzv. chronologický průměr. Nejprve spočteme průměr za časové okamžiky ti-1 a ti, pro i=2 až n. Z těchto hodnot určíme průměr pro celou řadu: Uvedený vztah platí v případě, že délka všech intervalů je konstantní. Pokud ne, je nutné jednotlivé dílčí průměry vážit délkami intervalů a vypočítat vážený chronologický průměr. 1 2 1 ... 2 1 121 - ++++ = - n yyyy y nn Intervalové časové řady Jednotlivé hodnoty se vztahují k časovým úsekům a přímo závisí na jejich délce. Za delší časové období lze intervalové ukazatele shrnovat a vytvářet součtové (kumulativní) řady. Součtová řada vznikne postupným sčítáním hodnot za sebou jdoucích časových intervalů. Podle průběhu součtové řady můžeme posoudit rovnoměrnost vývoje hodnot znaku. Hodnotu intervalového ukazatele zjištěnou za časový interval (ti-1, ti) označme qi a přiřazujeme-ji ke středu časového intervalu. Časovou řadu hodnot qi označujeme intervalovou řadou běžných hodnot. Požadavkem sestavování intervalových časových řad je konstantnost délky časového intervalu. V řadě případů tento požadavek není splněn (např. počet dnů v měsíci). Dalším typem součtových časových řad jsou řady klouzavých úhrnů. Jsou vhodné ke srovnání úrovně řady ve sledovaném období s úrovní řady období předešlého. Z - diagram Řady běžných hodnot, řady kumulovaných hodnot a řady klouzavých úhrnů lze znázornit v tzv. Z-diagramu m ěs íce tis. K č 0 400 800 1200 1600 1 2 3 4 5 6 7 8 9 10 11 12 řada běžných hodnot (měsíčních) řada kumulovaných hodnot (od počátku roku) řada klouzavých hodnot (za posledních 12 měsíců) Odvozené časové řady Jedná se o řady sestavné z průměrů či z relativních (poměrných) hodnot. V podstatě se jedná o řady okamžikové. Průměr okamžikového ukazatele je též okamžikovou veličinou. Nejedná se u nich o závislost na délce intervalu, ale na hodnotách znaku v daném intervalu (např. průměrné počty zaměstnanců místo okamžikových údajů či tzv. klouzavé průměry na místo ročních hodnot ­ viz. obr.) 0 10 20 30 40 50 1961 1966 1971 1976 1981 1986 Odvozené ukazatele časové řady Při práci s časovými řadami je typické, že často pracujeme ne přímo s původní časovou řadou, ale s nějakou její transformací. Absolutní přírůstek (první diference) Jsou-li členy v řadě absolutních přírůstků prakticky konstantní, potom řada má lineární trend. Relativní přírůstek Informuje nás o rychlosti (tempu) růstu 1--= ttt yyy 1 11 1 1 -= - = = -- - - i i i ii i i i y y y yy y y 3 Odvozené ukazatele časové řady Koeficient růstu (řetězový index): vyjadřuje, o kolik procent vzrostla hodnota časové řady v okamžiku ti ve srovnání s hodnotou řady v čase ti-1. Průměrný koeficient růstu: pro celou řadu se vypočte jako geometrický průměr jednotlivých hodnot koeficientů růstu. Uvedený výpočet je vhodný pouze v případě stálého a přibližně stejného růstu hodnot řady. (%)1001 1 =+= -i i ii y y k 1 1 1 12 3 1 21 121 ...... -- - - - === n n n n nn n y y y y y y y y kkkk Odvozené ukazatele časové řady Pro účely srovnání různých časových řad se jejich hodnoty převádějí na tzv. bazické indexy (indexy se stálým základem): Hodnota yz je obvykle prvním nebo posledním členem časové řady (základ). (%)100' = z i i y y k Transformace časové řady Jedná se o úpravu původní časové řady, tak aby 1. splňovala podmínky pro následnou analýzu (např. linearizace, stacionarita atd.) 2. zvýrazňovala dále analyzovanou složku ˇ přidání konstanty y = y + C ˇ linearizace řady y = ln(y) ˇ odečtení průměru ˇ standardizace ˇ odečtení hodnot trendové funkce (viz. stacionarita) - = ds yy y yyy -= Běžné druhy transformací: Stacionární řada Časovou řadu považujeme za stacionární, pokud splňuje následující podmínky: ˇ má konstantní průměr ˇ má konstantní variabilitu ˇ korelace dvou časově posunutých pozorování (autokorelace) závisí na délce posunu Stacionarita je jednou z nutných podmínek řady metod analýzy časové řady Stacionarity lze docílit transformací na řadu diferencí či odečtením trendu Základy analýzy časových řad Hlavní cíle analýzy časových řad 1. odhalení zákonitostí a příčin dosavadního vývoje 2. prognóza chování časových řad Každá řada může obsahovat čtyři základní složky: ˇ trend (Tt) ˇ periodická (sezónní) složka (St) ˇ cyklická složka (Ct) ˇ náhodná složka (t) První tři složky tvoří systematickou část řady. Trendová složka časové řady ˇ Trend je obecná tendence vývoje zkoumaného jevu za dlouhé období. ˇ Je výsledkem dlouhodobých a stálých procesů (v měřítku posuzované délky časové řady). ˇ Trend může být lineární či nelineární. ˇ Trend může být rostoucí, klesající nebo může existovat řada bez trendu. ˇ Časové řady bez trendu se označují jako stacionární. 4 Periodická složka časové řady ˇ Periodická složka je pravidelně se opakující odchylka od trendové složky s pevnou délkou periody T. ˇ Perioda této složky je menší než celková velikost sledovaného období. ˇ Typickým případem jsou sezónní kolísání a nebo řady denních, měsíčních, čtvrtletních ukazatelů. ˇ Příčiny sezónnosti jsou různé, většinou však dobře definovatelné. ˇ Sezónnost je typická pro časové řady ekonomických ukazatelů. )()( Ttftf ii += Cyklická složka ˇ Cyklická složka udává kolísání okolo trendu v důsledku dlouhodobého cyklického vývoje. ˇ Cyklická složka může vykazovat změny v délce a amplitudě cyklu. ˇ Délka cyklu je tedy většinou neznámá. (př. demografický trend, kolísání teploty vzduchu). ˇ Délka cyklu je tedy delší než 1 rok. V některých případech se označuje jako ,,střednědobý trend". ˇ Bývá typickou součástí časových řad meteorologických prvků (př. problém globálního oteplování) či hydrologických jevů. 6,0 7,0 8,0 9,0 10,0 11,0 12,0 1961 1966 1971 1976 1981 1986 )()( Ttftf ii + Náhodná složka časové řady ˇ Náhodná (stochastická) složka se nedá popsat žádnou funkcí času. ˇ "Zbývá" po vyloučení trendu, sezónní a cyklické složky. ˇ Jejím zdrojem jsou v jednotlivostech nepostižitelné jevy. ˇ Lze ji však popsat pravděpodobnostně. ˇ Prvotní analýza spočívá v grafickém znázornění průběhu řady. ˇ Graf slouží k prvotnímu posouzení tendence změn či k hledání opakujících se jevů (,,patterns"). ˇ I tyto jednoduché metody umožňují velmi krátkodobou předpověď. ˇ Graf však velmi dobře může znázorňovat nehomogenity, porovnávat dvě či více řad mezi sebou, ... ˇ Slouží k výběru vhodné metody analýzy. Grafické metody analýzy časových řad Index severoatlantské cirkulace (NAOI), XII-II -4 -3 -2 -1 0 1 2 3 1500 1550 1600 1650 1700 1750 1800 1850 1900 1950 2000 Vývoj kurzu akcií ­ příklad výskytu jednoduchých obrazců (patterns) v časové řadě Grafické metody analýzy časových řad Modely analýzy časových řad Časová řada ­ hodnota ukazatele je funkcí času a náhodné složky: ( )tt tfy ,= K analýze a popisu časových řad se používá několika základních modelů: A. Klasický (formální) model B. Box-Jenkinsova metodologie C. Lineární dynamické a regresní modely D. Spektrální analýza 5 Klasický (formální) model Klasický model je pouze popisem jednotlivých složek časové řady jako forem pohybu, ne poznáním příčin. Jedná se o dekompozici na jednotlivé složky a jejich formální popis modelem: ˇ Aditivním ˇ Multiplikativním Základem je popis systematické složky (trendu, cyklických a periodických kolísání). Vychází se z předpokladu, že jednotlivá pozorování jsou vzájemně nekorelovaná (viz. také problém stacionarity časových řad). Aditivní model ttttttt CSTYy +++=+= Model časové řady s aditivní sezónní složkou Multiplikativní model ttttt CSTy = Model časové řady s multiplikativní sezónní složkou Box-Jenkinsova metodologie ˇ Považuje za základní prvek konstrukce modelu časové řady náhodnou složku, která může být tvořena korelovanými náhodnými veličinami. Těžištěm analýzy je korelační analýza více či méně závislých pozorování uspořádaných do časové řady. ˇ Celkový model časové řady sestává ze dvou složek: modelu autoregresního (AR) a modelu klouzavých průměrů (MA) ˇ Tyto metody jsou mnohem flexibilnější než dekompoziční metody, mnohem rychleji se adaptují na změny charakteru časové řady. Základní modely se konstruují přímo z dat. Lineární dynamické a regresní modely ˇ Jedná se o kauzální modely ­ hledají příčinné vazby. ˇ Vysvětlovaná proměnná je vysvětlována pomocí jedné nebo více vysvětlujících proměnných. ˇ Většinou se předpokládají lineární nebo linearizované závislosti mezi proměnnými. ˇ Modely se konstruují na základě teoretických předpokladů. ˇ Lineární dynamické modely se používají např. v humánní geografii či v ekonometrii, v hydrologii ­ např. model odtoku. Spektrální analýza ˇ Je založena na předpokladu, že časová řada je součtem funkcí sin a cos o rozličných amplitudách a frekvencích. ˇ Tato koncepce především umožňuje nalézt významná cyklická kolísání. ˇ Pracuje s pojmy spektrum a frekvence. ˇ Analýza vyšetřuje spektrum řady (tj. zjišťuje intenzitu zastoupení jednotlivých frekvencí a jejich parametrů v časové řadě). ˇ Předmětem analýzy není časová proměnlivost ale změny ve frekvencích. 6 Modely jednorozměrné a vícerozměrné ˇ Modely A, B a D lze označit jako jednorozměrné. ˇ Modely C, založené na předpokladu, že vývoj analyzovaného ukazatele není ovlivňován pouze časovým faktorem, ale řadou jiných ukazatelů (příčinných, faktorových) se označují jako vícerozměrné: ( )tpt xxxtfy ,,.....,, 21= Navíc vlivy faktorů xi na hodnotu y se nemusí projevovat jen v čase t, ale mohou být rozloženy do několika časových období ( )tztptptpztttt xxxxxxtfy ,,.....,,......,...,, ,1,,,11,1,1 ----= kde zi je maximální časové zpoždění i-tého ukazatele x. Předpovědi v časových řadách Bodová předpověd ­ představuje v jistém smyslu nejlepší odhad budoucí hodnoty zpracovávané časové řady. Je zatížena chybou, proto se často doplňuje tzv. předpovědním intervalem (analogie intervalů spolehlivosti). Vymezuje interval hodnot, do něhož budoucí hodnota řady náleží s jistou pravděpodobností. Kvantitativní předpovědi ­ objektivní, na základě statistické analýzy. Jsou extrapolací ­ prodloužením minulých a současných hodnot za předpokladu, že i v budoucnu bude platit námi použitý model. Předpovědi v časových řadách Horizont předpovědi ­ časová vzdálenost předpovídané hodnoty od okamžiku konstrukce (počátku) předpovědi. Chyba předpovědi ­ rozdíl mezi skutečnou a předpovězenou hodnotou řady v čase t: ty ty^ ttt yye ^-= Metody předpovědi se konstruují nejprve pro známý úsek časové řady, aby bylo možné výše uvedené porovnání. Hlavním zdrojem chyby předpovědí je náhodná složka. Je-li její podíl v časové řadě značný, předpověď často nemá smysl konstruovat. Velké chyby v předpovědi však mohou indikovat také nevhodně použitý model časové řady a předpovědní techniky. Míry pro hodnocení kvality předpovědi Součet čtvercových chyb (SSE ­ Sum of Squared Errors) Střední čtvercová chyba (MSE ­ Mean Squared Error) Střední absolutní chyba (MAE ­ Mean Absolute Error) = = =- n t n t ttt eyy 1 1 22 )^( == = - n t t n t tt n e n yy 1 2 1 2 )^( == = - n t t n t tt n e n yy 11 ^ Analýza trendu A. Klasický přístup založený na matematicko- statistickém modelování. Modelované parametry jsou KONSTANTNÍ v čase. Neadaptivní metody ­ např. regresní modely. Umožňují snadnou předpověď (spolehlivou?). B. Adaptivní přístup ­ parametry se v čase VYVÍJEJÍ. Například charakter lineárního trendu se mění (mění se směrnice trendu). Za jednoduchou adaptivní metodu lze považovat i metodu klouzavých průměrů. Analýza trendu ­ základní metody vyrovnávání: ˇ analytické (popis časové řady funkcí) ˇ mechanické (klouzavé průměry) ˇ exponenciální vyrovnávání Přístupy založené na subjektivním (grafickém) hodnocení trendu v časové řadě. Často poskytují dostatečně přesný způsob očištění časové řady, používají se např. také při rozhodování o volbě objektivních metod (např. vhodné křivky). 7 Analytické vyrovnávání trendu matematickou křivkou ˇ Patří mezi neadaptivní metody. Vychází z předpokladu, že se trend po celou sledovanou dobu nemění a že je možné ho popsat některým typem matematické křivky. ˇ Identifikace trendu se redukuje na výběr správného typu matematické křivky a odhad jejích parametrů. ˇ Na problém analýzy trendu lze pohlížet jako na speciální případ regresní závislosti, kdy nezávisle proměnnou je čas. ˇ Časovou řadu vyrovnáváme křivkou, která nejlépe vystihuje její vývojový trend. Výpočet parametrů křivky se děje metodou nejmenších čtverců. ttt ETry += Lineární trend Parametr b1 představuje přírůstek hodnoty y připadající na jednotkovou změnu časové proměnné. Řada se vyznačuje konstantními absolutními přírůstky (první diference). tbbyt 10 += 2 1 2 1 1 1 tnt ytty b n t n t n t tt - - = = = = Lineární trend Hodnoty parametrů b0 a b1 získáme metodou nejmenších čtverců obdobně jako v případě jednoduché lineární regrese, tedy: tbyb 10 -= Předpověď budoucí hodnoty (bodová předpověď) má tvar: TbbyT 10 ^ += Lineární trend Intervalová předpověď ­ konstrukce (1-p) 100 procentního intervalu spolehlivosti ))(^;)(^( 22 TnTTnT sfptysfpty -- +- kde 2 ^ 1 2 1 2 - - = == n yy s n t t n t t = - - ++= n t T tnt tT n f 1 22 2 )(1 1 Symbol tk(p) označuje kritickou hodnotu t-rozdělení s k stupni volnosti na hladině významnosti p. Exponenciální trend Parametr b1 představuje průměrný přírůstek hodnot yt. Ty se chovají jako členy geometrické posloupnosti. Protože se již nejedná o funkci lineární v parametrech, lze k odhadu exponenciálního trendu využít metody nejmenších čtverců pouze po její logaritmické transformaci: t t bby 10 = 10 logloglog btbyt += Polynomický trend Při volbě stupně polynomu je třeba postupovat opatrně. Vyšší stupeň zajišťuje těsnější proložení empirických hodnot křivkou, vede ale k nestabilitě trendu. Vyšší polynomy se většinou vůbec nehodí k extrapolacím. K odhadu parametrů lze využít MNČ. k kt tbtbtbby ++++= ...2 210 8 Logistická křivka Křivka má tři úseky, první je charakterizován pozvolným vzestupem, druhá v okolí inflexního bodu prudkým růstem a třetí určitou vrcholovou stagnací. (patří mezi tzv. S-křivky). tt bbk y 10 1 + = Gompertzova křivka Křivka s podobným esovitým průběhem jako logistika, ale na rozdíl od ní je asymetrická. Těžiště hodnot je až za inflexním bodem. t b t bky 1 0= Verifikace modelu Je zapotřebí zhodnotit statistickou významnost odhadnutých parametrů modelu i modelu jako celku. MNČ ­ podstatou je, že model vždy vysvětlí pouze část variability (proměnlivosti) pozorovaných dat. Je nutné zjistit (testovat), zda model jako celek dává lepší vysvětlení, než je možné očekávat jako důsledek náhody a to na jisté hladině významnosti. Koeficient determinance R2 ­ základní ukazatel vhodnosti použitého modelu (vzorec a interpretace viz. korelační počet) Analýza rozptylu A. Rozptyl empirických hodnot (celkový) B. Rozptyl vyrovnaných hodnot (modelový) C. Rozptyl reziduální = - -= n t tiyy yy n s 1 22 ^ )^( 1 = -= n t ty yy n s 1 22 )( 1 = -= n t ty yy n s 1 22 ^ )^( 1 2 ^ 2 ^ 2 yyyy sss -+= Analýza rozptylu AB C y )( yy - Interpretace výsledků analýzy rozptylu Kritéria pro volbu vhodného modelu trendové funkce I. A. Volba vhodné trendové funkce by v prvé řadě měla vycházet z věcné analýzy zkoumaného jevu. Ta nám umožní zaměřit se na určité typy (skupiny) funkcí či některé jiné předem vyloučit ­ jde o funkci rostoucí či klesající, má inflexní bod či je nekonečně rostoucí. Pro použitou trendovou funkci je důležité, zda má (logistický trend) či nemá (lineární trend ­ růst řady není ničím omezen) asymptotu. Je to důležité pro předpovídání chování časové řady. 9 Kritéria pro volbu vhodného modelu trendové funkce II. B. Analýza grafu časové řady a analýza reziduí. - - yt ­ empirické hodnoty ­ teoretické hodnoty ­ vyrovnané trendovou funkcí ty^ ty^ Objektivní kritéria pro volbu vhodného modelu trendové funkce I Spočívají v minimalizaci předem zvoleného kritéria (jako v případě regresní analýzy). Za toto kritérium se nejčastěji bere součet čtverců odchylek empirických hodnot yt od hodnot vyrovnaných (součet čtvercových chyb): Z uvažovaných funkcí se vybírá ta s nejmenší hodnotou reziduálního součtu čtverců. POZOR ­ jde o formální kritérium. Např. použijeme-li polynom vysokého stupně, může být reziduální součet čtverců i nulový, avšak zcela nepoužitelný. ( )= -= n t tt yySSE 1 2 ^ ty^ Objektivní kritéria pro volbu vhodného modelu trendové funkce II Druhým kritériem je tzv. index korelace, jehož vzorec lze zapsat následujícím způsobem: Za nejvhodnější se považuje funkce s největší hodnotou indexu korelace. K jeho používání však platí stejné výhrady jako k výše uvedenému kritériu Čitatel zlomku ­ suma odchylek vyrovnaných hodnot od hodnot empirických Jmenovatel zlomku - suma odchylek vyrovnaných hodnot od průměru empirických hodnot ( ) ( ) - - -= 2 2 ^ 1 yy yy I t tt Objektivní kritéria pro volbu vhodného modelu trendové funkce III Počítačové programy obvykle nabízejí následující míry úspěšnosti zvolené trendové funkce: Střední chyba odhadu (M.E. ­ Mean Error) ( ) n yy EM n t tt= - = 1 ^ .. ( ) n yy ESM n t tt= - = 1 2 ^ ... Střední čtvercová chyba odhadu (M.S.E. ­ Mean Square Error) Je to nejpoužívanější kritérium. Střední absolutní chyba odhadu (M.A.E. ­ Mean Absolute Error) Střední absolutní procentní chyba odhadu (M.A.P.E. ­ Mean Absolute Percentage Error) n yy EAM n t tt= - = 1 ^ ... ny yy EPAM t tt 100^ .... - = ny yy EPM t tt 100^ ... - = Střední procentní chyba odhadu (M.P.E. ­ Mean Percentage Error) Informativní testy pro volbu vhodné trendové křivky: Podíly (log yt+2 ­ log yt+1)/(log yt+1 ­ log yt) jsou přibližně konstantní Gompertzova křivka Křivka prvních diferencí (yt+1-yt) se podobá křivce normální hustoty, podíly (1/yt+2 - 1/yt+1)/(1/yt+1 - 1/yt) jsou přibližně konstantní logistický Podíly sousedních hodnot (yt+1/yt) resp. První diference logaritmů tvaru (log yt+1 - log yt) jsou přibližně konstantní exponenciální Druhé diference (yt+2 - 2yt+1 + yt) jsou přibližně konstantní kvadratický První diference (yt+1 - yt) jsou přibližně konstantnílineární Informativní testTrend 10 Mechanické vyrovnávání trendu metodami klouzavých průměrů Používá se v případě, že se trend mění a nelze ho vyrovnat ,,globálně" jednou matematickou křivkou. Metoda je vhodná pro neperiodické řady, neumožňuje extrapolaci hodnot. Vlastní průměry se používají jako prosté či vážené. V některých případech lze použít klouzavých mediánů. Klouzavé průměry mohou být necentrované a centrované Metody klouzavých průměrů Jako klouzavé průměry obecně označujeme lineární kombinace členů původní řady, např.: )222( 8 1 2112 ++-- ++++ ttttt yyyyy Patří mezi tzv. adaptivní přístupy k trendové složce časové řady. Tzv. polynomické klouzavé průměry umožňují vyrovnání hodnot na počátku a konci časové řady Volba řádu klouzavých průměrů ˇ Subjektivní posouzení charakteru dat ˇ Délka klouzavých průměrů by měla odpovídat periodě sezónních či cyklických fluktuací ˇ Vzorce pro výpočet optimální délky Obsahuje-li řada sezónní složku, je vhodné volit řád klouzavých průměrů tak, aby zahrnoval celou délku periody sezónní složky. Centrované klouzavé průměry Ve většině případů se používají klouzavé průměry liché délky, u sudé délky je problém s přiřazením hodnot časovému okamžiku. V ekonomických časových řadách, které často obsahují sezónní složku délky 4 (řady čtvrtletních hodnot) či 12 (řady měsíčních hodnot), se tento problém řeší tzv. centrováním. Výsledné klouzavé průměry pro sudou délku klouzavé části vypočteme jako průměry dvou sousedních klouzavých průměrů liché délky. Centrované klouzavé průměry Příklad: Abychom vystihli roční chod určitého ukazatele, chceme pro řadu měsíčních hodnot použít klouzavých průměrů délky 12. Shlazená hodnota však spadá doprostřed mezi ,,červen" a ,,červenec". Další shlazená hodnota pak mezi ,,červenec" a ,,srpen". Tyto dva jednoduché klouzavé průměry vezmeme a zprůměrňujeme. Výsledek pak už můžeme přiřadit k ,,červencové" hodnotě. Tedy vytváříme klouzavé průměry o délce 13: )2...22( 24 1 ))...( 12 1 )...( 12 1 ( 2 1 ^ 65456 645556 ++--- +--+-- +++++ =+++++++= ttttt ttttttt yyyyy yyyyyyy Centrované klouzavé průměry Obecně místo jednoduchých klouzavých průměrů délky 2m vytváříme centrované klouzavé průměry délky 2m+1 podle tohoto obecného vzorce: )...2( 4 1 ^ 11 mtmtmtmtt yyyy m y +-++-- ++++= 11 Shlazení klouzavými mediány ˇ lépe vyrovnávají řady, ve které se vyskytují odlehlé hodnoty ˇ nelze u nich využít vah Vážené klouzavé průměry ˇ Jednotlivé členy úseku řady přiřazeny váhy. ˇ Tyto váhy většinou lineárně klesají směrem od středního (vyrovnávaného) členu. ˇ Váhy mohou mít také např. podobu tzv. gaussova filtru. 0,014yt+4 0,048yt+3 0,117yt+2 0,201yt+1 0,241yt 0,201yt-1 0,117yt-2 0,048yt-3 0,014yt-4 váhaČlen řady Gaussův filtr pro m=4 ˇ Klouzavé průměry ,,vyhlazují" i samotný trend ­ mění ho. ˇ Často do něj zahrnují cyklickou složku a způsobují tzv. ,,autokorelaci reziduí" ­ mění náhodnou složku. ˇ Lze jich využít k analýze sezónní složky. Poznámky k metodě klouzavých průměrů Exponenciální vyrovnávání Patří do stejné skupiny adaptivních metod vyrovnávání trendové složky jako např. metody klouzavých průměrů. Shlazená hodnota je odhadnuta jako vážený průměr hodnoty současné a všech hodnot předchozích v časové řadě. Vyrovnané hodnoty se odhadují metodou nejmenších čtverců a váhy jednotlivých členů směrem do minulosti exponenciálně klesají (odtud název metody). Exponenciální vyrovnávání V modelu se používá shlazovací (vyrovnávací) konstanta <0;1>. Metoda umožňuje konstruovat předpovědi hodnot řady. Využívá se hlavně v ekonomických aplikacích a nachází uplatnění v humánní geografii. Hodnoty vah při exponenciálním vyrovnání řady Exponenciální vyrovnávání V závislosti na tom, jakou trendovou složku řada obsahuje (a zda obsahuje také sezónní složku) rozlišujeme následující způsoby exponenciálního vyrovnání: ˇ jednoduché - řada obsahuje konstantní trend ˇ dvojité - řada obsahuje lineární trend ˇ trojité - řada obsahuje kvadratický trend 12 Jednoduché exponenciální vyrovnávání Výraz pro výpočet exponenciálně vyrovnaných hodnot se častěji převádí do následujícího (rekurentního) tvaru: ( ) 1 ^1^ --+= ttt yyy Praktické využití: Nejprve položíme: 11 ^ yy = A dále: 122 ^)1(^ yyy -+= 233 ^)1(^ yyy -+= 1 ^)1(^ --+= ttt yyy Obecně: ...... Interpretace: Exponenciálně shlazená hodnota v čase t je rovna váženému součtu hodnoty řady v tomto čase t (s vahou ) a předchozí shlazené hodnoty v čase t-1 (s vahou -1). Shlazovací (vyrovnávací) konstanta Hodnota koeficientu ovlivňuje efekt shlazení Čím menší , tím shlazenější bude vyrovnaná řada (malé hodnoty dávají větší váhu minulým členům řady a minimální členům současným). Při hodnotách blízkým 1 je shlazená řada téměř identická s řadou původní (velké hodnoty dávají větší váhu současným členům řady a minimální členům předchozím). = 0,4 = 0,7 Analýza sezónní složky časových řad (sezónní očišťování) 1. klasický přístup k sezónní dekompozici 2. úvod do autokorelační analýzy Sezónní složka St je typická pro časové řady, jejichž interval pozorování je kratší než jeden rok (sezóna může mít délku týden, měsíc, roční období). Objevuje se v řadách ekonomických (tržby, produkce, ...), ale i v řadách meteorologických prvků (roční chod teploty vzduchu). Řada obsahující sezónní složku se vyznačuje pravidelným opakováním hodnot kolem trendu a toto opakování může mít délku např. 7 dnů (do týdne), 12 měsíců či 4 roční období (do roku). Sezónní složka může mít aditivní resp. multiplikativní charakter Obecný model řady při sezónním očišťování Trendovou a cyklickou složku považujeme za jeden celek. Cyklickou složku označujeme jako ,,střednědobý" trend: aditivní model: multiplikativní model: tttt STCY ++= tttt STCY = Yt je pozorovaná hodnota časové řady v čase t. Jednotlivé kroky analýzy sezónní složky 1. Z originální řady obsahující sezónní složku je vypočtena řada klouzavých průměrů s délkou klouzavých průměrů rovnou délce sezónní složky. 2. Vytvoříme novou řadu jako rozdíl (aditivní model) resp. podíl (multiplikativní model) řady původní a řady shlazené. 13 Jednotlivé kroky analýzy sezónní složky 3. Tzv. sezónní komponenty jsou vypočteny jako průměr pro každý člen v rámci sezóny. Výsledné hodnoty představují průměrnou sezónní složku v časové řadě. 4. Sezónně očištěná řada (tedy řada obsahujííc vedle náhodné složky ještě složku TCt) se potom vyjádří jako rozdíl (resp. podíl) řady originální a sezónní komponenty. Jednotlivé kroky analýzy sezónní složky 5. Složka TCt se většinou aproximuje řadou shlazenou váženým klouzavým průměrem délky 5 se symetrickými vahami (1, 2, 3, 2, 1). 6. Obdobně lze izolovat náhodnou složku jako rozdíl (resp. podíl) řady sezónně očištěné a řady se zvýrazněnou složkou TCt ( viz. bod 5). Autokorelace časových řad Autokorelační analýza - metoda, kterou lze zkoumat vzájemné vztahy mezi hodnotami jedné časové řady. Může sloužit jako metoda k definování sezónní a cyklické složky časových řad. Jejím základem je výpočet autokorelačního koeficientu, resp. autokorelační funkce. Autokorelační koeficient Autokorelační koeficient rk je relativní míra proměnlivosti členů časové řady posunutých o určitou hodnotu k. Definuje vztah mezi členy časové řady yt a yt+k. Posun k se z angličtiny označuje jako lag. Je to tedy korelační koeficient vypočtený mezi jednotlivými členy časové řady, mezi kterými je k-1 jiných pozorování tedy lag = k a označujeme ho jako autokorelační koeficient k- tého řádu. Pro k = 0 je hodnota r0 = 1 - je to vlastně hodnota korelačního koeficientu. Základní pojmy Rozptyl (variance) ­ míra variability (proměnlivosti) statistického znaku x 1 )( 1 2 2 - - = = n xx s n i i x Kovariance ­ absolutní míra vzájemné variability dvou statistických znaků x; y 1 ))(( 1 - -- = = n yyxx s n i ii xy Korelace - relativní míra vzájemné variability dvou statistických znaků x; y yx xy xy ss s r = Základní vztahy Autokorelační funkce ­ hodnoty ry(k) pro k=1,2,...M, kde M < N/2, N ­ délka řady Autokorelace ­ relativní míra proměnlivosti členů časové řady y posunutých o určitou hodnotu k. Autokovariance ­ absolutní míra proměnlivosti členů časové řady y posunutých o určitou hodnotu k. 1 ))(( 1 -- -- = - = + kn yyyy c kn i kii k 2 0 )( y kk y s c c c kr == 14 Autokorelační funkce Autokorelační funkce (ACF) je potom závislost mezi hodnotami autokorelačního koeficientu a hodnotami posunu k. Vyjadřuje se formou grafu ­ tzv. korelogramu (viz. obrázek). Na ose x jsou hodnoty lag (k), na ose y hodnoty autokorelačního koeficientu. Hodnoty autokorelační funkce se pohybují v intervalu ­ 1,1. ACF je vhodným nástrojem k posouzení, zda časová řada obsahuje cyklickou či periodickou složku a také zda je či není řadou náhodných čísel ­ tedy do jaké míry je možné ji extrapolovat (předpovídat). Interpretace ACF I Korelogram bývá doplňován intervaly spolehlivosti, kterými lze hodnotit statistickou významnost autokorelačních koeficientů. 95 % interval spolehlivosti ACF lze z dostatečnou přesností zkonstruovat ze vztahu: N 2 N ­ délka časové řady Časová řada náhodných čísel (bílý šum) a její autokorelační funkce Časová řada bez periodické složky se silnou autokorelací a její autokorelační funkce Časová řada obsahující výraznou sezónní složku a její autokorelační funkce Spektrální analýza časových řad Metody vycházejí z předpokladu, že řadu s výrazným periodickým kolísáním lze vyjádřit jako součet funkcí sin a cos s různou amplitudou a frekvencí. -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 Řadu na obrázku lze poměrně přesně aproximovat funkcí sin. ) 2 sin( += t T ayt 15 Spektrální analýza časových řad Reálné časové řady mívají složitější průběh. K jejich popisu lze použít více členů uvedeného obecného modelu s různou amplitudou a frekvencí. Libovolný periodický pohyb s periodou T vzniká skládáním dvou či více harmonických pohybů, z nichž první má periodu T, další T/2, T/3 atd. Výsledkem je popis chování řady tzv. Fourierovou řadou. ... 6 cos 6 sin 4 cos 4 sin 2 cos 2 sin 332211 ++++++= t T bt T at T bt T at T bt T ayt Řadu v levé části obrázku lze modelovat čtyřmi harmonickými pohyby uvedenými vpravo Cíl spektrální analýzy Cílem spektrální analýzy je získat obraz o intenzitě zastoupení jednotlivých frekvencí v časové řadě ­ o tzv. spektru řady. Spektrum pojem převzatý z oblasti teorie vlnění. Paprsek ,,bílého" světla tvoří náhodný - tzv. ,,bílý šum". Ten lze rozložit na jednotlivé komponenty o různé amplitudě a frekvenci. Spektrální analýza je takovým ,,hranolem", kterým lze časovou řadu rozložit na jednotlivé komponenty. Na rozdíl od metod u kterých je délka cyklu (či spíše periody ­ sezónnosti) známá, spektrální analýza umožňuje délku významných cyklů v řadě identifikovat. FREKVENCE (f) ­ počet cyklů realizovaných za jednotku času. Např. počet složenek na poště má frekvenci 12 cyklů za rok tj. f=12. PERIODA (T) ­ čas potřebný k realizaci jednoho cyklu T=1/f, tedy frekvence 12 představuje periodu T=1/12 = 0,0833 roku. Základní pojmy ni T f i i ,...,2,1, 1 == ( ) ( )ii fyty Jestliže dosavadní metody analýzy lze označit jako metody v časové doméně (oboru), periodická a cyklická kolísání lze dobře studovat v tzv. spektrální doméně. Princip spektrální analýzy Rozklad časové řady na jednotlivé komponenty lze považovat za příklad lineární vícenásobné regrese. Závisle proměnou představují členy časové řady a nezávisle proměnné představují sin a cos funkce všech jednotlivých frekvencí. Ve shodě s výše uvedeným lze takovýto model lineární vícenásobné regrese vyjádřit následovně: ( ) ( )[ ]= ++= q k kkkkt tfbtfaay 1 0 2sin2cos kde q kfk = Princip spektrální analýzy Analogicky jako v případě regresní závislosti parametry sin (ak) a cos (bk) funkcí jsou regresními koeficienty, které nám vypovídají o tom, do jaké míry příslušná funkce sin či cos koreluje s daty v časové řadě. Hodnota q označuje počet sin či cos funkcí, které jsou použity pro rozklad řady. Spektrální analýza identifikuje stupeň korelace funkcí sin či cos s různou frekvencí s pozorovanými hodnotami časové řady. Vysoká hodnota koeficientu sin či cos značí, že v dané časové řadě je silně zastoupena periodická složka s odpovídající frekvencí (periodou). Jednoduchý příklad Vytvoříme řadu o 16 členech: y = 1.0*cos(2*0.0625*(t-1)) +0.75*sin(2 *0.2*(t-1)) pro t = 1, 2, ....16 Takto vytvořená řada obsahuje dvě periodické složky. První má frekvenci a f=0,0625 - tzn. periodu 1/f = 16 ­ tedy celý cyklus trvá 16 časových jednotek). Druhá periodická složka má frekvenci f = 0,2 (tj. periodu 5). Koeficient funkce cos (1,0) je větší než koeficient funkce sin (0,75). 16 Jednoduchý příklad ­ pokračování Výsledná tabulka spektrální analýzy: Největší cos koeficient se vyskytuje na frekvenci 0,0625. Menší sin koeficient na frekvenci 0,1875. Tedy frekvence, které byly ,,vloženy" do vytvořené řady se reflektují ve výstupní tabulce. Vysoká hodnota určitého koeficientu tedy říká, že v časové řadě je obsažena významná cykličnost s danou frekvencí (či délkou periody). K interpretaci výsledků rozložení časové řady na jednotlivé sin a cos členy jsou vhodné grafické metody. Znázorňují hodnoty ,,periodogramu" či hodnoty ,,spektrální hustoty" vypočtené pro jednotlivé frekvence (periody). Interpretace výsledků Periodogram Funkce sin a cos jsou vzájemně nezávislé (ortogonální) ­ potom můžeme vypočítat sumu druhých mocnin koeficientů pro každou frekvenci a obdržet tak hodnotu periodogramu ( ) 2/22 NbaP kkk += Pk ­ hodnota periodogramu na frekvenci fk N ­ počet členů časové řady Hodnoty periodogramu mohou být interpretovány jako rozptyl (variance - suma čtverců) vstupních dat na dané frekvenci. Hodnoty periodogramu jsou vykreslovány v grafu k příslušné frekvenci (periodě) Problém ,,prosakování" frekvencí (leakage) V důsledku omezené délky zpracovávané řady se často stane, že periodogram vykazuje vysoké hodnoty na dvou blízkých frekvencích. Tyto ve skutečnosti představují pouze jednu významnou sin či cos funkci na frekvenci, která padá mezi hodnoty vyjádřené v periodogramu. V našem příkladě jsme do řady ,,vložili" periodu o frekvenci 0,2. Ve výsledku se však objevila vysoká hodnota koeficientu pro frekvenci 0,1875. Tento jev se označuje jako ,,leakage" ­ ,,prosakování" frekvencí. Spektrální hustota Hodnoty periodogramu obsahují mnoho náhodných fluktuací, mnoho vrcholů. Pro analýzu je podstatnější nalézt takové oblasti frekvencí, které obsahují mnoho sousedních frekvencí. Takových, které nejvíce přispívají k cyklickému chování řady - tedy oblasti frekvencí s největšími spektrálními hustotami. Problém ,,prosakování" frekvencí lze řešit shlazením periodogramu a výpočtem tzv. spektrální hustoty 17 K nalezení nejvyšších spektrálních hustot v hodnotách periodogramu se využívá metod shlazení váženými klouzavými průměry. Shlazovací okno má lichý počet (m) členů a existuje několik metod, které různým způsobem definují váhy. Suma vah je rovna jedné a většina filtrů dává podobné výsledky. Shlazení hodnot periodogramu Shlazení hodnot periodogramu Příklad ­ určení vah tzv. Hammingova filtru pro okno s m členy, kdy p=(m-1)/2 )/*2cos(*46,054,0 pjwj += ),...,0( pj = jj ww =- Váhy jsou symetrické a přiřazují nejvyšší hodnotu vždy střednímu členu shlazované části periodogramu. Spektrální hustota Příklady Průběh časové funkce (vlevo) a spektrální funkce (vpravo) pro sinusoidu a dvě různé sinusoidy Průběh časové funkce a spektrální funkce pro náhodná čísla a náhodná čísla (bílý šum) a náhodná čísla s trendem Průběh časové funkce a spektrální funkce pro cyklické kolísání s proměnlivou délkou periody a amplitudy 18 Předzpracování časové řady Odečtení průměru ­ pokud se průměr neodečte, bude vycházet výrazně vysoká hodnota periodogramu na frekvenci nula (0). Odečtení trendu ­ jinak bude řada nestacionární V některých případech je vhodné zvýraznit potenciální cykly shlazením časové řady metodou klouzavých průměrů. Testování časové řady Pokud řada neobsahuje žádný cyklus, znamená to, že hodnota každého členu řady je zcela nezávislá na hodnotách všech členů ostatních a řada představuje bílý šum. Hodnoty periodogramu takovéto řady mají exponenciální rozdělení. Lze tedy provést test rozdělení hodnot periodogramu vůči exponenciálnímu rozdělení. Lze také využít K-S testu (d testovací kritérium).