Analýza časových řad Pavla Holubíková Pavla Holubíková Analýza časových řad Struktura otázky Q Stacionární procesy Q Autokovarianční funkce a její vlastnosti Q Derivace a integrál náhodného procesu Q Spektrální rozklad autokovariančních funkcí stacionárních procesů Q Odhady středních hodnot a autokovariancí stacionárních náhodných procesů Q Regresní modely globálního a lokálního trendu Pavla Holubíková Analýza časových řad □ i3 Analýza časových řad Znaky: □ Data jsou sbírána postupně v čase. □ Zaleží na pořadí. □ Pozorování jsou vzájemně závislá. Cíle: □ Porozumět datům; podle jakého modelu vznikají nové hodnoty. □ Předpovídat budoucí hodnoty na základě minulých. Pavla Holubíková Analýza časových řad □ i3 Náhodný proces Nechť (Q, A, P) je pravděpodobnostní prostor, T C IR indexová množina a X : Q —> R reálná funkce definovaná \/u G Q a Ví G T. Jestliže Ví G T je í) borelovsky měřitelná funkce vzhledem k A, pak tuto funkci nazýváme náhodným procesem. Značíme {x(u, t):uen,teT} = {xute t}. Borelovsky měřitelná funkce (23 cr-algebra borelovských podmnožin) vb e s, Ví e t : x-^s) = {weň: í) e s} e A TCZ4 proces s diskrétním časem (časová řada) T £ [íi, h], —oo < íi < Í2 < oo —> proces se spojitým časem nabývají diskrétních hodnot —> proces s diskrétními stavy Xt nabývají hodnot z nějakého intervalu —> proces se spojitými stavy □ s Systém distribučních funkcí Konečně dimenzionální distribuční funkcí rozumíme funkci Ftlt...,tk{xu • • •, = P{Xtl ...>t/c>t/c+1(xi,..., xkl Zfc+i) = ^,...,4(2:1, • • •, Xfc), ■ FUi)_)Uk(xlk, ...,Xik) = Ftl)_)tk(xu ...,xk) pro lib. permutaci (ži,..., ik) čísel (1,..., k) nazveme konzistentní Nechť {Ftltmmmttk : € n, ŕi,..., ŕfc £ T} je konzistentní. Pak existuje {Xt, í G T} takový, že Vfc G n, íi,..., tk G T je sdružená distribuční funkce (X^,..., právě Ftltmmmttk- Procesy, jejichž konečně dimenzionální distribuce jsou všechny mnohorozměrné normální, se nazývají gaussov$fcé. Pavla Holubíková Analýza časových řad Střední hodnota, autokovarianční funkce, ACF Střední hodnota NP je funkce m = exu t e Autokovarianční funkce NP je funkce 7(5, t) = cov(X5, Xt) = e[{XS - ns){Xt - Mí)], s,íGZ. Autokorelační funkce (ACF) NP je funkce p(s, t) = cor(XS) Xt) = ^0VVs'Xí| , s,teZ. V var A 5 var A t Píšeme: 7(/i) := 7(í, í + fc) = 7(0, /i) a obdobně pro p(h). Pavla Holubíková Analýza časových řad Stacionární procesy Řekneme, že {Xt, t £ T} je striktně stacionární, pokud je sdružená distribuční funkce (X^,..., Xtk) stejná jako sdružená distribuce (xtl+h,>>>,xtk+h),vk e n, ti,...,t*; e t, h e z, tj. ^ti,...,tk{xi, • • • > gfe) = ^ti+/i,...,tfc+/i(^l? • • • , gfe)-_j Řekneme, že {Xt, í G T} je (slabě) stacionární, pokud je /xt konstantní v čase a 7(s, t) závisí pouze na rozdílu s — t. Striktní stacionarita => slabá stacionarita Pro gaussovský NP: striktní stacionarita = slabá stacionarita □ s Příklady Bílý šum: {et} ~ WN(0,a2), kde {et, í £ Z} je posloupnost náhodných veličin: Eet = 0, vaiet = cr2, cov(e5, £t) = 0 pro s ^ t stacionární OJ (M ij 50 100 150 200 Klouzavé průměry: {Xt,t £ Z}, kde Xt = (et + et-i)/2 pro - WW(0, a2), stacionární, neboť /x^ = 0, 7(í, í) = 0.5cr2, 7(í, í + 1) = 0.25cr2, 7(í, í + h) = 0 pro \h\ > 1 Pavla Holubíková Analýza časových řad Náhodná procházka: {Xt, t £ Z}, kde Xt = Ei=i Pro ~ Wtf(0, v2), nestacionární, neboť /xt = 0, pro s < t 7(í, í) = ícr2, 7(5, í) = min(s, t)a2. o 50 100 150 200 Náhodná kosinová vlna {Xt,t £ Z}, kde Xt = acos[27r(/í + (p)] pro amplitudu a, frekvenci / (např, / = 1/12), náhodnou fázi cp £ [0,1] (tj. z nějakého rozdělení, i?s([0,l])) stacionární, neboť EX^ = 0, 7(s, t) = ^ cos[27r/(s - t)]. O O o T o 10 20 30 40 50 Time Pavla Holubíková Analýza časových řad □ i3 Vlastnosti autokovarianční funkce 7(s,í) = cov(Xs,Xt), s, t E T m pro NP s konečnými druhými momenty je pozitivně semidefinitní Vfc e N, ti,..., & e t, ci,..., cfc e R 0 < var aXti ) =J2Y1 ct^'7(*i» *?) \i=l / i=lj=l m Naopak: Pro pozitivně semidefinitní, konečnou fci g na T x T 3 NP: p je autokovarianční fce ■ Platí: 7(M) = 7(0)>0 a |7(s,ŕ)| < ^(t,t).j(s,s) - PW = ^ □ t3 Pavla Holubíková Analýza časových řad Spojitost NP Řekneme, že {Xt, t G T} je spojitý podle středu v bodě to G T, jestliže při í —> íq konvergují k Xt0 podle kvadratického středu, tj. E\Xt - Xto\2 0 pro ŕ ío-Píšeme („limit in the mean") l.i.m. Xt = Xt0. Je-li {Xt, t G T} spojitý v každém bodě množiny T je spojitý. NP {Xt, ŕ G T} je spojitý jeho 7(s, í) je spojitá v bodech (s, í), pro něž s = ŕ. Pavla Holubíková Analýza časových řad Derivace NP Řekneme, že {Xt, t g T} má v bodě to g T derivaci Xío, jestliže pro íq + h g T platí Li.m.---= A+. h to Má-li NP derivaci ve všech bodech T říkáme, že NP má derivaci. Pavla Holubíková Analýza časových řad Integrál NP Nechť T = (a, b) je konečný nedegenerovaný interval, [Ti, T2] C T, kde Ti < T2. Pomoci deZera L>n intervalu [Ti, T2] takového, že Ti = čo < ti < ''' < tn — T2 vytvoříme součet !n = £ľ=i*íí(*i - Označme An = maxi<, 00 pro lib. dělení Dn takové, že An —> 0, pak se i* nazývá Riemannův integrál {Xt, t £ T} na [Ti, T2]. Píšeme I = J^j2 Xť dí. Nechť {Xu t e T} je NP s EXt = 0, 7(s, í) a konečnými 2. momenty. Pak R.I. Xtdt3&3 R.I. /J2 7(s, í) ds dí. Pavla Holubíková Analýza časových řad Spektrální rozklad 7(č) Předpoklad: {Xt, t E Z} stacionární, EXt = 0, konečné 2. momenty => 7(í) jako (nespočetný) součet harmonických fcí s různými frekvencemi a amplitudami Je-li {Xtj t E Z} stacionární posloupnost, pak se dá její j(t) vyjádřit jako 7(í) = f eítA dF(A). (1) Je-li {Xtj í E 1} stacionární NP a spojitý podle středu, pak se dá j(t) vyjádřit jako 7(*) = >oo —oo áF(X) (2) F(X) neklesající, zprava spojitá a jediná: F(-tt) = 0 a F(tt) = 7(0), příp. F(-oo) = 0 a F(oo) = 7(0) Pavla Holubíková Analýza časových řad Spektrální rozklad, distribuční funkce a hustota Vzorce (1) a (2) se nazývají spektrální rozklad 7(í). Fce F(X) se nazývá spektrální distribuční funkce. Je-li F(X) absolutně spojitá, pak existuje spektrální hustota f(X) stacionární posloupnosti (NP) platí pro F{\)= [ f{x)dx, příp. F{\)= [ f(x)dx J —TV J— OO Spektrální hustota/(A) reálného spojitého stacionárního NP nebo reálné stacionární posloupnosti je sudá fce v tom smyslu, že pro ni platí /(A) = /(—A) s.v. vzhledem k Lebesgueově míře. Pavla Holubíková Analýza časových řad Existence spektrální hustoty K existenci f (X) stacionární posloupnosti stačí, aby platilo oo £ lT(*)l < oo. t=—oo K existenci /(A) stacionárního NP stačí, aby platilo ■oo |7(í)|dí < oo. —OO Existuje-li /(A) stacionární posloupnosti a má-li konečnou variaci na [—7T, 7r], pak/(A) = 7^: X)£-oo e-2tA7(£) s.v. vzhledem k Lebesgueově míře (tj. ve všech bodech spojitosti). Existuje-li /(A) spojitého stacionárního NP a je-li |7(t)| át < oo, pak /(A) = ^/_°°ooe-IÍA7(í)dí. Pavla Holubíková Analýza časových řad Odhady středních hodnot stacionárních NP Předpokládejme, že EXt = /x, Ví G T. Jako odhad zvolíme výběrový průměr n nestranný odhad: E/2 = E ^ X)™=1 = míra kvality odhadu pomocí rozptylu var/x = var [ ^fľ**) = 1 n n n n- n 7(0) n cov(Xt, Xt) -- t=l J t=li=l {n7(0) + 2(n - 1)7(1) + • • • + 27(n - n—1 1)} 2=1 (WW: var/i = autokorelace) n 2Y^i=l ľL^jLp{i) korekční člen, odráží vliv Pavla Holubíková Analýza časových řad Nechť {Xt, t G T} je stacionární s /x a 7(/i) —> 0 pro h —> oo. Pak varXn —)► 0 pro n —> oo. Nechť {Xt, t G T} je stacionární. Pak za určitých podmínek má Xn přibližně (pro velká n) normální rozdělení: i oo h—oo Pavla Holubíková Analýza časových řad Odhady autokovariance stacionárních N P Odhad 7(/i) = E(Xt — ii)(Xt+h — m) (příp. n — h namísto n) n—h l(h) = -^l(Xl-X)(Xl+h-X). Odhad p(h) = 7(0) • l{h) Z£f{Xi ~ X){Xi+h - X) p(h) = 7(0) E?=1(xť - x) o T CM I i i i i i r 0 20 40 60 80 100 o o I T 0 10 15 20 ■D CM — O — CM I 0 20 40 60 80 100 Sž CD O CM O I T 0 Pavla Holubíková Analýza časových řad J_L _l_L 10 15 Ozn. c(h) = (7(0),.... 7(/i))' a ř(h) = (p(l),..., p(h))' Je-li {Xt,t £ T} stacionární s konečnými 4. momenty, pak má c(h) za určitých podmínek pro lib. pevné h přibližně (pro n —► oo) normální rozdělení: V^(£(/i)-c(/i))4^+i(0f Mnohdy lepší studovat závislost bez ohledu na měřítko —► ACF (p()= fce 7() ^> deZťa metoda) Je-li G T} stacionární s konečnými 4. momenty, pak má ř(h) za určitých podmínek pro lib. pevné h přibližně (pro n —► 00) normální rozdělení: y/E{ř{h)-r{h))ÁNh{0, W), kde W = {wij}ij=lt...th a OO ^=E{/9(fc+0+P(fc-0+2p(OP(fc)}{P(*+Í)+P(*-Í)+2p(jOP(*)}- fc=i Pavla Holubíková Analýza časových řad Časové řady Popisujeme pomocí Xt = DeterministickaCastt + StochastickaCast^ = {Trendy + Sezónnosti} + {PredikovatelnaVariabilitat + et} = Tt + St + Et tj. aditivní model (příp. Xt = TV SV Et multiplikativní, který lze převést na aditivní zlogaritmováním) ■ Trend - odráží dlouhodobé působení vlivů ■ Sezonnost - popisuje periodické změny (roční období...) ■ Náhodné fluktuace - modeluje vlivy, které působí nepravidelně Pavla Holubíková Analýza časových řad □ i3 Klasická dekompozice časových řad ■ tj. rozklad Xt = Tt + St + Et (v případě aditivního modelu) ■ založeno na regresní analýze ■ Tt se mění v čase flexibilně, St konstantní ■ Postup: Q Odhad Tt B „Odtrendování" Xt - Tt B Odhad sezónnosti St z Xt — Tt Q Výpočet reziduálni složky Et = Xt — Tt — St m Pro odhady složek se využívají metody: ■ parametrické - lineární modely, harmonické LRM ■ neparametrické - metoda klouzavých průměrů, jádrové vyhlazování ■ Jiné metody - STL dekompozice, exponenciální vyhlazování, Holt-Winter (včetně predikce) Pavla Holubíková Analýza časových řad □ i3 Regresní modely globálního trendu Regresní modely můžeme dělit na modely: ■ globálního trendu - využití všech t g T m lokálního trendu - volba určitého počtu t g T, tj. intervalu Uvažujme Xt = fit + Ut, kde jit = E-Xt a rezidua Ut : EUt = 0. Trend můžeme uvažovat jako polynom (LRM), v praxi buď: ■ lineární jit = Po + Pit, nebo ■ kvadratický jit = Po + Pit + P2Í2- Vhodné je zahrnout i sezónní složku (5 sezón, k G No) s Pavla Holubíková Analýza časových řad □ i3 Metoda klouzavých průměrů Uvažujme Xt = Tt + Et. Trend můžeme modelovat také neparametrický pomocí klouzavých průměrů: tzn. průměrujeme hodnoty vždy na určitém intervalu řádu m = 2k + 1 1 k Tt — — xt+3 m J=-k řádu m = 2k ~ _ 1 1 1 1 Tt — -—Xt-k H--Xt-k+i H----H--Xt+k-i + ~—Xt+k 2m m m 2 m s rostoucím m se odhadnutá křivka vyhlazuje! (tj. šířka vyhlazovacího okénka) Pavla Holubíková Analýza časových řad Pavla Holubíková Analýza časových řad [ 1. Plot the data. Identify unusual observations. Understand patterns. ■ Select model order yourself- 2. If necessary, use a Bok- Cox transformation to stabilize the variance. 3, If necessary, difference the data until it appears stationary. Use unit root tests if you are unsure. A. Plot the ACF/PACF of the; differenced dat;i and try to determine possible candidate models. 1 5. Try your ch and use t search for a oser model(s| ne AlCc to better model. 6, Check the residuals from your chosen model by plotting the ACF of the residuals, and doing a portmanteau test or the residuals. Use nul n.Eir tflhi () to find the best ARIMA model for your time scries. 7. Calculate forecasts. i B i >o ^ o Pavla Holubíková Analýza časových řad ARMA modely ■ Box-Jenkinsonova metodologie ■ pro stacionární NP ■ spojení ■ autoregresních NP (AR) a ■ NP klouzavých průměrů (MA) tj. autoregressive-moving-average models ■ ARMA(p, q) : Xt-(p\Xt-\-.. .-(ppXt-p = St+QiSt-i^-----\-0q£t-q ■ integrovaná ARMA = ARIMA, tj. ARMA(p, d, q) ■ sezónní ARMA = SARMA, tj. ARMA(p, q)(P, Q)s ■ SARIMA, tj. ARMA(p, d, q)(P, D, Q)s Např. ARMA(0,1,1)(0,1,1)12 Xt = Xt-\ + Xt-12 — Xt-13 + St + Ol€t-l + 0*€t-12 + 010*£í-13 Pavla Holubíková Analýza časových řad □ i3 Literatura ■ Přednášky: M9121 Časové řady I ■ Pravděpodobně i přednášky M0122 Časové řady II ■ Skripta: https://www.math.muni.cz/~vondra/uvm/vystupy/KAl/ M5201/M5201.pdf Pavla Holubíková Analýza časových řad □ ► i3 ~ 1