3. Popis časových řad 3.1. Motivace Ke srovnání hodnot ukazatelů ve dvou obdobích slouží metody indexní analýzy. Chceme-li však poznat určité zákonitosti ve vývoji daného ukazatele, musíme mít k dispozici jeho hodnoty za více období ve formě časové řady. Časové řady vznikají v přírodních vědách nebo technice (např. seismický záznam v geofyzice, údaje o průměrných ročních teplotách v klimatologii), v biologických vědách (četnosti výskytu určitého škůdce v několika po sobě jdoucích letech), v sociologii (vývoj rozvodovosti), v ekonomii (objem zemědělské produkce v několika po sobě jdoucích letech, vývoj směnného kurzu) atd. 3.2. Pojem časové řady, její druhy a grafické znázornění 3.2.1. Pojem časové řady: Časovou řadou rozumíme řadu hodnot určitého ukazatele uspořádanou podle přirozené časové posloupnosti t1 < ... < tn. Přitom je nutné dbát na to, aby věcná náplň ukazatele i jeho prostorové vymezení byly shodné v celém sledovaném časovém období. Jsou-li časové intervaly (t1, t2), ..., (tn-1, tn) stejně dlouhé (ekvidistantní), zjednodušeně zapisujeme časovou řadu jako y1, ..., yn. 3.2.2. Druhy časových řad a) Časová řada okamžiková: příslušný ukazatel udává, kolik jevů existuje v daném časovém okamžiku (např. počet obyvatelstva k určitému dnu). b) Časová řada intervalová: příslušný ukazatel udává, kolik jevů vzniklo či zaniklo v určitém časovém intervalu (např. počet sňatků během roku). Nejsou-li jednotlivé časové intervaly ekvidistantní, musíme provést očištění časové řady od důsledků kalendářních variací. Příklad 1.: Máme k dispozici údaje o tržbě obchodní organizace (v tis. Kč) v jednotlivých měsících roku 1995: 2400, 2134, 2407, 2445, 2894, 3354, 3515, 3515, 3225, 3063, 2694, 2600. Vypočtěte očištěné údaje. Řešení: Průměrná délka měsíce je 365/12 dne. Očištěná hodnota pro leden je tedy , pro únor . Pro ostatní měsíce analogicky dostaneme 2361,71; 2478,96; 2839,54; 3400,58, 3448,86; 3448,86; 3269,79; 3005,36; 2731,42; 2551,08. 3.2.3. Grafické znázornění časové řady a) Okamžikovou časovou řadu graficky znázorňujeme pomocí spojnicového diagramu. Na vodorovnou osu vynášíme časové okamžiky t1, ..., tn, na svislou osu odpovídající hodnoty y1, ..., yn. Dvojice bodů (ti, yi), i = 1, ..., n spojíme úsečkami. Příklad 2.: Časová řada obsahuje údaje o počtu zaměstnanců určité akciové společnosti v letech 1989 -- 1996 vždy k 31.12. 198 1990 199 199 199 199 199 199 9 1 2 3 4 5 6 622 627 631 635 641 641 632 625 Znázorněte tuto časovou řadu graficky. Řešení: b) Intervalovou časovou řadu nejčastěji znázorňujeme sloupkovým diagramem. Je to soustava obdélníků, kde šířka obdélníku je rovna délce intervalu a výška odpovídá hodnotě ukazatele v daném intervalu. Ke znázornění intervalové časové řady lze použít i spojnicový diagram, přičemž na vodorovnou osu vynášíme středy příslušných intervalů. Příklad 3.: Máme k dispozici údaje o produkci určitého podniku (v tisících výrobků) v letech 1991-1996. 199 199 199 199 199 199 1 2 3 4 5 6 114 106 107 102 116 137 Znázorněte tuto časovou řadu graficky. Řešení: 3.3. Popisné charakteristiky časových řad 3.3.1. Průměr okamžikové časové řady Nejprve vypočteme průměry pro jednotlivé dílčí intervaly (t1, t2), (t2, t3), ..., (tn-1, tn): . Jsou-li všechny tyto intervaly stejně dlouhé, vypočteme prostý chronologický průměr okamžikové časové řady: . Nemají-li intervaly stejnou délku, vypočteme di = ti -- ti-1, i = 2, ..., n a použijeme vážený chronologický průměr okamžikové časové řady: . Příklad 4.: Časová řada vyjadřuje počet obyvatelstva ČSSR (v tisících) v letech 1965 až 1974 vždy ke dni 31.12. Rok 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 poče 1419 1427 1433 1438 1444 1434 1441 1457 1463 1473 t 4 1 3 7 3 5 9 6 1 8 Charakterizujte tuto časovou řadu chronologickým průměrem. Řešení: . 3.3.2. Průměr intervalové časové řady . Příklad 5.: Vypočtěte průměrnou hodnotu roční časové řady HDP ČR (v miliardách Kč) v letech 1994 až 2000. 1994 1995 1996 1997 1998 1999 2000 1303, 1381, 1447, 1432, 1401, 1390, 1433, 6 1 7 8 3 6 8 Řešení: . 3.4. Dynamické charakteristiky časových řad 3.4.1. Absolutní přírůstky 1. diference: 2. diference: atd. (Diferencování má velký význam při odhadu trendu časové řady regresními metodami.) Průměrný absolutní přírůstek: 3.4.2. Relativní přírůstek (Relativní přírůstek po vynásobení 100 udává, o kolik procent se změnila hodnota v čase ti oproti času ti-1.) 3.4.3. Koeficient růstu (tempo růstu) (Koeficient růstu po vynásobení 100 udává, na kolik procent hodnoty v čase ti-1 vzrostla či poklesla hodnota v čase ti.) Průměrný koeficient růstu Průměrný relativní přírůstek Příklad 6.: Pro časovou řadu HDP ČR v letech 1994 až 2000 (v miliardách Kč) vypočtěte základní charakteristiky dynamiky a graficky znázorněte 1. diference a koeficienty růstu. Řešení: rok HDP Äyi ki äi 1994 1303,6 x x x 1995 1381,1 77,5 1,059 0,059 1996 1447,7 66,6 1,048 0,048 1997 1432,8 -14,7 0,990 -0,010 1998 1401,3 -31,5 0,978 -0,022 1999 1390,6 -10,7 0,992 -0,008 2000 1433,8 43,2 1,031 0,031 Průměrný absolutní přírůstek: , tzn., že v období 1994 -- 2000 rostl HDP průměrně o 21,7 miliard Kč ročně. Průměrný koeficient růstu: , tzn., že v období 1994 -- 2000 rostl HDP průměrně o 1,6% ročně. Graf 1. diferencí: Graf koeficientů růstu: 3.5. Odhad trendu časové řady pomocí regrese 3.5.1. Aditivní model časové řady Předpokládejme, že pro časovou řadu y1, ..., yn platí model yt = f(t) + ĺt, t = 1, ..., n, kde f(t) je neznámá trendová funkce (trend), kterou považujeme za systematickou (deterministickou) složku časové řady (popisuje hlavní tendenci dlouhodobého vývoje časové řady) a ĺt je náhodná složka časové řady zahrnující odchylky od trendu. Náhodná složka splňuje předpoklady E(ĺt) = 0, D(ĺt) = ó2, C(ĺt, ĺt+h) = 0, ĺt ~ N(0, ó2) (říkáme, že ĺt je bílý šum). 3.5.2. Cíl regresní analýzy trendu Regresní analýza trendu má objasnit vztah mezi závisle proměnnou veličinou yt a časem t. Předpokládáme, že trend f(t) závisí (lineárně či nelineárně) na neznámých parametrech â0, â1, ..., âk a známých funkcích ö0(t), ö1(t), ...., ök(t), které již neobsahují žádné neznámé parametry, tj. f(t) = g(â0, â1, ..., âk; ö0(t), ö1(t), ...., ök(t)). Odhady b0, b1, ..., bk neznámých parametrů â0, â1, ..., âk lze získat např. metodou nejmenších čtverců a pak vyjádřit odhad neznámého trendu v bodě t pomocí odhadů b0, b1, ..., bk a funkcí ö0(t), ö1(t), ...., ök(t), tj. = g(b0, b1, ..., bk; ö0(t), ö1(t), ...., ök(t)). 3.5.3. Nejdůležitější typy trendových funkcí Volba typu trendové funkce se provádí - na základě teoretických znalostí a zkušeností se zkoumanou veličinou yt - pomocí grafu časové řady - pomocí informativních testů založených na jednoduchých charakteristikách časové řady a) Lineární trend Analytické vyjádření: Informativní test: 1. diference jsou přibližně konstantní b) Kvadratický trend Analytické vyjádření: Informativní test: 1. diference mají přibližně lineární trend, 2. diference jsou přibližně konstantní. c) Exponenciální trend Analytické vyjádření: . Model lze linearizovat logaritmickou transformací: Informativní test: koeficienty růstu jsou přibližně konstantní. d) Modifikovaný exponenciální trend Analytické vyjádření: . Informativní test: řada podílů sousedních 1. diferencí je přibližně konstatní. e) Logistický trend Analytické vyjádření: Informativní test: průběh 1. diferencí je podobný Gaussově křivce a podíly jsou přibližně konstantní. f) Gompertzova křivka Analytické vyjádření: Informativní test: podíly jsou přibližně konstantní. Modely (a), (b), (c) jsou lineární nebo se dají linearizovat a odhady parametrů získáme metodou nejmenších čtverců. Modely (d), (e), (f) jsou nelineární a odhady parametrů se získávají speciálními numerickými metodami. 3.5.4. Orientační ověřování kvality modelu - Index determinace (tj. podíl vysvětlené a celkové variability závisle proměnné veličiny) by měl být blízký 1. - Body grafu , t = 1, 2, ..., n by se měly řadit do přímky se směrnicí 1. Příklad 7.: Časová řada 112, 149, 238, 354, 580, 867 udává zisk (v tisících dolarů) jisté společnosti v prvních šesti letech její existence. a) Graficky znázorněte průběh této časové řady. b) Vypočtěte koeficienty růstu c) Z grafu časové řady a chování koeficientů růstu lze usoudit, že časová řada má exponenciální trend . Odhadněte jeho parametry. d) Najděte odhad zisku společnosti v 7. a 8. roce její existence. e) Zjistěte index determinace a sestrojte graf , t = 1, ..., 6. Řešení: ad a) ad b) Koeficienty růstu: 149/112 = 1,33, 238/149 = 1,597, 354/238 = 1,487, 580/354 = 1,628, 867/580 = 1,495. Vidíme, že koeficienty růstu jsou přibližně konstantní. ad c) Model linearizujeme a metodou nejmenších čtverců získáme odhady ln b0 = 4, 227983, ln b1 = 0,420199. Odlogaritmováním dostaneme b0 = 68,57875, b1 = 1,522265. ad d) ad e) ID2 = 0,996 Jak index determinace, tak graf svědčí o tom, že model byl zvolen správně. 3.6. Odhad trendu časové řady pomocí klouzavých průměrů 3.6.1. Podstata klouzavých průměrů Předpokládáme, že časová řada se řídí aditivním modelem popsaným v 3.5.1. Odhad trendu v bodě t získáme určitým zprůměrováním původních pozorování z jistého okolí uvažovaného časového okamžiku t. Můžeme si představit, že podél dané časové řady klouže okénko, v jehož rámci se průměruje. Nechť toto okénko zahrnuje d členů nalevo od bodu t a d členů napravo od bodu t. Hovoříme pak o vyhlazovacím okénku šířky h = 2d + 1. Prvních a posledních d hodnot trendu neodhadujeme, protože pro není vyhlazovací okénko symetrické. Odhad trendu ve středu vyhlazovacího okénka je dán vztahem: , t = d+1, ..., n-d. 3.6.2. Šířka vyhlazovacího okénka Velmi důležitou otázkou je stanovení šířky vyhlazovacího okénka. Je-li okénko příliš široké, bude se odhad trendu blížit přímce (říkáme, že je přehlazen) a zároveň se ztratí velký počet členů na začátku a na konci časové řady. Je-li naopak okénko úzké, bude se odhad trendu blížit původním hodnotám (říkáme, že odhad je podhlazen). Nejčastěji se volí šířka okénka h = 3, 5, 7. Příklad 8.: Časová řada 215, 219, 222, 235, 202, 207, 187, 204, 174, 172, 201, 272 udává roční objemy vývozu piva (v miliónech litrů) z Československa v letech 1980 až 1991. a) Odhadněte trend této časové řady pomocí klouzavých průměrů s vyhlazovacím okénkem šířky 3 a poté 5. b) Graficky znázorněte průběh časové řady s odhadnutým trendem. Řešení: rok vývoz kp3 kp5 1980 215 x x 1981 219 218,6 x 67 1982 222 225,3 218,6 33 1983 235 219,6 217 67 1984 202 214,6 210,6 67 1985 207 198,6 207 67 1986 187 199,3 194,8 33 1987 204 188,3 188,8 33 1988 174 183,3 187,6 33 1989 172 182,3 204,6 33 1990 201 215 x 1991 272 x x Grafické znázornění časové řady s odhadnutým trendem h = 3 h = 5 Příklady ke 3. kapitole Příklad 1. : V tabulce jsou uvedeny stavy pracovníků stavebního podniku v období od 1. ledna do 1. května. Vypočtěte průměrný stav pracovníků za toto období. Datum 1.1. 1.2 1.3 1.4 1.5. . . . Počet 178 170 180 150 162 pracovníků ¨Đňůměr činí 167,41) Příklad 2. : Pro časovou řadu hodnot měsíční hrubé mzdy v ČR v letech 1989 -- 1997 vypočtěte a interpretujte průměrný absolutní přírůstek a průměrný koeficient růstu. rok 1989 1990 1991 1992 1993 1994 1995 1996 1997 mzda 3170 3286 3792 4644 5817 6894 8172 9676 10696 (Průměrný absolutní přírůstek je 940,75 Kč, tzn., že průměrná hrubá měsíční mzda stoupala v letech 1989 -- 1997 průměrně o 940,75 Kč ročně. Průměrný koeficient růstu je 1,164, že průměrná hrubá měsíční mzda stoupala v letech 1989 -- 1997 průměrně o 16,4% ročně.) Příklad 3. : Je známa časová řada spotřeby mléka v ČR v letech 1989 -- 1996 (v l na obyvatele za rok). rok 1989 1990 1991 1992 1993 1994 1995 1996 spotře 91,4 91,5 87,2 74,4 72,8 77,3 64,6 58,5 ba a) Časovou řadu znázorněte graficky. b) Vypočtěte 1. diference. c) Z grafu časové řady a chování 1. diferencí lze usoudit na lineární trend . Odhadněte jeho parametry. Pro úsporu času máte uvedeny tyto charakteristiky: . d) Za předpokladu, že se dosavadní charakter vývoje spotřeby mléka nezmění, odhadněte spotřebu mléka v roce 2000. e) Vhodnost modelu posuďte pomocí indexu determinace. (ad c) Odhadnutý trend: , ad d) 41,85 , ad e) 0,8964) Práce se systémem STATISTICA Téma: popisné a dynamické charakteristiky časových řad, regresní odhad trendu, klouzavé průměry Příklad 1.: Grafické znázornění okamžikové časové řady Časová řada obsahuje údaje o počtu zaměstnanců určité akciové společnosti v letech 1989 -- 1996 vždy k 31.12. 198 1990 199 199 199 199 199 199 9 1 2 3 4 5 6 622 627 631 635 641 641 632 625 Znázorněte tuto časovou řadu graficky. Návod: Vytvoříme nový datový soubor o dvou proměnných a osmi případech. První proměnnou nazveme ROK, druhou POCET. Graphs -- Scatterplots -- Variables X ROK, Y POCET -- OK -- vypneme Linear fit -- OK. Format -- All options -- Plot: General -- zaškrtneme Line -- OK. Vznikne spojnicový diagram. Příklad 2.: Grafické znázornění intervalové časové řady Máme k dispozici údaje o produkci určitého podniku (v tisících výrobků) v letech 1991-1996. 199 199 199 199 199 199 1 2 3 4 5 6 114 106 107 102 116 137 Znázorněte tuto časovou řadu graficky. Návod: Vytvoříme nový datový soubor o dvou proměnných a šesti případech. První proměnnou nazveme ROK, druhou PRODUKCE. Graphs -- Scatterplots -- Variables X ROK, Y PRODUKCE -- OK -- vypneme Linear fit -- OK. Format -- All options -- Plot: General -- zaškrtneme Line -- Add new plot -- Type Bar plot -- Name bar -- OK. Do sloupců označených jako bar okopírujeme hodnoty proměnných ROK a PRODUKCE. V All Options Plot:bar upravíme šířku sloupce na 1. Příklad 3.: Výpočet chronologického průměru okamžikové časové řady Vypočtěte chronologický průměr časové řady počtu zaměstnanců akciové společnosti. Zadání viz příklad 1. Návod: Použijeme datový soubor vytvořený v příkladě 1. Vymažeme proměnnou ROK a datový soubor transponujeme. K nově vzniklému souboru přidáme proměnnou PRUMER a do jejího Long Name napíšeme vzorec: =(v1/2+sum(v2:v7)+v8/2)/7. Výpočet průměru intervalové časové řady -- použijeme volbu Mean z Descriptive statistics. Příklad 4.: Výpočet dynamických charakteristik časové řady Pro časovou řadu HDP ČR v letech 1994 -- 2000 (v miliardách Kč) vypočtěte 1. diference, relativní přírůstky a koeficienty růstu. Tyto charakteristiky znázorněte graficky. Vypočtěte také průměrný absolutní přírůstek a průměrný koeficient růstu. 1994 1995 1996 1997 1998 1999 2000 1303, 1381, 1447, 1432, 1401, 1390, 1433, 6 1 7 8 3 6 8 Návod: Vytvoříme nový datový soubor o dvou proměnných a šesti případech. První proměnnou nazveme ROK, druhou HDP. Výpočet 1. diferencí: Statistics -- Advanced Linear- Nonlinear Models -- Time Series-Forecasting -- Variables HDP -- OK -- OK(transformations, autocorelations, crosscorrelations, plots) -- vybereme Difference, integrate -- zaškrtneme Differencing, lag = 1 -- OK(Transform selected series) -- vykreslí se graf, vrátíme se do Transformations of Variables -- Save variables. Otevře se nový spreadsheet, kde v proměnné HDP_1 jsou uloženy 1. diference. Pomocí Line Plots vykreslíme průběh 1. diferencí, Výpočet relativních přírůstků: Vrátíme se do Transformations of Variables -- vybereme Shift -- zaškrtneme Shift (lag) series forward -- lag = 1 - OK(Transform selected series) -- vykreslí se graf, vrátíme se do Transformations of Variables -- Save variables. Tato transformovaná veličina se uloží do spreadsheetu pod názvem HDP_1 (proměnná s 1. diferencemi se přejmenuje na HDP_2). Přidáme novou proměnnou RP a do jejího Long Name napíšeme vzorec =HDP_2/HDP_1. Pomocí Line Plots vykreslíme průběh relativních přírůstků. Výpočet koeficientů růstu: Do spreadsheetu přidáme proměnnou KR a do jejího Long Name napíšeme vzorec =HDP/HDP_1. Pomocí Line Plots vykreslíme průběh koeficientů růstu. Průměrný absolutní přírůstek a průměrný koeficient růstu vypočteme na kalkulačce. Pzorový rakteristik časové řadyříklad 5.: Regresní odhad trendu Časová řada 112, 149, 238, 354, 580, 867 udává zisk (v tisících dolarů) jisté společnosti v prvních šesti letech její existence. a) Znázorněte časovou řadu graficky. b) Vypočtěte koeficienty růstu této časové řady. c) Předpokládejte, že časová řada má exponenciální trend. Odhadněte jeho parametry a graficky znázorněte průběh časové řady s odhadnutým trendem. d) Sestrojte graf e) Najděte odhady zisku společnosti v následujících dvou letech. Návod: Vytvoříme datový soubor o dvou proměnných CAS a ZISK a šesti případech. Úkoly (a) a (b) vypracujeme podle návodu ze vzorových příkladů 1 a 4. Úkol (c): Přidáme proměnnou LNZISK a do jejího Long Name napíšeme vzorec =log(ZISK). Statistics -- Multiple Regression -- Variables Dependent LNZISK, Independent CAS -- OK -- OK -- Quick -- Summary Regression Results. Ve výstupní tabulce ve sloupci B jsou odhady parametrů linearizovaného modelu. Přidáme novou proměnnou EXPB a do jejího Long Name napíšeme =exp(B). Tím získáme odhady parametrů exponenciálního trendu (b0 = 68,579, b1 = 1,522). Do původního datového souboru přidáme proměnnou ODHAD a do jejího Long Name napíšeme =68.579*1.522^CAS. Pomocí Scatterplots graficky znázorníme časovou řadu s proloženým exponenciálním trendem. Úkol (d): Graf vytvoříme pomocí Scatterplots proměnných ZISK a ODHAD. Úkol (e): Odhady zisku společnosti v 7. a 8. roce její existence vypočteme na kalkulačce. Příklad 6.: Odhad trendu klouzavými průměry Časová řada 215, 219, 222, 235, 202, 207, 187, 204, 174, 172, 201, 272 udává roční objemy vývozu piva (v miliónech litrů) z Československa v letech 1980 až 1991. c) Odhadněte trend této časové řady pomocí klouzavých průměrů s vyhlazovacím okénkem šířky 3 a poté 5. d) Graficky znázorněte průběh časové řady s odhadnutým trendem. Návod: Vytvoříme datový soubor o dvou proměnných CAS a VYVOZ a dvanácti případech. Statistics - Advanced Linear-Nonlinear Models -- Time Series-Forecasting -- Variables VYVOZ -- OK -- OK(transformations, autocorelations, crosscorrelations, plots) -- vybereme Smoothing -- zaškrtneme N-pts mov. averg., N = 3 -- OK(Transform selected series) -- vykreslí se graf, vrátíme se do Transformations of Variables -- Save variables. Otevře se nový spreadsheet, kde v proměnné VYVOZ_1 jsou uloženy klouzavé průměry. Proměnnou VYVOZ_1 okopírujeme do původního datového souboru do nové proměnné ODHAD3 (pozor -- roky 1980 a 1991 nemají přiřazený odhad). Grafické znázornění časové řady s odhadnutým trendem získáme pomocí Scatterplots, kde vybereme Graph type Multiple. Analogicky postupujeme pro pětičlenné klouzavé průměry. Příklady k samostatnému řešení 1. Časová řada obsahuje údaje o počtu žen (v tisících) pracujících v národním hospodářství ČSSR v letech 1967 -- 1974. Údaje jsou uvedeny vždy k 1.1. 196 1968 196 197 197 197 197 197 7 9 0 1 2 3 4 299 3053 314 321 328 334 340 345 7 1 1 6 6 0 0 a) Znázorněte tuto časovou řadu graficky. b) Vypočtěte chronologický průměr. c) Vypočtěte a graficky znázorněte 1. diference, relativní přírůstky a koeficienty růstu. d) Zjistěte průměrný absolutní přírůstek a průměrný koeficient růstu. Výsledky: chronologický průměr = 3234,6, průměrný absolutní přírůstek = 64,714, průměrný relativní přírůstek = 1,02. 2. V tabulce jsou uvedeny údaje o počtu sňatků v ČR v letech 1990 -- 1999. 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 9094 7197 7406 6603 5844 5495 5389 5780 5502 5352 3 3 0 3 0 6 6 4 7 3 a) Znázorněte tuto časovou řadu graficky. b) Vypočtěte průměr. c) Vypočtěte a graficky znázorněte 1. diference, relativní přírůstky a koeficienty růstu. d) Zjistěte průměrný absolutní přírůstek a průměrný koeficient růstu. Výsledky: průměr = 63666,5, průměrný absolutní přírůstek = - 4158,9, průměrný koeficient růstu = 0,943. 3. Je dána časová řada potratů (v tisících) v ČR v letech 1986 až 1996: 99,5 126,7 129,3 126,5 126,1 120,1 109,3 85,4 67,4 61,6 60. Předpokládejte, že tato časová řada má kvadratický trend. Odhadněte parametry trendové funkce a graficky znázorněte průběh časové řady s odhadnutým trendem. 4. Máte k dispozici údaje o počtu bytů předaných do užívání v Československu v letech 1960 až 1970: 73 766 86 032 85 221 82 189 77 301 77 818 75 576 79 297 86 571 85 656 112 135. Odhadněte trend této časové řady pomocí klouzavých průměrů s vyhlazovacím okénkem šířky 5 a graficky znázorněte...