Jednoduchá lineární regrese II Opakování Studujeme regresní model , kde - vektor pozorování závisle proměnné veličiny Y, - regresní matice (předpokládáme, že h(X) = p+1 < n) - vektor regresních parametrů, - vektor náhodných odchylek, pro který platí ~ N[n](0, σ^2 I). Maticově zapsaná metoda nejmenších čtverců vede na rovnice X’Xβ = X’y - systém normálních rovnic b = (X’X)^-1 X’ y – odhad vektoru β získaný metodou nejmenších čtverců = Xb – vektor regresních odhadů (vektor predikce) e = y - - vektor reziduí Vlastnosti odhadu b: - odhad b je lineární, neboť je vytvořen lineární kombinací pozorování y[1], …, y[n] s maticí vah ; - odhad b je nestranný, tj. E(b) = β; - odhad b má varianční matici var b = σ^2(X'X)^-1; - odhad b ~ N[p+1](β, σ^2 (X'X)-1); - odhad b je nejlepší nestranný lineární odhad vektoru β. Součty čtverců a index determinace: S[E] = e’e … reziduální součet čtverců (podíl je odhad rozptylu σ^2) S[R] = ( -m[2])’( -m[2]) … regresní součet čtverců, kde m[2] je sloupcový vektor průměrů závisle proměnné veličiny Y S[T] = (y-m[2])’(y-m[2]) … celkový součet čtverců Platí - index determinace ( ), udává, jakou část variability závisle proměnné veličiny Y lze vysvětlit zvolenou regresní funkcí Intervaly spolehlivosti pro regresní parametry 100(1- α)% interval spolehlivosti pro β[j] má meze: , kde je směrodatná chyba odhadu b[j], v[jj] je j-tý diagonální prvek matice (X'X)^-1, j = 0, 1, …, p Testování významnosti modelu jako celku (celkový F-test) Na hladině významnosti α testujeme H[0]: proti H[1]: . (Nulová hypotéza říká, že dostačující je model konstanty.) Testová statistika: má rozložení F(p, n-p-1), pokud H[0] platí. Kritický obor: . H[0] zamítáme na hladině významnosti α. Výsledky F-testu zapisujeme do tabulky analýzy rozptylu: zdroj variability součet čtverců stupně volnosti podíl statistika F model S[R] p S[R]/p reziduální S[E] n-p-1 S[E]/(n-p-1) - celkový S[T] n-1 - - Testování významnosti regresních parametrů (dílčí t-testy) Na hladině významnosti α pro j = 0,1, ..., p testujeme hypotézu H[0]: β[j] = 0 proti H[1]: β[j] ≠ 0. Testová statistika: má rozložení t(n-p-1), pokud H[0] platí. Kritický obor: . H[0] zamítáme na hladině významnosti α. Nové poznatky Interval spolehlivosti pro teoretickou regresní funkci Nechť x[0] je pevně zvolená hodnota nezávisle proměnné veličiny X. Vytvořme vektor a zabývejme se lineární kombinací složek vektoru regresních parametrů, tj. hodnotou teoretické regresní funkce v bodě x[0]. Nestranným odhadem této lineární kombinace je s varianční maticí . Protože ~ , dostáváme, že ~ N(0,1). Jelikož ~ , plyne odtud, že náhodná veličina ~ t(n-p-1). Vidíme tedy, že 100(1- α)% interval spolehlivosti pro , tj. pro hodnotu regresní funkce má meze . Při spojitě se měnícím x[0] vytvoří meze tohoto intervalu spolehlivosti tzv. pás spolehlivosti kolem regresní funkce. Predikční interval spolehlivosti V případě, kdy chceme zkonstruovat 100(1- α)% interval spolehlivosti nikoli pro hodnotu regresní funkce, ale pro i-tou predikovanou hodnotu (tzv. predikční interval), dostaneme meze . Vidíme, že tento predikční interval je širší než předešlý interval spolehlivosti. Je to interval, který nás informuje o tom, v jakém rozsahu můžeme očekávat jedno další pozorování s pravděpodobností aspoň 1- α. Při spojitě se měnícím x[0] vytvoří meze tohoto predikčního intervalu spolehlivosti tzv. predikční pás spolehlivosti kolem regresní funkce. Regresní přímka a její vlastnosti Uvažujeme regresní model . (Parametr interpretujeme jako teoretickou hodnotu Y při x = 0 a udává změnu Y, když X se změní o jednotku. Systém normálních rovnic získáme derivováním výrazu parciálně podle a : Řešením tohoto systému získáme odhady Po jednoduchých úpravách dospějeme ke tvaru , kde je kovariance hodnot (xi, yi), i = 1, ..., n a je rozptyl hodnot . Dále dostáváme , tedy regresní přímku můžeme vyjádřit ve tvaru . Pro regresní přímku má reziduální součet čtverců tvar . Odhad rozptylu: . Index determinace: , kde , tedy . Vidíme tedy, že v případě regresní přímky je index determinace roven kvadrátu koeficientu korelace. Test významnosti směrnice regresní přímky (tj. test H[0]: β[1] = 0 proti H[1]: β[1] ≠ 0) je ekvivalentní hypotéze o nulovosti koeficientu korelace (tj. testu H[0]: ρ = 0 proti H[1]: ρ ≠ 0). Jestliže koeficient korelace veličin X, Y je blízký 0, nemá smysl počítat parametry regresní přímky. Interval spolehlivosti pro teoretickou regresní přímku při zadané hodnotě x[0] má meze: , . Predikční interval spolehlivosti pro budoucí pozorování y při zadané hodnotě x[0] má meze: , . Srovnání intervalu spolehlivosti a predikčního intervalu při zadané hodnotě x[0]: - oba intervaly jsou nejužší v místě x[0 ]= m[X], - interval spolehlivosti pro dané x[0] je vždy užší než odpovídající predikční interval, - predikční interval je určen pro individuální pozorování, zatímco interval spolehlivosti je určen pro hodnoty ležící na regresní přímce, - s rostoucím rozsahem výběru se zmenšuje šířka obou intervalů. Data s proloženou regresní přímkou, pásy spolehlivosti (červeně) a predikčními pásy (zeleně) Předpoklady použití regresní přímky: - Závislost Y na X má lineární charakter. - Pro celý rozsah uvažovaných hodnot nezávisle proměnné X je reziduální rozptyl s^2 konstantní (hovoříme o homoskedasticitě a znamená to, že variabilita hodnot závisle proměnné veličiny Y kolem regresní přímky je stejná pro všechny uvažované hodnoty nezávisle proměnné veličiny X). - Hodnoty závisle proměnné veličiny Y mají normální rozložení pro dané hodnoty x[i] a jsou stochasticky nezávislé (to souvisí s uspořádáním experimentu). Poznámka: Menší odchylky od normality a homoskedasticity je možno tolerovat. Sdružené regresní přímky Uvažme nyní situaci, kdy obě veličiny Y a X jsou náhodné, přičemž samozřejmě předpokládáme, že X nezávisí na rušivé složce . Pak jde o případ oboustranné závislosti. Závislost Y na X vystihuje 1. regresní přímka a závislost X na Y vystihuje 2. regresní přímka . Odhady regresních koeficientů v modelu získáme opět metodou nejmenších čtverců ve tvaru . 2. regresní přímka má tedy rovnici: . 1. a 2. regresní přímka se nazývají sdružené regresní přímky a odhady regresních koeficientů se nazývají odhady párově sdružených regresních koeficientů. Je zřejmé, že . Rovnice sdružených regresních přímek můžeme tedy psát ve tvaru: , . Sdružené regresní přímky se protínají v bodě o souřadnicích . V případě, že náhodné veličiny X, Y jsou nekorelované, jsou odhady nulové a sdružené regresní přímky mají tvar , . Pokud mezi náhodnými veličinami X, Y existuje úplná lineární závislost, pak sdružené regresní přímky splynou. K tomu dojde tehdy, když , tj. . Označíme-li úhel, který svírají sdružené regresní přímky, pak z předešlých úvah plyne: mezi X a Y neexistuje žádná lineární závislost; mezi X a Y existuje úplná přímá lineární závislost; <=> mezi X a Y existuje úplná nepřímá lineární závislost. Příklad: Z fiktivního základního souboru všech vzorků oceli odpovídajících „všem myslitelným tavbám“ bylo do laboratoře dodáno 60 vzorků a zjištěny a hodnoty proměnné X – mez plasticity a Y – mez pevnosti. Datový soubor má tvar: a) Určete regresní přímku meze pevnosti na mez plasticity. b) Zakreslete regresní přímku do dvourozměrného tečkového diagramu spolu s 95% pásem spolehlivosti a predikčním pásem spolehlivosti. c) Najděte regresní odhad meze pevnosti pro mez plasticity = 60. d) Vypočtěte index determinace a interpretujte ho. e) Určete regresní přímku meze plasticity na mez pevnosti. f) Zakreslete regresní přímku do dvourozměrného tečkového diagramu. g) Obě regresní přímky zakreslete do téhož dvourozměrného tečkového diagramu. Řešení: Nejprve vypočteme číselné charakteristiky obou proměnných: m[X] = 95,9, m[Y] = 114,4, s[X]^2 = 1052,40, s[Y]^2 = 1057,21, s[X] = 32,4, s[Y] = 32,5, s[XY] = 985,76, r[XY] = 0,936. ad a) Dosadíme do vzorců pro výpočet směrnice a úseku regresní přímky: b[1] = = , b[0] = m[Y] – b[1]m[X] = 114,4 – 0,937 . 95,9 = 24,5 Regresní přímka meze pevnosti na mez plasticity má tedy rovnici y = 24,5 + 0,937x. Znamená to, že při nulové mezi plasticity by mez pevnosti byla 24,5. Pokud mez plasticity vzroste o jednotku, mez pevnosti vzroste o 0,937. ad b) Vytvoříme dvourozměrný tečkový diagram s proloženou regresní přímkou: ad c) Regresní odhad meze pevnosti pro mez plasticity = 60: = 24,5 + 0,937.60 = 80,72. ad d) ID^2 = r[12]^2 = 0,936^2 = 0,876. Znamená to, že 87,6% variability hodnot meze pevnosti je vysvětleno regresní přímkou. ad e) Dosadíme do vzorců pro výpočet směrnice a úseku 2. regresní přímky: Regresní přímka meze plasticity na mez pevnosti má tedy rovnici x = -10,7 + 0,932y. ad f) ad g) 1. regresní přímka má rovnici y = 24,5 + 0,937x, 2. regresní přímka má rovnici x = -10,7 + 0,932y, tedy . Obě přímky zakreslíme do téhož dvourozměrného tečkového diagramu. Řešení v systému STATISTICA: Odhad parametrů 1. regresní přímky: Statistiky – Vícerozměrná regrese – Závisle proměnná Y, nezávisle proměnná X - OK – OK – Výpočet: Výsledky regrese. Zakreslení regresních pásů do dvourozměrného tečkového diagramu s proloženou regresní přímkou: Grafy – Bodové grafy – Proměnné X, Y – OK – na záložce Detaily zaškrtneme Regresní pásy Spolehl. – OK. Ve vytvořeném grafu pak 2x klikneme na pozadí grafu a v nabídce Regresní pásy vybereme Přidat nový pár pásů – zaškrtneme Predikční. Analogicky získáme výsledky pro 2. regresní přímku: Nakreslení sdružených regresních přímek do jednoho diagramu: K datovému souboru ocel.sta přidáme dvě nové proměnné y1 a y2. Do proměnné y1 uložíme predikované hodnoty meze pevnosti na mezi plasticity (do Dlouhého jména proměnné y1 napíšeme =24,58814 – 0,93668*x a do Dlouhého jména proměnné y2 napíšeme =(x+10,7858)/0,9324 Grafy – Bodové grafy – zaškrtneme Vícenásobný – Proměnné X: X, Y: Y, y1, y2 – OK. Ve vytvořeném grafu pak vypneme zobrazování značek pro y1, y2 a naopak zapneme Spojnici. Test linearity regrese Nechť hodnoty závisle proměnné veličiny Y jsou roztříděny do r ≥ 3 skupin podle variant x[[1]], ..., x[[r]] nezávisle proměnné veličiny X, přičemž aspoň jedna skupina má více než jedno pozorování. Budeme předpokládat, že každá skupina hodnot má normální rozložení a že všechny skupiny mají týž rozptyl. Všech pozorování je n. Charakter závislosti Y na X popíšeme regresní přímkou a budeme se zabývat testováním hypotézy, zda je regresní přímka vhodným modelem pro tato data. Testová statistika: kde S[R] je regresní součet čtverců, S[A] je skupinový součet čtverců a S[T] je celkový součet čtverců (viz kapitola Jednofaktorová analýza rozptylu). Platí-li H[0], pak F ~ F(r-2, n-r). Kritický obor: W = na hladině významnosti α zamítáme hypotézu, že přímka je vhodným regresním modelem závislosti Y na X. Těsnost závislosti Y na X vyjádřenou skupinovými průměry měří poměr determinace P^2 = SA/ST. Nabývá hodnot z intervalu <0,1>. Čím je poměr determinace bližší jedné, tím je závislost silnější, čím je bližší nule, tím je závislost slabší. Příklad: Máme k dispozici údaje o cenách 23 náhodně vybraných domů (veličina Y - v tisících $) a počtu jejich pokojů (veličina X) v jednom americkém městě. počet pokojů cena 5 155,168,180 6 166,172,179,190,200 7 210,215,218,225,230,245 8 213,225,240,247,249 9 267,275,290,298 Závislost ceny domu na počtu pokojů popište regresní přímkou. Na hladině významnosti 0,05 testujte hypotézu, že přímka je vhodným regresním modelem pro tato data. Těsnost závislosti vyjádřete poměrem determinace. Znázorněte data s proloženou regresní přímkou. Řešení: Empirická regresní přímka má tvar y = 17,2885 + 28,5851 x, S[R] = 30907,9041, S[T] = 35870,6087, S[A] = 32474,1087, , F[0,95](3,18) = 3,161, kritický obor W = <3,161, ∞). Jelikož F W, nezamítáme na hladině významnosti 0,05 hypotézu, že přímka je vhodným regresním modelem. Poměr determinace: P^2 = 32474,1087/35870,6087 = 0,9053, tedy závislost ceny domu na počtu pokojů je v daném datovém souboru značně silná. Řešení v systému STATISTICA: Vytvoříme nový datový soubor se dvěma proměnnými X a Y a 23 případy: Odhadneme parametry regresní přímky: Sestavíme tabulku ANOVA: Vrátíme se do Výsledky – vícenásobná regrese – Detailní výsledky – ANOVA. Vidíme, že S[R] = 30907,9, S[T] = 35870,61 Provedeme jednofaktorovou analýzu rozptylu, abychom získali skupinový součet čtverců: Statistiky – Základní statistiky a tabulky – Rozklad & jednofakt. ANOVA – OK – Proměnné – Závislé – Y, Grupovací - X – OK – OK – Analýza rozptylu. Zde najdeme S[A] = 32474,11. Vypočteme testovou statistiku a najdeme kritický obor W = <3,161, ∞). Jelikož F W, nezamítáme na hladině významnosti 0,05 hypotézu, že přímka je vhodným regresním modelem. Linearizující transformace Odhad parametrů regresních funkcí, které nejsou lineární z hlediska parametrů, se neprovádí metodou nejmenších čtverců přímo, protože její použití vede k soustavě nelineárních rovnic. V některých speciálních případech však nelineární regresní funkci můžeme vhodnou transformací převést na lineární. Např. máme exponenciální regresní funkci . Provedeme logaritmickou transformaci ln y = ln β[0] + x ln β[1] , čímž získáme regresní funkci lineární v parametrech. Parametry ln β[0] a ln β[1] odhadneme metodou nejmenších čtverců a odlogaritmováním získáme odhady původních regresních koeficientů β[0], β[1]. Přehled linearizujících transformací Funkce Linearizující transformace ln y = ln β[0] + x ln β[1] ln y = ln β[0] + β[1] ln x ln y = ln β[0] - β[1] ln x Příklad: Hotelová společnost vlastnící 12 hotelů analyzuje vztah mezi celkovými měsíčními tržbami (veličina Y) a tržbami vyprodukovanými stravovacími úseky (veličina X). č. h. 1 2 3 4 5 6 7 8 9 10 11 12 x 2,0 1,2 14,8 8,3 8,4 3,0 4,8 15,6 16,1 11,5 14,2 14,0 y 12,0 8,0 76,4 17,0 21,3 10,0 12,5 97,3 88,0 25,0 38,6 47,3 Popište tuto závislost exponenciální regresní funkcí . Najděte odhady parametrů β[0], β[1] a vypočtěte predikovanou hodnotu celkových měsíčních tržeb pro x = 10. Řešení: Provedeme logaritmickou transformaci ln y = ln β[0] + x ln β[1]. Metodou nejmenších čtverců získáme odhady ln b[0] = 1,8559, ln b[1] = 0,1504. Odlogaritmováním dostaneme b[0] = 6,3973, b[1] = 1,1623. Predikovaná hodnota y pro x = 10 je 6,3973.1,162310 = 28,7859. Řešení v systému STATISTICA: Vytvoříme datový soubor se dvěma proměnnými a 12 případy: Přidáme novou proměnnou ln y. Do jejího Dlouhého jména napíšeme =log(y). Pak provedeme regresní analýzu se závisle proměnnou ln y a nezávisle proměnnou X: K výsledné tabulce přidáme novou proměnnou b, do jejíhož Dlouhého jména napíšeme =exp(B). Vytvoříme ještě dvourozměrný tečkový diagram s proloženou exponenciálou. Na záložce Rezidua/předpoklady/předpovědi vybereme reziduální analýza – Uložit – Uložit rezidua & předpovědi – vybereme X, Y – OK. Ve vzniklé tabulce odstraníme proměnné č. 5 až 10 a proměnnou rezidua přejmenujeme na Predikce. Do Dlouhého jména této proměnné napíšeme =exp(v3). Tento datový soubor se čtyřmi proměnnými uspořádáme podle velikosti hodnot proměnné X: Data - Setřídit – Proměnná X – OK. Vytvoření grafu: Grafy – Bodové grafy – zaškrtneme Vícenásobný – Proměnné X: X, Y: Y, Predikce – OK. Ve vytvořeném grafu pak vypneme zobrazování značek pro Predikce a naopak zapneme Spojnici.