12. Jednoduchá lineární regrese


12.1. Motivace

Cíl regresní analýzy - popsat závislost hodnot veličiny Y na hodnotách veličiny X.

Nutnost vyřešení dvou problémů:

a)       jaký typ funkce se použije k popisu dané závislosti;

b)      jak se stanoví konkrétní parametry daného typu funkce?


12.2. Specifikace klasického modelu lineární regrese

, kde

 - teoretická regresní funkce, která lineárně závisí na neznámých regresních parametrech  a známých
funkcích , které již neobsahují neznámé parametry, tj. , přičemž .

Složka  - náhodná odchylka .

Veličina Y - závisle proměnná (též vysvětlovaná) veličina.

Veličina X - nezávisle proměnná (též vysvětlující) veličina.

Pořídíme n dvojic pozorování , pro i = 1, ..., n platí: .

O náhodných odchylkách předpokládáme, že

a)       (odchylky nejsou systematické)

b)       (všechna pozorování jsou prováděna s touž přesností)

c)       pro (mezi náhodnými odchylkami neexistuje žádný lineární vztah)

d)      ~ .

V tomto případě hovoříme o klasickém modelu lineární regrese.


12.3. Označení

  - odhady regresních parametrů (nejčastěji je získáme metodou nejmenších čtverců, tj. z podmínky,
že výraz

nabývá svého minima pro β[j] = b[j], j = 0, 1, …, p)

 - empirická regresní funkce

 - regresní odhad i-té hodnoty veličiny Y (i-tá predikovaná hodnota veličiny Y)

 - i-té reziduum

 - reziduální součet čtverců

 - odhad rozptylu σ^2^

 - regresní součet čtverců ( )

 - celkový součet čtverců ( )

 - index determinace ( )

 - adjustovaný index determinace


12.4. Maticový zápis klasického modelu lineární regrese

, kde

 - vektor pozorování závisle proměnné veličiny Y,

 - regresní matice

(předpokládáme, že h(X) = p+1 < n)
 - vektor regresních parametrů,
 - vektor náhodných odchylek.

Podmínky (a) až (d) lze zkráceně zapsat ve tvaru  ~  N[n](0, σ^2 I).

Maticově zapsaná metoda nejmenších čtverců vede na rovnice

X’Xβ = X’y - systém normálních rovnic

b = (X’X)^-1 X’ y – odhad vektoru β získaný metodou nejmenších čtverců

= Xb – vektor regresních odhadů (vektor predikce)

e = y -  - vektor reziduí

Vlastnosti odhadu b:

- odhad b je lineární, neboť je vytvořen lineární kombinací pozorování y[1], …, y[n] s maticí vah ;

- odhad b je nestranný, neboť E(b) = β;

- odhad b má varianční matici var b = σ^2(X'X)^-1;

- odhad b ~ Np+1(β, σ^2 (X'X)-1) vzhledem k platnosti podmínky (d);

- pro odhad b platí Gaussova - Markovova věta: Odhad b = (X'X)^-1 X'y je nejlepší nestranný
lineární odhad vektoru β. (Nejlepší v tom smyslu, že rozdíl varianční matice libovolného jiného
nestranného odhadu vektoru β a varianční matice odhadu b je matice pozitivně semidefinitní.)


12.5. Intervaly spolehlivosti pro regresní parametry

 - směrodatná chyba odhadu b[j], kde v[jj] je j-tý diagonální prvek matice (X'X)^-1.

Pro j = 0, 1, ..., p statistika  ~ , tedy 100(1- α)% interval spolehlivosti pro β[j] má meze: .


12.6. Testování významnosti modelu jako celku (celkový F-test)

Na hladině významnosti α testujeme

H[0]:  proti H[1]: .

(Nulová hypotéza říká, že dostačující je model konstanty.)

Testová statistika:  má rozložení F(p, n-p-1), pokud H[0] platí.

Kritický obor: .

 H[0] zamítáme na hladině významnosti α.

Výsledky F-testu zapisujeme do tabulky analýzy rozptylu:


              zdroj variability

                               součet čtverců

                                             stupně volnosti

                                                            podíl

                                                                        statistika F

              model

                               S[R]

                                             p

                                                            S[R]/p

              reziduální

                               S[E]

                                             n-p-1

                                                            S[E]/(n-p-1)

                                                                        -

              celkový

                               S[T]

                                             n-1

                                                            -

                                                                        -


12.7. Testování významnosti regresních parametrů (dílčí t-testy)

Na hladině významnosti α pro j = 0,1, ..., p testujeme hypotézu

H[0]: β[j] = 0 proti H[1]: βj ≠ 0.

Testová statistika:  má rozložení t(n-p-1), pokud H[0] platí.

Kritický obor: .

 H[0] zamítáme na hladině významnosti α.


12.8. Příklad: U šesti obchodníků byla zjišťována poptávka po určitém druhu zboží loni (veličina X
- v kusech) a letos (veličina Y - v kusech).


                                 číslo. obchodníka

                                                   1

                                                     2

                                                       3

                                                         4

                                                            5

                                                               6

                                 poptávka loni (X)

                                                   20

                                                     60

                                                       70

                                                         100

                                                            150

                                                               260

                                 poptávka letos (Y)

                                                   50

                                                     60

                                                       60

                                                         120

                                                            230

                                                               320


a) Orientačně ověřte předpoklad, že data pocházejí z dvourozměrného normálního rozložení. Vypočtěte
výběrový koeficient korelace mezi X a Y, interpretujte jeho hodnotu  a na hladině významnosti 0,05
testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny.


b) Předpokládejte, že závislost letošní poptávky na loňské lze vystihnout regresní přímkou.
Sestavte regresní matici, vypočtěte odhady regresních parametrů a napište rovnici regresní přímky.
Interpretujte parametry regresní přímky.


c) Najděte odhad rozptylu, vypočtěte index determinace a interpretujte ho.


d) Najděte 95% intervaly spolehlivosti pro regresní parametry.


e) Na hladině významnosti 0,05 proveďte celkový F-test.


f) Na hladině významnosti 0,05 proveďte dílčí t-testy.


g) Vypočtěte regresní odhad letošní poptávky při loňské poptávce 110 kusů.


h) Nakreslete dvourozměrný tečkový diagram s proloženou regresní přímkou.


Řešení:

ad a) Orientačně ověřte předpoklad, že data pocházejí z dvourozměrného normálního rozložení.

Vytvoříme dvourozměrný tečkový diagram s proloženou 95% elipsou konstantní hustoty
pravděpodobnosti:

Ze vzhledu diagramu je patrné, že předpoklad dvourozměrné normality je oprávněný a že mezi loňskou
a letošní poptávkou existuje vcelku silná přímá lineární závislost.

Vypočtěte výběrový koeficient korelace mezi X a Y, interpretujte jeho hodnotu  a na hladině
významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny.

Výpočtem zjistíme: r[12] = 0,972, tedy mezi poptávkou loni a letos existuje velmi silná přímá
lineární závislost.

Realizace testové statistiky: .

Kritický obor:

Testová statistika se realizuje v kritickém oboru, hypotézu o nezávislosti veličin X a Y tedy
zamítáme na hladině významnosti 0,05.


ad b) Sestavíme regresní matici.

, tedy X = .

Podle vzorce  získáme odhady regresních parametrů.

Nejprve vypočítáme matici

X’X =

a k ní inverzní matici

(X’X)^-1 = .

Dále získáme součin

X’y =

a nakonec vektor odhadů regresních parametrů:

b = . = .

Regresní přímka má tedy rovnici


y = 0,6868 + 1,2665 x.


Znamená to, že při nulové loňské poptávce by letošní poptávka činila 0,6868 kusů a při zvýšení
loňské poptávky o 10 kusů by se letošní poptávka zvedla o 12,665 kusů.

ad c) Nyní vypočteme vektor regresních odhadů proměnné Y (vektor predikce):

= Xb = .

Stanovíme vektor reziduí:

 = .

Pomocí vektoru reziduí vypočteme reziduální součet čtverců:

S[E] = e’e = (23,98  -16,68  -29,34  -7,34  39,34  -9,97). = 3451,11.

Odhad rozptylu: .

Dále potřebujeme celkový součet čtverců

S[T] = (y – m[2])’(y – m[2]),

kde m[2] je sloupcový vektor typu nx1 složený z průměru m[2] závisle proměnné veličiny Y. V našem
případě je m[2] = 140. Po dosazení do vzorce pro celkový součet čtverců tedy dostaneme

S[T] =(50-140, 60-140, 60-140, 120-140, 230-140, 320-140) = 61800. (Celkový součet čtverců lze
získat také tak, že výběrový rozptyl veličiny Y vynásobíme n-1: S[T] = 5.12360 = 61800.) Regresní
součet čtverců pak je:

S[R] = S[T] – S[E] = 61800 – 3451,11 = 58348,89.

Index determinace: .

Znamená to, že variabilita hodnot závisle proměnné veličiny je z 94,42% vysvětlena regresní
přímkou.

(V případě regresní přímky platí ID^2 = r[12]^2. V našem případě bylo zjištěno, že r[12] = 0,972,
tedy ID^2 = 0,9447.)


ad d) Vypočteme směrodatné chyby odhadů regresních parametrů b[0]^ a b[1] podle vzorce , j = 0, 1,
kde v[jj] je j-tý diagonální prvek matice (X'X)^-1 :

(X'X)^-1 =

 Přitom si uvědomíme, že v[00] = 0,499084, v[11] = 0,000027

,

.

Stanovíme meze 95% intervalů spolehlivosti pro regresní parametry β[0]^ a β[1]. K tomu slouží
vzorec , j = 0, 1.

95% interval spolehlivosti pro β[0]:

Znamená to, že -56,63 < β[0] < 58 s pravděpodobností aspoň 0,95.

95% interval spolehlivosti pro β[1]:

Znamená to, že 0,841< β[1] < 1,692 s pravděpodobností aspoň 0,95.


ad e) Provedení celkového F-testu: na hladině významnosti α = 0,05 testujeme H[0]: β[1] = 0 proti
H[1]: β[1] ≠ 0.

Testová statistika ,

kritický obor: .

Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního
parametru β[1] (tj. směrnice regresní přímky) zamítáme na hladině významnosti 0,05. Výsledky
testování významnosti modelu jako celku zapíšeme do tabulky ANOVA:


            zdroj variab.

                         součet čtverců

                                        stupně volnosti

                                                       podíl

                                                                          statistika F

            model

                         S[R] = 58348,89

                                        p = 1

                                                       S[R]/p=58348,89

                                                                          68,384

            reziduální

                         S[E] = 3415,11

                                        n-p-1 = 4

                                                       S[E]/(n-p-1)=853,78

                                                                          -

            celkový

                         S[T] = 61800

                                        n-1 = 5

                                                       -

                                                                          -


ad f) Provedení dílčích t-testů:

Na hladině významnosti α = 0,05 testujeme H[0]: β[0] = 0 proti H[1]: β[0] ≠ 0.

Testová statistika: ,

kritický obor: .

Protože se testová statistika nerealizuje v kritickém oboru, hypotézu o nevýznamnosti regresního
parametru β[0] (tj. posunutí regresní přímky) nezamítáme na hladině významnosti 0,05.

Ke stejnému výsledku dospějeme, podíváme-li se na 95% interval spolehlivosti pro β[0]. Vypočítali
jsme, že  -56,63 < β[0] < 58 s pravděpodobností aspoň 0,95. Protože tento interval obsahuje 0,
hypotézu H[0]: β[0] = 0 nezamítáme na hladině významnosti 0,05.

Na hladině významnosti α = 0,05 testujeme H[0]: β[1] = 0 proti H[1]: β[1] ≠ 0.

Testová statistika: ,

kritický obor: .

Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního
parametru β[1] (tj. směrnice regresní přímky) zamítáme na hladině významnosti 0,05.

Ke stejnému výsledku dospějeme, podíváme-li se na 95% interval spolehlivosti pro β[1]. Vypočítali
jsme, že  0,841< β[1] < 1,692  s pravděpodobností aspoň 0,95. Protože tento interval neobsahuje 0,
hypotézu H[0]: β[1] = 0 zamítáme na hladině významnosti 0,05.

V případě modelu regresní přímky je dílčí t-test pro parametr β[1] ekvivalentní s celkovým
F-testem.


ad g) Regresní odhad pro x = 110 dostaneme pouhým dosazením do rovnice regresní přímky: .


ad h)


Výpočet pomocí systému STATISTICA

Vytvoříme nový datový soubor se dvěma proměnnými X a Y a 6 případy:


a) Orientačně ověřte předpoklad, že data pocházejí z dvourozměrného normálního rozložení. Vypočtěte
výběrový koeficient korelace mezi X a Y, interpretujte jeho hodnotu  a na hladině významnosti 0,05
testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny.


Zobrazíme dvourozměrný tečkový diagram s proloženou elipsou 95% konstantní hustoty
pravděpodobnosti, s jehož pomocí posoudíme dvourozměrnou normalitu dat: Grafy – Bodové grafy –
vypneme Typ proložení – Proměnné X, Y  - OK . Na záložce Detaily vybereme Elipsa Normální – OK. Ve
vzniklém dvourozměrném tečkovém diagramu změníme rozsah zobrazených hodnot na vodorovné a svislé
ose, abychom viděli celou elipsu – viz obrázek výše.

Testování hypotézy o nezávislosti: Statistika – Základní statistiky /Tabulky - Korelační matice –
OK –  2 seznamy proměnných X, Y, OK. Na záložce Možnosti zaškrtneme Zobrazit detailní tabulku
výsledků – Souhrn.


Ve výstupní tabulce najdeme hodnotu výběrového korelačního koeficientu R[12] (r = 0,971977, tzn. že
mezi X a Y existuje velmi silná přímá lineární závislost), realizaci testové statistiky t =
8,269474 a p-hodnotu pro test hypotézy o nezávislosti (p = 0,001167, H[0 ]tedy zamítáme na hladině
významnosti 0,05).


b) Předpokládejte, že závislost letošní poptávky na loňské lze vystihnout regresní přímkou.
Vypočtěte odhady regresních parametrů a napište rovnici regresní přímky. Interpretujte parametry
regresní přímky.


Statistiky – Vícerozměrná regrese – Závisle proměnná Y, nezávisle proměnná X - OK – OK – Výpočet:
Výsledky regrese.


Ve výstupní tabulce najdeme koeficient b[0] ve sloupci B na řádku označeném Abs. člen, koeficient
b[1] ve sloupci B na řádku označeném X. Rovnice regresní přímky:

y = 0,686813 + 1,266484 x.

Znamená to, že při nulové loňské poptávce by letošní poptávka činila 0,6868 kusů a při zvýšení
loňské poptávky o 10 kusů by se letošní poptávka zvedla o 12,665 kusů.


c) Najděte odhad rozptylu, vypočtěte index determinace a interpretujte ho.


Vrátíme se do Výsledky – vícenásobná regrese – Detailní výsledky – ANOVA.


Odhad rozptylu najdeme na řádku Rezid., ve sloupci Průměr čtverců, tedy s^2 = 853,78.

Index determinace je uveden v záhlaví původní výstupní tabulky pod označením R2. V našem případě
ID^2 = 0,9447, tedy variabilita letošní poptávky je z 94,5% vysvětlena regresní přímkou.


d) Najděte 95% intervaly spolehlivosti pro regresní parametry.


Ve výstupní tabulce výsledků regrese přidáme za proměnnou Úroveň p dvě nové proměnné dm (pro dolní
meze 95% intervalů spolehlivosti pro regresní parametry) a hm (pro horní meze 95% intervalů
spolehlivosti pro regresní parametry). Do Dlouhého jména proměnné dm resp. hm napíšeme:
=v3-v4*VStudent(0,975;4) resp. =v3+v4*VStudent(0,975;4)


Vidíme, že -56,63 < β[0] < 58 s pravděpodobností aspoň 0,95 a 0,841< β[1] < 1,692
s pravděpodobností aspoň 0,95.


e) Na hladině významnosti 0,05 proveďte celkový F-test.


Testovou statistiku F-testu a odpovídající p-hodnotu najdeme v záhlaví výstupní tabulky regrese.
Zde F = 68,384, p-hodnota < 0,00117, tedy na hladině významnosti 0,05 zamítáme hypotézu o
nevýznamnosti modelu jako celku. (Výsledky F-testu jsou rovněž uvedeny v tabulce ANOVA.)


f) Na hladině významnosti 0,05 proveďte dílčí t-testy.


Výsledky dílčích t-testů jsou uvedeny ve výstupní tabulce regrese. Testová statistika pro test
hypotézy H[0]: β[0] = 0 je 0,033272, p-hodnota je 0,975052. Hypotézu o nevýznamnosti úseku regresní
přímky tedy nezamítáme na hladině významnosti 0,05. Testová statistika pro test hypotézy H[0]: β[1]
= 0 je 8,269474, p-hodnota je 0,001167. Hypotézu o nevýznamnosti směrnice regresní přímky tedy
zamítáme na hladině významnosti 0,05.


g) Vypočtěte regresní odhad letošní poptávky při loňské poptávce 110 kusů.


Pro výpočet predikované hodnoty zvolíme Rezidua/předpoklady/předpovědi Předpovědi závisle proměnné
X: 110 OK. Ve výstupní tabulce je hledaná hodnota označena jako Předpověď.


Při loňské poptávce 110 kusů je predikovaná hodnota letošní poptávky 140 kusů.


h) Nakreslete dvourozměrný tečkový diagram s proloženou regresní přímkou.


Nakreslení regresní přímky: Návrat do Výsledky: Vícenásobná regrese –
Rezidua/předpoklady/předpovědi  - Reziduální analýza – Bodové grafy – Korelace dvou proměnných – X,
Y – OK.


Jiný způsob: Do dvourozměrného tečkového diagramu nakreslíme regresní přímku tak, že

v tabulce 2D Bodové grafy zvolíme Typ proložení: Lineární, OK.