Mnohonásobná a parciální korelace Varianční, kovarianční a korelační matice Nechť X = (X1, ..., Xp)' je náhodný vektor. Označme M = E(Xi) střední hodnotu náhodné veličiny Xu Oi2 = D(Xi) rozptyl náhodné veličiny Xi, = C(Xi, Xj) kovarianci náhodných veličin Xi, Xj piJ = R(Xi, Xj) koeficient korelace náhodných veličin Xi, Xj Vektor E(X) = (mu, ..., m)' se nazývá vektor středních hodnot náhodného vektoru X. Čtvercová matice řádu p var(X) = (0^=1, .., p se nazývá varianční matice náhodného vektoru X. Čtvercová matice řádu p cor(X) = (py) íj=i, .., p se nazývá korelační matice náhodného vektoru X. Je zřejmé, že varianční matice a korelační matice jsou symetrické. Nechť X = (X1, ..., Xp)' a Y = (Yb ..., Yq)' jsou náhodné vektory. Matice typu pxq cov(X,Y) = (C(X Yj)) se nazývá kovarianční matice vektorů X, Y. Matice typu pxq cor(X,Y) = (p(Xi, Yj)) se nazývá korelační matice vektorů X,Y. Odhady vektoru středních hodnot, varianční a korelační matice jednoho náhodného vektoru X Nechť X je náhodný vektor, který má p-rozměrné rozložení s vektorem středních hodnot u, varianční maticí var(X) a korelační maticí cor(X). Nechť je dán náhodný výběr X1 = (X11, ..., X1p)', ..., Xn = (Xn1, ..., Xnp)' rozsahu n z tohoto rozložení. 1 n Nestranný odhad vektoru \i j e vektor výběrových průměrů M = (Mi, ..., Mp)', kde m^-Ex^ je výběrový průměr j -tého výběru,j = 1, ...,p. Nestranný odhad matice var(X) je výběrová varianční matice S = (Sý) =-Z x; - m ; - mj- řádu p. n "I í=i Vychýlený odhad matice cor(X) je výběrová korelační matice R = (Rij), kde Ry je výběrový korelační koeficient i-té a j-té složky vektoru X, tedy s r = ._1J,_, i, j = 1, ..., p. (Je zřejmé, že diagonálni prvky matice R jsou jedničky a matice R je symetrická.) Příklad: U 28 náhodně vybraných osob byly zjišťovány tyto údaje: Sex ... 1 - muž, 2 - žena (mužů i žen bylo po 14) výška (v cm), proměnná X1 hmotnost (v kg), proměnná X2 boty (číslo bot), proměnná X3 Vypočtěte realizaci výběrové varianční matice a výběrové korelační matice. (Soubor udaje_o_lidech_1.sta) Řešení: Statistiky - Vícenásobná regrese - Proměnné Závislá X3, nezávislé X1, X2 - OK - OK - Residua/předpoklady/předpovědi Popisné statistiky - Další statistiky - Kovariance resp. Korelace. Výběrová kovarianční matice Výběrová korelační matice Proměnná vyska | hmotnost boty | vyska 112,8611 161,0926 41,45370 hmotnost 161,0926 248,4709 61,99206 boty 41,4537 61,9921 16,40608 Proměnná vyska | hmotnost boty | vyska 1,000000 0,961979 0,963360 hmotnost 0,961979 1,000000 0,970948 boty 0,963360 0,970948 1,000000 Odhady kovarianční a korelační matice dvou náhodných vektorů X, Y Nechť náhodný vektor X má p-rozměrné rozložení a nechť X1s ..., Xnje náhodný výběr z tohoto rozložení. Nechť náhodný vektor Y má q-rozměrné rozložení a nechť Y1s ..., Ynje náhodný výběr z tohoto rozložení. Předpokládejme, že obě rozložení mají konečné druhé momenty. Nechť cov(X, Y) je kovarianční matice těchto vektorů a cor(X, Y) je korelační matice těchto vektorů. Označme m Xj = -Z tJ, j = U , p,m Yj = -S tJ, j = q, n i= n i= Mx = (MX1, ..., MXp)\ MY = (MY1, ..., MYq)'. Nestranným odhadem kovarianční matice cov(X, Y) vektorů X, Y je výběrová kovarianční matice vektorů X, Y definovaná vzorcem SXY = (Sý) = Z x n-1 i=1 m y Z, i = 1, p, j = 1, q. Vychýleným odhadem korelační matice cor(X, Y) vektorů X, Y je výběrová korelační matice vektorů X, Y definovaná vzorcem RXY = (Rij), kde Rij je výběrový korelační koeficient i-té a j-té složky vektorů X, Y, i = 1, ..., p, j = 1, ..., q. Příklad: Nechť vektor X = (X1, X2, X3)' obsahuje údaje o výšce, hmotnosti a číslu bot mužů, vektor Y =(Y1, Y2)' obsahuje údaje výšce a hmotnosti žen. Vypočtěte realizace výběrové kovarianční a výběrové korelační matice vektorů X, Y. (Soubor udaje_o_lidech_2.sta) Řešení: Statistiky - Pokročilé lineární/nelineární modely - Obecné lineární modely - OK - Závislé proměnné: Vyskaz, Hmotnostz - Spojité nezávislé proměnné: Vyskam, Hmotnostm, Boty_m - OK - na záložce Možnosti zaškrtneme Bez abs. členu - OK - na záložce Matice vybereme Kovariance resp. Korelace. Ve vzniklých tabulkách ponecháme pouze poslední dvě proměnné a první tři případy. Výběrová kovarianční matice Výběrová korelační matice Efekt Sloup. 4 Sloup. 5 Vyska_z Hmotnost_z Vyska_m 10,81319 17,39560 Hmotnost m 15,70879 15,22527 Boty _m 4,43407 5,13736 Efekt Sloup. 4 Sloup. 5 Vyska_z | Hmotnost_z Vyska_m 0,467318 0,767160 Hmotnost m 0,514047 0,508409 Boty _m 0,560289 0,662427 Koeficient mnohonásobné korelace a výběrový koeficient mnohonásobné korelace Intenzitu lineárni závislosti mezi náhodnou veličinou Y a náhodným vektorem X = (X1s ..., Xp)' měříme pomocí koeficientu mnohonásobné korelace pY X. Jeho druhá mocnina je dána vzorcem Py. x 2 = cor(Y, X) cor(X)-1 cor(X, Y). Má tyto vlastnosti: a) Py. x > 0 b) Py.X> IP^x^pro v = L,..., p c) P >>3 > oif x „ / ŕ.Xj.^Xp •• i' .X1X2 5^1 — d) Py.x = 1 ° existují konstanty p0, Pi, • • •, PP tak, že Y = p0 + PiXi +... + PP Xp. Nechť náhodný vektor (Y, X1s ..., Xp)' má (p+1)-rozměrné rozložení s koeficientem mnohonásobné korelace pY X. Nechť je dán náhodný výběr (Y1, X11, ..., X1p)', ..., (Yn, Xn1, ..., Xnp)' rozsahu n z tohoto rozložení. Pak jako odhad pY X slouží výběrový koeficient mnohonásobné korelace rY X, jehož druhá mocnina je dána vzorcem ry. x 2 = Ryx R 1 Rxy, kde Ryx je výběrová korelační matice veličiny Y a vektoru X (v tomto případě se redukuje na vektor S) a R je výběrová korelační matice vektoru X. Vlastnosti koeficientu mnohonásobné korelace se přenášejí i na výběrový koeficient mnohonásobné korelace. Příklad: Při zkoumání závislosti hodinové výkonnosti dělníka (veličina Y - v kusech) na jeho věku (veličina Xi - v letech) a době zapracovanosti (veličina X2 - v letech) byly u 10 náhodně vybraných dělníků zjištěny tyto údaje: Y 67 65 75 66 77 84 69 60 70 66 Xi 43 40 49 46 41 41 48 34 32 42 X2 6 8 14 14 8 12 16 1 5 7 Vypočtěte výběrový koeficient mnohonásobné korelace ty^xiz popisující závislost hodinové výkonnosti dělníka na na jeho věku a době zapracovanosti. Řešení: Statistiky - Vícenásobná regrese - Proměnné - Závislá proměnná Y, seznam nezáv. proměnných X1, X2 - OK - OK. Koeficient rY ^: najdeme v záhlaví výstupní tabulky pod označením R = 0,54 N=10 Výsledky regrese se závislou proměnnou : Y (vykony delnku.sta) R= ,54005243 R2= ,29165662 Upravené R2= ,08927280 F(2,7)=1,4411 p<,29913 Směrod. chyba odhadu : 6,6491 b* Sm .chyba b 1 Sm .chyba z b* | z b t (7) 1 p-hodn. Abs.člen 86,74217 25,32397 3,425299 0,011056 X1 -0,550937 0,598452 -0,70031 0,76071 -0,920604 0,387883 X2 0,920415 0,598452 1,35062 0,87817 1 537994 0,167937 Jeho druhá mocnina (ozn. R2) nám říká, že variabilita výkonů dělníků je z 29% vysvětlena jejich věkem a dobou zapracovanosti. Testování hypotézy o nezávislosti veličiny Y a vektoru X Popis testu Nechť náhodný výběr (Yu X„, ..., X^)', ..., (Yn, Xn1, Xnp)' pochází z (p+1)-rozměrného normálního rozložení, které má koeficient mnohonásobné korelace pY X. Musí platit n > p+1. Testujeme hypotézu H0: pY. X = 0 proti H1: pY. X ^ 0. Vzhledem k tomu, že se jedná o výběr z (p+1)-rozměrného normálního rozložení, testujeme, zda existuje závislost mezi veličinou Y a vektorem X. (Je-li pY X = 0, pak z vlastnosti (b) plyne, že p(Y,Xi) = 0 pro všechna i = 1, ..., p, tudíž náhodné veličiny Y a X, jsou stochasticky nezávislé pro všechna i = 1, ..., p.) Testová statistika f = n " p " [ • ^ se řídí rozložením F(p, n-p-1), pokud H0 platí. Kritický obor: w = (f1 . In - p - i> ]. Jestliže f e n , H0 zamítáme na hladině významnosti a. Příklad Předpokládáme, že údaje o výkonnosti 10 náhodně vybraných dělníků, jejich věku a době zapracovanosti představují číselné realizace náhodného výběru rozsahu 10 ze třírozměrného normálního rozložení. Na hladině významnosti 0,05 testujte hypotézu, že výkon dělníka nezávisí na jeho věku a době zapracovanosti. Řešení: Statistiky - Vícenásobná regrese - Proměnné - Závislá proměnná Y, seznam nezáv. proměnných X1, X2 - OK - OK. N=10 Výsledky regrese se závislou proměnnou : Y (vykony delniku.sta) R= ,54005243 R2= ,29165662 Upravené R2= ,08927280 F(2,7)=1,4411 p<,29913 Směrod. chyba odhadu : 6,6491 b* Sm.chyba b Sm.chyba t (7) 1 p-hodn. z b* z b Abs.člen 86,74217 25,32397 3,425299 0,011056 X1 -0,550937 0,598452 -0,70031 0,76071 -0,920604 0,387883 X2 0,920415 0,598452 1,35062 0,87817 1,537994 0,167937 Hodnota testové statistiky pro test nevýznamnosti koeficientu mnohonásobné korelace p r,«ijXi: je 1,4411, počet stupňů volnosti čitatele je 2, jmenovatele 7, odpovídající p-hodnota je 0,2991, tedy na hladině významnosti 0,05 nezamítáme hypotézu, že výkon dělníka není závislý na jeho věku a době zapracovanosti. Koeficient parciální korelace Nechť Y, Z jsou náhodné veličiny a X = (Xb ..., Xp)' je náhodný vektor. Korelační koeficient p(Y,Z) udává míru těsnosti lineárního vztahu mezi veličinami Y a Z. Ta však může být ovlivněna i tím, že mezi veličinami Xb ..., Xp existují veličiny, které silně korelují jak s Y, tak se Z. Zajímá nás proto, jaká je „čistá" korelace mezi Y a Z, když se eliminuje vliv náhodného vektoru X. Pokud se omezíme na lineární vztahy, můžeme vliv vektoru X na veličinu Y popsat lineární regresní funkcí y = a + P'X, kde p = var(X)-1 cov(X,Y), a = E(Y) - P'E(X). Tu část veličiny Y, kterou vektor X nevysvětlí, si můžeme představit jako reziduum Y - y . Analogicky pro veličinu Z dostáváme z = y + Ô'X, kde ô = var(X)-1 cov(X,Z), y = E(Z) - ô'E(X), tudíž reziduum Z - Z chápeme jako tu část veličiny Z, kterou vektor X nevysvětlí. Korelační koeficient mezi rezidui Y - Ý a Z - ž se nazývá parciální korelační koeficient mezi náhodnými veličinami Y a Z při pevně daném vektoru X a značí se p , z x . Tedy p , z x = p(Y - Ý , Z - ž). Počítá se podle vzorce = p ^, z j- ;ov ^, X xor £ J cov z ľ ^ Y'z x /1 . I . - . _ ~' ■yji- ;ov V,Xxor fc^ cov fc,y_.|- ;ov t,Xxor cov 4ř,z,_ Nechť náhodný vektor (Y, Z, Xi, Xp)' pochází z (p+2)-rozměrného rozložení, které má parciální korelační koeficient p , z x . Nechť je dán náhodný výběr (Yb Zh Xn, ..., Xlp)\ ..., (Y„, Z„, Xnl, ..., Xnp)' rozsahu n z tohoto rozložení. Musí platit n > p+2. Jako odhad p , z x slouží výběrový parciální korelační koeficient rY z x : rYZ ^ YX ^ XX S XZ Testování hypotézy o nezávislosti veličin Y a Z při eliminaci vlivu vektoru X Popis testu Budeme předpokládat, že uvedený náhodný výběr pochází z (p+2)-rozměrného normálního rozložení. Testujeme hypotézu H0: py z . x = 0 proti H1: py z . x ^ 0. Vzhledem k tomu, že se jedná o výběr z normálního rozložení, testujeme, zda existuje závislost mezi Y a Z při eliminaci vlivu X. Testová statistika řídí rozložením t(n-p-2), pokud H0 platí. Kritický obor:w = X5,t1_;/2 i - p - 2^l-'xt1_ ;/2 .. Jestliže t0 e v , H0 zamítáme na hladině významnosti a Příklad Pro data z příkladu o výkonnosti dělníků vypočtěte výběrové parciální korelační koeficienty rYX ^2,rYX ^1, interpretujte je, porovnejte je s obyčejnými výběrovými korelačními koeficienty rYXi ,rYX2 a pro a = 0,05 otestujte významnost uvedených parciálních korelačních koeficientů. Výpočet pomocí systému STATISTICA Nejprve vypočteme koeficient korelace mezi výkonem a věkem. Statistiky - Základní statistiky/tabulky - Korelační matice - OK - 2 seznamy - 1. seznam Y, 2. seznam X1, X2 - Výpočet. Proměnná X1 Y 0,2287 Dále vypočteme parciální korelační koeficient mezi výkonem a věkem při vyloučení vlivu doby zapracovanosti a otestujeme jeho významnost. Statistiky - Základní statistiky/tabulky - Korelační matice - OK - na záložce Možnosti zaškrtneme Zobrazit r, úrovně p, počty N, na záložce Detaily zvolíme Parciální korelace - 1. seznam proměnných Y, X1, druhý seznam proměnných X2 - OK Proměnná Y | X1 | Y 1,0000 -,3286 p= — p=,388 X1 -,3286 1,0000 p=,388 p= --- Korelační koeficient mezi výkonem a věkem vyšel 0,2287, tedy s rostoucím věkem roste výkon. Parciální korelační koeficient mezi výkonem a věkem při vyloučení vlivu doby zapracovanosti vyšel -0,3286, tedy u dělníků se stejnou dobou zapracovanosti klesá s rostoucím věkem výkon. Odpovídající p-hodnota je 0,388, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nevýznamnosti p r x x . Nyní vypočteme koeficient korelace mezi výkonem a dobou zapracovanosti: Proměnná X2 Y 0,4538 Dále vypočteme parciální korelační koeficient mezi výkonem a dobou zapracovanosti při vyloučení vlivu věku pracovníka a otestujeme jeho významnost. Proměnná Y X2 Y 1,0000 ,5026 p= — p=,168 X2 ,5026 1,0000 p=,168 p= - Korelační koeficient mezi výkonem a dobou zapracovanosti vyšel 0,4538, tedy čím delší doba zapracovanosti, tím lepší výkon dělník podává. Parciální korelační koeficient mezi výkonem a dobou zapracovanosti při vyloučení vlivu věku vyšel 0,5026, tedy u stejně starých dělníků je poněkud silnější přímá lineární vazba mezi výkonem a dobou zapracovanosti. Odpovídající p-hodnota je 0,168, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nevýznamnosti p . Mnohonásobná lineární regrese Popis modelu mnohonásobné lineární regrese Budeme zkoumat lineární závislost veličiny Y na p nezávisle proměnných veličinách xi, Xp. Omezíme se pouze na model tvaru Yi = Po + PiXii + ... + PpXip+ 6i, i = 1, n. Parametr Po interpretujeme jako teoretickou hodnotu závisle proměnné veličiny při nulových hodnotách všech nezávisle proměnných veličin. Parametr Pí, j = l, p interpretujeme jako přírůstek teoretické hodnoty závisle proměnné veličiny odpovídající jednotkové změně j-té nezávisle proměnné veličiny při konstantní úrovni ostatních nezávisle proměnných. Geometricky tento model představuje regresní nadrovinu. Lze ho formálně ztotožnit s lineárním regresním modelem z kapitoly „Jednoduchá lineární regrese", kde položíme fi(xi) = xn, fp(xi) = Xip, i = 1,..., n. Dostáváme tedy maticový tvar Y = Xp + e, kde regresní matice X = j............P j, přičemž h(X) = p+l< n a s ~ N„(0, o2I). 11 X , ... X J Všechny výsledky uvedené v přednáškách „Regresní analýza I" a „Regresní analýza II" zůstávají v platnosti. Příklad: Pro data z příkladu o výkonnosti dělníků sestavte regresní matici a vektor regresníc koeficientů. Y 67 65 75 66 77 84 69 60 70 66 X1 43 40 49 46 41 41 48 34 32 42 X2 6 8 14 14 8 12 16 1 5 7 Řešení: X Í1 43 6 40 8 1 49 14 l 46 14 1 41 8 1 41 12 l 48 16 1 34 1 32 5 1 42 7 ) P I 0 I IP, I I I Míra lineární závislosti veličiny Y na veličinách xls xp Jak bylo uvedeno v předešlém textu, mírou těsnosti lineární závislosti náhodné veličiny Y na vektoru X = (X1v.., Xp) je koeficient mnohonásobné korelace pY X: Py. x 2 = cor(Y, X) cor(X)-1 cor(X, Y), kde cor(Y, X) je korelační matice veličiny Y a vektoru X (v tomto případě se redukuje na vektor 'p ra p ra cor(X) je korelační matice vektoru X. Výběrovým protějškem koeficientu pY X je výběrový koeficient mnohonásobné korelace rY X: fy. x 2 = Ryx R 1 Rxy, kde Ryx je výběrová korelační matice veličiny Y a vektoru X (v tomto případě se redukuje na vektor S), R je výběrová korelační matice vektoru X. V regresním modelu se mu říká index korelace. (V případě regresní přímky se jedná o obyčejný párový koeficient korelace rYX.) Jeho kvadrát odpovídá indexu determinace v regresním modelu Y = Xp + s. Formálně je tedy celkový F-test rovnocenný s testem o nulové hodnotě koeficientu mnohonásobné korelace. Stojí za zmínku, že vypočtená hodnota testové statistiky F by měla být aspoň 4x větší než příslušný kvantil Fisherova -Snedecorova rozložení, aby bylo možné prohlásit zvolený regresní model za skutečně kvalitní. Posouzení vlivu jednotlivých nezávisle proměnných v modelu Chceme-li porovnávat vliv, jaký mají proměnné x1, xp v modelu Y = Xp + s, můžeme spočítat tzv. standardizované Y_m xi_Tlx regresní parametry, kterým se také říká B-koeficienty. Zavedeme proto standardizované veličiny zi = —--, v;j = —-— j = 1, p, i = 1, n a vytvoříme regresní model s těmito standardizovanými proměnnými. Odhady regresních parametrů v tomto novém modelu jsou B-koeficienty, které pak vyjadřují intenzitu vlivu jednotlivých nezávisle proměnných veličin na veličinu Y. Příklad: Pro data z příkladu o výkonnosti dělníků posuďte vliv věku a doby zapracovanosti na výkon dělníka pomocí standardizovaných regresních parametrů. v Řešení: Statistiky - Vícenásobná regrese - Proměnné - Závislá proměnná Y, seznam nezáv. proměnných X1, X2 - OK - OK. N=10 Výsledky regrese se závislou proměnnou : Y (vykony delniku.sta) R= ,54005243 R2= ,29165662 Upravené R2= ,08927280 F(2,7)=1,4411 p<,29913 Směrod. chyba odhadu : 6,6491 b* Sm .chyba z b* b Sm.chyba t(7) p-hodn. z b Abs.člen 86,74217 25,32397 3,425299 0,011056 X1 -0,550937 0,598452 -0,70031 0,76071 -0,920604 0,387883 X2 0,920415 0,598452 1,35062 0,87817 1,537994 0,167937 Standardizované regresní parametry jsou uvedeny ve sloupci b*. Pro věk má tento parametr hodnotu -0,5509 a pro dobu zapracovanosti 0,9204. V absolutní hodnotě je vyšší parametr pro dobu zapracovanosti, tedy tato proměnná má vyšší vliv na výkon než věk. Použití parciálních korelačních koeficientů v modelu mnohonásobné lineární regrese Uvažme model Yi = |30 + p1xii + ... + (3pxip+ 8i, i = 1, n. Druhá mocnina výběrového parciálního korelačního koeficientu rY,x ..<, ...x. Z-> j = 2, p se nazývá parciální index determinace. Lze ho interpretovat jako „čistý" přínos proměnné Xj do modelu, který obsahoval proměnné x1, xj-1. Čím větší je závislost mezi Xj a (x1, xj-1)', tím menší se tento "čistý" přínos ukáže. Výběrový parciální korelační koeficient rY x < x - měří „čistou" korelaci mezi Y a Xj, když se eliminuje vliv náhodného vektoru (X1, Xj-1). Protože v klasickém modelu lineární regrese je ST = SR + SE, je pokles reziduálního součtu čtverců při zařazení nové proměnné do modelu roven růstu regresního součtu čtverců a naopak. Vzhledem k dříve zařazeným proměnným je tedy parciální index determinace mírou relativního zvýšení regresního součtu čtverců (poklesu reziduálního součtu čtverců) v důsledku zařazení nové proměnné. Multikolinearita v modelu mnohonásobné regrese O multikolinearitě hovoříme tehdy, když mezi některými sloupci regresní matice existuje silná lineární závislost, což svědčí o tom, že regresní model obsahuje nadbytečné vysvětlující proměnné. Důsledky multikolinearity: matice X'X je blízká singulární matici => kvalita odhadu b je nízká => rozptyly odhadů b0, b1, bp jsou velké => intervaly spolehlivosti pro |30, p\, |3p jsou široké. Signály upozorňující na existenci multikolinearity: - vysoké absolutní hodnoty výběrových korelačních koeficientů nezávisle proměnných (orientačně > 0,75) - celkový F-test je významný, ale dílčí t-testy nikoliv. Při použití statistického software lze informace o multikolinearitě získat pomocí koeficientu VIF (Variance inflation factor). Má-li tento koeficient hodnotu 1, pak příslušná nezávisle proměnná není korelovaná s ostatními nezávisle proměnnými, jestliže 15 vysoká korelace a pro VIF>10 extrémní multikolinearita. V systému STATISTICA obdržíme VIF v Obecných regresních modelech. (Statistiky - Pokročilé lineární/nelineární modely - Obecné regresní modely). Po zadání závislé proměnné a nezávislých proměnných zvolíme Matice - Parciální korelace: Příklad: Pro data z příkladu o výkonnosti dělníků posuďte pomocí koeficientu VIF, zda proměnné věk a doba zapracovánosti mohou způsobit multikolinearitu v modelu y = P0 + 31x1 + 32x2 + s. Řešení: Statistiky - Pokročilé lineární/nelineární modely - Obecné regresní modely - OK - Proměnné - Závislá Y, Spojité nezávisle proměnné X1, X2 - OK - Matice - Parcilání korelace._ Toler. Rozpty l 1 R"2 Y Y Y Y Efekt | Infl fak Beta v Parciál. Semipar. t P "X1" 0,282545 3,539258 0,717455 -0,550937 -0,328630 -0,292850 -0,920604 0,387883 "X2" 0,282545 3,539258 0,717455 0,920415 0,502564 0,489246 1,537994 0,167937 Koeficient VIF je 3,54, tedy mezi věkem a dobou zapracovanosti existuje jen mírná korelace. Odstranění multikolinearity: do modelu se zařadí jen ty proměnné, které významně zlepšují odhad regresních parametrů. Jednou z metod výběru nejlepší podmnožiny proměnných je step-wise regression (postupná regrese). Úkolem postupné regrese je najít ty prediktory, které co nejlépe vystihují variabilitu závisle proměnné veličiny a získat odhady parametrů lineární regresní funkce, s jejíž pomocí pak lze uspokojivě predikovat hodnoty závisle proměnné veličiny. Postupná regrese se používá ve dvou variantách - dopředná (forward) a zpětná (backward). Při metodě forward se prediktory postupně přidávají, při metodě backward se nejdříve zařadí všechny prediktory a pak se postupně odebírají. Princip postupné regrese spočívá v tom, že regresní model je budován krok po kroku tak, že v každém kroku zkoumáme všechny prediktory a zjišťujeme, který z nich nejlépe vystihuje variabilitu závisle proměnné veličiny. Zařazování prediktoru do modelu či jeho vylučování se děje pomocí sekvenčních F-testů. Sekvenční F-test je založen na statistice F, která je podílem přírůstku regresního součtu čtverců při zařazení daného prediktoru do modelu a reziduálního součtu čtverců. Jestliže je tato statistika větší než hodnota zvaná „F to enter" (česky ,JF na zahrnutí", ve STATISTICE implicitně 1), je prediktor zařazen. Je-li statistika F menší než hodnota zvaná „F to remove" (česky „F na vyjmutí", ve STATISTICE implicitně 0), je již dříve zařazený prediktor z modelu vyloučen. Po vybrání proměnných do modelu jsou odhadnuty parametry lineární regresní funkce a kvalita regrese je posouzena indexem determinace. Do modelu se postupně přidávají další proměnné, pokud se zvyšuje podíl vysvětlené variability hodnot veličiny Y. Algoritmus postupné regrese: 1. krok: Vypočteme výběrové korelační koeficienty mezi závisle proměnnou Y a regresory x1, xp. Do modelu vybereme ten regresor xi, pro který je absolutní hodnota korelačního koeficientu největší. 2. krok: Sestavíme model Y = P0 + P1xi , MNČ odhadneme regresní koeficienty, vypočteme regresní a reziduální součty čtverců SR a SE a testové kritérium f = ——. Pokud F > Fi_a (l,n-2), pak regresor x; zařadíme do modelu. n - l 3. krok: Vypočteme výběrové parciální korelační koeficienty mezi závisle proměnnou a regresory dosud nezařazenými do modelu a vyloučením vlivu regresoru xi. Vybereme ten regresor xj, pro který je absolutní hodnota parciálního korelačního koeficientu největší. 4. krok: Sestavíme model Y = (30 + p\x; + f^Xj, MNC odhadneme regresní koeficienty, vypočteme regresní a reziduální A součty čtverců SR a SE a testové kritérium f = ——, kde ASR je přírůstek regresního součtu čtverců při zařazení regresoru Xj n - 3 do modelu. Pokud F > F1-a (1,n-3), pak regresor xj zařadíme do modelu. 5. krok: Vypočteme výběrové parciální korelační koeficienty mezi závisle proměnnou a regresory dosud nezařazenými do modelu s vyloučením vlivu regresoru xi a xj a podle kroků 3 a 4 postupujeme dále, až vyčerpáme všechny regresory. Postup při budování modelu mnohonásobné lineární regrese 1. Sestrojíme dvourozměrné tečkové diagramy dvojic (Y,Xj), j = 1, p. Lze-li diagramem uspokojivě proložit přímku, svědčí to o tom, že Y lineárně závisí na Xj. Objeví-li se náhodný mrak bodů, Y na Xj záviset nebude. Obrazce jiných tvarů svědčí o problémech. Například trojúhelníkový tvar dvourozměrného tečkového diagramu indikuje heteroskedasticitu (tzn. že je porušena podmínka (d) v modelu klasické lineární regrese, tedy náhodné odchylky nemají týž rozptyl). Poučení o heteroskedasticitě lze nalézt např. v knize J. Hebák, J. Hustopecký: Vícerozměrné statistické metody s aplikacemi, SNTL 1987, Praha, kde je popsána zobecněná metoda nejmenších čtverců. 2. Vypočteme výběrové párové korelační koeficienty, abychom posoudili sílu případné lineární závislosti Y na xj . Dále vypočteme všechny výběrové parciální korelační koeficienty, abychom posoudili sílu „čisté" lineární závislosti mezi Y a xj při vyloučení vlivu ostatních proměnných. Budou-li velké rozdíly mezi párovými a parciálními korelačními koeficienty, svědčí to o existenci multikolinearity. 3. V modelu Yi = |30 + p\xn + ... + p>ip + ei, i = l, n získáme bodové a intervalové odhady regresních parametrů p0, (3b pp, index determinace, odhad rozptylu. Provedeme dílčí t-testy a celkový F-test. Vliv jednotlivých proměnných posoudíme pomocí B-koeficientů. 4. Z modelu vyloučíme ty nezávisle proměnné, pro něž byly dílčí t-testy nevýznamné. Příklad Šest studentů gymnázia absolvovalo čtyři testy, které měří následující veličiny: Xi - přírodovědné vědomosti, X2 - literární vědomosti, X3 - schopnost koncentrace, X4 - logické myšlení. Testy se hodnotí na škále od 1 do 10 (1 = špatný výsledek, 10 = výborný výsledek). student X1 X2 X3 X4 1 7 9 10 8 2 9 8 8 10 3 4 3 1 2 4 2 3 2 2 5 3 1 2 4 6 1 1 1 4 Zajímá nás, kolik bodů můžeme očekávat v testu koncentračních schopností studenta, jestliže známe výsledky testů pro literární schopnosti, přírodovědné schopnosti a logické myšlení. Řešení pomocí systému STATISTICA: V tomto problému je proměnná X3 závislá (označíme ji Y) a ostatní proměnné jsou nezávislé. Sestavíme regresní model Y = Po + P^n + + + s„ i = 1, 6. Nejprve sestrojíme dvourozměrné tečkové diagramy vyjadřující závislost Y na X1, X2 a X4. 01 23456789 10 01 23456789 10 12345 7 8 9 10 11 Dále spočteme výběrové korelační koeficienty rYXi, rYX2, rY>X< a výběrové parciální korelační koeficienty rYXiX , rY>XiX< rY,X2.X1 , rY,X2.X4 , rY,X4.X1 , rY,X4.X2 Korelace (ctyri testy.sta) Označ, korelace jsou významné na hlad. p < ,05000 N=6 (Celé případy vynechány u ChD)_ Proměnná X1 X2 X4 Y 0,87 | 0,96 | 0,89 B oaovy grál z Y pro^i XI Tabulka1 4v*6c B oaovy gral z Y proi X4 Tabulka1 4v*6c B oaovy gral z Y proti X2 Tabulka1 4v*6c Vidíme, že korelace dvojic (Y, X1), (Y, X2), (Y, X4) jsou vysoké. Proměnná Parciální korelace (ctyri testy.sta) Označ. korelace jsou významné na hlad. p < ,05000 N=6 (Celé případy vynechány u ChD) X1 | Y X1 1,0000 0,0273 Y 0,0273 1,0000 Proměnná Parciální korelace (ctyri testy.sta) Označ. korelace jsou významné na hlad. p < ,05000 N=6 (Celé případy vynechány u ChD) X1 | Y X1 1,0000 0,4275 Y 0,4275 1,0000 Parciální korelace dvojice (Y, X1) při vyloučení vlivu veličiny X2 je pouze 0,0273 a při vyloučení vlivu veličiny X4 je 0,4275, tedy mnohem slabší než párová korelace, která činila 0,87. Proměnná Parciální korelace (ctyri testy.sta) Označ. korelace jsou významné na hlad. p < ,05000 N=6 (Celé případy vynechány u ChD) X2 | Y X2 1,0000 0,8108 Y 0,8108 1,0000 Proměnná Parciální korelace (ctyri testy.sta) Označ. korelace jsou významné na hlad. p < ,05000 N=6 (Celé případy vynechány u ChD) X2 | Y X2 1,0000 0,8773 Y 0,8773 1,0000 Parciální korelace dvojice (Y, X2) při vyloučení vlivu veličiny X1 resp. X4 je stále silná, jen o něco menší než párová korelace (ta byla 0,96). Prom ě nn á Parciální korelace (ctyri testy.sta) Označ. korelace jsou významné na hlad. p < ,05000 N=6 (Celé případy vynechány u ChD) Y | X4 Y 1,0000 0,5586 X4 0,5586 1,0000 Proměnná Parciální korelace (ctyri testy.sta) Označ. korelace jsou významné na hlad. p < ,05000 N=6 (Celé případy vynechány u ChD) Y X4 Y 1,0000 0,6590 X4 0,6590 1,0000 Parciální korelace dvojice (Y, X4) při vyloučení vlivu veličiny X1 resp. X2 je o dost menší než párová korelace (ta byla 0,89), ale pokles není tak výrazný jako u dvojice (Y, X1) při vyloučení vlivu veličiny X2 resp. X4. Z těchto analýz vyplývá, že největší roli v modelu lineární regresní závislosti Y na X1, X2 a X4 bude hrát proměnná X2, podstatně menší X4 a role X1 bude zřejmě jen nepatrná. Metodou nejmenších čtverců získáme odhady regresních parametrů. Výsledky regrese se závislou proměnnou : Y (ctyri testy.sta) R= ,98240301 R2= ,96511567 Upravené R2= ,91278918 F(3,2)=18,444 p<,05187 Směrod. chyba odhadu : 1,1664 N=6 Beta Sm .chyba beta B Sm.chyba B t (2) Úroveň p Abs.člen -1,08961 0,941927 -1,15679 0,366858 X1 -0,299065 0,368366 -0,38391 0,472872 -0,81187 0,502130 X2 0,864242 0,316998 0,97862 0,358949 2,72633 0,112320 X4 0,445257 0,271142 0,53513 0,325873 1 64215 0,242263 Empirická regresní funkce má tedy tvar Y = -1,09 - 0,3Sx1 + 0,9Sx2 + 0,54x4. Variabilita proměnné Y je z 96,5% vysvětlená zvoleným regresním modelem. Pro a = 0,05 je celkový F-test nevýznamný, všechny dílčí t-testy rovněž. Podíváme-li se na beta koeficienty, vidíme, že největší vliv má proměnná X2. Sestavíme tedy nový model Yi = ß0 + ß2xi2 + 8i, i = 1, ó. Metodou nejmenších čtverců opět získáme odhady regresních parametrů. N=6 Výsledky regrese se závislou proměnnou : Y (ctyri testy.sta) R= ,95813306 R2= ,91801897 Upravené R2= ,89752371 F(1,4)=44,792 p<,00259 Směrod. chyba odhadu : 1,2644 Beta Sm.chyba beta B Sm.chyba t(4) Úroveň p B Abs.člen -0,520548 0,850099 I -0,612338 1 0,573413 X2 0,958133 0,143162 1,084932 0,162108 6,692666 | 0,002593 Nyní má empirická regresní funkce tvar y = -0,52 + 1,08x2, model jako celek je významný a nezávisle proměnná X2 rovněž. Pro kontrolu kvality regrese porovnáme zjištěné a predikované hodnoty veličiny Y. 1 student1 2 student2 3 student3 4 1 student4 5 student5 6 student6 10.0 8.0 1.0 2.0 2 0 1.0 Predikce 9.2 8.2 2.7 2.7~[ 0 6 0.6 Vztah mezi naměřenými a predikovanými hodnotami znázorníme pomocí dvourozměrného tečkového diagramu. 12 10 >- 6 10 Předpovědi Nyní aplikujeme dopřednou metodu postupné regrese: Statistiky - Vícerozměrná regrese - Proměnné - Závisle proměnná Y, Nezávisle proměnné X1, X2, X4 - OK - Detailní nastavení - zaškrtneme Další možnosti - OK - Metoda - zvolíme Kroková dopředná - na záložce Metoda zvolíme Zobrazit výsledky Po každém kroku - OK (V kroku 0 nejsou v regresní rovnici žádné proměnné.) Klikneme na Další -Výpočet:Výsledky regrese. N=6 Výsledky regrese se závislou proměnnou : Y (ctyri testy.sta) R= ,95813306 R2= ,91801897 Upravené R2= ,89752371 F(1,4)=44,792 p<,00259 Směrod. chyba odhadu : 1,2644 Beta Sm .chyba B Sm.chyba t(4) Úroveň p beta | B Abs.člen -0,520548 0,850099 1 -0,612338 1 0,573413 X2 0,958133 0,143162 1,084932 0,162108 6,692666 0,002593 8 4 2 0 0 2 3 4 5 6 7 8 9 V prvním kroku byla vybrána proměnná X2. Opět klikneme na Další a dostaneme výsledky kroku 2, který je již konečný: N=6 Výsledky regrese se závislou proměnnou : Y (ctyri testy.sta) R= ,97653416 R2= ,95361897 Upravené R2= ,92269829 F(2,3)=30,841 p<,00999 Směrod. chyba odhadu : 1,0981 Beta Sm.chyba beta B Sm.chyba t(3) Úroveň p B 1 Abs.člen -1,22615 0,872554 -1,40524 0,254603 X2 0,687789 0,217256 0,77881 0,246007 3,16580 0,050644 X4 0,329675 0,217256 0,39622 0,261109 1,51745 0,226436 Empirická regresní funkce má tvar y = -1,23 + 0,78x2 + 0,4x4, model jako celek je významný na hladině 0,05, avšak nezávisle proměnná X2 a X4 nikoliv. Přispívají však k vysvětlení variability hodnot závisle proměnné veličiny Y. Adjustovaný index determinace je 0,9227. V modelu s nezávisle proměnnou X2 byl 0,8975 a v modelu se všemi třemi nezávisle proměnnými byl 0,9128. V tomto výsledném modelu uložíme rezidua a predikované hodnoty: Rezidua/předpoklady/předpovědi - Reziduální analýza - Uložit rezidua & předpovědi - OK Pomocí S-W testu a N-P plotu prozkoumáme normalitu reziduí: Normální p-graf z Reziduí Tabulka25 9v*6 o hodnota c O čekáv aná normální -1 ,2 'o'--------1--------------[---------------[-------------[--------------[------------------------------[--------------------------------------------------------- -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 Rezidua : SW-W = 0,9 06 5; p = 0,4138 Pozorovaná hodnota Vidíme, že rozložení reziduí je blízké normálnímu rozložení. Zkusíme ještě zpětnou metodu postupné regrese: Na záložce Metoda zvolíme Metoda - zvolíme Kroková zpětná. V nultém kroku jsou do modelu zařazeny všechny nezávisle proměnné: Výsledky regrese se závislou proměnnou : Y (ctyri testy.sta) R= ,98240301 R2= ,96511567 Upravené R2= ,91278918 F(3,2)=18,444 p<,05187 Směrod. chyba odhadu : 1,1664 N=6 Beta Sm .chyba B Sm.chyba t (2) beta 1 B Úroveň p Abs.člen -1,08961 1 0,941927 -1,15679 0,366858 X1 -0,299065 0,368366 -0,38391 0,472872 -0,81187 0,502130 X2 0,864242 0,316998 0,97862 0,358949 2,72633 0,112320 X4 0,445257 0,271142 0 53513 1 0,325873 1,64215 0,242263 V 1. kroku je z modelu vyřazena proměnná Xi: N=6 Výsledky regrese se závislou proměnnou : Y (ctyri testy.sta) R= ,97653416 R2= ,95361897 Upravené R2= ,92269829 F(2,3)=30,841 p<,00999 Směrod. chyba odhadu : 1,0981 Beta Sm.chyba beta B Sm.chyba t (3) Úroveň p 1 B Abs.člen -1,22615 0,872554 -1,40524 0,254603 X2 0,687789 0,217256 0,77881 0,246007 3,16580 0,050644 X4 0,329675 0,217256 0,39622 0,261109 1,51745 0,226436 Ve 2. kroku, který je současně poslední, je vyřazena proměnná X4: N=6 Výsledky regrese se závislou proměnnou : Y (ctyri testy.sta) R= ,95813306 R2= ,91801897 Upravené R2= ,89752371 F(1,4)=44,792 p<,00259 Směrod. chyba odhadu : 1,2644 Beta Sm.chyba B beta Sm.chyba B t (4) Úroveň p Abs.člen -0,520548 0,850099 -0,612338 0,573413 X2 0,958133 0,143162 1,084932 0,162108 6,692666 0,002593 Metoda zpětné postupné regrese tedy jako optimální našla model regresní přímky s nezávisle proměnnou X2. Upozornění: Pokud bychom na záložce Metoda ručně změnili hodnoty „F na zahrnutí" a „F na vyjmutí", mohli bychom dostat jiné výsledky.