Téma 4: Korelace a regrese Vzorový příklad: Pro následující datové soubory proveďte korelační, resp. regresní analýzu. Postup ve STATISTICE: 1. Načtěte soubor znamky.sta. Vypočtěte Spearmanův korelační koeficient známek z matematiky a angličtiny pro všechny studenty, pak zvlášť pro muže a zvlášť pro ženy. Získané výsledky interpretujte. (Spearmanův korelační koeficient měří těsnost lineární závislosti dvou ordinálních proměnných x, y a počítá se podle vzorce: ( ) ( )= - - -= n 1i 2 ii2S QR 1nn 6 1r , kde Ri je pořadí xi - tj. počet těch hodnot x1, ..., xn, které jsou xi a Qi je pořadí yi.) Hodnoty Spearmanova korelačního koeficientu (stejně tak hodnoty dále uvedeného Pearsonova korelačního koeficientu) interpretujeme podle následující tabulky: Absolutní hodnota korelačního koeficientu Interpretace hodnoty 0 lineární nezávislost (0, 0,1) velmi nízký stupeň závislosti [0,1, 0,3) nízký stupeň závislosti [0,30, 0,50) mírný stupeň závislosti [0,50, 0,70) význačný stupeň závislosti [0,70, 0,90) vysoký stupeň závislosti (0,90, 1) velmi vysoký stupeň závislosti 1 úplná lineární závislost Návod: Po načtení souboru zvolíme Statistics ­ Nonparametrics ­ Correlations ­ OK ­ Variables First variable list X, Second variable list Y ­ OK ­ Spearman R. Počítáme-li rS pro muže, vybereme v tabulce Nonparametric Correlation tlačítko Select Cases ­ Specific, select by Z=1. Řešení: Pro všechny Spearman Rank Order Correlations (zna MD pairwise deleted Marked correlations are significant at p < Pair of Variables Valid N Spearman R t(N-2) p-level X & Y 20 0,688442 4,027090 0,000791 Pro muže (if Z=1) Spearman Rank Order Correlations (zna MD pairwise deleted Marked correlations are significant at p < Pair of Variables Valid N Spearman R t(N-2) p-level X & Y 10 0,373544 1,138990 0,287662 Pro ženy (if Z=0) Spearman Rank Order Correlations (zna MD pairwise deleted Marked correlations are significant at p < Pair of Variables Valid N Spearman R t(N-2) p-level X & Y 10 0,860314 4,773446 0,001402 Komentář: Ve skupině všech studentů je Spearmanův koeficient korelace roven 0,6884, což svědčí o význačné těsnosti pořadové závislosti. U mužů nabývá tento koeficient hodnoty pouze 0,3735, tedy mezi známkami z matematiky a angličtiny existuje u mužů pouze mírná pořadová závislost. Naproti tomu u žen je sledovaná pořadová závislost vysoká, protože Spearmanův koeficient je 0,8603. 2. Vysvětlení významu Pearsonova korelačního koeficientu: Načtěte soubor korkoef.sta, který obsahuje proměnné X,Y1,Y2,Y3,Y4, X4. Vypočtěte Pearsonovy korelační koeficienty dvojic proměnných (X,Y1), (X,Y2), (X,Y3), (X4,Y4) a pro každou z uvedených dvojic proměnných nakreslete dvourozměrný tečkový diagram. Pro které dvojice proměnných se hodí Pearsonův korelační koeficient jako vhodná míra těsnosti lineární závislosti? Návod: Statistics ­ Basis Statistics/Tables ­ Correlation matrices ­ OK ­ One variable list X, Y1 ­ OK ­ Summary: Correlation matrix ­ Návrat do Product-Moment and Partial Correlations ­ Advanced/plot ­ 2D Scatterplots ­ OK ­ First X, Second Y1 ­ OK. Analogicky pro ostatní dvojice proměnných. Řešení: Correlations (korkoe Variable X Y1 X Y1 1,000000 0,816421 0,816421 1,000000 Correlations (korkoe Variable X Y2 X Y2 1,000000 0,816237 0,816237 1,000000 Correlations (korkoe Variable X Y3 X Y3 1,000000 0,816287 0,816287 1,000000 Correlations (korkoe Variable X4 Y4 X4 Y4 1,000000 0,816521 0,816521 1,000000 Dvourozměrný tečkový diagram r = 0,81642 2 4 6 8 10 12 14 16 X 3 4 5 6 7 8 9 10 11 12 Y1 Dvourozměrný tečkový diagram r = 0,81624 2 4 6 8 10 12 14 16 X 2 3 4 5 6 7 8 9 10 Y2 Dvourozměrný tečkový diagram r = 0,81629 2 4 6 8 10 12 14 16 X 5 6 7 8 9 10 11 12 13 14Y3 Dvourozměrný tečkový diagram r = 0,81652 6 8 10 12 14 16 18 20 X4 4 5 6 7 8 9 10 11 12 13 Y4 Komentář: Ve všech čtyřech případech nabývá koeficient korelace hodnoty 0,816, což by svědčilo o vysokém stupni těsnosti lineárního vztahu mezi sledovanými dvojicemi veličin. Při pohledu na dvourozměrné tečkové diagramy je však zřejmé, že pouze v prvním případě je použití Pearsonova korelačního koeficientu oprávněné. 3. Načtěte do STATISTIKY soubor ocel.sta. Vypočtěte kovarianci a Pearsonův koeficient korelace meze plasticity a meze pevnosti. Porovnejte s výsledky ve skriptech Popisná statistika (str. 30). Návod: Po načtení souboru zvolíme Statistics - Multiple Regression - Variables Independent X, Dependent Y ­ OK ­ OK ­ Residuals/assumption-prediction ­ Descriptive statistics ­ Covariances. Pro získání korelačního koeficientu zvolíme Correlation místo Covariances. Vysvětlení: Kovariance vyjde ve STATISTICE jinak než ve skriptech, protože ve STATISTICE se ve vzorci pro výpočet kovariance nepoužívá 1/n, ale 1/(n-1). Řešení: Correlations (ocel) Variable X Y X Y 1,000000 0,934548 0,934548 1,000000 Covariances (ocel) Variable X Y X Y 1070,240 1002,471 1002,471 1075,125 Komentář: Kovariance meze plasticity a meze pevnosti vyšla 1002,471, tedy mezi těmito dvěma znaky existuje určitý stupeň přímé lineární závislosti. Koeficient korelace meze plasticity a meze pevnosti nabývá hodnoty 0,9345, což svědčí o velmi vysokém stupni přímé lineární závislosti obou znaků (viz tabulku v úkolu 1). 4. Určete koeficienty regresní přímky meze pevnosti na mez plasticity a stanovte index determinace. Určete regresní odhad meze pevnosti, je-li mez plasticity 110. Nakreslete regresní přímku do dvourozměrného tečkového diagramu. Návod: V tabulce Multiple Regression zvolíme Variables Independent X, Dependent Y ­ OK ­ Summary:Regression results. Ve výstupní tabulce najdeme koeficient b0 ve sloupci B na řádku označeném Intercept, koeficient b1 ve sloupci B na řádku označeném X, index determinace pod označením R2. Pro výpočet predikované hodnoty zvolíme Residuals/assumption/prediction Predict dependent variable X:110 - OK. Ve výstupní tabulce je hledaná hodnota označena jako Predictd. Nakreslení regresní přímky: Návrat do Multiple Regression ­ Residuals / assumption / prediction ­ Perform residuals analysis ­ Scatterplots ­ Bivariate correlation ­ X, Y ­ OK. Jiný způsob: Do dvourozměrného tečkového diagramu nakreslíme regresní přímku tak, že v tabulce 2D Scatterplots zvolíme Fit Linear, OK. Řešení: Summary Statistic Value Multiple R Multiple R2 Adjusted R2 F(1,58) p Std.Err. of Estimate 0,9345 0,8734 0,8712 400,0641 0,0000 11,7677 Predicting Values for (ocel) variable:Y Variable B-Weight Value B-Weight * Value X Intercept Predicted -95,0%CL +95,0%CL 0,936679 110,0000 103,0346 24,5881 127,6228 124,3063 130,9392 Regression Summary for Dependent Variable: Y (ocel) R= ,93454811 R2= ,87338017 Adjusted R2= ,87119707 F(1,58)=400,06 p<0,0000 Std.Error of estimate: 11,768 N=60 Beta Std.Err. of Beta B Std.Err. of B t(58) p-level Intercept X 24,58814 4,740272 5,18707 0,000003 0,934548 0,046724 0,93668 0,046830 20,00160 0,000000 Regresní přímka me ze pevnosti na mez plasticity. Y = 24,5881+0,9367*x 20 40 60 80 100 120 140 160 180 mez plasticity 40 60 80 100 120 140 160 180 200 mezpevnosti Komentář: Regresní přímka meze pevnosti na mez plasticity má rovnici: Y = 24,58814 + 0,93668 X. Index determinace nabývá hodnoty 0,8734, tedy variabilita meze pevnosti je z 87,34% vysvětlena regresní přímkou. Je-li mez plasticity 110, je predikovaná hodnota meze pevnosti rovna 127,62. Na dvourozměrném tečkovém diagramu je vidět, že regresní přímka je vhodná pro modelování závislosti meze pevnosti na mezi plasticity ­ tečky jsou rozmístěny vcelku rovnoměrně kolem regresní přímky. 5. U sedmi náhodně vybraných strojů v určitém podniku se zjišťovalo stáří stroje v letech (proměnná x) a týdenní náklady v Kč na údržbu stroje (proměnná y). Data: (1,35), (1,52), (3,81), (3,105), (5,100), (6,125), (7, 120) Data znázorněte graficky. Vyzkoušejte následující čtyři modely: y = 0 + 1 x, y = 0 + 1 x, y = 0 + 1 log10 x, y = 0 + 1 1/x. Vyberte ten model, který poskytuje nejvyšší index determinace. Určete regresní odhad týdenních nákladů pro stroj starý čtyři roky. Návod: Datový soubor s proměnnými X a Y doplňte o proměnné SQRTX, LOGX a INVX. Hodnoty proměnné SQRTX získáte tak, že do Long Name napíšete =sqrt(x). (Analogicky pro ostatní proměnné.) Regresní analýzu provedete tak, že roli nezávisle proměnné bude hrát proměnná X, pak SQRTX, LOGX a nakonec INVX. Řešení: Model s proměnnou X Summary Statistic Value Multiple R Multiple R2 Adjusted R2 F(1,5) p Std.Err. of Estimate 0,91004 0,82817 0,79381 24,09909 0,00444 15,48711 Predicting Values for (stroje) variable: Y Variable B-Weight Value B-Weight * Value X Intercept Predicted -95,0%CL +95,0%CL 13,14957 4,000000 52,5983 39,4444 92,0427 76,8676 107,2179 Regression Summary for Dependent Variable: Y (stroje) R= ,91004028 R2= ,82817331 Adjusted R2= ,79380797 F(1,5)=24,099 p<,00444 Std.Error of estimate: 15,487 N=7 Beta Std.Err. of Beta B Std.Err. of B t(5) p-level Intercept X 39,44444 11,54341 3,417054 0,018898 0,910040 0,185379 13,14957 2,67862 4,909082 0,004439 Regresní přímka. y=39,4444+13,1496*x 0 1 2 3 4 5 6 7 8 X = stáří stroje 20 40 60 80 100 120 140 Y=nákladynaúdržbu Model s odmocninou Summary Statistic Value Multiple R Multiple R2 Adjusted R2 F(1,5) p Std.Err. of Estimate 0,93924 0,88217 0,85860 37,43261 0,00169 12,82508 Predicting Values for (stroje) variable: Y Variable B-Weight Value B-Weight * Value SQRTX Intercept Predicted -95,0%CL +95,0%CL 48,55972 2,000000 97,1194 -0,4774 96,6421 83,6962 109,5880 Regression Summary for Dependent Variable: Y (stroje) R= ,93923698 R2= ,88216611 Adjusted R2= ,85859933 F(1,5)=37,433 p<,00169 Std.Error of estimate: 12,825 N=7 Beta Std.Err. of Beta B Std.Err. of B t(5) p-level Intercept SQRTX -0,47736 15,29638 -0,031207 0,976312 0,939237 0,153515 48,55972 7,93690 6,118220 0,001691 Regresní přímka. Y = -0,47736+48,55972*sqrt(x) 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6 2,8 SQRTX 20 40 60 80 100 120 140 Y Model s převrácenou hodnotou Summary Statistic Value Multiple R Multiple R2 Adjusted R2 F(1,5) p Std.Err. of Estimate 0,94282 0,88891 0,86670 40,01016 0,00146 12,45245 Predicting Values for (stroje) variable: Y Variable B-Weight Value B-Weight * Value INVX Intercept Predicted -95,0%CL +95,0%CL -84,4832 0,250000 -21,1208 126,6192 105,4984 91,5231 119,4738 Regression Summary for Dependent Variable: Y (stroje) R= ,94282234 R2= ,88891396 Adjusted R2= ,86669676 F(1,5)=40,010 p<,00146 Std.Error of estimate: 12,452 N=7 Beta Std.Err. of Beta B Std.Err. of B t(5) p-level Intercept INVX 126,6192 7,67327 16,50134 0,000015 -0,942822 0,149054 -84,4832 13,35627 -6,32536 0,001456 Regresní přímka. y=126,6192-84,4832/x 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 INVX 20 40 60 80 100 120 140 Y Model s logaritmem Summary Statistic Value Multiple R Multiple R2 Adjusted R2 F(1,5) p Std.Err. of Estimate 0,95349 0,90915 0,89097 50,03321 0,00087 11,26153 Predicting Values for (stroje) variable: Y Variable B-Weight Value B-Weight * Value LOGX Intercept Predicted -95,0%CL +95,0%CL 93,23472 0,602060 56,1329 44,6457 100,7786 88,9325 112,6247 Regression Summary for Dependent Variable: Y (stroje) R= ,95349135 R2= ,90914576 Adjusted R2= ,89097491 F(1,5)=50,033 p<,00087 Std.Error of estimate: 11,262 N=7 Beta Std.Err. of Beta B Std.Err. of B t(5) p-level Intercept LOGX 44,64571 7,49541 5,956407 0,001907 0,953491 0,134799 93,23472 13,18100 7,073415 0,000874 Regresní přímka. y=44,6457+93,2347*log(x) -0,1 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 LOGX 20 40 60 80 100 120 140 Y Nejvyšší hodnotu indexu determinace vykazuje model s logaritmem. Výsledky všech čtyř modelů: y yodh1 yodh2 yodh3 yodh4 0 1 2 3 4 5 6 7 8 stáří stroje v letech 20 40 60 80 100 120 140 týdennínákladynaúdržbu(vKč) Komentář: Abychom získali graf s výsledky všech čtyř modelů, musíme datový soubor ve STATISTICE uspořádat podle hodnot proměnné X: 1 x 2 y 1 2 3 4 5 6 7 1 3 1 5 3 8 3 1 5 2 1 05 5 100 6 125 7 120 K tomuto datovému souboru přidáme další čtyři proměnné yodh1, yodh2, yodh3 a yodh4. Do Long Name těchto proměnných postupně napíšeme =35,44+13,15*x, =-0,48+48,56*sqrt(x), =126,62-84,48/x, =44,65+93,23*log10(x). Dostaneme soubor: 1 x 2 y 3 yodh1 4 yodh2 5 yodh3 6 yodh4 1 2 3 4 5 6 7 1 35 48,59 48,08 42,14 44,65 1 52 48,59 48,08 42,14 44,65 3 81 74,89 83,62839 98,46 89,13201 3 105 74,89 83,62839 98,46 89,13201 5 100 101,19 108,1035 109,724 109,815 6 125 114,34 118,4672 112,54 117,197 7 120 127,49 127,9977 114,5514 123,4385 a pomocí vícenásobného bodového grafu vytvoříme výše uvedený obrázek.