PSY252 Statistická analýza dat v psychologii II Seminář 3 {Mnohonásobná, vícenásobná} lineární regrese Multiple linear regression Dhodobá adaptace sluchu hlasitost [%] výdrž [s] 25 5 31 9 55 20 42 13 47 18 53 17 40 15 35 10 28 10 Lidé, kteří poslouchají osobní přehrávač na vysokou hlasitost [% z maxima přehrávače], vydrží nepříjemný hlasitý zvuk déle? Jakou čarou tvar proložit Lineární regrese I. - MODEL oJe-li Pearsonova korelace dobrým popisem vztahu mezi dvěma proměnnými, lze popsat vztah mezi nimi lineární funkcí oY ’ = a +bX nb – směrnice na – průsečík oY = Y’ + e oY = a + bX + e o oOdhad metodou onejmenších čtverců o b = rxy(sy/sx) o a = my – bmx oJsou-li X a Y vyjádřeny v z-skórech, pak b = rxy o oAJ: slope, intercept, least squares (estimation), regression coefficents (a,b) Lineární regrese II. – příklad mh=39,6 sh = 10,7 mv=13,0 sv = 4,9 r = 0,95 výdrž’ = 0,43.hlasitost − 4,15 Namalovat pár bodů Predikované hodnoty a rezidua hlasitost [%] výdrž [s] výdrž’ [s] reziduum [s] 25 5 6,69 -1,69 31 9 9,29 -0,29 55 20 19,70 0,30 42 13 14,06 -1,06 47 18 16,23 1,77 53 17 18,83 -1,83 40 15 13,19 1,81 35 10 11,02 -1,02 28 10 7,99 2,01 Lineární regrese III. – úspěšnost predikce osy2 = sreg2 + sres2 (ssy=ssres+ssreg) o oR 2 = sreg2 / sy2 o oKoeficient determinace (R 2) nPodíl rozptylu vysvětleného modelem nJe ukazatelem kvality, úspěšnosti regrese nVyjadřuje shodu modelu s daty oPro jednoduchou lin. regr. platí R 2 = r 2 o oAJ: regression and residual variance (sum of squares), explained variance, model fit with the data, coefficient of determination (R square) o regrese2 Lineární regrese IV. – předpoklady, platnost oPředpoklady oprávněnosti použití lineárního modelu ojako u Pearsonovy korelace okonceptuální předpoklad: vztah je ve skutečnosti lineární orezidua mají normální rozložení o s průměrem 0 ohomoskedascita n=rozptyl reziduí (chyb odhadu) n se s rostoucím X nemění o o o o oPlatnost modelu je omezena daty, z nichž byl získán, a teorií. nExtrapolace, neoprávněná extrapolace (»jako generalizace nad rámec empirických dat) nPozor na odlehlé hodnoty – jako u všech ostatních momentových statistik n oAJ: assumptions of the linear regression model, residuals normally distributed, homoscedascity, regrese4 Mnohonásobná lineární regrese oPočet prediktorů není omezen nY = b0 +b1X1 + b2X2 + … + bmXm + e o oProblémy plynoucí z většího množství prediktorů nVýpočetní komplikace nKorelace mezi prediktory komplikují interpretaci – (multi)kolinearita nOtázka „pořadí“ prediktorů nMožnost a problémy porovnávání prediktorů mezi sebou obi vyjadřuje nárůst Y’ při nárůstu Xi o jednu jednotku; v jednotkách Y obi vyjadřuje nárůst Y’ při nárůstu Xi o 1; jsou-li Xi i Y standardizovány oK porovnání prediktorů mezi sebou v rámci regrese slouží bi oK porovnání síly prediktoru v různých skupinách slouží bi n n Hrátky s prediktory oPrediktory lze do modelu vložit všechny najednou, jednotlivě, nebo po skupinkách oPorovnáváme tak vlastně mnoho modelů lišících se zahrnutými prediktory. oVše najednou = ENTER oPostupně po jednom = FORWARD oVše a postupně ubírat = BACKWARD oPo blocích, blockwise = ENTER + další blok Diagnostika 1: Outliery a vlivné případy oNemají některé případy příliš velký vliv na výsledky regrese? oOutliery – mohou zvyšovat i snižovat b nRezidua – případy s vysokými r. regrese predikuje nejhůř, standardizovaná, studentizovaná ±3 nVlivné případy – případy, které nejvíc ovlivňují parametry oCo se stane s parametry regrese, když případ odstraníme? oDFBeta – rozdíl mezi parametrem s a bez, standardizované > 1 oDFFit – rozdíl mezi predikovanou hodnotou a predikovanou hodnotou bez případu (adjustovanou) oCookova vzdálenost > 1 oLeverage > 2(k+1)/n , kde k = počet prediktorů, n= velikost vzorku oPřípady s vysokými rezidui či vlivné případy NEODSTRAŇUJEME o…leda by šlo o zjevnou chybu v datech či vzorku Daignostika 2: Kolinearita oKdyž 2 prediktory vysvětlují tutéž část variability závislé, jeden z nich je téměř zbytečný oKomplikuje porovnávání síly preditorů oSnižuje stabilitu odhadu parametrů oV extrému (když lze jeden prediktor přesně vypočítat z ostatních) regresi úplně znemožňuje o oKorelace nad 0,9 oVIF (= 1/tolerance) cca nad 10 Diagnostika 3: Předpoklady regrese oZávislá alespoň intervalová oPrediktory intervalové i kategorické oNenulový rozptyl prediktorů oAbsence vysoké kolinearity (žádné r > 09) oNeexistence intervenující proměnné, která by korelovala se závislou i prediktory oHomoscedascita (scatterplot ZRESID x ZPRED, parciální scatter) oNezávislost reziduí (Durbin-Watson = 2) oNormálně rozložená rezidua (histogram, P-P) oNezávislost jednotlivých případů oLinearita vztahu o o o Síla testu v regresi (Hair, 7th ed.) Přibývá nový faktor síly testu: množství prediktorů Zapojení kategorických prediktorů oDummy coding ->dummy variables nPomocí k−1 kategorických proměnných nIndikátorové kódování (indicator coding) oReferenční kategorie = 0 nEfektové kódování (effect coding) oReferenční kategorie = -1 n n Člen rodiny Původní proměnná Indikátorové kódování Efektové kódování Matka Otec Matka Otec Matka 1 1 0 1 0 Otec 2 0 1 0 1 Dítě 3 0 0 -1 -1 Interpretace vah dummy proměnných oY = b0 +bA1XA1 + bA2XA2 + … + bmXm + e oPo dosazení do regresní rovnice predikujeme člověku průměr jeho skupiny (pokud nejsou žádné další prediktory). oIndikátorové kódování nbAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a referenční skupinou; sig bAi znamená sig rozdílu nbAi udává o kolik nám členství ve skupině zvyšuje/snižuje predikovanou hodnotu oproti referenční skupině nb0 udává (při absenci jiných prediktorů) průměr Y v referenční skupině oEfektové kódování nbAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a celkovým průměrem nb0 udává (při absenci jiných prediktorů) celkový průměr o ozáv: deprese opred: selfe, effi3, duv_r, duv_v o