PSY252 Statistická analýza dat v psychologii II Seminář 3 {Mnohonásobná, vícenásobná} lineární regrese Multiple linear regression Dhodobá adaptace sluchu Lineární regrese I. - MODEL Je-li Pearsonova korelace dobrým popisem vztahu mezi dvěma proměnnými, lze popsat vztah mezi nimi lineární funkcí Y ’ = a +bX b – směrnice a – průsečík Y = Y’ + e Y = a + bX + e Odhad metodou nejmenších čtverců b = r[xy](s[y]/s[x]) a = m[y ]–[ ]bm[x] Jsou-li X a Y vyjádřeny v z-skórech, pak b = r[xy] AJ: slope, intercept, least squares (estimation), regression coefficents (a,b) Predikované hodnoty a rezidua Lineární regrese III. – úspěšnost predikce ^o s[y]^2 = s[reg]^2 + s[res]^2 (ss[y]=ss[res]+ss[reg])^ ^o R ^2 = s[reg]^2 / s[y]^2 o Koeficient determinace (R ^2) n Podíl rozptylu vysvětleného modelem n Je ukazatelem kvality, úspěšnosti regrese n Vyjadřuje shodu modelu s daty ^o Pro jednoduchou lin. regr. platí R ^2 = r ^2 ^ AJ: regression and residual variance (sum of squares), explained variance, model fit with the data, coefficient of determination (R square) Lineární regrese IV. – předpoklady, platnost Předpoklady oprávněnosti použití lineárního modelu o jako u Pearsonovy korelace o konceptuální předpoklad: vztah je ve skutečnosti lineární o rezidua mají normální rozložení s průměrem 0 o homoskedascita n =rozptyl reziduí (chyb odhadu) se s rostoucím X nemění o Platnost modelu je omezena daty, z nichž byl získán, a teorií. n Extrapolace, neoprávněná extrapolace (»jako generalizace nad rámec empirických dat) n Pozor na odlehlé hodnoty – jako u všech ostatních momentových statistik AJ: assumptions of the linear regression model, residuals normally distributed, homoscedascity, Mnohonásobná lineární regrese o Počet prediktorů není omezen [n ]Y = b[0] +b[1]X[1] + b[2]X[2] + … + b[m]X[m ]+ e[] o Problémy plynoucí z většího množství prediktorů n Výpočetní komplikace n Korelace mezi prediktory komplikují interpretaci – (multi)kolinearita n Otázka „pořadí“ prediktorů n Možnost a problémy porovnávání prediktorů mezi sebou o b[i] vyjadřuje nárůst Y’ při nárůstu X[i] o jednu jednotku; v jednotkách Y o b[i] vyjadřuje nárůst Y’ při nárůstu X[i] o 1; jsou-li X[i] i Y standardizovány o K porovnání prediktorů mezi sebou v rámci regrese slouží b[i] o K porovnání síly prediktoru v různých skupinách slouží b[i] Hrátky s prediktory Prediktory lze do modelu vložit všechny najednou, jednotlivě, nebo po skupinkách Porovnáváme tak vlastně mnoho modelů lišících se zahrnutými prediktory. o Vše najednou = ENTER o Postupně po jednom = FORWARD o Vše a postupně ubírat = BACKWARD o Po blocích, blockwise = ENTER + další blok Diagnostika 1: Outliery a vlivné případy Nemají některé případy příliš velký vliv na výsledky regrese? o Outliery – mohou zvyšovat i snižovat b n Rezidua – případy s vysokými r. regrese predikuje nejhůř, standardizovaná, studentizovaná ±3 n Vlivné případy – případy, které nejvíc ovlivňují parametry o Co se stane s parametry regrese, když případ odstraníme? o DFBeta – rozdíl mezi parametrem s a bez, standardizované > 1 o DFFit – rozdíl mezi predikovanou hodnotou a predikovanou hodnotou bez případu (adjustovanou) o Cookova vzdálenost > 1 o Leverage > 2(k+1)/n , kde k = počet prediktorů, n= velikost vzorku o Případy s vysokými rezidui či vlivné případy NEODSTRAŇUJEME o …leda by šlo o zjevnou chybu v datech či vzorku Daignostika 2: Kolinearita o Když 2 prediktory vysvětlují tutéž část variability závislé, jeden z nich je téměř zbytečný o Komplikuje porovnávání síly preditorů o Snižuje stabilitu odhadu parametrů o V extrému (když lze jeden prediktor přesně vypočítat z ostatních) regresi úplně znemožňuje o Korelace nad 0,9 o VIF (= 1/tolerance) cca nad 10 Diagnostika 3: Předpoklady regrese o Závislá alespoň intervalová o Prediktory intervalové i kategorické o Nenulový rozptyl prediktorů o Absence vysoké kolinearity (žádné r > 09) o Neexistence intervenující proměnné, která by korelovala se závislou i prediktory o Homoscedascita (scatterplot ZRESID x ZPRED, parciální scatter) o Nezávislost reziduí (Durbin-Watson = 2) o Normálně rozložená rezidua (histogram, P-P) o Nezávislost jednotlivých případů o Linearita vztahu Síla testu v regresi (Hair, 7th ed.) Zapojení kategorických prediktorů Dummy coding ->dummy variables n Pomocí k−1 kategorických proměnných n Indikátorové kódování (indicator coding) o Referenční kategorie = 0 n Efektové kódování (effect coding) o Referenční kategorie = -1 Interpretace vah dummy proměnných o Y = b[0] +b[A1]X[A1] + b[A2]X[A2] + … + b[m]X[m ]+ e o Po dosazení do regresní rovnice predikujeme člověku průměr jeho skupiny (pokud nejsou žádné další prediktory). o Indikátorové kódování n b[Ai] udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a referenční skupinou; sig b[A][i] znamená sig rozdílu n b[Ai] udává o kolik nám členství ve skupině zvyšuje/snižuje predikovanou hodnotu oproti referenční skupině n b[0] udává (při absenci jiných prediktorů) průměr Y v referenční skupině o Efektové kódování n b[Ai] udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a celkovým průměrem n b[0] udává (při absenci jiných prediktorů) celkový průměr o záv: deprese o pred: selfe, effi3, duv_r, duv_v