FSS928 Lineární regrese Dhodobá adaptace sluchu hlasitost [%] výdrž [s] 25 5 31 9 55 20 42 13 47 18 53 17 40 15 35 10 28 10 Lidé, kteří poslouchají osobní přehrávač na vysokou hlasitost [% z maxima přehrávače], vydrží nepříjemný hlasitý zvuk déle? Jakou čarou tvar proložit } Lineární regrese I. - MODEL }Je-li Pearsonova korelace dobrým popisem vztahu mezi dvěma proměnnými, lze popsat vztah mezi nimi lineární funkcí }Y ’ = a +bX }b – směrnice }a – průsečík }Y = Y’ + e }Y = a + bX + e } } }Odhad metodou }nejmenších čtverců } b = rxy(sy/sx) } a = my – bmx }Jsou-li X a Y vyjádřeny v z-skórech, pak b = rxy } }AJ: slope, intercept, least squares (estimation), regression coefficents (a,b) Lineární regrese II. – příklad mh=39,6 sh = 10,7 mv=13,0 sv = 4,9 r = 0,95 výdrž’ = 0,43.hlasitost − 4,15 Namalovat pár bodů Predikované hodnoty a rezidua hlasitost [%] výdrž [s] výdrž’ [s] reziduum [s] 25 5 6,69 -1,69 31 9 9,29 -0,29 55 20 19,70 0,30 42 13 14,06 -1,06 47 18 16,23 1,77 53 17 18,83 -1,83 40 15 13,19 1,81 35 10 11,02 -1,02 28 10 7,99 2,01 Lineární regrese III. – úspěšnost predikce }sy2 = sreg2 + sres2 (ssy=ssres+ssreg) } }R 2 = sreg2 / sy2 } }Koeficient determinace (R 2) }Podíl rozptylu vysvětleného modelem }Je ukazatelem kvality, úspěšnosti regrese }Vyjadřuje shodu modelu s daty }Pro jednoduchou lin. regr. platí R 2 = r 2 } }AJ: regression and residual variance (sum of squares), explained variance, model fit with the data, coefficient of determination (R square) } regrese2 Lineární regrese IV. – předpoklady, platnost }Předpoklady oprávněnosti použití lineárního modelu }jako u Pearsonovy korelace }konceptuální předpoklad: vztah je ve skutečnosti lineární }rezidua mají normální rozložení } s průměrem 0 }homoskedascita }=rozptyl reziduí (chyb odhadu) } se s rostoucím X nemění } } } } }Platnost modelu je omezena daty, z nichž byl získán, a teorií. }Extrapolace, neoprávněná extrapolace (»jako generalizace nad rámec empirických dat) }Pozor na odlehlé hodnoty – jako u všech ostatních momentových statistik } }AJ: assumptions of the linear regression model, residuals normally distributed, homoscedascity, regrese4 Mnohonásobná lineární regrese }Počet prediktorů není omezen }Y = b0 +b1X1 + b2X2 + … + bmXm + e } }Problémy plynoucí z většího množství prediktorů }Výpočetní komplikace }Korelace mezi prediktory komplikují interpretaci – (multi)kolinearita }Možnost a problémy porovnávání prediktorů mezi sebou }bi vyjadřuje nárůst Y’ při nárůstu Xi o jednu jednotku; v jednotkách Y }bi vyjadřuje nárůst Y’ při nárůstu Xi o 1; jsou-li Xi i Y standardizovány }K porovnání prediktorů mezi sebou v rámci regrese slouží bi }K porovnání síly prediktoru v různých skupinách slouží bi } } Hrátky s prediktory }Prediktory lze do modelu vložit všechny najednou, jednotlivě, nebo po skupinkách }Porovnáváme tak vlastně mnoho modelů lišících se zahrnutými prediktory. }Vše najednou = ENTER }Postupně po jednom = FORWARD }Vše a postupně ubírat = BACKWARD }Po blocích, blockwise = ENTER + další blok Diagnostika 1: Outliery a vlivné případy }Nemají některé případy příliš velký vliv na výsledky regrese? }Outliery – mohou zvyšovat i snižovat b }Rezidua – případy s vysokými r. regrese predikuje nejhůř, standardizovaná, studentizovaná ±3 }Vlivné případy – případy, které nejvíc ovlivňují parametry }Co se stane s parametry regrese, když případ odstraníme? }DFBeta – rozdíl mezi parametrem s a bez, standardizované > 1 }DFFit – rozdíl mezi predikovanou hodnotou a predikovanou hodnotou bez případu (adjustovanou) }Cookova vzdálenost > 1 }Leverage > 2(k+1)/n , kde k = počet prediktorů, n= velikost vzorku }Případy s vysokými rezidui či vlivné případy NEODSTRAŇUJEME }…leda by šlo o zjevnou chybu v datech či vzorku Daignostika 2: Kolinearita }Když 2 prediktory vysvětlují tutéž část variability závislé, jeden z nich je téměř zbytečný }Komplikuje porovnávání síly preditorů }Snižuje stabilitu odhadu parametrů }V extrému (když lze jeden prediktor přesně vypočítat z ostatních) regresi úplně znemožňuje } }Korelace nad 0,9 }VIF (= 1/tolerance) cca nad 10 Diagnostika 3: Předpoklady regrese }Závislá alespoň intervalová }Prediktory intervalové i kategorické }Nenulový rozptyl prediktorů }Absence vysoké kolinearity (žádné r > 09) }Neexistence intervenující proměnné, která by korelovala se závislou i prediktory }Homoscedascita (scatterplot ZRESID x ZPRED, parciální scatter) }Nezávislost reziduí (Durbin-Watson = 2) }Normálně rozložená rezidua (histogram, P-P) }Nezávislost jednotlivých případů }Linearita vztahu } } } Síla testu v regresi (Hair, 7th ed.) Přibývá nový faktor síly testu: množství prediktorů Zapojení kategorických prediktorů }Dummy coding ->dummy variables }Pomocí k−1 kategorických proměnných }Indikátorové kódování (indicator coding) }Referenční kategorie = 0 }Efektové kódování (effect coding) }Referenční kategorie = -1 } } Člen rodiny Původní proměnná Indikátorové kódování Efektové kódování Matka Otec Matka Otec Matka 1 1 0 1 0 Otec 2 0 1 0 1 Dítě 3 0 0 -1 -1 Interpretace vah dummy proměnných oY = b0 +bA1XA1 + bA2XA2 + … + bmXm + e }Po dosazení do regresní rovnice predikujeme člověku průměr jeho skupiny (pokud nejsou žádné další prediktory). }Indikátorové kódování }bAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a referenční skupinou; sig bAi znamená sig rozdílu }bAi udává o kolik nám členství ve skupině zvyšuje/snižuje predikovanou hodnotu oproti referenční skupině }b0 udává (při absenci jiných prediktorů) průměr Y v referenční skupině }Efektové kódování }bAi udává rozdíl průměrných hodnot Y mezi indikovanou skupinou a celkovým průměrem }b0 udává (při absenci jiných prediktorů) celkový průměr } }záv: deprese }pred: selfe, effi3, duv_r, duv_v } MODERACE A MEDIACE }http://davidakenny.net/kenny.htm } Var1 Var2 M Var1 Var2 M