PSYb2520 Statistická analýza dat v psychologii II Přednáška 2 {Mnohonásobná, vícenásobná} lineární regrese Multiple linear regression Lineární model Lineárně-regresní model oVztahy mezi proměnnými umožňují predikovat/ modelovat hodnoty proměnné , která nás zajímá – závislé proměnné/outcomu/výsledku Y oMá-li prediktor X hodnotu xi, jakou má asi hodnotu Y? oZ mnoha možností modelování nejčastěji používáme lineární model: oYi = (b0 +b1X1i + b2X2i + … + bkXki )+ ei oYi jsou hodnoty závislé pro jedince i – ty modelujeme oX1i… Xki jsou hodnoty prediktorů jedince i – ty známe ob0 … bk jsou regr. koeficienty/parametry – ty stanovujeme, odhadujeme oei je reziduum, chyba, rozdíl mezi predikcí a skutečnou hodnotou Yi o o o o o o o Účel modelování oProzkoumání vztahů mezi proměnnými nanalyticko-konceptuální využití nstředem zájmu jsou pak b oPredikce npraktické využití nstředem zájmu jsou predikované/modelované hodnoty a jejich chyba nna datech, kde známe hodnoty Yi odhadneme parametry modelu – cvičná, tréninková data nna datech, kde neznáme Yi, predikujeme se známou přesností Model omůže odrážet naši kauzální představu o procesu, jímž X přímo, nebo nepřímo ovlivňují Y ndata-generation process omůže být nekauzální, čistě asociační, korelační - prediktivní o oStatisticky v tom nejsou rozdíly – ty leží v teorii a metodologii Příklad Long1 oY: deprese oX: selfe (self-esteem), duv_r (důvěra k rodičům), duv_v (důvěra k vrstevníkům) Krok 1 – Specifikace modelu oRozhodnutí o tom jaký model použiji - lineární oRozhodnutí o tom, jaké prediktory do modelu zahrnu a jaké regresní koeficienty budeme tedy odhadovat oV jednoduchém modelu odpovídá jednomu prediktoru jeden parametr – regresní koeficient odepresei = b0 + b1selfei + ei odepresei = b0 + b1selfei + b2duv_ri + b3duv_vi + ei o Krok 1 - Specifikace o„Správnost“ modelu podmíněna nskutečnou linearitou vztahů npřítomností všech proměnných ovlivňujících Y Krok 2 – Odhad parametrů modelu – estimation, fitting o… odpovídá počítání a a b v PSY117 oParametry odhadne počítač oOdhadne je podle kritéria, které budeme chtít nNejmenší čtverce – ordinary least squares OLS – minimalizuje rozptyl reziduí (sumu kvadr. reziduí) nMaximální věrohodnost – maximum likelihood – pro jednoduché modely stejný výsledek jako OLS nMohou být i jiná kritéria Podívejme se na to Novinky oproti PSY117 oRegr. koeficienty jsou b0 (průsečík, a, (constant)) a b1(směrnice, b) oBeta – standardizovaný regresní koeficient. nO kolik víc násobku SD proměnné Y predikujeme člověku, který má o 1SD proměnné X víc. S jedním prediktorem = r. o Interpretace regresních koeficientů oY = b0 +b1X1 + b2X2 + … + bkXk + e n oBi ; bi vyjadřuje nárůst Y’ při nárůstu Xi o jednu jednotku; v jednotkách Y, při kontrole všech ostatních prediktorů (≈semiparciální korelace); jedinečný přínos nK porovnání síly prediktoru v různých skupinách, modelech, vzorcích obi; bi*; BETA vyjadřuje nárůst Y’ při nárůstu Xi o 1; jsou-li Xi i Y standardizovány, při kontrole všech ostatních prediktorů (≈semiparciální korelace); jedinečný přínos nk porovnání prediktorů mezi sebou v rámci jednoho modelu nk porovnání různě operacionalizovaného prediktoru v různých modelech nukazatel velikosti účinku ob0 – obtížně interpretovatelný průsečík … leda by prediktory byly centrované oV různých modelech nemusí být vliv prediktoru stejný o o Statistická kontrola oCo bylo na předchozím slajdu komplikace, je vlastně velmi užitečné oDozvídame se efekt prediktoru očištěný o vliv ostatních prediktorů oDoplňuje designové způsoby kontroly intervenujících oNení samospásná, zvyšuje nároky na N Predikované hodnoty oDosazení hodnot prediktorů do regresní rovnice – modelu oNěkdy používáme k tvorbě grafů Krok 3 – Posouzení shody modelu s daty Rezidua a jejich rozložení oMěřítkem jsou rezidua – jejich „průměrná velikost“ – rozptyl nSamotná SD reziduí nás zajímá při predikci nR2 = (SSTotal –SSreg)/SSTotal ≈ s2res/s2Y nR2 je podíl rozptylu Y vysvětlený prediktory nR = rYY‘=rY(b1X1+b2X2+ .. bkXk) oLze si představit i jiná měřítka oObvykle R2 konstatujeme, ale nemáme na něj specifické nároky, tj. nemusí být větší než … Rozptyl vysvětlený modelem a jednotlivými prediktory oČást rozptylu Y vysvětleného dohromady všemi prediktory oPredikční síla sady prediktorů oUkazatel velikosti účinku oR: Mnohonásobná (mutiple) korelace oVždy nadhodnocuje >> při replikaci vychází nižší R2 o X1 X2 X3 Y Krok 4 – Zvážení možných zdrojů zkreslení oJsou případy, které model predikuje zvlášť špatně? nOutlieři – mohou zvyšovat i snižovat b (jako u r) nRezidua – případy s vysokými r. regrese predikuje nejhůř, standardizovaná, studentizovaná ±3 oNemají některé případy příliš velký vliv na výsledky regrese? nVlivné případy – případy, které nejvíc ovlivňují parametry oCo se stane s parametry regrese, když případ odstraníme? oDFBeta – rozdíl mezi parametrem s a bez, standardizované > 1 oDFFit – rozdíl mezi predikovanou hodnotou a predikovanou hodnotou bez případu (adjustovanou) oCookova vzdálenost > 1 oLeverage > 2(k+1)/n , kde k = počet prediktorů, n= velikost vzorku oPřípady s vysokými rezidui či vlivné případy NEODSTRAŇUJEME o…leda by šlo o zjevnou chybu v datech či vzorku o…leda by nám šlo výhradně o zpřesnění predikce (nikoli o testy hypotéz) o Krok 5 - Zobecnění ze vzorku na populaci 1.Testy signifikance nTesty jednotlivých regresních koeficientů. oTestují H0: bk=0. (t=b/SEb, t-rozložení s df=N-k-1 ) nTest H0: R2 = 0 (ANOVA) nPředpoklady oLinearita vztahů oNezávislost reziduí …. Případů oHomoskedascita oNormalita reziduí oŽádné další proměnné nekorelují se závislou oAbsence výrazné multikolinearity o Krok 5 - Zobecnění ze vzorku na populaci o2. Krosvalidace – R2 nKolik rozptylu bychom vysvětlili v populaci? oMéně – overfitting oKorekce R2 (adjusted R2) nKolik rozptylu bychom stejným modelem vysvětlili v jiném náhodném vzorku? oVzorec 9.15 oPůlením dat – na náhodné půlce data odhadneme, na druhé zjišťujeme shodu modelu s daty. n o Síla testu a velikost vzorku v MLR Přibývá nový faktor síly testu: množství prediktorů 2 efekty – 2 síly: Síla detekovat R2, síla detekovat b. o Konstanta jako model oM: všem predikujeme stejnou hodnotu c oY‘ = c , Y = c + e oDeviance = S(Yi−c)2 oDeviance je nejnižší, když c = mY oDeviance = S(Yi−mY)2 os2res = S(Yi−mY)2 / (N-1) … tedy s2Y os2reg = 0 a tedy i R2=0 oNulový model o o Možnosti práce s modely oOdhadneme model, který jsme plánovali. oOdhadneme řadu modelů, s postupně se rozšiřující sadou prediktorů o- hierarchická regrese oNecháme nějaký algoritmus vybrat nejlepší sadu prediktorů z dostupných o oModely srovnáváme podle R2, všímáme si i toho jak se proměňují b a jejich se Hierarchická lineární regrese oBloková, se sadami (sets) prediktorů oPrediktory vkládáme po skupinách (popř. jednotlivě) v teoreticky zdůvodněném pořadí oTeoreticky zdůvodněné pořadí umožňuje rozdělit rozptyl Y na smysluplné části (variance partitioning) nZměna pořadí prediktorů změní velikost těch částí oZajímá nás schopnost sady prediktorů vylepšit model nSrovnání různých oblastí vlivu na zkoumaný jev nZkoumání inkrementální validity n n Obvyklá řazení bloků oDle času, kauzální priority nPř. od dispozičním k situačním… oOd známých k neznámým vlivům nkontrola intervenujících proměnných nMinimalizace chyby 1. typu oPodle výzkumné relevance nOd ústředních po „co kdyby“; maximalizace síly o Obvyklý postup regresní analýzy oNa základě teoretických rozvah stanovíme různé modely, jejichž srovnání je potenciálně zajímavé oNejjednodušší srovnání je u hierarchických modelů, kdy je jeden model plně vnořen do následujícího – to umožňuje testovat inkrement (nárůst) R2 oAž v druhé řadě se zabýváme jednotlivými regresními koeficienty v modelu, který je nejúplnější/nejlepší o o Daignostika 2: Kolinearita oKdyž 2 prediktory vysvětlují tutéž část variability závislé, jeden z nich je téměř zbytečný oKomplikuje porovnávání síly preditorů oSnižuje stabilitu odhadu parametrů oV extrému (když lze jeden prediktor přesně vypočítat z ostatních) regresi úplně znemožňuje o oKorelace nad 0,9 oTolerance (= 1/VIF) cca pod 0,1 o(VIF (= 1/tolerance) cca nad 10) o oI při korelacích kolem 0,5 komplikuje interpretaci!! o Reportování MLR oZáklad: nPopisné statistiky Y a Xi s korelační maticí všech nUjištění o naplnění předpokladů nPopis shody modelu s daty – R2 , p (někdy i s F-testem) nPřehled regresních koeficientů, b, b s jejich SE, popř. s intervaly spolehlivosti, nebo p nLimity, např. možný dopad nedokonalého naplnění předpokladů, vlivných případů apod. o 1 2 3 4 5 6