PSY252 Statistická analýza dat v psychologii II Seminář 5-6 Logistická regrese Logistic regression Předpovídáme pohlaví pachatele oVíme, že pachatel nosí náušnici/e a napsal dopis se skórem emočních adjektiv 8. oVíme, že... onáušnice nosí 21% mužů a 83% žen ona škále přítomnosti emočních adjektiv od 1 do 13 mají ženy průměr 9,1 a muži pouze 4,5. o oJaká je pravděpodobnost, že pachatel je žena? o Nejprve využijme informaci o náušnici CROSSTAB POHLAVIxNAUSNICE A co informace o emočních adjektivech? oZ těch, kdo mají e=8, je 1/3žen a 2/3 mužů O(žena|e=8)=0,5 ….ale dat je málo a nevyužíváme informaci o rozložení oPředpokládáme-li v populaci normální rozložení… nP(e≥8|žena)=normsdist(-0,3)=0,62 nP(ž|e≥8)=[P(e≥8|ž)*P(ž)]/[P(e≥8ž)*P(ž)+P(e≥8|m)*P(m)]= n =[0,62*0,5]/[0,62*0,5+0,09*0,5]=0,87 … O(ž|e≥8)=6,9 npro e≥9 je O(ž|e≥9)=11,8 nOR(e≥9 ku e≥8 )=11,8/6,9=1,7 nPoměr šancí spojený s nárůstem e.a. o 1 je 1,7 n nUff, a to jsme nevzali v potaz možnou souvislost mezi nošením náušnic a emočními adjektivy…. n Logistická regrese oRozšíření lineární regrese na dichotomické závislé nnení to lineární regrese, protože nejde o lineární vztah oZávislou kódujeme 1 (jev nastal) a 0 (jev nenastal) oIdeově je závislou proměnnou pravděpodobnost toho, že jev nastal(nastane) oTechnicky je závislou proměnnou šance oPomocí prediktorů predikujeme, jaká je šance, že jev nastane. o Technický základ logistické regrese 1 ošance OY=1 = PY=1/PY≠1 = PY=1/(1-PY=1) oln OY=1 se jmenuje logit (PY=1) o http://upload.wikimedia.org/wikipedia/commons/thumb/e/ea/Log.svg/512px-Log.svg.png Proč tak složitě? oZávislá jako pravděpodobnost má měřítko v rozsahu <0;1>. Kombinace prediktorů má ale rozsah (−∞;∞). oProto změníme měřítko závislé 1.Místo P použijeme O s měřítkem <0; ∞) 2.Pomocí logaritmu změníme měřítko na (−∞;∞). 3. oTaké lze říci, že jde o linearizaci o vztahu. o Technický základ logistické regrese 1 ošance OY=1 = PY=1/PY≠1 = PY=1/(1-PY=1) oln OY=1 se jmenuje logit (PY=1) o o2 ekvivalentní rovnice logistické regrese o ln OY=1 = b0 + b1X1 + b2X2 + ... + bmXm o o o o o lnOY=žena= -1,6 +2,9náušnice o oPro náušnice=1 ... P(žena|náušnice)=0,79 O=3,7 oKdyby neměl náušnici ... P=0,17 O=0,2 oZměna náušnice z 1 na 0 způsobila 18násobný pokles šancí .... exp(B)… eb o o o o lnOY=žena= -3,2 +0,5emoce o oPro emoce=8 ... P(žena|e=8)=0,66 O=1,9 oPro emoce=9 ... P=0,76 O=3,2 oZměna emocí z 8 na 9 způsobila 1,6násobný nárůst šancí .... stejně jako jakékoli změna o 1 o o o o lnOY=žena= -3,80 +0,39emoce +2,15náušnice o oPro náušnice=1 a emoce=8 ... P=0,81 O=4,2 oKdyby neměl náušnici ... P=0,33 O=0,50 oZměna náušnice z 1 na 0 (bez změny e.a.) způsobila 8,5násobný pokles šancí .... eb Technický základ logistické regrese 2 oJak spočítáme regresní váhy, které vyústí v nejlepší predikci pravděpodobnosti Y=1? onespočítáme, odhadneme (zapomeňme na nejmenší čtverce) oodhad metodou maximální věrohodnosti (maximum-likelihood estimation) nVýpočetně složitý algoritmus nDochází k takovým váhám, s nimiž je podmíněná pravděpodobnost získání dat, která jsme získali, nejvyšší možná : P (data|b0,b1,..,bm) = max nlikelihood = jiné slovo pro podmíněnou p-nost o Jak dobře regrese predikuje? oLikelihood je měřítkem zdařilosti regrese v logaritmované podobě: log-likelihood o o oLL sumíruje shodu mezi odhadem a daty nmaximem je 0, minimem je -∞ nčastěji se udává jako −2LL, tj. vynásobený −2 o−2LL se říká deviance (0 až ∞) omá chíkvadrát rozložení o oreportujeme Model chi-square, df, p o n o o o Statistické testy 1 Predikuje regrese lépe než nic? onic = základní model (baseline model) = predikujeme všem 0 nebo 1, podle toho, co z toho se vyskytuje častěji = PY=1 je pro všechny lidi stejná oPotom můžeme srovnat model s prediktory s tímto základním modelem. nrozdíl -2LL obou modelů má c2 rozložení s df=počet prediktorů n c2 = −2LLnáš model −2LLzákladní model n df = mnáš model − mzákladní model ntj. je-li 1-CHISQ.DIST(c2 ; df)<0,05, predikuje model lépe než nic oPodobně můžeme srovnávat i modely s různým počtem prediktorů mezi sebou o analogie s predikováním průměru Nedalo by se to trochu zjednodušit? o-2LL lze převést na ukazatele podobné R2 oRL2 Hosmera a Lemeshowa oRCS2 Coxe a Snella oRN2 Nagelkerkeho o oNabývají hodnot od 0 do 1. oUdávají jak moc díky prediktorům klesl -2LL oNení to úplně totéž, co R2 v lineární regresi! Interpretace regresních koeficientů oU kategorických prediktorů (indikátorově kódovaných) udává expB poměr šancí pro indikovanou hodnotu vs. referenční hodnotu. oU spojitých prediktorů udává expB poměr šancí (nárůst) spojený s jednotkovým rozdílem na škále prediktoru. oStandardní velikost účinku vyjádřená OR je někdy zrádná (neznáme základ jako u procent) nProto počítáme rozdíl p-ností predikovaných pro dvě různé (typické) hodnoty určitého prediktoru. Statistické testy 2 Testy jednotlivých prediktorů oWaldův test: z=b/SE(b) nSPSS: Wald=z2, Wald~c2(df) npři velkých b nadhodnocuje SE ni tak je dobré uvádět 95% CI pro expB oRobustnější alternativou je c2 test zhoršení modelu po vyřazení daného prediktoru (tzv. likelihood-ratio test) Další indikátory kvality modelu oKlasifikační tabulka nsrovnání predikovaného a skutečného stavu n„reality-check“, i krásně signifikantní model může neuspokojivě predikovat oHosmer-Lemeshow Goodness of Fit Test ntaké srovnává predikovné a pozorované hodnoty závislé nGoF test >> nechceme, aby byl signifikantní oKlasifikační diagram (classification plot) oDiagnostika reziduí a vlivných případů (jako v LinReg) Praktické problémy oRegresní koeficienty se nevypočítávají, ale iteračně odhadují. oIterace nemusí vždy proběhnout úspěšně nnemusí konvergovat nmohou se vyskytnout bláznivé hodnoty oProblematické výsledky naznačují nedostatky v datech npři absenci některé z kombinace hodnot prediktorů a závislé npři dokonalé predikci oLR je náročná na velikost vzorku n Předpoklady logistického modelu oNení jich mnoho oLinearita – předpoklad lineárního vztahu mezi spojitými prediktory a logitem závislé. oNezávislost reziduí oImplicitně dostatek dat – měly by se vyskytovat všechny kombinace kategorických prediktorů oMultikolinearita je stejným problémem jako u LinReg Obecně budování modelu oVzhledem k nárokům na velikost vzorku větší tlak na jednoduchost modelu oExplorace: Vložit všechny prediktory a postupně ubírat – cílem je parsimonie (úspornost) oTestování hypotéz: vložit, co implikuje teorie, smysluplně po blocích o Reportování oField 19.7 Kam dál? oordinální regrese omultinomiální regrese Seminární úkol oVymyslet VO na logistickou regresi oVytvořit logistický regresní model nPoužít buď vkládání po blocích nebo postupné redukování oPopsat výsledný model nKvalita modelu – testy, klasifikační úspěšnost, předpoklady, vlivné případy nVliv prediktorů – testy, interpretace, ilustrovat predikovanými pravděpodobnostmi