PSYb2520 Statistická analýza dat v psychologii II Přednáška 4 Logistická regrese Logistic regression Předpovídáme pohlaví pachatele oVíme, že pachatel nosí náušnici/e a napsal dopis se skórem emočních adjektiv 8. oVíme, že... onáušnice nosí 21% mužů a 85% žen ona škále přítomnosti emočních adjektiv od 1 do 13 mají ženy průměr 9,1 a muži pouze 4,5. o oJaká je pravděpodobnost, že pachatel je žena? o Nejprve využijme informaci o náušnici onáušnice nosí 23% mužů a 85% žen o oP(nosí|žena)=85% a P(nosí|muž)=23% oJenže my víme, že nosí a potřebujeme pravděpodobnost pohlaví – P(žena|nosí)=? oP(ž|n) =P(n|ž)P(ž)/P(n) = o =P(n|ž)P(ž)/(P(n|ž)P(ž)+P(n|m)P(m))= o =0,85*0,5/(0,85*0,5+0,23*0,5) = 0,79 o CROSSTAB POHLAVIxNAUSNICE oCROSSTABS o /TABLES=pohlavi BY nausnice o /CELLS=COUNT ROW o /COUNT ROUND CELL. Nejprve využijme informaci o náušnici 7 A co informace o emočních adjektivech? oZ těch, kdo mají EA=8, je 7/8žen a 1/8 mužů O(žena|e=8)=7 ….ale dat je málo a nevyužíváme informaci o rozložení oPředpokládáme-li v populaci normální rozložení… nP(EA≥8|žena)=1 – norm.dist(8; 9; 3,291)=0,62 nP(ž|EA≥8)=[P(EA≥8|ž)*P(ž)]/[P(EA≥8|ž)*P(ž)+P(EA≥8|m)*P(m)]= n =[0,62*0,5]/[0,62*0,5+0,09*0,5]=0,87 … O(ž|EA≥8)=6,9 npro EA≥9 je O(ž|EA≥9)=11,8 nOR(e≥9 ku e≥8 )=11,8/6,9=1,7 nPoměr šancí spojený s nárůstem e.a. o 1 je 1,7 n nUff, a to jsme nevzali v potaz možnou souvislost mezi nošením náušnic a emočními adjektivy…. n Logistická regrese oRozšíření lineární regrese na dichotomické závislé nnení to lineární regrese, protože nejde o lineární vztah oZávislou kódujeme 1 (jev nastal) a 0 (jev nenastal) oIdeově je závislou proměnnou pravděpodobnost toho, že jev nastal(nastane) oPomocí prediktorů predikujeme, jaká je pravděpodobnost, že jev nastane. o Technický základ logistické regrese 1 ošance OY=1 = PY=1/PY≠1 = PY=1/(1-PY=1) oln OY=1 se jmenuje logit (PY=1) o o oMalé matematické opáčko oln je přirozený logaritmus, tj. log se základem e=2,7… oln (x) = loge(x) = y - číslo, kterým když umocníme e, dostaneme x … ey=x oProtože cokoli umocněné na nultou = 1, ln(1) = 0 oPro x < 1, ln(x) < 0; pro x > 1, ln(x) > 0 o o http://upload.wikimedia.org/wikipedia/commons/thumb/e/ea/Log.svg/512px-Log.svg.png OY=1 OY=1 = 1 P = 0,5 0 Proč tak složitě? oZávislá jako pravděpodobnost má měřítko v rozsahu <0;1>. Kombinace prediktorů má ale neomezený rozsah (−∞;∞). oProto změníme měřítko závislé 1.Místo P použijeme O s měřítkem <0; ∞) 2.Pomocí logaritmu změníme měřítko na (−∞;∞). 3. oTaké lze říci, že jde o linearizaci o vztahu. o Technický základ logistické regrese 1 ošance OY=1 = PY=1/PY≠1 = PY=1/(1-PY=1) oln OY=1 se jmenuje logit (PY=1) o2(3) ekvivalentní rovnice modelu logistické regrese o ln OY=1 = b0 + b1X1 + b2X2 + ... + bmXm o o o o o lnOY=žena= -1,6 +2,9náušnice o oPro náušnice=1 ... P(žena|náušnice)=0,79 O=3,7 oKdyby neměl náušnici ... P=0,17 O=0,2 oZměna náušnice z 1 na 0 způsobila 18násobný pokles šancí .... exp(B)… eb o o o o lnOY=žena= -3,2 +0,5emoce o oPro emoce=8 ... P(žena|e=8)=0,66 O=1,9 oPro emoce=9 ... P=0,76 O=3,2 oZměna emocí z 8 na 9 způsobila 1,6násobný nárůst šancí .... stejně jako jakékoli změna o 1 o o o o lnOY=žena= -3,80 +0,39emoce +2,15náušnice o oPro náušnice=1 a emoce=8 ... P=0,81 O=4,2 oKdyby neměl náušnici ... P=0,33 O=0,50 oZměna náušnice z 1 na 0 (bez změny e.a.) způsobila 8,5násobný pokles šancí .... eb Technický základ logistické regrese 2 oJak spočítáme regresní váhy, které vyústí v nejlepší predikci pravděpodobnosti Y = 1? onespočítáme, odhadneme (zapomeňme na nejmenší čtverce) oodhad metodou maximální věrohodnosti (maximum-likelihood estimation) nAlgoritmus, který postupným přibližováním… n…dochází k takovým váhám, s nimiž je podmíněná pravděpodobnost získání dat, která jsme získali, nejvyšší možná : P (data|b0,b1,..,bm) = max nlikelihood = jiné slovo pro podmíněnou p-nost o Residua v logistické regresi oRezidua jsou rozdíl mezi predikovanou P a skutečnou hodnotou Y (1 nebo 0) oNejsou normálně rozložena oNormálně nejsou rozložena ani standardizovaná rezidua oPro detekci outlierů jsou tak vhodná studentizovaná rezidua, která mají přibližně normální rozložení, a s ním spojená očekávání. o o Jak dobře regrese predikuje? oFor dummies (matematicky to kulhá) oZákladem je opět rozdíl mezi skutečnou hodnotou Y a odhadem PY=1 nJe-li Y=1, pak je rozdíl 1-P nJe-li Y=0, pak je rozdíl 0-P oJeden z rozdílů je vždy záporný bez ohledu na to, jak odečítáme. oNamísto umocňování zde rozdíly logaritmujeme a sečteme. oZískáme velké číslo, které funguje jako suma čtverců reziduí v lineární regresi. o o n o o o Jak dobře regrese predikuje? oMěřítkem zdařilosti regrese je logaritmus p-nosti dat při odhadnutých hodnotách regresních koeficientů: log-likelihood o o oLL sumíruje shodu mezi odhadem a daty nmaximem je 0, minimem je -∞ nčastěji se udává jako −2LL, tj. vynásobený −2 o−2LL se říká deviance (0 až ∞) omá chíkvadrát rozložení oreportujeme Model chi-square, df, p o n o o o Statistické testy 1 Predikuje regrese lépe než nic? onic = základní model (baseline model) = predikujeme všem 0 nebo 1, podle toho, co z toho se vyskytuje častěji = PY=1 je pro všechny lidi stejná oPotom můžeme srovnat model s prediktory s tímto základním modelem. nrozdíl -2LL obou modelů má c2 rozložení s df=počet prediktorů n c2 = −2LLnáš model −2LLzákladní model n df = mnáš model − mzákladní model ntj. je-li 1-CHISQ.DIST(c2 ; df)<0,05, predikuje model lépe než nic oPodobně můžeme srovnávat i modely s různým počtem prediktorů mezi sebou o analogie s predikováním průměru Nedalo by se to trochu zjednodušit? o-2LL lze převést na ukazatele podobné R2 nLL=0 == R2=1 ……… LL=-∞ ==R2=0 oRL2 Hosmera a Lemeshowa oRCS2 Coxe a Snella (max RCS2<1) oRN2 Nagelkerkeho (RCS2/max RCS2 ) o oNabývají hodnot od 0 do 1. oUdávají jak moc díky prediktorům klesl -2LL oNení to úplně totéž, co R2 v lineární regresi! A taky Tjur a McFadden Jak dobře regrese predikuje? Klasifikační tabulka. Interpretace regresních koeficientů oU kategorických prediktorů (indikátorově kódovaných) udává expB poměr šancí pro indikovanou hodnotu vs. referenční hodnotu. oU spojitých prediktorů udává expB poměr šancí (nárůst) spojený s jednotkovým rozdílem na škále prediktoru. oStandardní velikost účinku vyjádřená OR je někdy zrádná (neznáme základ jako u procent) nProto počítáme rozdíl p-ností predikovaných pro dvě různé (typické) hodnoty určitého prediktoru. Pro interpretaci je dobré vykreslit vztah mezi Y a X do grafu… Statistické testy 2 Testy jednotlivých prediktorů oWaldův test: z=b/SE(b) nSPSS: Wald=z2, Wald~c2(df) npři velkých b nadhodnocuje SE ni tak je dobré uvádět 95% CI pro expB oRobustnější alternativou je c2 test zhoršení modelu po vyřazení daného prediktoru (tzv. likelihood-ratio test, LRT) Další indikátory kvality modelu oKlasifikační tabulka nsrovnání predikovaného a skutečného stavu n„reality-check“, i krásně signifikantní model může neuspokojivě predikovat oHosmer-Lemeshow Goodness of Fit Test ntaké srovnává predikovné a pozorované hodnoty závislé nGoF test >> nechceme, aby byl signifikantní oKlasifikační diagram (classification plot) oDiagnostika reziduí a vlivných případů (jako v LinReg) Praktické problémy oRegresní koeficienty se nevypočítávají, ale iteračně odhadují. oIterace nemusí vždy proběhnout úspěšně nnemusí konvergovat nmohou se vyskytnout bláznivé hodnoty oProblematické výsledky naznačují nedostatky v datech npři absenci některé z kombinace hodnot prediktorů a závislé npři dokonalé predikci oLR je náročná na velikost vzorku n Předpoklady logistického modelu oNení jich mnoho oLinearita – předpoklad lineárního vztahu mezi spojitými prediktory a logitem závislé. oNezávislost reziduí oImplicitně dostatek dat – měly by se vyskytovat všechny kombinace kategorických prediktorů oMultikolinearita je stejným problémem jako u LinReg Obecně budování modelu oVzhledem k nárokům na velikost vzorku větší tlak na jednoduchost modelu oExplorace: Vložit všechny prediktory a postupně ubírat – cílem je parsimonie (úspornost) oTestování hypotéz: vložit, co implikuje teorie, smysluplně po blocích o Reportování oField 19.7 Kam dál? oordinální regrese omultinomiální/multinomická regrese o oGeneralizovaný lineární model Shrnutí oLogistická regrese umožňuje predikovat dichotomii – zda se něco stane, či ne oNa straně prediktorů se oproti lineární regresi nic nemění – je toho dosaženo transformací závislé proměnné na logity oTransformace komplikuje interpretaci regresních koeficientů oUbylo předpokladů Seminární úkol oData Erasmus oPredikujeme, zda během Erasmovského pobytu dojde k rozchodu oPrediktory jsou ndélka vztahu nspokojenost ve vztahu npohlaví nattachmentový styl