PSY252 Statistická analýza dat v psychologii II Seminář 5-6 Logistická regrese Logistic regression Předpovídáme pohlaví pachatele Víme, že pachatel nosí náušnice a napsal dopis se skórem emočních adjektiv 8. Víme, že... o náušnice nosí 17% mužů a 86% žen o na škále přítomnosti emočních adjektiv od 1 do 13 mají ženy průměr 9,1 a muži pouze 4,5. Jaká je pravděpodobnost, že pachatel je žena? Logistická regrese o Rozšíření lineární regrese na dichotomické závislé n není to lineární regrese, protože nejde o lineární vztah o Závislou kódujeme 1 (jev nastal) a 0 (jev nenastal) o Technicky je závislou proměnnou šance toho, že jev nastal (nastane) o Pomocí prediktorů predikujeme, jaká je šance, že jev nastane. Technický základ logistické regrese 1 [o ]šance O[Y=1] = P[Y=1]/P[Y≠1 ]= P[Y=1]/(1-P[Y=1])[] o ln O[Y=1] se jmenuje logit (P[Y=1]) o 2 ekvivalentní rovnice logistické regrese ln O[Y=1 ]= b[0] + b[1]X[1] + b[2]X[2] + ... + b[m]X[m] ; lnO[Y=žena]= -4,64 +0,43emoce +3,26náušnice o Pro náušnice=1 a emoce=8 ... P=0,89 O=8,2 o Kdyby neměl náušnici ... P=0,24 O=0,31 ^o Změna náušnice z 1 na 0 způsobila 25násobný pokles šancí .... e^b Proč tak složitě? Závislá jako pravděpodobnost má měřítko v rozsahu <0;1>. Kombinace prediktorů má ale rozsah (−∞;∞). Proto změníme měřítko závislé • Místo P použijeme O s měřítkem <0; ∞) • Pomocí logaritmu změníme měřítko na (−∞;∞). Také lze říci, že jde o linearizaci vztahu. Technický základ logistické regrese 2 Jak spočítáme regresní váhy, které vyústí v nejlepší predikci pravděpodobnosti Y=1? o nespočítáme, odhadneme (zapomeňme na nejmenší čtverce) o odhad metodou maximální věrohodnosti (maximum-likelihood estimation) n Výpočetně složitý algoritmus n Dochází k takovým váhám, s nimiž je podmíněná pravděpodobnost získání dat, která jsme získali, nejvyšší možná : P (data|b[0],b[1],..,b[m]) = max n likelihood = jiné slovo pro podmíněnou p-nost Jak dobře regrese predikuje? o Likelihood je měřítkem zdařilosti regrese v logaritmované podobě: log-likelihood o LL sumíruje shodu mezi odhadem a daty n maximem je 0, minimem je -∞ n častěji se udává jako −2LL, tj. vynásobený −2 Predikuje regrese lépe než nic? o nic = základní model (baseline model) = predikujeme všem 0 nebo 1, podle toho, co z toho se vyskytuje častěji = P[Y=1] je pro všechny lidi stejná o Potom můžeme srovnat model s prediktory s tímto základním modelem. n rozdíl -2LL obou modelů má c^2 rozložení s df=počet prediktorů c^2 = −2LL[náš model] −2LL[základní model] df = m[náš model] − m[základní model] o Podobně můžeme srovnávat i modely s různým počtem prediktorů mezi sebou Nedalo by se to trochu zjednodušit? -2LL lze převést na ukazatele podobné R^2 o R[L]^2 Hosmera a Lemeshowa o R[CS]^2 Coxe a Snella [o ]R[N]^2 Nagelkerkeho[] Nabývají hodnot od 0 do 1. Udávají jak moc díky prediktorům klesl -2LL Praktické problémy o Regresní koeficienty se nevypočítávají, ale iteračně odhadují. o Iterace nemusí vždy proběhnout úspěšně n nemusí konvergovat n mohou se vyskytnout bláznivé hodnoty o Problematické výsledky naznačují nedostatky v datech n při absenci některé z kombinace hodnot prediktorů a závislé n při dokonalé predikci