PSY252
Statistická analýza dat v psychologii II
Seminář 5-6
Logistická regrese
Logistic regression

Předpovídáme pohlaví pachatele
oVíme, že pachatel nosí náušnici/e a napsal dopis se skórem emočních adjektiv 8.
oVíme, že...
onáušnice nosí 21% mužů  a 83% žen
ona škále přítomnosti emočních adjektiv od 1 do 13 mají ženy průměr 9,1 a muži pouze 4,5.
o
oJaká je pravděpodobnost, že pachatel je žena?
o

Nejprve využijme
informaci o náušnici

CROSSTAB POHLAVIxNAUSNICE

A co informace o
emočních adjektivech?
oZ těch, kdo mají e=8, je 1/3žen a 2/3 mužů O(žena|e=8)=0,5  ….ale dat je málo a nevyužíváme
informaci o rozložení
oPředpokládáme-li v populaci normální rozložení…
nP(e≥8|žena)=normsdist(-0,3)=0,62
nP(ž|e≥8)=[P(e≥8|ž)*P(ž)]/[P(e≥8ž)*P(ž)+P(e≥8|m)*P(m)]=
n =[0,62*0,5]/[0,62*0,5+0,09*0,5]=0,87   …              O(ž|e≥8)=6,9
npro e≥9 je O(ž|e≥9)=11,8
nOR(e≥9 ku e≥8 )=11,8/6,9=1,7
nPoměr šancí spojený s nárůstem e.a. o 1 je 1,7
n
nUff, a to jsme nevzali v potaz možnou souvislost mezi nošením náušnic a emočními adjektivy….
n

Logistická regrese
oRozšíření lineární regrese na dichotomické závislé
nnení to lineární regrese, protože nejde o lineární vztah
oZávislou kódujeme 1 (jev nastal) a 0 (jev nenastal)
oIdeově je závislou proměnnou pravděpodobnost toho, že jev nastal(nastane)
oTechnicky je závislou proměnnou šance
oPomocí prediktorů predikujeme, jaká je šance, že jev nastane.
o

Technický základ logistické regrese 1
ošance OY=1 = PY=1/PY≠1 = PY=1/(1-PY=1)
oln OY=1  se jmenuje logit (PY=1)
o

http://upload.wikimedia.org/wikipedia/commons/thumb/e/ea/Log.svg/512px-Log.svg.png


Proč tak složitě?
oZávislá jako pravděpodobnost má měřítko v rozsahu <0;1>. Kombinace prediktorů má ale rozsah
(−∞;∞).
oProto změníme měřítko závislé
1.Místo P použijeme O s měřítkem <0; ∞)
2.Pomocí logaritmu změníme měřítko na (−∞;∞).
3.
oTaké lze říci, že jde o linearizaci
o vztahu.
o

Technický základ logistické regrese 1
ošance OY=1 = PY=1/PY≠1 = PY=1/(1-PY=1)
oln OY=1  se jmenuje logit (PY=1)
o
o2 ekvivalentní rovnice logistické regrese
o ln OY=1 = b0 + b1X1 + b2X2 + ... + bmXm
o

o
o
o
o    lnOY=žena= -1,6 +2,9náušnice
o
oPro náušnice=1 ...  P(žena|náušnice)=0,79  O=3,7
oKdyby neměl náušnici ... P=0,17  O=0,2
oZměna náušnice z 1 na 0 způsobila 18násobný pokles šancí .... exp(B)… eb

o
o
o
o    lnOY=žena= -3,2 +0,5emoce
o
oPro emoce=8 ...  P(žena|e=8)=0,66  O=1,9
oPro emoce=9 ... P=0,76  O=3,2
oZměna emocí z 8 na 9 způsobila 1,6násobný nárůst šancí .... stejně jako jakékoli změna o 1

o
o
o
o    lnOY=žena= -3,80 +0,39emoce +2,15náušnice
o
oPro náušnice=1 a emoce=8 ... P=0,81 O=4,2
oKdyby neměl náušnici ... P=0,33  O=0,50
oZměna náušnice z 1 na 0 (bez změny e.a.) způsobila 8,5násobný pokles šancí .... eb

Technický základ logistické regrese 2
oJak spočítáme regresní váhy, které vyústí v nejlepší predikci pravděpodobnosti Y=1?
onespočítáme, odhadneme (zapomeňme na nejmenší čtverce)
oodhad metodou maximální věrohodnosti (maximum-likelihood estimation)
nVýpočetně složitý algoritmus
nDochází k takovým váhám, s nimiž je podmíněná pravděpodobnost získání dat, která jsme získali,
nejvyšší možná : P (data|b0,b1,..,bm) = max
nlikelihood = jiné slovo pro podmíněnou p-nost
o

Jak dobře regrese predikuje?
oLikelihood je měřítkem zdařilosti regrese v logaritmované podobě: log-likelihood
o
o
oLL sumíruje shodu mezi odhadem a daty
nmaximem je 0, minimem je -∞
nčastěji se udává jako −2LL, tj. vynásobený −2
o−2LL se říká deviance  (0 až ∞)
omá chíkvadrát rozložení
o
oreportujeme Model chi-square, df, p
o
n
o
o
o

Statistické testy 1
Predikuje regrese lépe než nic?
onic = základní model (baseline model) = predikujeme všem 0 nebo 1, podle toho, co z toho se
vyskytuje častěji = PY=1 je pro všechny lidi stejná
oPotom můžeme srovnat model s prediktory s tímto základním modelem.
nrozdíl -2LL obou modelů má c2 rozložení s df=počet prediktorů
n c2 = −2LLnáš model −2LLzákladní model
n df = mnáš model − mzákladní model
ntj. je-li 1-CHISQ.DIST(c2 ; df)<0,05, predikuje model lépe než nic
oPodobně můžeme srovnávat i modely s různým počtem prediktorů mezi sebou
o

analogie s predikováním průměru

Nedalo by se to trochu zjednodušit?
o-2LL lze převést na ukazatele podobné R2
oRL2  Hosmera a Lemeshowa
oRCS2  Coxe a Snella
oRN2  Nagelkerkeho
o
oNabývají hodnot od 0 do 1.
oUdávají jak moc díky prediktorům klesl -2LL
oNení to úplně totéž, co R2 v lineární regresi!

Interpretace regresních koeficientů
oU kategorických prediktorů (indikátorově kódovaných) udává expB poměr šancí pro indikovanou
hodnotu vs. referenční hodnotu.
oU spojitých prediktorů udává expB poměr šancí (nárůst) spojený s jednotkovým rozdílem na škále
prediktoru.
oStandardní velikost účinku vyjádřená OR je někdy zrádná (neznáme základ jako u procent)
nProto počítáme rozdíl p-ností predikovaných pro dvě různé (typické) hodnoty určitého prediktoru.

Statistické testy 2
Testy jednotlivých prediktorů
oWaldův test: z=b/SE(b)
nSPSS: Wald=z2, Wald~c2(df)
npři velkých b nadhodnocuje SE
ni tak je dobré uvádět 95% CI pro expB
oRobustnější alternativou je c2 test zhoršení modelu po vyřazení daného prediktoru (tzv.
likelihood-ratio test)

Další indikátory kvality modelu
oKlasifikační tabulka
nsrovnání predikovaného a skutečného stavu
n„reality-check“, i krásně signifikantní model může neuspokojivě predikovat
oHosmer-Lemeshow Goodness of Fit Test
ntaké srovnává predikovné a pozorované hodnoty závislé
nGoF test >> nechceme, aby byl signifikantní
oKlasifikační diagram (classification plot)
oDiagnostika reziduí a vlivných případů (jako v LinReg)

Praktické problémy
oRegresní koeficienty se nevypočítávají, ale iteračně odhadují.
oIterace nemusí vždy proběhnout úspěšně
nnemusí konvergovat
nmohou se vyskytnout bláznivé hodnoty
oProblematické výsledky naznačují nedostatky v datech
npři absenci některé z kombinace hodnot prediktorů a závislé
npři dokonalé predikci
oLR je náročná na velikost vzorku
n

Předpoklady logistického modelu
oNení jich mnoho
oLinearita – předpoklad lineárního vztahu mezi spojitými prediktory a logitem závislé.
oNezávislost reziduí
oImplicitně dostatek dat – měly by se vyskytovat všechny kombinace kategorických prediktorů
oMultikolinearita je stejným problémem jako u LinReg

Obecně budování modelu
oVzhledem k nárokům na velikost vzorku větší tlak na jednoduchost modelu
oExplorace: Vložit všechny prediktory a postupně ubírat – cílem je parsimonie (úspornost)
oTestování hypotéz: vložit, co implikuje teorie, smysluplně po blocích
o

Reportování
oField 19.7


Kam dál?
oordinální regrese
omultinomiální regrese

Seminární úkol
oVymyslet VO na logistickou regresi
oVytvořit logistický regresní model
nPoužít buď vkládání po blocích nebo postupné redukování
oPopsat výsledný model
nKvalita modelu – testy, klasifikační úspěšnost, předpoklady, vlivné případy
nVliv prediktorů – testy, interpretace, ilustrovat predikovanými pravděpodobnostmi