MA012 Statistika II 9. Zobecněné lineární modely (GLM) Ondřej Pokora (pokora@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno (podzim 2015) Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 1/36 Motivace V reálném světě má mnoho procesů jiný, než lineární vztah závislosti. Např. v ekonomii se ukazuje, že mnoho vztahů má logaritmickou závislost, k vysvětlení procesů v přírodních vědách se užívají reciproké, mocninné i další vztahy. Vysvětlovaná veličina popisující pravděpodobnost přežití člověka, v případě určité nemoci a určitého způsobu léčby, může z definice pravděpodobnosti nabývat hodnot pouze z intervalu [0,1], což by v případě klasického lineárního modelu bylo možné zajistit jen za přijetí určitých omezení na parametry modelu. Také normalita chyb je často nesplněným předpokladem klasického lineárního regresního modelu. Připomeňme, že normalita se vyznačuje nezávislosti střední hodnoty a rozptylu. Typicky např. u ekonomických veličin s rostoucí střední hodnotou obvykle roste rozptyl náhodné veličiny, přičemž náhodné chyby mají v těchto případech často nesymetrická, kladně sešikmená rozdělení. MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 2/36 m Klasický lineární regresní model V ~ £(xp, cr2In) Y = Xfi + e ■ nesystematické chyby: Eej = 0, i = 1,...,n, tzn. EY = X/S, ■ homogenita rozptylu chyb (měření): Dej = cr2 > 0, i — \,...,n, ■ nekorelovanost chyb (měření): C(£z/£;) = 0, z,; = 1,... ,n, i^j, tzn. De = DY = a2!-, MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 3/36 m Omezení LM Omezení lineárního modelu: □ Je omezen pouze na třídu normálních rozdělení: Yj ~ N(}ii,cr2) i = 1,...,n, kde Y (Y\,...,Yn)r tvoří náhodný výběr. Předpokládá striktní rovnost mezi střední hodnotou náhodné veličiny Yj a lineární kombinací prediktorů: EYj = ]i{ — x^fí, kde X\ = {x{\,... /Xj]c)ř je vektor prediktorů a j6 = (j6i,...,]6fc) je vektor neznámých parametrů. Zobecnění lineárního modelu: □ Zobecnění na nenormální rozdělení, a to na tzv. třídu rozdělení exponenciálního typu Q Zobecnění na nelineární funkce, které spojují neznámé střední hodnoty výchozího rozdělení náhodné veličiny Yj s prediktivními proměnnými. MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 4/36 nn Základní pojmy a definice Uvažujeme náhodný výběr Y = {Y\,...,Yn)r náhodné veličiny Y, jejíž rozdělení pravděpodobnosti (reprezentované hustotou pravděpodobnosti či pravděpodobnostní funkcí) závisí na neznámých parametrech 6= (Q\,...,9m)f z množiny 0 (tzv. parametrický prostor). Definice 1 Věrohodnostní funkce (likelihood) je funkce vektorového parametru 6, definovaná jako simultánní hustota (resp. pravděpodobností funkce) M0;y)=/(y;0)- Logaritmická věrohodnostní funkce (log-likelihood): £(0',y) = lnL(0;y). Řekneme, že odhad 0ML je maximálně věrohodný odhad (MLE, maximum likelihood estimator) vektorového parametru Q, pokud platí L(?ML; Y) > L(0;Y), resp. £(6ML} Y) > £(0;Y), pro všechna 6 G 0 Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 5/36 Vlastnosti MLE vektorového parametru Věta 2 Mějme náhodný výběr Y = (Y\,..., Yn)f náhodné veličiny Y s hustotou pravděpodobnosti f\y; 6) závislou na parametrech 6 = (Q\,.. .,0m)7 £ ® a maximálně věrohodný odhad 0ML na základě Y. Je-li hustota f(y',0) regulárni, platí (1) 0ml ~ Nm U \rl\ (2) W = n(6ML - 6)' J (0ml - e) ~ *2(m), /cc/e matice J = je ŕzv. Fisherova informační matice (Waldova statistika) Jij(O) = í 3 J]Rn ain/(y;fl) ain/(y;0) 9ft 90 /(y;0)dy, z,; = l,...,m. Maximálně věrohodný odhad je tedy asymptoticky nestranný a konzistentní. To však neznamená, že se musí nutně jednat o optimální odhad pro náhodný výběr konečného rozsahu. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 6/36 Vlastnosti MLE skalárního parametru Věta 3 Mějme náhodný výběr Y = (Y\,..., Yn)f náhodné veličiny Y s hustotou pravděpodobnosti f {y, Q) závisející na parametu 6 G7 heta a jeho maximálně věrohodný odhad 6ML na základě Y. Je-lihustotaf(y)6) regulárni, platí 1 ~ N ( Q, n j J (2) W = nJ (6Ml ~ O)2 ~ *2(1), (Waldova statistika) kde J = J (6) je tzv. Fisherova míra informace o parametru 9, m = í J]Rn d ln/(y; 0) de -i 2 /(y;0)dy. MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 7/36 m Rozdělení exponenciálního typu Definice 4 Rozdělení pravděpodobnosti je exponenciálního typu (exponential family, exponential class), pokud jeho pravděpodobnostní funkce (v případě diskrétních rozdělení) či hustota pravděpodobnosti (v případě spojitých rozdělení) je tvaru /(y) = exP a(y)b(6)+c(e)+d(y) kde 6 je tzv. přirozený parametr (natural parameter), a a{y), b(Q), c(Q), d(y) jsou známé funkce. Pokud a(y) = y, hovoříme o kanonické formě hustoty, resp. pravděpodobnostní funkce. V konkrétním rozdělení pravděpodobnosti mohou kromě 9 dále figurovat další parametry, které nazýváme rušivými parametry (nuisance parameters). MA012 Statistika II - 9. Zobecněné lineární modely (GLM) s/36 m Škálová forma s jedním rušivým parametrem V dalším budeme uvažovat pouze regulární a kanonické formy s jedním rušivým parametrem (p. Definice 5 Škálová forma hustoty, resp. pravděpodobnostní funkce, exponenciálního typu s jedním přirozeným parametrem 9 a jedním rušivým parametrem (p je tvaru f{y) = exp Qy-7(0) (p/co + d((p,y) kde 7(0), d{$,y) jsou známé funkce, o;>0a^>0je tzv. scale factor. MAO 12 Statistika II - 9. Zobecněné lineární modely (GLM) 9/36 m Škálová forma s jedním rušivým parametrem Věta 6 Pro náhodnou veličinu Y z rozdělení s regulární hustotou (resp. pravděpodobnostní funkcí) exponenciálního typu f{y) = exP (p/w + d((p,y) platí EY = j'(0) = d7(0) de Pokud navíc platíE (^jr^y'e) ) = ®' P°t°m co co ó6z Funkce 7/7(#) se nazývá rozptylová funkce (variance function) Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 10/36 Normální rozdělení Y ~ N(fi, o2), fi e IR, a2 > 0, y G R /(y) Vlna2 exp (y-fO: 2cr2 exp a2 přirozený parametr 9 = ^ G IR je střední hodnota J = \e2 7(0) scale factor (p = a2 je rozptyl; co d( 0, y G N0 f(y) 7 ■A exp y ln A — A — ln(y!) exp 0y-ee-ln(y!) přirozený parametr 9 = lnA G IR, A = ee J 7(0) = ee = A scale factor cp = 1, co = 1 di 0, y > 0 f(y)=Xe-^ = exp —A y + ln A exp 0y + ln(-0) přirozený parametr 6 = —A < 0, A = -6 7(0) = -ln(-0) = -ln(A) scale factor cp = 1; oj = 1 d((p,y) 0 7W = -} = Í= EY rozptylová funkce 7(0)7/ = ^ Ž = i = dy 1_ A2 Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 15/36 Exponenciální rozdělení (parametr střední hodnota) Y ~ Ex(]i), ]i > 0, y > 0 /(y) = — _ n-y/H — = exp - In ti = exp 0y + ln(-0) přirozený parametr 0 = ¥ = i 0 J 7(0) = -ln(-0) = ln(p) scale factor cp = 1; oj = 1 d((p,y) 0 7(0)' = -i =p = ey rozptylová funkce 7(0)7/ = ^ = F2 MA012 Statistika II - 9. Zobecněné lineární modely (GLM) Gama rozdělení Y ~ G(k, ji), k > 0, ji > 0, y > 0 /(y) = T (k) U y 1 exp ky_ exp i it + jfclnjfc-lnr(jfc) + (fc-l)Iny přirozený parametr 6 = — ^ < 0, ji = — i ■ 7(0) = -Jn(-e) = ln(p) -i scale factor

= 1/fc (rušivý parametr) jsou neznámé parametry, xz- dané kovariáty. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 23/36 Poissonovo rozdělení, logaritmický link Yi ~ Po(Aj), EYf = A/, i = 1,... ,n. Linkovací funkce v GLM je logaritmus, g(m) = \njii = ln Ki = tu = j8i + hxv filrfii Jsou neznámé parametry, Xj jsou dané kovariáty. 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 x Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 24/36 Binomické rozdělení, logitový link Yi ~ Bi(rii,j)i), E (J^ jíf pif i = l,...,n. Linkovací funkce v GLM je logitová funkce, s(Pi) =ln t^t = Ví = h + hxi> filrfii Jsou neznámé parametry, x\ jsou dané kovariáty. ^^^^^^^^^^^^^^^^^^^^^^^^^^^^ v Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 9. Zobecněné lineární modely (GLM) Odhady neznámých parametrů v GLM Všimněme si, že rozdělení náhodných veličin Y\ je stejného typu a logaritmus sdružené věrohodnostní funkce má tvar n n m y) i=i 1=1 Vi Oj - l{0j) + í* (y», xl -«*( U-\__a, přičemž opět Fisherovou informační matici J(j6) aproximujeme maticí J(/5ML) Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 29/36 Maximální a minimální model Definice 10 Maximální GLM, který označíme GLMmax, splňuje následující podmínky Maximální model je zobecněný lineární model se stejným typem rozdělení jako zkoumaný GLM model. (2) Maximální model a zkoumaný mají stejnou linkovací funkci. Počet parametrů maximálního modelu je roven počtu vysvětlovaných veličin n, maximálně věrohodný odhad parametru $max je n-rozměrný vektor $max. Definice 11 Minimální GLM, který označíme GLMmjn, splňuje následující podmínky Minimální model je zobecněný lineární model se stejným typem rozdělení jako zkoumaný GLM model. (2) Minimální model a zkoumaný mají stejnou linkovací funkci. Počet parametrů minimálního modelu je roven 1, maximálně věrohodný odhad parametru fímin je skalár /5mí-n. MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 30/36 Submodel Definice 12 Mějme zobecněný lineární model s maticí plánu Xnx]c a vektorem neznámých parametrů /S. Submodel, který označíme GLMSW^, splňuje následující podmínky Submodel je zobecněný lineární model se stejným typem rozdělení jako zkoumaný GLM model. (2) Submodel a zkoumaný model mají stejnou linkovací funkci. (3) Vektor neznámých parametrů j6SM& G IR^a matice plánu Qnxq, pro kterou platí Qnxq — ^nxk^kxq- Aby GLMSW^ byl submodelem modelu GLM, musí každý sloupec matice Q patřit do obalu sloupců matice X. To bude splněno právě tehdy, bude-li Q typu Qnxq — ^nxk^kxq- Je třeba si uvědomit, že GLMSW^ je speciálním případem modelu GLM. Platí-li tudíž pro náhodný výběr Y model GLMSW^, platí pro Y také model GLM. MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 31/36 Deviance Deviance v zobecněných lineárních modelech je obdobou rozptylu u klasických lineárních regresních modelů. Deviance je tedy kritériem vhodnosti zobecněného lineárního modelu. Metoda maximální věrohodnosti totiž odpovídá hledání minima deviance modelu. Definice 13 (Škálová deviance) Mějme modely GLM a GLMmax. Nechť náhodný výběr Y se řídí modelem GLMmax- Skálová deviance (scaled deviance) modelu GLM je statistika d = ln -i 2 = 2 kde /} ,/} jsou maximálně věrohodné odhady v modelech GLMmax a GLM. Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 32/36 Ověřování vhodnosti submodelu Věta 14 Necht náhodný výběr Y se řídí modelem GLM s f> £ Rfc, k < n, a platí existují druhé parciální derivace hustoty f'(y; j8) poc//e složek /S, 00 P'*™ Tfe ŕ) = 0, (z,; = l,...,fc), (iii) existuje E ^(j6; V). Necht GLMsu}j s (ísub £ R*?, q < k < n, je submodel modelu GLM. Za platnosti hypotézy že náhodný výběr Y se řídí modelem GLM^, platí pro rozdíl deviancí těchto modelů _AD = Dsub-D ~ X2(k-q)._ Platnost modelu GLMSM& pro náhodný výběr V tedy zamítáme na hladině významnosti oc, pokud AD = Dsub-D>^_0Ĺ(k-q). Ondřej Pokora, PřF MU (2015) MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 33/36 Akaikeovo informační kritérium Alternativní mírou relativní kvality modelu je Akaikeovo informační kritérium z teorie informace, založené na relativní Kullbackově-Leiblerově vzdálenosti rozdělení pravděpodobnosti indukované daným GLM vzhledem k GLMmax- Definice 15 (Akaikeovo informační kritérium) AIC = 2k-2£(fl;Y), kde /S je maximálně věrohodné odhad v modelu GLM a k je počet parametrů /S. MA012 Statistika II - 9. Zobecněné lineární modely (GLM) 34/36 Typy náhodných veličin Nominální Ordinální Intervalová Poměrová Kvalitativní Kvantitativní Dichotomická Polytomická MA012 Statistika II - 9. Zobecněné lineární modely (GLM) Zobecněné lineární modely v R Obecná funkce pro řešení GLM v R je glm. model <-glm (formula, family, data) family family (link = ...) gaussian identity, log, inverse binomial logit, probit, cloglog, log, cauchit poisson log, sqrt, identity Gamma inverse, log, identity inverse.gaussian l/mu~2, inverse, log, identity v <- summary (model) S výsledky se pracuje analogicky jako s výsledky funkce lm pro LRM. MA012 Statistika II - 9. Zobecněné lineární modely (GLM)