Zobecněné lineární modely (GLM, generalized linear models) MU IBA Parametry rozložení o Soubor dat (řada čísel) můžeme charakterizovat parametry jeho rozložení o Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele: • Středu (medián, průměr, geometrický průměr) • Šířky rozložení (rozsah hodnot, rozptyl, směrodatná odchylka) • Tvaru rozložení (skewness, kurtosis) • Kvantily rozložení - kolik % řady dat leží nad a pod kvantilem Průměr \ Medián x0,95 x Distribuční funkce o Definice kvantilu dle distribuční funkce - Kvantil rozložení (X095) je číslo, jehož hodnota distribuční funkce je rovna pravděpodobnosti, pro kterou je kvantil definován (O(x) ... distribuční funkce), tj. pokud vezmeme nějaký bod rozložení a porovnáme jej s tímto bodem (kvantilem), máme 95% pravděpodobnost, že bude menší než hodnota kvantilu (X095). o Pomocí distribuční funkce můžeme určit jaký podíl hodnot rozložení je menší než daná hodnota - využití při statistických testech cp(x) 0,95 O(x) x0,95 x IBA Zobecněné lineární modely (GLM) o GLM (Generalized linear models) jsou rozšířením lineárních modelů (LM) s vetší tolerancí pro různé distribuční vlastnosti vysvětlovaných proměnných. Přehled (nejznámějších) rozdělení z tzv. Exponenciální rodiny rozdělení o Normální rozdělení (Normal distribution) o Exponenciální rozdělení (Exponential distribution) o Poissonovo rozdělení (Poisson distibution) o Beta o Gamma o Alternativní rozdělení (Bernoulli d.) o Binomické rozdělení (Binomial d.) o Multinomické rozdělení (Multinomial d.) o http://broiler.stat.vt.edu/-sundar/iava/applets/ Lineární regresní model o V klasickém lineárním regresním modelu (speciální případ zobecněného lineárního modelu) systematická část vyjadřuje lineární vztah pro střední hodnotu E(Y) a pro xj - prediktory neboli vysvětlující proměnné. ^)=M=Ä+Éw=1.....w 7=1 kde ßj jsou neznámé parametry, počet nezávisle proměnných (prediktorů) je p, počet pozorování je n. o Náhodná složka modelu je reprezentována náhodnými chybami si. Rozdělení těchto náhodných veličin si je normální ( a rozptyl není funkcí střední hodnoty). o V reálném světě má mnoho procesů jiný než lineární vztah a také variance stochastické složky může být závislá na očekávané (střední) hodnotě E(Y). Zobecněný lineární model o Zobecněné lineární modely (GLM) rozšiřují klasické lineární regresní modely ve dvou směrech: o Předpokládané rozdělení Y pro danou nezávisle proměnnou xj nemusí být normální, ale muže rovněž pocházet z třídy exponenciálních rozdělení, které zahrnují důležitá rozdělení jako je binomické, Poissonovo, exponenciální nebo gamma. o Normalita chyb- často nesplnený předpoklad KLM o Závislost hodnot vysvětlované proměnné na hodnotách prediktoru je dána linkovací funkcí gQji) (link function): g(E(Yi)) = rIi=g(Mi) = fi0+ŤáfiJXV9 7=1 o kde gQji) je nelineární linkovací funkce, která spojuje neznámé střední hodnoty výchozího rozdělení náhodné veličiny Y s hodnotami nezávisle proměnných.(Na funkci gQji) je kladen požadavek, aby byla monotónní a diferencovatelná) Link function o Volba linkovací funkce a předpokládaný typ distribuce se ovšem nemůže kombinovat náhodně. Linkovací funkce, která přísluší danému rozložení se nazývá kanonická linkovací funkce (canonical link function). o U lineárních modelů, ve ktrerých náhodná komponenta závisí na předpokladu, že vysvětlující proměnná má normální rozdělení je kanonická linkovací funkce identita. Linkovací funkce o Linkovací funkce, která přísluší danému rozložení se nazývá kanonická linkovací funkce (canonical link function). Typ proměnné "Typická" link funkce Referenční distribuce počty (frekvence) log Poissonova pravděpodobnost (relativní frekvence) logit nebo probit binomická rozměry, poměry inverze nebo log gamma vzácné typy měření identita Gaussova ("normální") Výstavba regresního modelu: Vhodně zvolený regresní model by měl splňovat tyto kritéria: o obsahovat co nejmenší počet parametrů: více parametrů sice zvýší přesnost modelu, avšak při aplikace na nové data se stává nevhodným o Parametry by měly být navzájem nezávislé: použité parametry by se neměly dát vyjádřit kombinací ostatních parametrů, což je ovšem častým problémem nelineárních modelů o funkce by měla správně popisovat vysvětlovanou (závislou) proměnnou v extrémech závislosti i v jejím asymptotickém chování: při nízkých nebo vysokých hodnotách nezávislé proměnné některé modely poskytují nesprávné limitní hodnoty závislé proměnné Multikolinearita o Multikolinearita - Existují-li závislosti mezi jednotlivými nezávisle proměnnými modelu. Koeficienty determinace lineárních modelů (jedné nezávisle proměnné na ostatních nezávisle proměnných) jsou vysoké (větší než 0,5). Nezávisle proměnné jsou navzájem korelované. o Odhad regresních parametrů - velký rozptyl. o I významné nezávisle proměnné se jeví jako nevýznamné, popř. parametry mohou mít opačné znaménko... o Obtížná interpretace parametrů beta. (Obvykle: Koeficient betal lze interpretovat jako střední změnu Y při jednotkové změně X1 a nezměněné hodnotě X2. Nyní však X1 a X2 vzájemně korelované, proto nelze předpokládat, že při změně X1 zůstane X2 nezměněna.) o Příklad 1: obvod pasu a váha významně korelované o Příklad 2: Výška platu a daně úzce korelované o Řešení: méně proměnných v modelu, vyloučení korelovaných nezávislých proměnných. Výstavba modelu LM GLM Odhad parametrů modelu Metoda nejmenších čtverců Metoda maximálni věrohodnosti Signifikantní p red i kto ry T-test F-test Test poměrem věrohodností Waldův test Hodnocení vhodnosti modelu Koeficient determinace deviace AlC Věrohodnost (Likelihood) o Věrohodnostní funkce (likelihood function) - je funkcí parametrů modelu. Je to pravděpodobnost, s jakou lze získat naměřená data, v případě, že parametry modelu jsou dané. o Metoda maximální věrohodnosti (maximal likelihood method) - vede k takovým hodnotám odhadu parametrů, které maximalizují pravděpodobnost získání naší pozorované množiny dat. o Jsou hledány takové parametry, pro které je věrohodnostní funkce maximální. o Pro snadnější výpočet se věrohodnostní funkce logaritmuje -logaritmická věrohodnostní funkce (log-likelihood function) Věrohodnostní funkce o Pro danou distribuci určenou f(yi; ß,F) a pozorování y = (y1, y2, . . ., yn)\ je věrohodnostní funkce (log-likelihood function) pro ß a F, vyjádřená jako funkce střední hodnoty /_/ = Qj 1,..., /jn) závisle proměnné {Y\, Y2, . . . , Yn} a má tvar: /(Ky) = £ log/C* ;ß^) U klasických lineárních regresních modelů se jako kritérium pro odhad neznámých ß = (ßO, ß"\,..., ßp)} parametrů používá metoda nejmenších čtverců. Pokud jsou pozorování nezávislé a normálně rozložené s konstantním variancí s2, je odhad parametru ß a s2 pomocí metody nejmenších čtverců ekvivalentní k odhadu maximální věrohodnosti. Maximální věrohodnost Odhad maximální věrohodnosti parametru ß můžeme dosáhnout např. pomocí iterativního algoritmu re-weighted least squares (IRLS) (podrobný popis McCullagh and Neider, 1989) nebo Newton-Raphsonova metoda (podrobný popis Harrell.2001). Významnost proměnných o Máme -li odhadnuté regresní parametry, musíme určit statistickou významnost všech nebo jednotlivých vysvětlujích proměnných zahrnutých do modelu. To znamená, že zkoumáme zda daná proměnná (nebo skupina /c-danných proměnných) po přidání do modelu přinese statisticky významné zpřesnění před povezených hodnot Y. o Položíme tedy vektor regresních koeficientů k testovaných kovariát rovný nule. o tedy: H0 : ß. - 0,7 = L...zw o V našem případě jsou kovariáty vysvětlující proměnné (prediktory), které zahrnujeme do modelu a u nichž zatím neznáme jejich příspěvek do modelu. o K otestování významnosti regresních koeficientů se používá např. test poměrem věrohodnosti (likelihood ratio test), Waldův test... Test poměrem věrohodnosti o používáme na porovnání globální hypotézy, že žádné efekty nejsou statisticky významné proti plnému modelu odhadnutému MMV. o Používá statistiku LR,. í LR = -21n / za hypotézy H^ \ o V / s MMV odhadem J o Položíme tedy proti sobě alternativu modelu bez testovaných kovariát proti úplnému modelu (se všemi kovariátami) s regresními parametry odhadnutými metodou maximální věrohodnosti. o Při velkém n má statistika LR přibližně x2 rozdělení (chí-kvadráť) se stupni volnosti rovnými počtu odhadovaných parametrů. LR test se využívá při testování hypotézy, že všechny regresní koeficienty jsou rovny nule , ß = (ß0,ß1,..., ßp) = 0. Nulovou hypotézu zamítáme na hladině významnosti a jestliže LR > x21-a (p), kde p je počet odhadovaných parametrů. Waldův test o Waldův test se používá k otestování statistické významnosti daného prediktoru nebo skupiny prediktorů o Waldova statistika l/l/, která je zevšeobecněním t- nebo z-statistiky je funkce rozdílu MMV odhadu a hypotetické hodnoty regresního parametru testované kovariáty, normalizovaného odhadem standardní odchylky MMV odhadu. o Tato statistika má při dostatečně velkém n přibližně x2 rozdělení (chí-kvadrát) se stupni volnosti rovnými počtu odhadovaných parametrů. o Nulovou hypotézu zamítáme na hladině významnosti a jestliže 1/1/> x21-a (P), kde p je počet odhadovaných parametrů. Ověřování vhodnosti modelu o Podobně jako reziduálni součet čtverců v Unárních regresních modelech se i v ZLM testuje hypotéza o vhodnosti modelu (goodness-of-fit). Určení vhodné modelové rovnice je základem všech regresních modelů. o Jedním z důležitých principů regresních modelů je zásada jednoduchosti-jednodušší model, který dobře popisuje naše data je vhodnější než složitější model popisující data téměř dokonale škálová deviace D (scaled deviation) K otestování vhodnosti modelu slouží škálová deviace D: D(y;A) = 2[/(y;y)-/(A;y)] Kde ^(y?y)je maximálně věrohodný odhad, ve kterém jsou fitované hodnoty rovny pozorovaným hodnotám a Kfcy) je věrohodnostní funkce odhadnutých parametrů ß. Deviace je velmi užitečná při srovnání dvou modelů z nichž jeden je podmodelem (submodelen) druhého. MMV odpovídá hledání minima deviace modelu. Je-li D > x21.a (n-m), kde m (n) je počet odhadovaných parametrů submodelu (celkového modelu), pak je model nevhodný. Akaikovo informační kritérium (Akaike information criterion, AlC ) o AIC=-2(maximum logaritmované věrohodnosti - počet parametrů modelu) o Čím je hodnota AlC menší, tím je model lepší. o AlC penalizuje modely s velkým počtem parametrů Analýza reziduí o Analýza reziduí je důležitou součástí ověřování vhodnosti modelu. Můžeme tak zjistit, zda výchozí předpoklad o rozdělení náhodných chyb či tvaru linkovací funkce byl správný. o Pomocí reziduí zjistíme body, jejichž reziduum je velmi odlišné od ostatních pozorování. Pokud se v grafu objeví závislost reziduí na prediktorech nebo variabilita reziduí roste v závislosti na veličinách modelu, musíme celý model znovu přehodnotit, popř. jej vytvořit od začátku. o Typy reziduí: Pearsonova (standartizovaná) rezidua, Ascombova rezidua, deviační rezidua, rezidua stabilizující rozptyl etc Nejznámější typy reziduí v G L M o Pearsonova (standardizovaná) rezidua (linear) -nevýhodou je, že pro nenormální rozdělení jsou zešikmená o Standardizovaná transformovaná rezidua (transformed linear) -rezidua se transformují aby se jejich rozložení blížilo normálnímu 1) Anscombova rezidua - snaha je, aby transformovaná rezidua měla nulovou šikmost 2) Rezidua stabilizující rozptyl - cílem je, aby u transformovaných reziduí nebyl rozptyl funkcí střední hodnoty, ale konstantní Literatura o Harrel F. E., Jr. (2001): Regression Modeling Strategies. With Applications to Linear Models, Logistic Regression and Survival Analysis. Springer, Springer Series in Statistics, New York. o McCullagh, P., Neider, J.A. (1989): Generalized Linear Models (2nd edition), Chapman & Hall o McCullagh C. E., Searle S. R. (2001): Generalized, Linear, and Mixed Models, John Wiley & Sons. o Lemeshow, Stanley & Hosmer, David W., Jr.Logistic regression, p. 1-11. In Encyclopaedia of Biostatistics, 1sted. Online.] Wiley, London. ittp://www.wiley.co.uk./eob/sample4.pdf. [13 January 2004, last date accessed]