ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII Tomáš Katrňák Fakulta sociálních studií Masarykova univerzita Brno AKD TK 2 Lekce 1: Úvod do analýzy kategorizovaných dat AKD TK 3 SOCIOLOGIE A STATISTIKA ˇ nadindividuální společenské struktury podmiňují lidské chování (Durkheim) ˇ společenské struktury lze pozorovat na základě statistik o lidském chování, pozorujeme novou skutečnost, z individuálního hlediska nerozpoznatelnou, ptačí perspektiva, vymezuje a zároveň přináší informaci o tzv. hromadném jevu - hromadný jev je kolektivita nového řádu, její objevení souvisí s konstitucí moderní společnosti a ustavením sociologie a statistiky jako věd o sociálním životě v moderní společnosti ˇ hromadný jev je definován dostatečným počtem zkoumaných jednotek, protože až na základě určitého počtu (mnohosti) lze získat představu o pravidelnosti, struktuře a zákonitostech v sociálním životě (opakem je individuální jev) - kde vznikají sociální fakta, když nepramení z psychiky člověka, ačkoliv jsou její nedílnou součástí? ptá se Durkheim - zdroje sociálních faktů leží v sociálních vazbách mezi lidmi, leží tedy v nadindividuálních sociálních strukturách, odpovídá Durkheim ˇ z tohoto důvodu sociologové pro pochopení sociálního života zkoumají nadindividuální sociální struktury, statistika a statistický aparát jim v tom pomáhají AKD TK 4 ZÁKON VELKÝCH ČÍSEL ˇ sociální jev je vždy hromadný jev, adjektivum sociální odkazuje k hromadnosti a sociálním vazbám (Simmel) ˇ všechny jevy (včetně sociálních) podléhají zákonu velkých čísel (jako první jej definoval francouzský matematik a statistik Poisson) - podle tohoto zákona se empirické údaje o jevu blíží skutečnosti s rostoucím počtem pozorovaných jednotek (když pozorujeme všechny jednotky, pozorujeme skutečnost), pravidelnost a pravá podstata jevu tedy vyvstává na povrch s rostoucím počtem pozorovaných případů AKD TK 5 PROMĚNNÉ A JEJICH DĚLENÍ ˇ podle slovního vyjádření hodnot proměnných: - kvantitativní proměnné (diskrétní & spojité) - kvalitativní proměnné ˇ podle vztahů mezi hodnotami jednotlivých proměnných: - nominální (název variant) - ordinální (název variant + uspořádání vertikální nebo horizontální) - kardinální (název variant + uspořádání + vzdálenost) ˇ intervalové (o kolik je jedna hodnota větší než druhá), <-; >, neexistuje racionální 0 (např. teplota ve °C, 0 neznamená nepřítomnost teploty) ˇ poměrové (kolikrát je jedna hodnota větší než druhá) <0; >, 0 má racionální základ (např. věk, počet dětí, váha, životnost výrobku atd.) ˇ hranice mezi jednotlivými proměnnými nejsou neprůchodné, záleží na úhlu pohledu, např. členství v politické straně (nominální, ordinální) nebo vzdělání (nominální, ordinální, kardinální) ˇ proměnné vyššího řádu měření lze převést do nižšího řádu měření (tzv. ordinalizace nebo nominalizace proměnných) AKD TK 6 PROMĚNNÉ A JEJICH DĚLENÍ ˇ pod hlavičku kategorizované proměnné řadíme nominální, ordinální a kardinální poměrové proměnné ˇ kategorizované proměnné dělíme podle počtu variant: - dichotomické (binární, alternativní) - polytomické (vícekategoriální) ˇ uspořádané kategorie (vertikálně, horizontálně) ˇ neuspořádané kategorie (nominální proměnné) AKD TK 7 TRANSFORMAČNÍ PŘISTUP VS. PŘÍSTUP LATENTNÍ PROMĚNNÉ ˇ dva přístupy v konceptualizaci kategorizovaných dat: - kategorizovaná data jsou inherentně diskrétní proměnné (nelineární pravděpodobnostní modely), statistika a biostatistika, transformační přístup ke kategorizovaným datům ˇ výběrové varianty znaků a populační parametry se shodují, data modelujeme v měřené podobě, p (pravděpodobnost) závisle proměnné transformujeme do podoby lineární funkce nezávisle proměnných, tato funkce se nazývá spojnice (link), modely transformované do lineárních modelů spojnicemi se nazývají zobecněné lineární modely (GLM) (p je pak vyjádřena jako nelineární pravděpodobnostní model) - kategorizovaná data jsou nepozorované latentní proměnné (hovoří se o modelech latentních proměnných), tento přístup najdeme v ekonometrii a psychometrii, jedná se o tzv. přístup ke kategorizovaným datům jako k latentním proměnným ˇ v populaci jsou kategorizovaná data kontinuální proměnné, pozorujeme je ovšem jako kategorizované (např. u proměnné dítě pozorujeme pouze dvě varianty, nicméně v populaci je to kontinuální proměnná, která když překročí určitou míru, tak pozorujeme její manifestaci), rozdíl mezi kontinuálními daty a kategorizovanými daty je v míře pozorovatelnosti, u kategorizovaných dat nevidíme jednotlivé hodnoty, ale pouze intervaly (proto se kategorizovaná data někdy nazývají jako omezené závisle proměnné), v populaci existují tendence, sklon a míra tolerance, přímo úměrné investicím a výnosům, pozorujeme pak jejich projevy skrze překročení míry tolerance AKD TK 8 TRANSFORMAČNÍ PŘISTUP VS. PŘÍSTUP LATENTNÍ PROMĚNNÉ ˇ debata o povaze kategorizovaných dat se táhne historií statistického uvažování (její počátek leží ve sporu K. Pearsona (latentní struktura) a G. U. Yulea (inherentní diskrétnost) v první polovině 20. stol., dodnes tato debata není uzavřená, z obou dvou přístupů vycházejí odlišné numerické algoritmy k identifikaci modelů se závisle kategorizovanou proměnnou, jejich výsledky jsou nicméně totožné ˇ o kterých z následujících proměnných lze uvažovat jako o latentních? - úspěch u zkoušky, souhlas s předmanželským sexuálním životem, pohlaví, participace na trhu práce, rodinný stav, přijetí na VŠ, sociální status, gravidita, četba časopisu Respekt, zaměstnanecká mobilita - u latentní proměnné y* předpokládáme, že je lineárně závislá na pozorované proměnné x, strukturním vztahem vyjádřeno: y* = xi+i nebo pro jednoduchou proměnnou vyjádřeno vztahem y* = +xi+i AKD TK 9 INDIVIDUÁLNÍ A AGREGOVANÁ DATA ˇ individuální data - ukazují varianty znaků pro jednotlivá pozorování - jednotlivé případy charakterizuje vždy jedna varianta zkoumané proměnné - data jsou prezentována obvykle ve formě matice, v níž vždy jeden řádek odpovídá jednomu pozorování (případu) a jeden sloupec vždy jedné proměnné (znaku), pole matice pak zachycují varianty proměnných u jednotlivých pozorování (případů) ˇ agregovaná data - ukazují počet opakujících se pozorování - jednotlivé kombinace variant proměnných jsou charakterizovány počtem případů - data jsou prezentována obvykle ve formě kontingenční tabulky, v řádcích a sloupcích tabulky jsou zkombinovány varianty proměnných, v polích tabulky jsou četnosti pozorování (počty případů) těchto variant AKD TK 10 Age through 54 Age through 55 and above tolbutamine placebo tolbutamine placebo Dead 8 5 22 16 Surviving 98 115 76 79 agecat exposed died pop 1. 0 1 1 8 2. 0 1 0 98 3. 0 0 1 5 4. 0 0 0 115 5. 1 1 1 22 6. 1 1 0 76 7. 1 0 1 16 8. 1 0 0 69 agecat exposed deaths pop 1. 0 1 8 106 2. 0 0 5 120 3. 1 1 22 98 4. 1 0 16 85 AGREGOVANÁ DATA A JEJICH ANALÝZA POMOCÍ STATY ˇ fully relational format of data - každé pole tabulky odpovídá jednomu pozorování, pole tabulky jsou v matici soustředěné pod jednu proměnnou ˇ folded (grouped) format of data - pozorování je o polovinu méně než polí v tabulce, nicméně pozorování jsou soustředěná pod dvě proměnné (tedy do šířky matice) ˇ příklad: (1) fully relational format (2) folded format ˇ podle typu dat volíme ve Statě syntax výpočtu, např. logit akceptuje (1), blogit akceptuje (2), glogit akceptuje (2), ale odhad není proveden jako ML, ale jako WLS, glm akceptuje jak (1), tak (2), obecně je ve Statě rozšířenější typ dat (1) AKD TK 11 Lekce 4: Lineární regresní model, zobecněné lineární modely (GLM), principy statistického modelování AKD TK 12 JEDNODUCHÁ LINEÁRNÍ REGRESE ˇ jednoduchá lineární regrese může být pro výběrový soubor zapsána jako: ^ xi i i y a b d= + + ˇ pro populaci je pak zapsána jako: xi i i y e = + + - kde je posunutí (intercept), je směrnice pro jednotlivé varianty x a e je chyba (residuál, odchylka) pozorované proměnné od odhadnuté směrnice ˇ v regresní analýze je hodnota závisle proměnné specifikována jako součet lineárních efektů nezávisle proměné (prediktora) a chyb (residuálů, odchylek, diferencí) AKD TK 13 JEDNODUCHÁ LINEÁRNÍ REGRESE ˇ stata syntaxt pro regresní model regress price mpg headroom trunk weight length Source | SS df MS Number of obs = 74 -------------+------------------------------ F( 5, 68) = 8.38 Model | 242096575 5 48419315.1 Prob > F = 0.0000 Residual | 392968821 68 5778953.25 R-squared = 0.3812 -------------+------------------------------ Adj R-squared = 0.3357 Total | 635065396 73 8699525.97 Root MSE = 2403.9 ------------------------------------------------------------------------------ price | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- mpg | -85.75773 83.60769 -1.03 0.309 -252.5943 81.07882 headroom | -710.1846 444.8546 -1.60 0.115 -1597.878 177.5089 trunk | 111.1498 109.9446 1.01 0.316 -108.2411 330.5408 weight | 4.420511 1.165629 3.79 0.000 2.094535 6.746488 length | -108.0777 42.56471 -2.54 0.013 -193.0142 -23.1411 _cons | 15552.1 6027.182 2.58 0.012 3525.049 27579.16 ------------------------------------------------------------------------------ AKD TK 14 ODHAD JEDNODUCHÉ LINEÁRNÍ REGRESE - OLS ˇ když známe vzorec pro regresi: ˇ tak na základě metody nejmenších čtverců směrnici a posunutí vypočítáme podle vzorců: ˇ směrnice prochází vždy průměry obou proměnných, a proto posunutí (a) vypočítáme dosazením průměrů do upravené regresní rovnice ^Y a bX= + 1 2 1 ( )( ) ( ) n i i i n i i X X Y Y b X X = = - - = - a Y bX= - AKD TK 15 PŘEDPOKLADY LINEÁRNĚ REGRESNÍHO MODELU ˇ odpovídající funkční podoba (linearita a normální rozložení) ˇ minimální výskyt odlehlých pozorování ˇ normální rozložení náhodných chyb (residuálů), problém podoby podmíněné distribuce (např. podmíněné zešikmení) ˇ homoskedasticita (konstantní variabilita) náhodných chyb (residuálů, složek), problém tvaru podmíněné distribuce (např. podmíněná špičatost) ˇ neexistence korelace mezi náhodnými chybami (residuály) a vysvětlujícími proměnnými ˇ neexistence multikolinearity AKD TK 16 STATISTICKÁ INFERENCE V LINEÁRNÍ REGRESI ˇ konfidenční interval CI()...... b t*SEb ˇ test hypotézy HO: = 0, výpočet t statistiky: ˇ tabulkové kritické hodnoty t rozdělení b b t SE = AKD TK 17 ODHAD JEDNODUCHÉ LINEÁRNÍ REGRESE - MLE ˇ cílem MLE (maximálně věrohodného odhadu) je najít takovou hodnotu koeficientu (parametru), který nejvěrohodněji generuje výběrová data ˇ výběrové hodnoty yi jsou výsledkem pravděpodobnostní (hustotní) funkce f(yi|), kde je neznámý parametr, který generuje hodnoty y v populaci ˇ věrohodnostní funkce je pak součin pravděpodobností (hustot) jednotlivých yi: ˇ hledáme takový koeficient (obvykle sadu koeficientů) které maximalizují L, MLE tedy porovnává všechny možné regresní koeficienty a odpovídá na otázku, s jakou věrohodností generují naměřená data, numericky je snazší počítat s přirozeným logaritmem L (hledáme maximum ln L, což odpovídá maximu L) ˇ k maximalizaci věrohodnostní funkce je nutné znát matematický vzorec pro náhodný proces generující data v populaci ˇ v případě lineární regrese musíme tedy přijmout předpoklad o rozložení y ve variantách x, (neboli předpokládat distribuci residuálů na základě určitého algoritmu) ˇ pro spojité znaky v regresi platí, že residuály jsou nezávislé, mají konstantní variabilitu 2 a normální rozložení s =0. 1 ( ; ) n i i L f y = = 1 ln ( ; ) n i i L f y = = AKD TK 18 ODHAD JEDNODUCHÉ LINEÁRNÍ REGRESE - ML ˇ u spojité závisle proměnné přepokládáme, že je generována na základě normálního rozložení (Gaussova distribuce) ˇ pravděpodobnost (hustota) je: ˇ střední hodnota je: ˇ dosazením a pro parametry a dostaneme: ˇ yi a xi jsou dány, zkoumáme pravděpodobnost pro varianty pamametrů a ˇ věrohodnostní funkce L a přirozený logaritmus věrohodnostní funkce ln L: 2 2 2 ( ) ( )1 exp 22 pro -i i p y y y = - - < < ( ) 2 2 1 1 1 ( | , ) exp ( ) 222 n i i i i p y y x = = - - + ( ) 2 22 1 1 1 ( , ) exp ( ) 22 n i i i L y x = = - - + ( ) 22 2 1 1 ln ( , ) ln(2 ) ( ) 2 2 n i i i n L y x = = - - - + ix = + AKD TK 19 MLE A ZOBECNĚNÉ LINEÁRNÍ MODELY (GLM) ˇ ln L je součet všech pravděpodobností (hustot), která mají jednotlivé hodnoty x při daných parametrech ˇ cílem MLE je najít takové parametry, které maximalizují tento součet (je co nejblíže 0), v ideálním případě se tento součet = 0, všechna x leží na přímce a při daných parametrech mají ln hodnoty pravděpodobnosti (hustoty) 0 (exp0 = 1) ˇ odhad koeficientů na základě MLE je totožný s odhade koeficientů na základě OLS, největší hodnoty ln L dostaneme, když je v části vzorce (yi ­ (+xi))2 rozdíl minimální (yi se co nejvíce blíží ), volíme tedy takové hodnoty parametrů a , aby to platilo, OLS minimalizuje ten samý vztah, nicméně v termínech residuálů y=+x AKD TK 20 MLE A ZOBECNĚNÉ LINEÁRNÍ MODELY (GLM) ˇ když f je počet událostí z N pokusů (tedy pro pravděpodobnost y=1) přijímáme předpoklad binomického rozdělení; po úpravě pro y=0 (událost nenastala) a y=1 (událost nastala) přijímáme Bernoulliho rozdělení ˇ když f je počet událostí v čase (y=1), v místě nebo v rámci sociální skupiny (neznáme ovšem N, či počet událostí, které nenastaly (y=0), přijímáme předpoklad Poissonova rozdělení ˇ všechna tato rozdělení patří do jedné rodiny distribucí (family), které matematicky vyjadřují náhodný proces, který generuje data (podle jejich typu) ˇ na základě těchto rozdělení a s pomocí spojnice (link) mezi závisle a nezávisle proměnnou lze tyto případy zobecnit ˇ hovoříme o zobecněných lineárních modelech (GLM) AKD TK 21 ZOBECNĚNÉ LINEÁRNÍ MODELY ˇ lineární prediktor vi pro každou jednotku je: xi iv = ˇ spojnice (link function) ˇ podmíněné distribuce (exponential family): 1 exp( ) ln 1 exp( ) 1 exp( ln( ( ( i i i i i i i i i i i i i i i i v v v v v v v v - = = = = + - = = = = = = Identity: Logit: Log: ) ) Probit: ) ) ( ) 2 22 ( ) ( ) 1 ( ) exp 22 ! (1 ) ! ! ! Gaussian: Binomial: Poisson: Gamma: y N y y y P y P y y N y N y e y - - = = = - - - - AKD TK 22 ZOBECNĚNÝ LINEÁRNÍ MODEL (GLM) ˇ jednoduchý regresní model je definován jako strukturní model: kde Xi je vektor hodnot pro i-té pozorování, ß je vektor parametrů a e je chyba. ˇ statistický model je ve většině případů obsahuje: - fixní část (fixed part, systematic component), která popisuje vztah mezi proměnnými, které nás zajímají (tento vztah je obvykle lineární, a proto umožňuje zodpovědět otázku, jak proměnná X ovlivňuje Y - náhodná část (random part, random component), jedná se o (reziduální) variaci vysvětlované proměnné, která je predikována na základě fixní části i i iY X e= + AKD TK 23 TYPY ZOBECNĚNÝCH LINEÁRNÍCH MODELŮ Fixní část Link Náhodná část Model spojitá identity normální regresní model kategorizovaná identity normální ANOVA mix identity normální ANCOVA mix logit binomická logistická regrese mix log poisson loglineární analýza mix zobecněný logit multinomická multinomická logistická regrese AKD TK 24 ZOBECNĚNÉ LINEÁRNÍ MODELY (POKR.) ˇ stata syntaxt pro GLM glm depvar varlist, family( ) link( ) kde Family Default Link(spojnice) Other link gaussian identity xb binomial logit exp(xb)/(1+exp(xb)) probit, c-log-log poisson log exp(xb) gamma log exp(xb) 1/xb AKD TK 25 CO JE DOBRÝ STATISTICKÝ MODEL? ˇ dobrý statistický model je: - je přesný (očekávané četnosti, variabilita, podmíněný průměr) se co nejméně liší od pozorovaných četností, variability, podmíněného průměru) - je úsporný (obsahuje co nejméně parametrů, vysvětlujících proměnných) ˇ koncept přesnosti (accuracy) = statistická kritéria X2 , L2 ˇ koncept úspornosti (parsimony) = stupně volnosti (d.f. degrees of freedom) ˇ saturovaný model (obsahuje všechny vysvětlující proměnné a vztahy mezi nimi) je přesný (očekávané = pozorované četnosti, X2 a L2 = 0, df = 0), ale není úsporný (je to parametrizace pozorovaných četnosti, nic nevysvětluje) ˇ model (podmíněné) nezávislosti (obsahuje obvykle minimum proměnných a vztahů mezi nimi), je úsporný, ale obvykle není přesný (rozdíl mezi očekávanými pozorovanými četnostmi je velký, X2 & L2 vysoké, df vysoké, málo parametrů na explanaci) AKD TK 26 PRINCIPY STATISTICKÉHO MODELOVÁNÍ ˇ v modelování výzkumník obvykle postupuje tak, že hledá model (v případě, že model (podmíněné) nezávislosti na data nepadne), který se nachází někde mezi saturovaným modelem a modelem nezávislosti ˇ modelování je hledání optimálního poměru mezi přesností a úsporností (logika Occamovy břitvy) ˇ cílem je najít co nejúspornější model, který má co nejméně vysvětlujících proměnných, který ovšem stále ještě uspokojivě vysvětluje strukturu dat ˇ důvod minimalizace vysvětlujících proměnných v modelu - numerická stabilita - snadná zobecnitelnost a aplikovatelnost ˇ dva možné postupy statistického modelování - začneme saturovaným modelem a postupně vylučujeme proměnné (snižuje se přesnost, ale roste úspornost) (backward elimination in stepwise regression) - začneme modelem (podmíněné) nezávislosti a postupně přidáváme proměnné (snižuje se úspornost, ale roste přesnost) (forward addition in stepwise regression), - v obou případech je kritériem pro proměnnou v modelu statistická významnost (obvykle 95%), problém hranice! ˇ dobrá teorie je základem pro oprávněnost nebo neoprávněnost proměnných v modelu AKD TK 27 VZTAH MEZI PŘESNOSTÍ A ÚSPORNOSTÍ V SCLG. VÝZKUMU ˇ každý zkoumaný (výběrový) soubor je definován obsahem a rozsahem - obsah: zkoumaný počet společných znaků u jednotek, konkrétnost, přesnost - rozsah: počet jednotek, úspornost ˇ větší obsah znamená větší počet znaků u jednotky, větší přesnost ve vymezení jednotky, nicméně to znamená vymezení menšího počtu jednotek (maximální počet znaků = 1 jednotka), ˇ větší rozsah, více zkoumaných jednotek, znamená menší počet znaků u jednotky (maximální rozsah = 1 znak) např. lidé přesnost úspornost např. znaky: - rodina - velikost rodiny - úplnost rodiny - stáří partnerů - stáří dětí - typ domácnosti - atd. Když roste přesnost zmenšuje se úspornost (rozsah) a naopak AKD TK 28 REGRESNÍ MODELY PRO KATEG. ZÁVISLE PROMĚNNOU ˇ v případě kategorizované závisle proměnné regresní model nelze použít ˇ podle typu závisle proměnné volíme: - binární logistickou regresi - závisle proměnná má dvě varianty - ordinální logistickou regresi - závisle proměnná více uspořádaných variant - nominální (multinomickou) logistickou regresi - závisle proměnná více variant Shrnutí jednotlivých typů analýzy: Závisle proměnná Nezávisle proměnná Typ analýzy spojitá spojitá regrese, korelační analýza spojitá kategorizovaná regrese, ANOVA dichotomická (binární) kategorizovaná logit/probit, loglinear dichotomická (binární) spojitá logit/probit neuspořádaná polytomická kategorizovaná loglinear, mlogit neuspořádaná polytomická spojitá mlogit uspořádaná polytomická kategorizovaná ologit/oprobit, loglinear uspořádaná polytomická spojitá ologit/oprobit tabulková data (poměry) kategorizovaná loglinear censored duration data spojitá, kategorizovaná loglinear, logit/log-log AKD TK 29 Lekce 5: Modely pro binární závisle proměnnou AKD TK 30 LINEÁRNÍ PRAVDĚPODOBNOSTNÍ MODEL - LPM ˇ závisle proměnná je kategorizovaná, má dvě varianty (obvykle 0 - jev nenastal, 1 - jev nastal), nezávisle proměnné mohou být jak kategorizované, tak spojité ˇ klasický regresní model se známými předpoklady je: ˇ LPM je modelován jako výskyt podmíněné pravděpodobnosti yi při daném xi ˇ rovnice modelu je: kde očekávaná četnost yi při daném xi je pravděpodobnost, že yi = 1 (jev nastal), když je dáno xi. ˇ problémy při identifikaci modelu - heteroskedasticita - normalita - nereálné predikce (>1; <0) - funkcionální forma xi i i y e = + + Pr( 1| )i i i i y x X = = = + AKD TK 31 FUNKČNÍ ZÁVISLOST VYSVĚTLOVANÉ PROMĚNÉ U LPM AKD TK 32 NELINEÁRNÍ PRAVDĚPODOBNOSTNÍ MODEL (NPM) - LOGIT ˇ transformační přístup ˇ dvě transformace ve vysvětlované binární proměnné u lineárního pravděpodobnostního modelu před odhadem parametrů - první transformace do šancí, podmínka splňuje, že predikované hodnoty budou v intervalu <0;>; - druhá transformace na přirozený logaritmus šancí, podmínka splňuje, že šance se nacházejí v intervalu <­;> ˇ přirozený logaritmus šancí je nazván v teorii GLM jako LOGIT a model je lineární, ovšem v transformované (logitové) podobě pro Pr(y=1), a nelineární pro pravděpodobnost Pr(y=1), hovoříme pak o nelineárním pravděpodobnostním modelu (NPM) Pr( 1| ) Pr( 0 | ) 1 y x y x = = = - ln 1 - AKD TK 33 NPM-LOGIT MODEL ˇ rovnice logistické regrese (model je lineární jako logit) ˇ pravděpodobnost Pr(y=1) je ovšem již na základě takto specifikovaného modelu nelineární ˇ distribuce chyb ˇ stata syntax odhadu binárního logitového modelu v GLM glm depvar varlist, family(binomial) link(logit) ˇ stata syntax odhadu binárního logitového modelu logit depvar varlist logistic depvar varlist nl 1 i i i X = + - ( ) ( ) exp 1 exp i i X i X + + = + AKD TK 34 NPM-PROBIT MODEL ˇ cdf (kumulativní distribuční funkce) splňuje požadavek rozmezí pravděpodobnosti <0;1>, transformací závisle proměnné do této podoby dostaneme probitovou regresi (model je lineární jako probit) ˇ pravděpodobnost Pr(y=1) je ovšem již na základě takto specifikovaného modelu nelineární ˇ distribuce chyb ˇ stata syntax odhadu binárního probitového modelu v GLM glm depvar varlist, family(binomial) link(probit) ˇ stata syntax odhadu binárního probitového modelu probit depvar varlist 2 1 exp ( ) 22 iX i i t dt X + - = - = + 1 2 11 exp 22 iX i i i t dt X -+ - - - = = + AKD TK 35 NPM - KOMPLEMENTÁRNÍ LOG-LOG MODEL ˇ komplemetárního log-log modelu je další variantou transformace závisle proměnné, které je pak lineárním vyjádřením parametrů: ˇ pravděpodobnost y=1 je pak vyjádřena jako nelineární funkce: ˇ distribuce chyb ˇ stata syntax odhadu binárního komplementárního log-log modelu cloglog depvar varlist ln( ln[1 ])i i X - - = + 1 exp[ exp( )]i i X = - - + AKD TK 36 DISTRIBUČNÍ FUNKCE LOGIT, PROBIT A LOG-LOG MODELU ˇ predikované hodnoty Pr(y=1|x) podle logitového, probitového a komplementárního log- log modelu, logit a probit podobné, kompl. log-log model dává substantivně odlišné výsledky AKD TK 37 MAXIMÁLNĚ VĚROHODNÝ ODHAD (MLE) ˇ binomická pravděpodobnostní funkce pro y úspěchů, při pravděpodobnosti na úspěch , v N pokusech je: ˇ známe matematický vzorec pro určení pravděpodobnosti (vzorec pro náhodný proces, který generuje data) a chceme znát pravděpodobnost určitého výsledku (např. 3 mužů, ve vzorku n=10, při =0.5) ˇ typický problém: ve statistice známe výsledek y a n, neznáme ovšem parametr , který musíme z informací ve výběru odhadnout ˇ binomická věrohodnostní funkce je: ˇ věrohodnostní funkce ukazuje, jak je pravděpodobné, že budeme pozorovat data, která pozorujeme při hodnotách určitých parametrů ˇ maximálně věrohodný odhad je potom taková hodnota parametru, která s nejvyšší pravděpodobností (nejvěrohodněji) generuje pozorovaná data ( ) Pr( | , ) (1 )y n yn f y n y - = = - ( ) ! ! ! n n y y n y = - E( ) Var( ) (1 )y n y n = = - ( ) Pr( | , ) (1 )i i ii y n y i i i i i i i n L f y n y - = = = - AKD TK 38 ODHAD LOGITOVÉHO MODELU (WLS, MLE) ˇ WLS (odhad pomocí Weighted least square), glogit (používá se velmi zřídka) ˇ MLE je nezbytné použít, protože efekt nezávisle proměnných na závisle proměnnou není lineární, residuály nemají normální distribuci a pro hodnoty nezávisle proměnné není jejich variance konstantní (glm, logit, logistic) ˇ cílem MLE je nalézt koeficienty nezávisle proměnných, které generují data, jež co nejvíce odpovídají pozorovaným datům, to lze provést pomocí maximalizace věrohodnostní funkce; kde L je hodnota věrohodnostní funkce; pi je predikovaná pravděpodobnost pro případ i podle vzorce pi = eLOGIT /(1+ eLOGIT ); yi je hodnota nezávisle proměnné pro případ i, je multiplikativní ekvivalent (funkce je výsledkem násobení hodnot pro každý případ) ˇ klíčové je identifikovat koeficienty nezávisle proměnných, které produkují LOGIT a zároveň tak p, čím maximalizují L [ ](1 1 ) ( ) 1 ( ) ii n yy i i i L x x - = = - [ ](1 1 ) (x ) 1 (x ) ii n yy i i i L F F - = = - binomický koeficient i i n y není nutné v rovnici použít, protože pouze konstantně násobí odhad parametrů AKD TK 39 ODHAD LOGITOVÉHO MODELU (MLE) ˇ numericky je ovšem snazší pracovat s přirozeným logaritmem věrohodnostní funkce (vyhneme se multiplikaci pravděpodobností a extrémně nízkým kladným číslům) ˇ když věrohodnostní funkce maximalizuje pravděpodobnost, tak její přirozený logaritmus maximalizuje přirozený logaritmus pravděpodobnosti ˇ zatímco L variuje <0;1>; ln L variuje <­;0>, čím blíže je L 1 nebo čím blíže je ln L 0, s tím větší věrohodností parametry modelu generují pozorovaná data, jedná se o maximalizaci věrohodnostní funkce nebo o maximalizaci přirozeného logaritmu věrohodnostní funkce [ ] [ ]{ } 1 ln ln ( ) (1 ) ln 1 ( ) n i i i i i L L y x y x = = = + - - { } 1 ln ln (x ) (1 ) ln[1 (x )] n i i i i i L L y F y F = = = + - - AKD TK 40 OBECNÝ POSTUP PŘI ODHADU POMOCÍ MLE 1) volba koeficientů u nezávisle proměnných, 1 iterace obsahuje obvykle pouze (např. ve Statě) nebo koeficienty odhadnuté na základě OLS, další varianty koeficientů se již vybírají na základě iterací 2) výpočet predikovaného LOGITU na základě zvolených koeficientů , a případu xi 3) transformace LOGITU do pravděpodobnosti pi podle vzorce pi = eLOGIT /(1+ eLOGIT ) 4) výpočet přirozeného logaritmu hodnoty věrohodnostní funkce pro případ xi 5) opakujeme krok 1 až 4 pro všechny případy xi , sečteme a dostaneme tak hodnotu přirozeného logaritmu věrohodnostní funkce (ln L) pro zvolené koeficienty 6) opakujeme kroky 1 až 5 pro všechny možné varianty kombinací koeficientů a srovnáváme jejich ln L 7) volíme tu variantu kombinace koeficientů, která má nejvyšší hodnotu ln L (nejblíže 0) ˇ konečná hodnota ln L ukazuje míru věrohodnosti, že dostaneme pozorovaná data, při daných koeficientech nezávisle proměnných (parametrech) AKD TK 41 MLE LOGIT MODELU V KONTINGENČNÍ TABULCE ˇ věrohodnostní funkce ˇ přirozený logaritmus věrohodnostní funkce (1 )i i iy n y i i i L - = - [ ] [ ]{ } 1 ln ln ( ) ( ) ln 1 ( ) n i i i i i iL y x n y x = = + - - { } 1 ln ln (x ) ( ) ln[1 (x )] n i i i i i iL y F n y F = = + - - AKD TK 42 STATISTICKÁ INFERENCE NPM ˇ podobné jako v regresní analýze (OLS) ˇ podíl koeficientů nezávisle proměnných a standardní chyby (SE) je základem testu významnosti (z distribuce) ˇ statistická významnost koeficientů označuje pravděpodobnost, že velikost výběrových koeficientů je náhodná, když populační parametry odpovídají 0, v sociálních vědách si obvykle necháváme rezervu 5% pro náhodu ˇ pro spolehlivost testu významnosti by N>100 z SE = AKD TK 43 KOMPLEXNĚJŠÍ TESTY VÝZNAMNOSTI ­ WALDŮV TEST ˇ oboustranný test významnosti jednotlivých koeficientů nebo jejich simultánního efektu ˇ Waldův test je umocněná t-statistika (t-ratio) a odpovídá chí-kvadrát distribuci rozdělení pravděpodobností ˇ test jednoduché nulové hypotézy (1 = 0), ˇ test komplexnější nulové hypotézy (1 = 2 = 0) nebo (1 = 2 = 3 = 4 = 0) ˇ Waldův test je postaven na omezování jednoho nebo více odhadnutých parametrů v jednom odhadnutém modelu (testujeme např. nulovou hypotézu, podle níž efekt 1 = 0 a 2 = 0, nebo nulovou hypotézu, podle níž 1 = 2), když p0.05, tak toto omezení není náhodné ˇ u Waldova testu není nutné odhadovat 2 modely, jako je tomu u lrtestu ˇ stata syntax .logit chd age age2 sex .test age2 .test age2 age .test age2=age 2 x W SE = AKD TK 44 KOMPLEXNĚJŠÍ TESTY VÝZNAMNOSTI ­ LRTEST ˇ test významnosti komplexnějších hypotéz o odhadnutých koeficientech (např. test významnosti simultánního efektu více regresorů) ˇ základem je porovnání dvou maximalizovaných hodnot věrohodnostních funkcí z různých modelů ˇ notace: M0 ln(L0)... základní model (baseline model), nejúspornější, obsahuje pouze konstantu (predikovanou průměrnou pravděpodobnost pro všechny případy), L0 je nejnižší MF ln(LF)... plný (navržený) model (full model), přesnější než M0, obsahuje pouze konstantu + další koeficienty, LF je vždy vyšší než L0 , protože se jedná o krok k přesnosti Ms ln(Ls)... saturovaný model, nejpřesnější model, úspornost nejnižší, obsahuje všechny možné koeficienty a varianty vztahů mezi nimi, Ls = 0 ˇ hodnota ln(L) ukazuje ln věrohodnosti, s níž naměříme data při daných koeficientech (čím blíže 0, tím větší věrohodnost), je to tedy odchylka od saturovaného modelu ˇ hodnota ln(L) závisí na N - čím vyšší N, tím nižší ln(L) - a počtu parametrů, posoudit její velikosti je proto nutné skrze standardizovaný algoritmus ˇ tím je test poměru maximální věrohodnosti (likelihood ratio test), krátce LRTEST (v loglineárním modelování L2 někdy také G2 ) AKD TK 45 KOMPLEXNĚJŠÍ TESTY VÝZNAMNOSTI ­ LRTEST LF je vždy větší než LO, má více koeficientů, je blíže saturovanému modelu ˇ násobíme 2 nebo ­2, dostaneme tak hodnotu chí-kvadrátu s d.f. [df= df(MF)­ df(MO)], které odpovídají počtu nezávisle proměnných, srovnání této hodnoty s tabulkovou hodnotou X2 rozdělení testuje nulovou hypotézu, že všechny koeficienty s výjimkou konstanty se rovnají 0 (změna v hodnotě L vyvolaná nezávisle proměnnými je náhodná a zlepšení se signifikantně neliší od 0), když p0.05 podpoříme nulovou hypotézu, dva modely se od sebe signifikantně neliší, úspornější model je vhodnější ˇ stejnou logiku aplikujeme na porovnání jakýchkoliv dvou modelů a testujeme významnost změn v (L) podle jednotlivých nezávisle proměnných, jimiž se modely od sebe odlišují 2ln 2 OF O F LL LR L L = = - 2(ln ln ) 2(ln ln )F O O FLR L L L L= - = - - AKD TK 46 rozhodnutí pro Waldův test nebo lrtest je otázkou konvence, neexistuje racionální argument pro jeden z nich, při velkých souborech dostaneme stejné výsledky, většina statistiků preferuje lrtest, i když při jeho použití musíme odhadovat 2 modely KOMPLEXNĚJŠÍ TESTY VÝZNAMNOSTI ­ LRTEST ˇ test jednoduché nulové hypotézy (1 = 0), ˇ test komplexnější nulové hypotézy (1 = 2 = 0) nebo (1 = 2 = 3 = 4 = 0) ˇ základem lrtestu je srovnání (L) (komplexního, plného modelu) s (L) omezeného modelu, který je v něm ,,vsazen" (nested model), testujeme významnosti vynechaných parametrů (d.f. = počet testovaných parametrů) ˇ např. model 1 je ,,vsazen" v modelu 3 (test nulové hypotézy 2 = 3 = 0), model 2 je vsazen v modelu 3 (test 2 = 0), model 2 je vsazen v modelu 3 (test 2 = 0) ˇ celkové N při lrtestu musí být pro všechny modely stejné, jinak je lrtest neplatný ˇ stata syntax .logit chd age age2 sex .est store A .logit chd age sex .lrtest A .est store B .logit chd sex .est store C .lrtest B .lrtest C A, stats 0 1 1i 0 1 1 3 3i 0 1 1 2 2 3 3i model 1: logit(p )= + x model 2: logit(p )= + x + + x model 3: logit(p )= + x + x + x AKD TK 47 TEST SEDNUTÍ MODELU NA DATA (KOMPARACE MODELŮ) ˇ míry sednutí modelu na data indikují adekvátnost modelu pro popis struktury dat ˇ měr je několik, nicméně obecně platí, že neexistuje racionální evidence pro to, že padnutí/nepadnutí modelu na data podle jedné míry je optimálnější než padnutí/napadnutí modelu na data podle jiné míry ˇ míry padnutí modelu na data musíme vždy používat v kontextu teorie a hypotéz, které testujeme, zvoleného typu analýzy, předchozího výzkumu na dané téma a závěrů, které přinesl, a především vysvětlujících proměnných, jež používáme jako prediktory ˇ příkaz fitstat počítá velké množství statistik testujících padnutí modelu na data ˇ stata syntax logit lfp k5 k618 age wc hc lwg inc fitstat logit lfp k5 k618 age wc hc lwg inc fitstat, saving(mod1) logit lfp k5 k618 age age2 wc hc lwg inc fitstat, using(mod1) AKD TK 48 SEDNUTÍ MODELU NA DATA (KOMPARACE MODELŮ) ˇ většina měr sednutí modelu na data vychází z maximální hodnoty věrohodnostní funkce pro daný model ˇ LRTEST je komparace LF a LO, jak se naměřený model liší od nulového; df = počet proměnných, které obsahuje LF na rozdíl od LO, parametry zde přidávány (adding of parameteres) ˇ D ­ odchylka je komparace LF a LS, jak se naměřený model liší od saturovaného modelu: df=počet případů mínus počet proměnných, parametry jsou zde ubírány (making of constraints in parameteres) ˇ platí vztah: O F SL L L O F F OLR LR D D- = - 2(ln ln ) 2lnF S FD L L L= - - = - AKD TK 49 MÍRY SEDNUTÍ MODELU NA DATA pramen: Long, Freese (2001) AKD TK 50 MÍRY SEDNUTÍ MODELU NA DATA - VARIANTY R 2 ˇ pseudo R2 , neboli McFaddenovo R2 ,či také někdy index věrohodnostního poměru ukazuje zlepšení v ln LF vzhledem k ln LO, nabývá hodnot <0;1>, nevysvětluje ovšem variaci v závisle proměnné, která je dána nezávisle proměnnými, protože ln L není o variaci definované jako suma 2 ˇ další varianty koeficientu determinace: R2 maximální věrohosnoti; Craggovo & Uhlerovo R2 , Efronovo R2 ˇ frekvenční (count) a adjustované frekvenční R2 ukazuje srovnání pozorovaných dat a na základě modelu predikovaných dat (příkaz lstat ve statě), ukazuje chybu s jakou je model predikován 2 ln pseudo 1 ln F O L R L = - AKD TK 51 FREKVENČNÍ A ADJUSTOVANÉ FREKVENČNÍ R 2 lstat Logistic model for lfp -------- True -------- Classified | D ~D | Total -----------+--------------------------+----------- + | 342 145 | 487 - | 86 180 | 266 -----------+--------------------------+----------- Total | 428 325 | 753 Classified + if predicted Pr(D) >= .5 True D defined as lfp != 0 -------------------------------------------------- Sensitivity Pr( +| D) 79.91% Specificity Pr( -|~D) 55.38% Positive predictive value Pr( D| +) 70.23% Negative predictive value Pr(~D| -) 67.67% -------------------------------------------------- False + rate for true ~D Pr( +|~D) 44.62% False - rate for true D Pr( -| D) 20.09% False + rate for classified + Pr(~D| +) 29.77% False - rate for classified - Pr( D| -) 32.33% -------------------------------------------------- Correctly classified 69.32% -------------------------------------------------- - kdc njj je počet správných predikcí na základě modelu pro výsledek j - kde nr+ je řádková četnost pro řádek r 2 jj j count n R N = 2 max( ) max( ) jj r r j Adj count r r n n R N n + + - = - AKD TK 52 MÍRY SEDNUTÍ MODELU NA DATA - INFORMAČNÍ KRITÉRIA ˇ účelem informačních kritérií není určit, který model je pravdivější, ale který model podává bohatší informaci o reálném světě, který model má větší vypovídací schopnost o realitě - AIC (Akaikeovské informační kritérium) (Akaike, 1987) - BIC (Bayesovské informační kritérium) (Schwartz, 1978; Raftery, 1986, 1995) ˇ čím negativnější velikost BIC (čím větší zápornější číslo), tím více informací model přináší o realitě, obecně platí, že je-li BIC>0, souvislost v datech není a platí saturovaný model ˇ tyto statistiky upřednostňují úspornost před přesností, platí: ( 2ln 2 ) /FAIC L P N= - + kde P = počet parametrů (regresorů) + 1 lnDBIC D df N= - 2 lnLRBIC LR df N = - 1 2 1 2BIC BIC BIC BIC - = -