ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII Tomáš Katrňák Fakulta sociálních studií Masarykova univerzita Brno AKD TK 2 Lekce 1: Úvod do analýzy kategorizovaných dat AKD TK 3 SOCIOLOGIE A STATISTIKA ˇ nadindividuální společenské struktury podmiňují lidské chování (Durkheim) ˇ společenské struktury lze pozorovat na základě statistik o lidském chování, pozorujeme novou skutečnost, z individuálního hlediska nerozpoznatelnou, ptačí perspektiva, vymezuje a zároveň přináší informaci o tzv. hromadném jevu - hromadný jev je kolektivita nového řádu, její objevení souvisí s konstitucí moderní společnosti a ustavením sociologie a statistiky jako věd o sociálním životě v moderní společnosti ˇ hromadný jev je definován dostatečným počtem zkoumaných jednotek, protože až na základě určitého počtu (mnohosti) lze získat představu o pravidelnosti, struktuře a zákonitostech v sociálním životě (opakem je individuální jev) - kde vznikají sociální fakta, když nepramení z psychiky člověka, ačkoliv jsou její nedílnou součástí? ptá se Durkheim - zdroje sociálních faktů leží v sociálních vazbách mezi lidmi, leží tedy v nadindividuálních sociálních strukturách, odpovídá Durkheim ˇ z tohoto důvodu sociologové pro pochopení sociálního života zkoumají nadindividuální sociální struktury, statistika a statistický aparát jim v tom pomáhají AKD TK 4 ZÁKON VELKÝCH ČÍSEL ˇ sociální jev je vždy hromadný jev, adjektivum sociální odkazuje k hromadnosti a sociálním vazbám (Simmel) ˇ všechny jevy (včetně sociálních) podléhají zákonu velkých čísel (jako první jej definoval francouzský matematik a statistik Poisson) - podle tohoto zákona se empirické údaje o jevu blíží skutečnosti s rostoucím počtem pozorovaných jednotek (když pozorujeme všechny jednotky, pozorujeme skutečnost), pravidelnost a pravá podstata jevu tedy vyvstává na povrch s rostoucím počtem pozorovaných případů AKD TK 5 PROMĚNNÉ A JEJICH DĚLENÍ ˇ podle slovního vyjádření hodnot proměnných: - kvantitativní proměnné (diskrétní & spojité) - kvalitativní proměnné ˇ podle vztahů mezi hodnotami jednotlivých proměnných: - nominální (název variant) - ordinální (název variant + uspořádání vertikální nebo horizontální) - kardinální (název variant + uspořádání + vzdálenost) ˇ ˇ intervalové (o kolik je jedna hodnota větší než druhá), <-; >, neexistuje racionální 0 (např. teplota ve °C, 0 neznamená nepřítomnost teploty) poměrové (kolikrát je jedna hodnota větší než druhá) <0; >, 0 má racionální základ (např. věk, počet dětí, váha, životnost výrobku atd.) ˇ hranice mezi jednotlivými proměnnými nejsou neprůchodné, záleží na úhlu pohledu, např. členství v politické straně (nominální, ordinální) nebo vzdělání (nominální, ordinální, kardinální) ˇ proměnné vyššího řádu měření lze převést do nižšího řádu měření (tzv. ordinalizace nebo nominalizace proměnných) AKD TK 6 PROMĚNNÉ A JEJICH DĚLENÍ ˇ pod hlavičku kategorizované proměnné řadíme nominální, ordinální a kardinální poměrové proměnné ˇ kategorizované proměnné dělíme podle počtu variant: - dichotomické (binární, alternativní) - polytomické (vícekategoriální) ˇ ˇ uspořádané kategorie (vertikálně, horizontálně) neuspořádané kategorie (nominální proměnné) AKD TK 7 TRANSFORMAČNÍ PŘISTUP VS. PŘÍSTUP LATENTNÍ PROMĚNNÉ ˇ dva přístupy v konceptualizaci kategorizovaných dat: - kategorizovaná data jsou inherentně diskrétní proměnné (nelineární pravděpodobnostní modely), statistika a biostatistika, transformační přístup ke kategorizovaným datům ˇ ˇ výběrové varianty znaků a populační parametry se shodují, data modelujeme v měřené podobě, p (pravděpodobnost) závisle proměnné transformujeme do podoby lineární funkce nezávisle proměnných, tato funkce se nazývá spojnice (link), modely transformované do lineárních modelů spojnicemi se nazývají zobecněné lineární modely (GLM) (p je pak vyjádřena jako nelineární pravděpodobnostní model) - kategorizovaná data jsou nepozorované latentní proměnné (hovoří se o modelech latentních proměnných), tento přístup najdeme v ekonometrii a psychometrii, jedná se o tzv. přístup ke kategorizovaným datům jako k latentním proměnným v populaci jsou kategorizovaná data kontinuální proměnné, pozorujeme je ovšem jako kategorizované (např. u proměnné dítě pozorujeme pouze dvě varianty, nicméně v populaci je to kontinuální proměnná, která když překročí určitou míru, tak pozorujeme její manifestaci), rozdíl mezi kontinuálními daty a kategorizovanými daty je v míře pozorovatelnosti, u kategorizovaných dat nevidíme jednotlivé hodnoty, ale pouze intervaly (proto se kategorizovaná data někdy nazývají jako omezené závisle proměnné), v populaci existují tendence, sklon a míra tolerance, přímo úměrné investicím a výnosům, pozorujeme pak jejich projevy skrze překročení míry tolerance AKD TK 8 TRANSFORMAČNÍ PŘISTUP VS. PŘÍSTUP LATENTNÍ PROMĚNNÉ ˇ debata o povaze kategorizovaných dat se táhne historií statistického uvažování (její počátek leží ve sporu K. Pearsona (latentní struktura) a G. U. Yulea (inherentní diskrétnost) v první polovině 20. stol., dodnes tato debata není uzavřená, z obou dvou přístupů vycházejí odlišné numerické algoritmy k identifikaci modelů se závisle kategorizovanou proměnnou, jejich výsledky jsou nicméně totožné ˇ o kterých z následujících proměnných lze uvažovat jako o latentních? - úspěch u zkoušky, souhlas s předmanželským sexuálním životem, pohlaví, participace na trhu práce, rodinný stav, přijetí na VŠ, sociální status, gravidita, četba časopisu Respekt, zaměstnanecká mobilita - u latentní proměnné y* předpokládáme, že je lineárně závislá na pozorované proměnné x, strukturním vztahem vyjádřeno: y* = xi+i nebo pro jednoduchou proměnnou vyjádřeno vztahem y* = +xi+i AKD TK 9 INDIVIDUÁLNÍ A AGREGOVANÁ DATA ˇ individuální data - ukazují varianty znaků pro jednotlivá pozorování - jednotlivé případy charakterizuje vždy jedna varianta zkoumané proměnné - data jsou prezentována obvykle ve formě matice, v níž vždy jeden řádek odpovídá jednomu pozorování (případu) a jeden sloupec vždy jedné proměnné (znaku), pole matice pak zachycují varianty proměnných u jednotlivých pozorování (případů) ˇ agregovaná data - ukazují počet opakujících se pozorování - jednotlivé kombinace variant proměnných jsou charakterizovány počtem případů - data jsou prezentována obvykle ve formě kontingenční tabulky, v řádcích a sloupcích tabulky jsou zkombinovány varianty proměnných, v polích tabulky jsou četnosti pozorování (počty případů) těchto variant AKD TK 10 AGREGOVANÁ DATA A JEJICH ANALÝZA POMOCÍ STATY ˇ fully relational format of data - každé pole tabulky odpovídá jednomu pozorování, pole tabulky jsou v matici soustředěné pod jednu proměnnou ˇ folded (grouped) format of data - pozorování je o polovinu méně než polí v tabulce, nicméně pozorování jsou soustředěná pod dvě proměnné (tedy do šířky matice) ˇ příklad: Age through 54 Age through 55 and above tolbutamine placebo tolbutamine placebo Dead 8 5 22 16 Surviving 98 115 76 79 (1) fully relational format (2) folded format agecat exposed deaths pop 1. 0 1 8 106 2. 0 0 5 120 3. 1 1 22 98 4. 1 0 16 85 agecat exposed died pop 1. 0 1 1 8 2. 0 1 0 98 3. 0 0 1 5 4. 0 0 0 115 5. 1 1 1 22 6. 1 1 0 76 7. 1 0 1 16 8. 1 0 0 69 ˇ podle typu dat volíme ve Statě syntax výpočtu, např. logit akceptuje (1), blogit akceptuje (2), glogit akceptuje (2), ale odhad není proveden jako ML, ale jako WLS, glm akceptuje jak (1), tak (2), obecně je ve Statě rozšířenější typ dat (1) AKD TK 11 Lekce 2: Analýza dvojrozměrných tabulek v sociologii AKD TK 12 LOGIKA A NOTACE KONTINGENČNÍCH TABULEK ˇ kontingenční tabulky jsou prvním (a nejstarším) krokem k analýze kategorizovaných dat ˇ např. kontingenční tabulka víra v posmrtný život podle pohlaví (zdroj: Agresti 1996:17) -------------------------- očekávané četnosti: F11 F12 F1+ F21 F22 F2+ F+1 F+2 F++ pozorované četnosti: f11 f12 f1+ f21 f22 f2+ f+1 f+2 f++ | víra n11 n12 n1+ n21 n22 n2+ n+1 n+2 N pohlaví | ano ne/neví ----------+--------------- žena | 435 147 muž | 375 134 -------------------------- ˇ ve dvojrozměrné tabulce proměnná x má i úrovní (variant) a proměnná y má j úrovní (variant), pole v tabulce reprezentují ij možné výsledky, neboli velikost tabulky, taková tabulka se nazývá kontingenční tabulka (2 proměnné = dvojrozměrná, 3 proměnné = trojrozměrná, atd.), např. tabulka o rozměrech 2 x 2 (i x j) má 4 pole (4 frekvence), tabulka o rozměrech 3 x 2 x 2 (i x j x k) má 12 polí (12 frekvencí) ˇ fij označuje pozorovanou (naměřenou) četnost v tabulce ˇ Fij označuje očekávanou (vypočítanou) četnost v tabulce za určitého předpokladu AKD TK 13 LOGIKA A NOTACE KONTINGENČNÍCH TABULEK ˇ každé fij v tabulce označuje počet (četnost) případů, které připadají na toto pole tabulky, neboli reprezentuje souběžný výskyt jednotlivých variant proměnných ˇ pomocí tabulkové notace (fij) a frekvenčních vah [fweight= ] můžeme kontingenční tabulky vkládat do statistických programů a analyzovat je ˇ např. pro tabulku víra podle pohlaví použijeme: ---------------------- pohlaví víra frekvence 1 1 435 1 2 147 2 1 375 2 2 134 | víra pohlaví | 1 2 ----------+----------- 1 | 435 147 2 | 375 134 ---------------------- ˇ stata syntax pro dvojrozměrnou tabulku . tabulate pohlavi vira [w= freq] (frequency weights assumed) | vira pohlavi | 1 2 | Total -----------+----------------------+---------- 1 | 435 147 | 582 2 | 375 134 | 509 -----------+----------------------+---------- Total | 810 281 | 1,091 AKD TK 14 PRAVDĚPODOBNOST V KONTINGENČNÍ TABULCE ˇ základní typy pravděpodobnosti pro 2x2 tabulku jsou - celková/sdružená pravděpodobnost (pravděpodobnost výskytu jednotky v i-té variantě proměnné X a zároveň j-té variantě proměnné Y), označení ij pro populaci a označení pij pro výběr (platí, že ij = 1, pij = 1, výpočet pij = nij / N) - marginální pravděpodobnost (pravděpodobnost, že jednotka nabude i-té varianty X (nebo Y) bez ohledu na Y (nebo X), v tabulce jsou tyto pravděpodobnosti v posledním řádku nebo sloupci, označení pi+ (i+) řádková proměnná, p+j (+j) sloupcová proměnná (platí p+1 = p11 + p12 , výpočet p+j = n+j / N) - podmíněná pravděpodobnost (relativní řádková, sloupcová pravděpodobnost), konstruujeme v případě, že rozlišujeme nezávisle (vysvětlující) a závisle (vysvětlovanou) proměnnou, např. Y podle X, jedná se o pravděpodobnost Y v každé variantě X, označení pi/j nebo pj/i (i/j, j/i) (platí, že pi/j = 1, výpočet např. p1/1 = n1/1 / n1/+) ˇ ˇ když je nezávisle proměnná v řádcích, počítáme podmíněnou pravděpodobnost v řádcích podle sloupců (interpretace!) když je nezávisle proměnná ve sloupcích, počítáme podmíněnou pravděpodobnost ve sloupcích podle řádků (interpretace!) AKD TK 15 NEZÁVISLOST PROMĚNNÝCH V KONTINGENČNÍ TABULCE ˇ dvě proměnné X a Y jsou statisticky nezávislé tehdy, když podmíněná pravděpodobnost X (Y) je stejná v každé variantě Y (X) ˇ relativní řádková (sloupcová) pravděpodobnost je tedy v každém poli tabulky stejná ˇ např. víra v posmrtný život je nezávislá na pohlaví -------------------------- | víra pohlaví | ano ne/neví ----------+--------------- žena | 0.5 0.5 muž | 0.5 0.5 -------------------------- -------------------------- | víra pohlaví | ano ne/neví ----------+--------------- žena | 0.7 0.3 muž | 0.7 0.3 -------------------------- ˇ výpočet očekávaných četností v dvojrozměrné kontingenční tabulce: .i j ij f f F f + + + + = - očekávané četnosti ukazují rozložení případů v tabulce za situace statistické nezávislosti mezi proměnnými X a Y AKD TK 16 NEZÁVISLOST PROMĚNNÝCH V KONTINGENČNÍ TABULCE ˇ pro test statistické nezávislosti mezi proměnnými v kontingenční tabulce se používá Pearsonův chí-kvadrát test (X2 ) se stupni volnosti (i - 1) (j - 1) 2 2 1 1 ( )I J ij ij i j ij F f F = = - = ˇ dále se používá Poměr maximální věrohodnosti (L2 , někdy G2 ), či věrohodnostní poměr, se stejným počtem stupňů volnosti (i - 1) (j - 1) 2 1 1 2 ln I J ij ij i j ij f L f F= = = ˇ protože Fij - fij nazýváme reziduály, měří X2 a L2 sednutí modelu nezávislosti na data, tedy odchylku očekávaných četností od pozorovaných, odpovídají na otázku, jak moc se model liší od dat? Obě tyto statistiky mají stejnou x2 distribuci, každá z nich má ovšem své výhody a nevýhody (X2 se používá spíše při souborech s malým N) AKD TK 17 NEZÁVISLOST PROMĚNNÝCH V KONTINGENČNÍ TABULCE ˇ příklad: pozorované četnosti a výsledky testu X2 -------------------------- | víra Pearson chi2(1) = 0.1621 Pr = 0.687 Likelihood-ratio chi2(1) = 0.1620 Pr = 0.687pohlaví | ano ne/neví ----------+--------------- žena | 435 147 Odhadnutý model nezávislosti se statisticky významně neliší od dat (df=1), proto tento model můžeme přijmout a konstatovat, že proměnné pohlaví a víra spolu nesouvisejí | 432.1 149.9 | 0.019 0.056 muž | 375 134 | 377.9 131.1 | 0.022 0.064 -------------------------- ˇ adjustované reziduály (AR): ukazují rozdíly mezi fij a Fij, je to jedno číslo pro každé tabulkové pole, tyto čísla jsou mezi sebou komparovatelná (logika výpočtu: Pearsonův residuál (fij - Fij / Fij 2 ) dělený odhadnutou standardní chybou), cílem AR je lépe porozumět struktuře dat (1 )(1 ) ij ij ij i j f F AR F p p+ + - = - - hodnota AR > 2 nebo 3 indikuje odmítnutí Ho o tom, že neexistují statistické rozdíly mezi fij a Fij (jsou v mezích náhody) ˇ AKD TK 18 ASOCIACE V KONTINGENČNÍ TABULCE - RELATIVNÍ RIZIKO (RR) ˇ pro dichotomickou závisle proměnnou v kontingenční tabulce stačí znát pouze podíl p pro jednu variantu, pro druhou variantu je podíl (1-p), je to doplnění do čísla 1 ˇ obecně platí, že pro závisle proměnnou s J-kategoriemi je J-1 podílů neredundantních ˇ relativní riziko (RR) je poměr podmíněných podílů (poměr relativních řádkových nebo sloupcových četností) 2|1 2|2 2|1 1|1 1|2 1|1 (1 ) ; zbytek (1 ) p p p RR RR p p p - = = = - ˇ RR je vždy kladné číslo, 1 znamená nezávislost Y na X (p2|2= p1|1) ˇ příklad: -------------------------- | souhlas s |předmanž. sexem - RR muži = 74.74 / 30.84 = 2.42; RR pro muže oproti ženám pro variantu ano je 2.42 krát větší, neboli o 142% větší ((2.42-1).100) - RR ženy = 30.84 / 74.74 = 0.41; RR pro ženy oproti mužů pro variantu ne je 0.41 krát menší, neboli o 59% menší ((1-0.41).100) - číslo 1 v obou případech označuje nezávislost a čísla ukazují jednu a tu samou věc, ale naopak - převod na přirozený logaritmus to dokazuje, protože ln(2.43) = - ln(0.41) - ln (2.43) = 0.89; ln (0.41) = -0.89 - číslo 0 v tomto případě označuje nezávislost, obě čísla jsou od 0 ve stejné vzdálenosti, ovšem v opačné směru - např. (5 x 2.42) = 12.1 a (12.1 x 0.41) = 5 pohlaví | ano ne ----------+--------------- žena | 165 370 | 30.84 69.16 muž | 435 147 | 74.74 25.26 -------------------------- AKD TK 19 ODDS RATIO (OR) - POMĚR ŠANCÍ ˇ OR ukazuje asociaci v kontingenčních tabulkách, OR je základním stavebním kamenem loglineárních modelů, OR jsou rovněž důležité pro pochopení logiky logistické regrese - RR je poměr dvou podmíněných pravděpodobností - OR je poměr dvou šancí (odds) ˇ šance (O) je poměr je poměr pravděpodobnosti jedné varianty (události) ke druhé variantě (událost nenastala) ˇ příklad výpočtu šancí: 12 12 (ne/ano) 11 12 21 21 (zeny/muzi) 11 21 (1 ) Odd (1 ) Odd + 1 p p O p p p p O p p p = = - = = => = - -------------------------- | souhlas s |předmanž. sexem pohlaví | ano ne ----------+--------------- žena | p11 p12 muž | p21 p22 -------------------------- ˇ šance ukazuje pravděpodobnost, že se určitá událost stala, je to vždy kladné číslo - 1 znamená stejný výskyt, stejnou šanci pro obě konkurenční události - >1 vyšší šance pro událost (variantu) - <1 nižší šance pro událost (variantu) AKD TK 20 OR - POMĚR ŠANCÍ ˇ příklad výpočtu šancí: - O (muži/ano) = 2.64 (2.64 krát větší šance pro ano u mužů oproti ženám, nebo 264 souhlasů u mužů ku 100 souhlasům u žen, nebo o 164% více pro ano u mužů) - O (ženy/ano) = 0.38 (0.38 krát menší šance pro ano u žen oproti mužům, nebo 38 ano u žen na 100 ano u mužů nebo o 62% méně pro ano u žen) 2.64 odpovídá 0.38 (důkaz - převod na přirozený logaritmus, 0 pak označuje stav nezávislosti) ˇ ˇ tvrzení 2.64 krát více odpovídá tvrzení o 164% více (důkaz: zvolme libovolné přirozené číslo, např. 3, pak platí, že (a) 3 X 2.64 = 7.92 (dostáváme číslo, které je 2.64x větší než zvolené číslo 3) (b) 1% z 3 = 0.03 (c) 0.03 x 164 = 4,92 (d) 3 + 4,92 = 7,92 (dostáváme číslo, které je o 164% větší než zvolené číslo 3) (e) výsledek rovnice (1) = výsledku rovnice (4) AKD TK 21 OR - POMĚR ŠANCÍ ˇ OR se vypočítá jako poměr dvou šancí (rozlišujeme pozorované OR nebo na základě očekávaných četností vypočítané (modelový) OR) p11 1 11 22 11 2221 122 21 12 21 12 22 . . . . p p f fp p p p f f p = = = = 22 2 22 11 11 2221 121 21 12 21 12 11 . . . . F F F F = = = = ˇ OR je kladné číslo, variuje v intervalu <0;>, interpretace závisí na zvolené referenční kategorii, OR > 1 nebo OR < 1 znamená asociaci mezi variantami proměnných, čím větší vzdálenost od 1 tím také větší asociace, OR = 1 znamená nezávislost ˇ 2 hodnoty OR u stejných kategorií reprezentují jednu a tu samou variantu asociace, ovšem v opačném směru (např. OR=4 a OR=0.25) - kontrastní hodnotu asociace dostaneme 1/OR (1/4=0.25 nebo 1/0.25=4), interpretace je stejná jako u šancí (O) nebo u RR - LOR (log-odds-ratio) je přirozený logaritmus poměru šancí, variuje <;>, např. OR = 4, pak LOR = 1,39 (nebo OR=0.25, pak LOR= -1.39) - převod tabulkových četností na ln a výpočet OR! ˇ interpretace OR!, je to vztah 2 šancí, ne poměrů nebo čísel AKD TK 22 OR - POMĚR ŠANCÍ ˇ OR se také někdy nazývá tabulkový poměr (cross-product ratio) ˇ pro 2x2 kontingenční tabulku existuje pouze 1 smysluplný poměr šancí, protože volba jiné referenční kategorie vede ke stejnému OR nebo jemu jinému číselnému vyjádření, které ovšem substantivně znamená stejnou věc ˇ obecně platí, že pro IxJ dimenze v tabulce stačí vypočítat (I-1)(J-1) poměru šancí, zbylé OR odvodíme z již vypočítaných OR ˇ obecně platí: ( 1)( 1) ( 1) ( 1) ( 1..... -1; 1...., -1) . . ij i j ij i j i j i I j J F F F F + + + + = == ˇ v I x J tabulce je mnoho OR, protože každé OR zahrnuje kombinaci 2 řádkových variant jedné proměnné a 2 sloupcových variant druhé proměnné ˇ protože u OR jsou pojaty proměnné symetricky, není nezbytné při jejich výpočtu rozlišovat závisle a nezávisle proměnnou, u RR a jeho interpretaci to bylo nezbytné, protože hodnota RR závisela na tom, zdali jsem RR počítali v první nebo druhé variantě závisle proměnné ˇ vztah mezi OR a RR je: 1 1 1 2 2 2 (1 ) 1 (1 ) 1 p p p OR RR p p p - - = = - - AKD TK 23 OR - POMĚR ŠANCÍ ˇ OR jsou invariantní - k celkovému počtu případů (když změníme velikost N o konstantu C, OR zůstává konstantní) - k řádkové marginální distribuci (když změníme první řádek o konstantu C a druhý řádek o konstantu D, OR zůstává konstantní) . . . .c f d f c f 11 22 11 22 11 22 12 21 12 21 12 21 . . . . . . . . . . . . . . c f c f c f c f f f c f c f c f c f f f = = = - k sloupcové marginální distribuci (když změníme první sloupec o konstantu C a druhý sloupec o konstantu D, OR zůstává konstantní) 11 22 11 22 11 22 12 21 12 21 12 21 . . . . . . . . . . d f f f c f d f c f d f f f = = = 11 22 11 22 11 22 12 21 12 21 12 21 . . . . . . . . . . . . . . c f d f c f d f f f d f c f d f c f f f = = = ˇ z tohoto důvodu se OR využívají především v těch případech, kdy je nutné odhlédnout od marginálních distribucí (např. při analýze mobilitních tabulek) AKD TK 24 Lekce 3: Analýza vícerozměrných tabulek v sociologii AKD TK 25 PARCIÁLNÍ A MARGINÁLNÍ KONTINGENČNÍ TABULKY ˇ vícerozměrné tabulky, problém asociace mezi proměnnými, otázka vztahu mezi dvěmi proměnnými při kontrole třetí proměnné ˇ parciální tabulky - modelování dvojrozměrných tabulek podle třetí proměnné, zobrazujeme vztah mezi X a Y v jednotlivých variantách Z, Z je drženo na stejné hladině, což znamená mapování vlivu X na Y při kontrole Z, je to podmíněná asociace mezi X a Y, protože je kontrolována pro Z ˇ otázka: zmizí vztah mezi X a Y při kontrole pro Z, nebo stále existuje? ˇ marginální tabulky - dvojrozměrné tabulky, nebereme zřetel na třetí nebo další proměnné, parciální tabulky jsou zkombinovány do dvojrozměrné marginální tabulky, každé pole v tabulce je pak sumou toho samého pole v jednotlivých parciálních tabulkách AKD TK 26 PARCIÁLNÍ A MARGINÁLNÍ KONTINGENČNÍ TABULKY ˇ Jaký je vztah mezi barvou pleti opakovaně obžalovaných z vraždy, uvalením trestu smrti na ně a barvou pleti jejich oběti? Neboli, jak poznamenává barva pleti u opakovaně obžalovaných rozhodnutí o jejich trestu smrti při kontrole barvy pleti oběti? (data pocházejí z amerického státu Florida, byla sebraná mezi lety 1976-1987, Agresti 1996, str. 56) Trest smrti Oběť Obžalovaný Ano Ne (%) Ano Běloši 53 414 11,3 Běloši Černoši 11 37 22,9 Běloši 0 16 0 Černoši Černoši 4 139 2,8 Běloši 53 430 11 Celkem Černoši 15 176 7,9 - co ukazuje marginální tabulka? - co ukazují parciální tabulky? - údaje z marginální tabulky vs. údaje z parciálních tabulek? - OR z marginálního vztahu vs. OR z parciálního vztahu ˇ marginální asociace ukazuje opak parciální (podmíněné) asociace - tato skutečnost se nazývá Simpsonův paradox AKD TK 27 PODMÍNĚNÉ A MARGINÁLNÍ POMĚRY ŠANCÍ (OR) ˇ OR pro vícerozměrné tabulky počítáme jako podmíněné OR v jednotlivých variantách třetí proměnné 11| 22| | 21| 12| . . k k xy k k k f f f f = | 11| 22| 21| 12|ln ln ln (ln ln )xy k k k k kf f f f = + - + ˇ OR pro marginální tabulku 11 11 22 11 2221 12 21 12 21 12 22 . . . . xy p p p f fp p p p f f p = = = 11 22 21 12ln ln ln (ln ln )xy f f f f = + - + AKD TK 28 PODMÍNĚNÉ A MARGINÁLNÍ POMĚRY ŠANCÍ ˇ Dvě marginální tabulky, které ukazují jednak dvě nemocnice, které aplikovaly naprosto stejnou léčbu pro drogově závislé, a jednak výsledky, kterých dosáhly. Drogová Výsledek léčba + ­ A 20 20 B 20 40 Výsledek Nemocnice + ­ Praha 30 20 Brno 10 40 Drogová léčba Nemocnice A B Praha 30 20 Brno 10 40 ˇ proč je drogová léčba A dvakrát úspěšnější než drogová léčba B? - Praha častěji aplikuje léčbu A než Brno a zároveň má také pozitivní výsledky, parciální asociace tuto skutečnost ukazuje; závěr, že A je úspěšnější než B se při kontrole nemocnice ukáže jako falešný (rozdíl mezi A a B mizí) AKD TK 29 HOMOGENNÍ ASOCIACE ˇ homogenní asociace je konstantní asociace mezi dvěma proměnnými v jednotlivých variantách třetí proměnné (stejná velikost podmíněné asociace) - ORxy(1) = ORxy(2) = ..... ORxy(k) ˇ když platí ORxy(1) = ORxy(2) = ..... ORxy(k) , pak platí ORxz(1) = ORxz(2) = ..... ORxz(k); a rovněž ORyz(1) = ORyz(2) = ..... ORyz(k) - homogenní asociace je vždy symetrická pro všechny varianty parciální asociace v jednotlivých variantách dalších proměnných Z, X nebo Y ˇ homogenní asociace znamená, že neexistuje trojrozměrná interakce, Z neovlivňuje vztah mezi X a Y - když homogenní asociace neexistuje, pak podmíněné OR variují podle třetí proměnné AKD TK 30 Lekce 4: Lineární regresní model, zobecněné lineární modely (GLM), principy statistického modelování AKD TK 31 JEDNODUCHÁ LINEÁRNÍ REGRESE ˇ jednoduchá lineární regrese může být pro výběrový soubor zapsána jako: ^ xi i i y a b d= + + ˇ pro populaci je pak zapsána jako: xi i i y e = + + - kde je posunutí (intercept), je směrnice pro jednotlivé varianty x a e je chyba (residuál, odchylka) pozorované proměnné od odhadnuté směrnice ˇ v regresní analýze je hodnota závisle proměnné specifikována jako součet lineárních efektů nezávisle proměné (prediktora) a chyb (residuálů, odchylek, diferencí) AKD TK 32 JEDNODUCHÁ LINEÁRNÍ REGRESE ˇ stata syntaxt pro regresní model regress price mpg headroom trunk weight length Source | SS df MS Number of obs = 74 -------------+------------------------------ F( 5, 68) = 8.38 Model | 242096575 5 48419315.1 Prob > F = 0.0000 Residual | 392968821 68 5778953.25 R-squared = 0.3812 -------------+------------------------------ Adj R-squared = 0.3357 Total | 635065396 73 8699525.97 Root MSE = 2403.9 ------------------------------------------------------------------------------ price | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- mpg | -85.75773 83.60769 -1.03 0.309 -252.5943 81.07882 headroom | -710.1846 444.8546 -1.60 0.115 -1597.878 177.5089 trunk | 111.1498 109.9446 1.01 0.316 -108.2411 330.5408 weight | 4.420511 1.165629 3.79 0.000 2.094535 6.746488 length | -108.0777 42.56471 -2.54 0.013 -193.0142 -23.1411 _cons | 15552.1 6027.182 2.58 0.012 3525.049 27579.16 ------------------------------------------------------------------------------ AKD TK 33 ODHAD JEDNODUCHÉ LINEÁRNÍ REGRESE - OLS ˇ když známe vzorec pro regresi: ^Y a bX= + ˇ tak na základě metody nejmenších čtverců směrnici a posunutí vypočítáme podle vzorců: 1 2 1 ( )( ) ( ) n i i i n i i X X Y Y b X X = = - - = - a Y bX= - ˇ směrnice prochází vždy průměry obou proměnných, a proto posunutí (a) vypočítáme dosazením průměrů do upravené regresní rovnice AKD TK 34 PŘEDPOKLADY LINEÁRNĚ REGRESNÍHO MODELU ˇ odpovídající funkční podoba (linearita a normální rozložení) ˇ minimální výskyt odlehlých pozorování ˇ normální rozložení náhodných chyb (residuálů), problém podoby podmíněné distribuce (např. podmíněné zešikmení) ˇ homoskedasticita (konstantní variabilita) náhodných chyb (residuálů, složek), problém tvaru podmíněné distribuce (např. podmíněná špičatost) ˇ neexistence korelace mezi náhodnými chybami (residuály) a vysvětlujícími proměnnými ˇ neexistence multikolinearity AKD TK 35 STATISTICKÁ INFERENCE V LINEÁRNÍ REGRESI ˇ konfidenční interval CI()...... b t*SEb ˇ test hypotézy HO: = 0, výpočet t statistiky: b b t SE = ˇ tabulkové kritické hodnoty t rozdělení AKD TK 36 ODHAD JEDNODUCHÉ LINEÁRNÍ REGRESE - MLE ˇ cílem MLE (maximálně věrohodného odhadu) je najít takovou hodnotu koeficientu (parametru), který nejvěrohodněji generuje výběrová data ˇ výběrové hodnoty yi jsou výsledkem pravděpodobnostní (hustotní) funkce f(yi|), kde je neznámý parametr, který generuje hodnoty y v populaci ˇ věrohodnostní funkce je pak součin pravděpodobností (hustot) jednotlivých yi: 1 ( ; ) n i i L f y = = 1 ln ( ; ) n i i L f y = = ˇ hledáme takový koeficient (obvykle sadu koeficientů) které maximalizují L, MLE tedy porovnává všechny možné regresní koeficienty a odpovídá na otázku, s jakou věrohodností generují naměřená data, numericky je snazší počítat s přirozeným logaritmem L (hledáme maximum ln L, což odpovídá maximu L) ˇ k maximalizaci věrohodnostní funkce je nutné znát matematický vzorec pro náhodný proces generující data v populaci ˇ v případě lineární regrese musíme tedy přijmout předpoklad o rozložení y ve variantách x, (neboli předpokládat distribuci residuálů na základě určitého algoritmu) ˇ pro spojité znaky v regresi platí, že residuály jsou nezávislé, mají konstantní variabilitu 2 a normální rozložení s =0. AKD TK 37 ODHAD JEDNODUCHÉ LINEÁRNÍ REGRESE - ML ˇ u spojité závisle proměnné přepokládáme, že je generována na základě normálního rozložení (Gaussova distribuce) 2 2 2 ( ) ( )1 exp 22 pro -i i p y y y = - - < < ˇ pravděpodobnost (hustota) je: ˇ střední hodnota je: ˇ dosazením a pro parametry a dostaneme: ix = + ( ) 2 2 1 1 1 ( | , ) exp ( ) 222 n i i i i p y y x = = - - + ˇ yi a xi jsou dány, zkoumáme pravděpodobnost pro varianty pamametrů a ˇ věrohodnostní funkce L a přirozený logaritmus věrohodnostní funkce ln L: ( ) 2 22 1 1 1 ( , ) exp ( ) 22 n i i i L y x = = - - + ( ) 22 2 1 1 ln ( , ) ln(2 ) ( ) 2 2 n i i i n L y x = = - - - + AKD TK 38 MLE A ZOBECNĚNÉ LINEÁRNÍ MODELY (GLM) ˇ ln L je součet všech pravděpodobností (hustot), která mají jednotlivé hodnoty x při daných parametrech ˇ cílem MLE je najít takové parametry, které maximalizují tento součet (je co nejblíže 0), v ideálním případě se tento součet = 0, všechna x leží na přímce a při daných parametrech mají ln hodnoty pravděpodobnosti (hustoty) 0 (exp0 = 1) ˇ odhad koeficientů na základě MLE je totožný s odhade koeficientů na základě OLS, největší hodnoty ln L dostaneme, když je v části vzorce (yi ­ (+xi))2 rozdíl minimální (yi se co nejvíce blíží ), volíme tedy takové hodnoty parametrů a , aby to platilo, OLS minimalizuje ten samý vztah, nicméně v termínech residuálů y=+x AKD TK 39 MLE A ZOBECNĚNÉ LINEÁRNÍ MODELY (GLM) ˇ když f je počet událostí z N pokusů (tedy pro pravděpodobnost y=1) přijímáme předpoklad binomického rozdělení; po úpravě pro y=0 (událost nenastala) a y=1 (událost nastala) přijímáme Bernoulliho rozdělení ˇ když f je počet událostí v čase (y=1), v místě nebo v rámci sociální skupiny (neznáme ovšem N, či počet událostí, které nenastaly (y=0), přijímáme předpoklad Poissonova rozdělení ˇ všechna tato rozdělení patří do jedné rodiny distribucí (family), které matematicky vyjadřují náhodný proces, který generuje data (podle jejich typu) ˇ na základě těchto rozdělení a s pomocí spojnice (link) mezi závisle a nezávisle proměnnou lze tyto případy zobecnit ˇ hovoříme o zobecněných lineárních modelech (GLM) AKD TK 40 ZOBECNĚNÉ LINEÁRNÍ MODELY ˇ lineární prediktor vi pro každou jednotku je: xi iv = ˇ spojnice (link function) 1 exp( ) ln 1 exp( ) 1 exp( ln( ( ( i i i i i i i i i i i i i i i i v v v v v v v v - = = = = + - = = = = = = Identity: Logit: Log: ) ) Probit: ) ) ˇ podmíněné distribuce (exponential family): ( ) 2 22 ( ) ( ) 1 ( ) exp 22 ! (1 ) ! ! ! Gaussian: Binomial: Poisson: Gamma: y N y y y P y P y y N y N y e y - - = = = - - - - AKD TK 41 ZOBECNĚNÝ LINEÁRNÍ MODEL (GLM) ˇ jednoduchý regresní model je definován jako strukturní model: i i iY X e= + kde Xi je vektor hodnot pro i-té pozorování, ß je vektor parametrů a e je chyba. ˇ statistický model je ve většině případů obsahuje: - fixní část (fixed part, systematic component), která popisuje vztah mezi proměnnými, které nás zajímají (tento vztah je obvykle lineární, a proto umožňuje zodpovědět otázku, jak proměnná X ovlivňuje Y - náhodná část (random part, random component), jedná se o (reziduální) variaci vysvětlované proměnné, která je predikována na základě fixní části AKD TK 42 TYPY ZOBECNĚNÝCH LINEÁRNÍCH MODELŮ Fixní část Link Náhodná část Model spojitá identity normální regresní model kategorizovaná identity normální ANOVA mix identity normální ANCOVA mix logit binomická logistická regrese mix log poisson loglineární analýza mix zobecněný logit multinomická multinomická logistická regrese AKD TK 43 ZOBECNĚNÉ LINEÁRNÍ MODELY (POKR.) ˇ stata syntaxt pro GLM glm depvar varlist, family( ) link( ) kde Family Default Link(spojnice) Other link gaussian identity xb binomial logit exp(xb)/(1+exp(xb)) probit, c-log-log poisson log exp(xb) gamma log exp(xb) 1/xb AKD TK 44 CO JE DOBRÝ STATISTICKÝ MODEL? ˇ dobrý statistický model je: - je přesný (očekávané četnosti, variabilita, podmíněný průměr) se co nejméně liší od pozorovaných četností, variability, podmíněného průměru) - je úsporný (obsahuje co nejméně parametrů, vysvětlujících proměnných) ˇ ˇ koncept přesnosti (accuracy) = statistická kritéria X2 , L2 koncept úspornosti (parsimony) = stupně volnosti (d.f. degrees of freedom) ˇ saturovaný model (obsahuje všechny vysvětlující proměnné a vztahy mezi nimi) je přesný (očekávané = pozorované četnosti, X2 a L2 = 0, df = 0), ale není úsporný (je to parametrizace pozorovaných četnosti, nic nevysvětluje) ˇ model (podmíněné) nezávislosti (obsahuje obvykle minimum proměnných a vztahů mezi nimi), je úsporný, ale obvykle není přesný (rozdíl mezi očekávanými pozorovanými četnostmi je velký, X2 & L2 vysoké, df vysoké, málo parametrů na explanaci) AKD TK 45 PRINCIPY STATISTICKÉHO MODELOVÁNÍ ˇ v modelování výzkumník obvykle postupuje tak, že hledá model (v případě, že model (podmíněné) nezávislosti na data nepadne), který se nachází někde mezi saturovaným modelem a modelem nezávislosti ˇ modelování je hledání optimálního poměru mezi přesností a úsporností (logika Occamovy břitvy) ˇ cílem je najít co nejúspornější model, který má co nejméně vysvětlujících proměnných, který ovšem stále ještě uspokojivě vysvětluje strukturu dat ˇ důvod minimalizace vysvětlujících proměnných v modelu - numerická stabilita - snadná zobecnitelnost a aplikovatelnost ˇ dva možné postupy statistického modelování - začneme saturovaným modelem a postupně vylučujeme proměnné (snižuje se přesnost, ale roste úspornost) (backward elimination in stepwise regression) - začneme modelem (podmíněné) nezávislosti a postupně přidáváme proměnné (snižuje se úspornost, ale roste přesnost) (forward addition in stepwise regression), - v obou případech je kritériem pro proměnnou v modelu statistická významnost (obvykle 95%), problém hranice! ˇ dobrá teorie je základem pro oprávněnost nebo neoprávněnost proměnných v modelu AKD TK 46 VZTAH MEZI PŘESNOSTÍ A ÚSPORNOSTÍ V SCLG. VÝZKUMU ˇ každý zkoumaný (výběrový) soubor je definován obsahem a rozsahem - obsah: zkoumaný počet společných znaků u jednotek, konkrétnost, přesnost - rozsah: počet jednotek, úspornost ˇ větší obsah znamená větší počet znaků u jednotky, větší přesnost ve vymezení jednotky, nicméně to znamená vymezení menšího počtu jednotek (maximální počet znaků = 1 jednotka), ˇ větší rozsah, více zkoumaných jednotek, znamená menší počet znaků u jednotky (maximální rozsah = 1 znak) např. lidé přesnost úspornost např. znaky: - rodina Když roste přesnost zmenšuje se úspornost (rozsah) a naopak - velikost rodiny - úplnost rodiny - stáří partnerů - stáří dětí - typ domácnosti - atd. AKD TK 47 REGRESNÍ MODELY PRO KATEG. ZÁVISLE PROMĚNNOU ˇ v případě kategorizované závisle proměnné regresní model nelze použít ˇ podle typu závisle proměnné volíme: - binární logistickou regresi - závisle proměnná má dvě varianty - ordinální logistickou regresi - závisle proměnná více uspořádaných variant - nominální (multinomickou) logistickou regresi - závisle proměnná více variant Shrnutí jednotlivých typů analýzy: Závisle proměnná Nezávisle proměnná Typ analýzy spojitá spojitá regrese, korelační analýza spojitá kategorizovaná regrese, ANOVA dichotomická (binární) kategorizovaná logit/probit, loglinear dichotomická (binární) spojitá logit/probit neuspořádaná polytomická kategorizovaná loglinear, mlogit neuspořádaná polytomická spojitá mlogit uspořádaná polytomická kategorizovaná ologit/oprobit, loglinear uspořádaná polytomická spojitá ologit/oprobit tabulková data (poměry) kategorizovaná loglinear censored duration data spojitá, kategorizovaná loglinear, logit/log-log