ÚVOD DO LOGLINEÁRNÍHO MODELOVÁNÍ ˇ historie - až do 60. let se k analýze kontingenčních tabulek používal pouze chí-kvadrát test, byl schopen odpovědět na otázku, zdali existuje mezi proměnnými vztah - při vícerozměrných tabulkách se počítal chí-kvadrát pro každou dvojrozměrnou sub-tabulku zvlášť, aby se ukázalo, kde vztah existuje a neexistuje - v 70. letech se situace dramaticky mění s texty Leo Goodmana a se dvěmi učebnicemi zaměřený na analýzu kontingenčních tabulek (Bishop, Finberg, Holland, 1975; Habermann 1975) - v průběhu 80. a 90. let se log-lineární modelování stává součástí standardních statistických znalostí AKD TK 2 ÚVOD DO LOGLINEÁRNÍHO MODELOVÁNÍ (POKR.) ˇ log-lineární modely jsou navrhnuty pro modelování kontingenčních tabulek, používají se tedy k analýze vztahů mezi proměnnými v kontingenčních tabulkách, ˇ Goodman (1981) dělí kontingenční tabulky podle vztahů mezi proměnnými na 3 typy: - sdružená distribuce dvou vysvětlujících proměnných (např. váha a výška) - kauzální vztah mezi vysvětlovanou a vysvětlujícími proměnnými (např. kouření a rakovina) - asociace mezi dvěma vysvětlovanými proměnnými (např. postoj k interupcím a postoj k předmanželskému sexu) AKD TK 3 ÚVOD DO LOGLINEÁRNÍHO MODELOVÁNÍ ˇ závisle proměnná je v tomto případě počet případů v jednotlivých polích tabulky (poměrová proměnná), aplikace je tedy možná pouze na agregovaná data, při interpretaci pak nerozlišujeme závisle a nezávisle proměnnou jako v logistické regresi ˇ log-lineární modely jsou schopny ukázat pouze asociaci mezi proměnnými, v tomto smyslu je tato analýza analogická korelační analýze zaměřené na vzorec a sílu vztahu mezi spojitými proměnnými ˇ název log-lineární analýza je odvozen od transformace, při níž jsou frekvence v polích tabulky převedeny do přirozených logaritmů (v jazyce GLM se jedná o LOG link) a tyto hodnoty jsou modelovány jako lineární funkce sady parametrů AKD TK 4 HIERARCHICKÉ LOGLINEÁRNÍ MODELY ˇ v hierarchických loglineárních modelech je přirozený logaritmus tabulkových četností modelován jako suma efektů, platí přitom princip hierarchie: každá složitější interakce (komplikovanější parametr) obsahuje vždy všechny jednodušší interakce (jednodušší parametry) ˇ aditivní (lineární) rovnice saturovaného modelu (fij = Fij) pro trojrozměrnou tabulku je: kde log(Fijk MWY ) je přirozený logaritmus očekávané (modelované) četnosti, pro i-tý řádek (M), j-tý sloupec (W) a k-tou vrstvu (Y), přičemž je hlavním průměrem, i M , j W , k Y jsou marginálními efekty proměnných M,W,Y, ij MW , ik MY , jk WY jsou dvojrozměrnými interakcemi (asociacemi) mezi proměnnými M,W,Y a ijk MWY je trojrozměrnou interakcí mezi proměnnými M, W, a Y ˇ upravená rovnice: ˇ multiplikativní rovnice saturovaného modelu tedy je: ( ) + + + + + + + = M W Y MY WY MW MWY i j k ik jk ij ijkMWY ijkF e ( ) ( ) ( ) ( ) ( ) ( ) ( ) = j jk ij ijki k ikMWY M W Y MY WY MW MWY ijkF e e e e e e e e =MWY M W Y MY WY MW MWY ijk i j k ik jk ij ijkF log( ) = + + + + + + +MWY M W Y MY WY MW MWY ijk i j k ik jk ij ijkF AKD TK 5 HIERARCHICKÉ LOGLINEÁRNÍ MODELY ˇ v nesaturovaných modelech jsou některé z parametrů vynechány, znamená to, že předpokládáme, že jejich efekt odpovídá nule ˇ hierarchických nesaturovaných modelů přitom platí pravidlo, že pokud vynecháme některý z jednodušších parametrů, tak musíme vynechat rovněž všechny vyšší parametry/interakce, které tento parametr tvoří a naopak ˇ např. pokud model obsahuje parametr ij MW , tak musí obsahovat rovněž jednodušší parametry i M , j W ˇ nebo pokud je dvojrozměrná interakce ij MW z modelu vynechána, tak z modelu musí být vynechána rovněž i složitější interakce ijk MWY , která dvojrozměrnou interakci obsahuje, a rovněž musejí být rovny nule všechny další vyšší interakce AKD TK 6 PARAMETRY LOGLINEÁRNÍCH MODELŮ ˇ parametry loglineárního modelu ukazují přirozené logaritmy očekávaných/modelových četností jako důsledek tzv. ,,efektů", což znamená, že tyto parametry lze interpretovat jako velikost efektu, jímž poznamenávají: - distribuci marginálií (jednoduché parametry i, j, k) - asociaci nebo parciální asociaci mezi dvěmi proměnnými (dvojrozměrné interakční parametry ij, ik, jk) - vícerozměrnou asociaci (vícerozměrné interakční parametry ijk) ˇ příklady modelů a interpretace parametrů pro trojrozměrnou tabulku M a W podle Y. - jednoduchý model log(Fijk MWY ) = se označuje jako ,,grand mean model" a předpokládá, že všechny přirozené logaritmy tabulkových četností jsou si rovné ˇ jedná se o ,,equiprobability model" a je zde chápána jako konstanta (intercept) - složitější model log(Fijk MWY ) = + i M + j W + k Y předpokládá, že přirozené logaritmy tabulkových četností jsou navíc ještě funkcí marginálních četností jednotlivých proměnných ˇ jedná se o model nezávislosti (nepředpokládáme výskyt interakcí) ˇ parametry i M j W j Y ukazují relativní počet případů v jednotlivých variantách proměnných M, W a Y. AKD TK 7 PARAMETRY LOGLINEÁRNÍCH MODELŮ - ještě složitější model log(Fij MWY ) = + i M + j W + k Y + ik MY + jk WY předpokládá, že přirozené logaritmy tabulkových četností jsou navíc ještě funkcí dvojrozměrných interakcí MY a WY ˇ jedná se o model podmíněné nezávislosti (vztah mezi MW je modelován tak, aby zavedením třetí proměnné Y zmizel, nepředpokládáme tedy interakci MW) ˇ parametry ik MY , jk MY ukazují velikost parciální asociace mezi M a Y, M a Y - ještě složitější model log(Fij MWY ) = + i M + j W + k Y + ij MW + ik MY + jk WY předpokládá, že přirozené logaritmy tabulkových četností jsou ještě navíc funkcí dvojrozměrných interakcí MW, MY a WY ˇ jedná se o model konstantní asociace (vztah mezi MW je modelován jako neměnný podle třetí proměnné Y) ˇ parametry ij MW , ik MY , jk MY ukazují velikost parciální asociace mezi M a W, M a Y, M a Y - nejsložitější model log(Fijk MWY ) = + i M + j W + k Y + ij MW + ik MY + jk WY + ijk MWY předpokládá, že přirozené logaritmy tabulkových četností jsou ještě navíc funkcí trojrozměrné interakce MWY ˇ jedná se o saturovaný model (všechny parametry, jež ovlivňují strukturu dat) ˇ parametr ij MWY v tomto případě ukazuje, jak se jednotlivé dvojrozměrné interakce liší jedna od druhé v rámci kategorií třetí proměnné, neboli popisuje rozdíl mezi parciální a podmíněnou asociací AKD TK 8 PARAMETRY LOGLINEÁRNÍCH MODELŮ A INTERPRETACE ˇ při celkové interpretaci odlišujeme substantivně méně významné parametry (jednoduché parametry v rovnici, obvykle sedí na data přesně, protože jsou odhadnuty přesně) a substantivně významné parametry (obvykle interakční parametry) ˇ obecně platí, že parametry marginálií absorbují marginální distribuce a interakční parametry odkazují k asociaci. ˇ dvojrozměrné interakční parametry tedy přímo korespondují s přirozeným logaritmem poměru šancí v tabulkách: ˇ odhadnuté parametry v rovnici musejí být normalizovány, aby mohly být identifikovány, rozlišujeme: - ANOVA typ normalizace, neboli effect coding - dummy coding log( ) log log log log log ( ) ( ) ( ) ( ) ij i j A B AB ij i j ij i j i j ij ij i j A B AB A B AB A B AB i j i j i j ij i j i j AB AB AB AB ij i j ij i j F F OR F F F F F F = = + - - = + + + + + + + - + + + - + + + = + - - AKD TK 9 EFFECT CODING & DUMMY CODING ˇ effect coding: součet každé sady parametrů u každého i nebo j se rovná 0 (nebo 1) log( )AB A B AB ij i j ijF = + + + AB A B AB ij i j ijF = 0A B AB AB i j ij ij i j i j = = = = 1A B AB AB i j ij ij i j i j = = = = parametry interpretujeme na základě vztahu k průměru, tedy k modelu, který předpokládá, že distribuce četností v tabulce jsou totožné a odpovídají 0 (nebo e0 =1), jedná se modelování všechny parametrů jako odchylek od ,,equiprobability" modelu ˇ dummy coding: interpretace parametrů na základě vztahu ke zvoleným (obvykle prvním) kategoriím, i' a j' jsou referenční kategorie (=0), a proto ij AB přímo vyjadřuje přirozený logaritmus poměru (nebo poměr) šancí mezi variantami proměnných vzhledem k referenčním kategoriím 1 1 1 1 0A B AB AB j i = = = = 1 1 1 1 1A B AB AB j i = = = = ˇ normalizace je otázkou konvence a i když jsou velikosti parametrů podle typu normalizace odlišné, rozdíly mezi nimi a výsledná interpretace modelu se neliší, stejně jako se neliší očekávané (modelové) četnosti (LEM preferuje effect coding, nicméně lze zvolit dummy coding, Stata pracuje s dummy coding) AKD TK 10 0 0 0 0 0 fi2 fi3 fi4 0 fi5 fi6 fi7 0 fi8 fi9 fi10 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 Proveď důkaz, že parametry ukazují jednu a tu samou věc a že tedy typ normalizace je otázkou konvence!!! PŘÍKLAD NORMALIZACE PARAMETRŮ ˇ effect coding: parametry dvojrozměrné interakce (výstup z programu LEM) beta std err z-value exp(beta) 1 1 1.8352 0.0358 51.302 6.2663 1 2 0.2354 0.0252 9.338 1.2655 1 3 -0.6977 0.0252 -27.707 0.4978 1 4 -1.3730 0.2534 2 1 0.1875 0.0211 8.896 1.2063 2 2 1.0131 0.0145 69.950 2.7542 2 3 -0.0843 0.0132 -6.401 0.9192 2 4 -1.1164 0.3275 3 1 -0.5475 0.0227 -24.119 0.5784 3 2 -0.1104 0.0146 -7.588 0.8955 3 3 0.4229 0.0125 33.857 1.5264 3 4 0.2350 1.2650 4 1 -1.4752 0.2287 4 2 -1.1382 0.3204 4 3 0.3590 1.4319 4 4 2.2543 9.5290 13776.07 9 0.000 ˇ dummy coding: parametry dvojrozměrné interakce (výstup z programu STATA) -------------------------------------------------------------------------- Variable Label estimate s.e. p-value -------------------------------------------------------------------------- rc_fi2 Full interaction: level 2 2.4254 0.0281 0.0000 rc_fi3 Full interaction: level 3 2.2611 0.0371 0.0000 rc_fi4 Full interaction: level 4 1.9044 0.1116 0.0000 rc_fi5 Full interaction: level 5 2.0370 0.0392 0.0000 rc_fi6 Full interaction: level 6 3.5034 0.0564 0.0000 rc_fi7 Full interaction: level 7 3.9910 0.1241 0.0000 rc_fi8 Full interaction: level 8 1.9369 0.0933 0.0000 rc_fi9 Full interaction: level 9 4.3672 0.1043 0.0000 rc_fi10 Full interaction: level 10 6.9380 0.1613 0.0000 -------------------------------------------------------------------------- AKD TK 11 POSTUP PŘI LOGLINEÁRNÍM MODELOVÁNÍ ˇ kontingenční tabulky obvykle zachycují vzorec, který není běžnému pozorovateli zřejmý (v sociální realitě existuje struktura, která je součástí každodenního jednání, která je ovšem pozorovatelná při dostatečném počtu pozorování - zákon velkých čísel - ,,z ptačí perspektivy" právě tabulkovým uspořádáním jednotlivých proměnných ˇ v případě jednoduché (dvojrozměrné) tabulky se tento vzorec v sociálních vědách obvykle interpretuje na základě podílových vyjádření a koeficientů asociace ˇ v případě vícerozměrné tabulky musíme pro data odhadnou log-lineárních model, v němž strukturu dat specifikujeme (modelujeme ji na základě určitých předpokladů) a v případě sednutí modelu na data pak můžeme interpretovat vztahy, které se v tabulce vyskytují ˇ specifikace loglineárních modelů a rozhodnutí o jejich ,,sednutí" na data je tedy proces, v němž se rozhodujeme, která z asociací a interakcí se signifikantně neliší od 0, tyto parametry pak z modelu eliminujeme a dostáváme se tak k parametrům, které významně přispívají ke vztahům v tabulce AKD TK 12 POSTUP PŘI LOGLINEÁRNÍM MODELOVÁNÍ ˇ při modelování postupujeme stejným způsobem jako v logistické regresi nebo regresní analýze, hledáme co - co nejpřesnější model (rozdíl mezi modelovými četnostmi a měřenými četnostmi je malý, neboli velikost residuálů je malá a jejich rozložení + a - je stejné) - a zároveň co nejúspornější model (nízký počet parametrů, tedy vysoký počet df) ˇ nejpřesnější model (df=0) je saturovaný model - jedná se o parametrizaci pozorovaných četností bez odpovědi na otázku, který z parametrů substantivně přispívá ke struktuře dat v tabulce ˇ úsporný model má vysoký počet df, obvykle se jedná o model nezávislosti ˇ loglineární modelování je pak hledání modelu, který se nachází někde mezi modelem nezávislosti (pokud tento nesedí na data) a saturovaným modelem AKD TK 13 ODHAD HIERARCHICKÉHO LOGLINEÁRNÍHO MODELU ˇ přímý odhad: vypočet očekávaných četností z distribucí marginálních četností, lze použit pouze v případě testování nulové hypotézy, tedy modelu nezávislosti - pro dvojrozměrnou tabulku očekávané četnosti pak vypočítáme podle vzorce: ˇ nepřímý odhad: výpočet očekávaných četností na základě iterací, používá se v případě testování jiných hypotéz než je nulová hypotéza (pro nulovou hypotézu je výsledek odhadu na základě této metody totožný s výsledkem na základě přímého odhadu)... /+ + ++=ij i jF f f f AKD TK 14 TESTY SEDNUTÍ MODELU NA DATA ˇ Pearsonův chí-kvadrát se stupni volnosti (I - 1)(J - 1), nazývá se také jako reziduální statistika, protože ukazuje rozdíl mezi pozorovanými a očekávanými četnostmi, měří tedy velikost nepadnutí modelu na data - pro trojrozměrnou tabulku je jeho vzorec: ( ) 2 2 - = ijk ijk ijk ijk f F X F ˇ věrohodnostní poměr,označuje se jako L2 (někdy také jako G2 ) - pro trojrozměrnou tabulku je jeho vzorec: 2 2 log = ijk ijk ijk ijk f L f F ˇ stupně volnost (df) odkazují k počtu parametrů, které zůstávají při výpočtu ,,volné" - df = 0 (saturovaný model), df=(M-1)(W-1)Y (model nezávislosti), df=(M-1)(W-1) (Y-1) (model podmíněné nezávislosti) - výpočet df: df = počet polí v tabulce - počet parametrů AKD TK 15 TESTY SEDNUTÍ MODELU NA DATA (POKRAČ.) ˇ doplňující statistiky - Cressie-Read statistika - podobné jako X2 a L2 - (delta), procentuální vyjádření počtu případů nezařazených do modelu - rG2, vysvětlující síla modelu, podíl L2 odhadnutého modelu a L2 modelu nezávislosti AKD TK 16 KOMPARACE MODELŮ ˇ informační kritéria, jejich cílem není určit, který model je pravdivější, ale který model podává bohatší informaci o reálném světě - BIC (Bayesovské informační kritérium) - AIC (Akaikeovské informační kritérium) ˇ tyto statistiky upřednostňují úspornost před přesností AKD TK 17 Lekce 9: Nehierarchické a topologické log-lineární modely AKD TK 18 NEHIERARCHICKÉ LOG-LINEÁRNÍ MODELY ˇ hierarchické modely nejsou pro specifikaci vztahů v kontingenční tabulce obvykle nejvhodnější ˇ parametry lze omezovat pouze tak, že je do modelu zařadíme nebo nikoliv ˇ konkrétnější specifikace parametrů není u hierarchických log-lineárních modelů možná ˇ k přesnějšímu a zároveň úspornějšímu log-lineárnímu modelu se lze dostat cestou specifikace jednotlivých parametrů ˇ znamená to, že navrhujeme matici, v níž jednotlivé parametry specifikujeme a na základě této specifikace je pak také modelujeme ˇ v navržené matici, která obsahuje pole xij, sloupce označují parametry a řádky tabulková pole ˇ existují dva způsoby jak specifikovat parametry (souvisejí s typy normalizace parametrů) - effect coding: první varianta proměnné v poli matice xij podle umístění v tabulce odpovídá 1 a poslední odpovídá -1, zbytek odpovídá 0 - dummy coding: první varianta proměnné v poli matice xij podle umístění v tabulce odpovídá 1 a zbytek odpovídá 0 ˇ interakce dostaneme vynásobením parametrů vyjadřujících marginální distribuce, tedy čísel ve sloupcích AKD TK 19 PŘÍKLAD SPECIFIKACE MODELU NA ZÁKLADĚ NAVRŽENÉ MATICE ˇ data 3x4x4 (Y-year, M-man's educational level, W-woman's educational level) 124 247 69 18 58 321 167 33 2 31 57 30 2 6 15 20 78 183 68 13 72 619 292 54 6 95 150 65 0 29 61 60 16 45 20 4 46 361 283 47 10 74 195 63 4 26 136 97 1) odhad modelu nezávislosti Y M C počet parametrů = +(M-1)+(W-1)+(Y-1) = 9 (df = 48 - 9 = 39) 2) odhad modelu podmíněné nezávislosti YM YC počet parametrů = +(M-1)+(W-1)+(Y-1)+[(M-1)(Y-1) +(W-1)(Y-1)] = 21 (df = 48 - 21 = 27) AKD TK 20 NAVRŽENÁ MATICE PRO MODEL (YM YC), EFFECT CODING AKD TK 21 LEM SYNTAX PRO MODEL (Y M C) POMOCÍ NAVRŽENÉ MATICE ˇ lem zadání pomocí cov( ) man 3 dim 3 4 4 lab Y M W mod {cov(YMW,8)} des [ 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 0 0 0 0 0 0 0 0 -1 -1 -1 -1 1 1 1 1 0 0 0 0 0 0 0 0 -1 -1 -1 -1 1 1 1 1 0 0 0 0 0 0 0 0 -1 -1 -1 -1 0 0 0 0 1 1 1 1 0 0 0 0 -1 -1 -1 -1 0 0 0 0 1 1 1 1 0 0 0 0 -1 -1 -1 -1 0 0 0 0 1 1 1 1 0 0 0 0 -1 -1 -1 -1 0 0 0 0 0 0 0 0 1 1 1 1 -1 -1 -1 -1 0 0 0 0 0 0 0 0 1 1 1 1 -1 -1 -1 -1 0 0 0 0 0 0 0 0 1 1 1 1 -1 -1 -1 -1 1 0 0 -1 1 0 0 -1 1 0 0 -1 1 0 0 -1 1 0 0 -1 1 0 0 -1 1 0 0 -1 1 0 0 -1 1 0 0 -1 1 0 0 -1 1 0 0 -1 1 0 0 -1 0 1 0 -1 0 1 0 -1 0 1 0 -1 0 1 0 -1 0 1 0 -1 0 1 0 -1 0 1 0 -1 0 1 0 -1 0 1 0 -1 0 1 0 -1 0 1 0 -1 0 1 0 -1 0 0 1 -1 0 0 1 -1 0 0 1 -1 0 0 1 -1 0 0 1 -1 0 0 1 -1 0 0 1 -1 0 0 1 -1 0 0 1 -1 0 0 1 -1 0 0 1 -1 0 0 1 -1] dat [...] ˇ takto specifikovanou matici není nutné zadávat, mnohem jednodušší zadání je: man 3 dim 3 4 4 lab Y M W mod {Y M W} dat [...] AKD TK 22 TYPY OMEZENÍ PARAMETRŮ PŘI NAVRHOVÁNÍ MATICE ˇ navržená matice může být použita pro všechny druhy specifikace nehierarchických lig- lineárních modelů, stejně jako pro specifikaci topologických log-lineárních modelů ˇ existují 3 typy omezení log-lineárních parametrů - parametr je specifikován jako roven nule (hierarchické a nehierarchické modely) - vybraný parametr specifikován jako roven jinému vybranému parametru (topologické modely) - vybraný parametr je specifikován jako daný poměr jiného vybraného parametru (asociativní modely u ordinálních proměnných)