Marta Sytařová (43335), Petr Pakosta (11077)
Analýza kategorizovaných dat
Úkol číslo 3 -- log-lineární analýza

Na datech z Pohybu obyvatelstva (1981 až 2002) o počtu rozvodů
jsme provedli log-lineární analýzu s cílem nalézt nejvhodnější
model pro odhalení struktury dat. V programu LEM jsme postupně
vytvořili několik modelů od saturovaného, přes model podmíněné
nezávislosti (R M Z) až po model plné dvojrozměrné interakce
(testující výskyt vztahu mezi vzděláním muže a ženy
v jednotlivých letech).

Podle statistických kriterií maximální věrohodnosti, BIC a
delta se ukázal jako nejvhodnější, byť ne nejúspornější (d.f. =
16), model plné dvojrozměrné interakce (viz tabulka 1).

Tabulka 1: Vybrané odhadované modely log-lineární analýzy

             Model           D.f.      L2      delta     BIC
  1   saturovaný              0        0         0        0
  2   R M Z                   39    45403.9    28,3    44960.6
  3   RM RZ                   27    35680.1    26,6    35373.2
  4   RM RZ MZ                18     256.0      1,9      51.4
  5   {RM RZ MZ               16     142.6      1,2     -39.2
      spe(MZ,1b,R,c,2)}

Graf  1: Exponované koeficienty Beta pro model 5
                               
Tyto koeficienty při hodnotě jedna odpovídají  náhodnému
rozložení. Při hodnotě vyšší než jedna (po odečtení jedničky)
udávají kolikrát častěji se dané kategorie vyskytly oproti
náhodnému rozložení. Analogicky pak při hodnotách nižších než
jedna (kolikrát méně oproti náhodnému rozdělení).

Z grafu 1 je patrné, že se nejvíce rozvádějí  homogamní
manželství, z nich pak nejčastěji svazky vysokoškoláků a lidí
se základním vzděláním. U párů vysoce heterogamních (pár muže
VŠ, ženy ZŠ) je rozvodovost nejnižší -- což pravděpodobně odráží
skutečnost, že těchto svazků vzniká nejméně.

Testovali jsme také vliv časové dimenze a to v modelu 3.
Statistické výstupy modelu ukazují na to, že charakteristika
rozvodovosti se vlivem časové dimenze nemění.

Syntax

man 3
dim 3 4 4
lab R M Z *Rok Muž Žena
mod {RM RZ MZ spe(MZ,1b,R,c,2)}
des[0 1 2 ]

dat [
  6922   1243785 60
  3913   55851984127
  896    10562321294
  147    233 942 708

  4055   1378864 43
  3118   74643460221
  783    15403419410
  133    287 1243948

  2026    1013    422     44
  1985    9979    3965    284
  383     1641    4597    531
  85      273     1287    1189]


*** STATISTICS ***

  Number of iterations = 70
  Converge criterion   = 0.0000008758

  X-squared            = 148.5234 (0.0000)
  L-squared            = 142.6557 (0.0000)
  Cressie-Read         = 146.2377 (0.0000)
  Dissimilarity index  = 0.0120
  Degrees of freedom   = 16
  Log-likelihood       = -285004.86201
  Number of parameters = 31 (+1)
  Sample size          = 86286.0
  BIC(L-squared)       = -39.1910
  AIC(L-squared)       = 110.6557
  BIC(log-likelihood)  = 570362.0521
  AIC(log-likelihood)  = 570071.7240