1
ODHADOVANIE VÝSLEDKOV VOLIEB
JOZEF JANOVSKÝ (273898)
1. ZDROJ DÁT
Používame verejne dostupné dáta, ktoré sú súčasťou výskumného projektu „The Record of
American Democracy, 1984-1990“1, agregujúceho množstvo informácií o americkej spoločnosti
a politike. Dáta v ňom pochádzajú jednak zo sčítania ľudu z roku 1990 a doplnené sú výsledkami
volieb rôznych druhov v období rokov 1984-1990. Tieto údaje sú dostupné na úrovni oblastí
využitých práve pri danom sčítaní ľudu. Štát, na ktorom analýzu prevedieme si vyberáme podľa
toho, aby mal čo najviac týchto oblastí, čo vydeľuje Pennsylvániu, ktorá ich má 2674. Na základe
údajov zo sčítania ľudu sa budeme snažiť pomocou modelu logistickej regresie odhadnúť či,
v danej oblasti získali v prezidentských voľbách v roku 1988 viac hlasov republikáni alebo
demokrati. Následne overíme možnosť využitia tohto modelu pri predikcii výsledkov ďalších
v datasete zahrnutých volieb.
2. POPIS DÁT
Z datasetu sme vybrali 10 premenných a doplnili ich o tri skonštruované premenné (získané
transformáciami premenných obsiahnutých v datasete), ktoré dohromady predstavujú
vysvetľujúce premenné. Vysvetľovanou premennou je „víťazstvo“ republikánov v danej oblasti.
„Predvýber“ vysvetľovacích premenných z pôvodného počtu 3360 premenných v datasete
(vrátane dodatočne skonštruovaných) prebiehal na základe korelácií s vysvetľovanou
premennou a výsledkov parciálneho stepwise logisticko-regresného modelovania2, a to tak aby
sme vzali do úvahy štatisticky najvýznamejšie najvýznamnejšie premenné.
URBANperc1 - Percento obyvateľstva danej oblasti, žijúceho v meste.3
HOUSSIperc1 - Percento domácností poberajúce dávky sociálneho zabezpečenia.4
HOUINCave – Priemerný príjem domácnosti v danej oblasti v $ za rok 1989.5
P0280030 – Počet obyvateľov starších než 65 rokov, ktorí doma rozprávajú iným jazykom než
angličtinou, španielčinou, či ázijskými alebo pacifickými jazykmi a zároveň vôbec neovládajú
angličtinu.
P0310014 – Počet obyvateľov starších než 5 rokov, ktorí doma hovoria juhoslovanským
jazykom.
P0340033 – Počet obyvateľov, ktorí majú viacerých predkov z Juhoslávie.
P0350033 – Počet obyvateľov, ktorí majú jedného predka z Juhoslávie.
1 Gary King; Bradley Palmquist; Greg Adams; Micah Altman; Kenneth Benoit; Claudine Gay; Jeffrey B.
Lewis; Russ Mayer; and Eric Reinhardt. 1997. ``The Record of American Democracy, 1984-1990,'' Harvard
University, Cambridge, MA [producer], Ann Arbor, MI: ICPSR [distributor].
2 Máme tým na mysli, že sme povolili prítomnosť približne 800 vysvetľujúcich premenných v modeli
a spustili stepwise procedúru. Tento postup sme zvolili z praktických technických výpočtových dôvodov
(pri pustení procedúry na všetkých 3360 premenných počítač zamrzával na príliš dlhú dobu).
3 V reči premenných datasetu ide o: P0060001/P0010001.
4 V reči premenných datasetu: P0940001/P0050001.
5 V reči premenných datasetu: P0980001/P0050001.
2
P1000001 – Celkový príjem farmárov samo-zamestnávateľov za rok 1989 v $.
P124B012 – Počet rodín s príjmom pod úrovňou chudoby, v ktorých je hlavou domácnosti
matka bielej pleti bez manžela, bez detí mladších než 18 rokov.
P087A019 – Počet domácností, v ktorých je jej hlavou 35 až 44-ročný človek bielej pleti,
zarábajúci menej než 5000$ ročne.
P1270007 – Počet domácností nad úrovňou chudoby, v ktorých je jej hlavou 65 až 74-ročný muž
bez manželky.
P1270023 – Počet domácností pod úrovňou chudoby, v ktorých je jej hlavou 65 až 74-ročná
žena bez manžela.
H025A001 – Medián roku stavby bytovej jednotky.
rep84, rep86, rep88, rep90 – Binárna premenná nadobúdajúca hodnotu 1 ak v príslušných
voľbách do Snemovne reprezentantov získali republikáni viac hlasov v danej oblasti a hodnotu
0, ak získali menej hlasov než demokrati.
rep84p, rep88p - Binárna premenná nadobúdajúca hodnotu 1 ak v príslušných prezidentských
voľbách získali republikáni viac hlasov v danej oblasti a hodnotu 0, ak získali menej hlasov než
demokrati.
3. DESKRIPTÍVNA ANALÝZA „SUROVÝCH“ DÁT
Po všeobecnom prehľade základných vlastností všetkých premenných, uvedených v tabuľke, sa
teraz na ne pozrieme jednotlivo. Ako vyplýva zo zavedenia vysvetľujúcich premenných, každá
z nich je intervalového typu. Deskriptívna analýza dát pritom poukázala aj na to, že je možné, že
sú dáta nejakým spôsobom systematicky zaťažené technickou chybou. Existuje v nich totiž príliš
veľa násobkov čísla 30, a to pri prakticky všetkých premenných. Podľa priloženej dokumentácie
však neexistuje dôvod na takýto charakter dát. Kompletne prerábať celý dataset však presahuje
naše možnosti a aj vzhľadom na ilustratívny charakter tejto analýzy pristupujeme k dátam tak,
že ide o vedomú konštrukciu a v ďalšom sa zameriame na klasické ošetrenie kvality dát,
odstránením extrémnych hodnôt, chýbajúcich hodnôt a pod.
3
4
5
4. TRANSFORMÁCIA DÁT
V prvom rade sme zmenili mierku u premenných, ktoré boli výrazne odlišné v hodnotách
od ostatných a potom sme ošetrili extrémne a chýbajúce hodnoty:
- Premennú HOUINCave sme delíme stami a premennú P1000001 tisícmi.
- V premennej URBANperc1 dosahujú tri prípady hodnoty vyše 100, takže ich nahradíme
hodnotou 100.
- V premennej HOUINCave priradíme 5 najvyšším hodnotám hodnotu 6. najvyššieho.
- V premennej P0280030 priradíme trom najvyšším pozorovaniam hodnotu 900.
- V premennej P0310014 priradíme dvom najvyšším pozorovaniam hodnotu 900.
- V premennej P0340033 priradíme štyrom najvyšším pozorovaniam hodnotu 900.
- V premennej P0350033 priradíme siedmim najvyšším pozorovaniam hodnotu 900.
- V premennej P1000001 priradíme dvom najvyšším pozorovaniam hodnotu 3. najvyššej.
- V premennej P124B012 priradíme pozorovaniu s najvyššou hodnotou hodnotu 900.
- V premennej P087A019 priradíme 6 pozorovaniam s najvyššou hodnotou hodnotu 900.
- V premennej P1270007 priradíme 2 pozorovaniam s najvyššou hodnotou hodnotu 870.
- V premennej P1270023 priradíme pozorovaniu s najvyššou hodnotou hodnotu 900.
- V premennej H025A001 priradíme 3 pozorovaniam s hodnotou 0 hodnotu 1939 (rok).
- Odstraňujeme tých 89 pozorovaní, ktoré obsahovali chýbajúce hodnoty pre všetky
vysvetľujúce premenné.
- Zvyšné chýbajúce hodnoty vo vysvetľovaných premenných dopĺňame priemermi.
Dostávame tak tabuľku:
6
Pokračujeme kategorizáciou premenných, a to tak, aby boli počty pozorovaní v nich
približne vyrovnané a aby sme docielili vysokú “information value“ danej premennej (a vhodné
hodnoty „weights of evidence“). Ak je to možné, do kategórií delíme po deciloch, v prípade, že by
z týchto dôvodov nebolo takého rozdelenie možné, delíme do menšieho počtu skupín. Ďalej
uvádzame tabuľky pre premenné po kategorizácii. Vysvetľujeme pritom premennú rep88p, teda
„víťazstvo“, či „porážku“ republikánskeho kandidáta v prezidentských voľbách 1988.
Medium predictivity (IV = 0.1321, 2 groups)
Overpredictive (IV = 0.7539, 10 groups)
Overpredictive (IV = 0.5386, 10 groups)
7
Medium predictivity (IV = 0.1079, 2 groups)
Strong predictivity (IV = 0.3386, 2 groups)
Medium predictivity (IV = 0.1962, 2 groups)
Strong predictivity (IV = 0.3071, 2 groups)
Strong predictivity (IV = 0.3843, 5 groups)
Weak predictivity (IV = 0.0962, 2 groups)
Weak predictivity (IV = 0.0986, 4 groups)
8
Weak predictivity (IV = 0.0840, 2 groups)
Weak predictivity (IV = 0.0786, 2 groups)
Strong predictivity (IV = 0.4536, 5 groups)
Zhrnieme, že 4 premenné vykázali slabú prediktivitu, 3 stredne silnú, 4 silnú a 2 príliš silnú.
Najmä premenná HOUSSIperc1 je kvôli svojej nezvyčajne vysokej hodnote IV „podozrivá“. Keďže
tá je však jednoducho konštruovaná ako percento domácností, poberajúcich nejakú formu
sociálnych dávok, autor nevidí v čom by mohlo dôjsť k chybe pri jej konštrukcii. Zároveň je
logické, že tu závislosť existuje. Voličmi Republikánov sú typicky dobre zabezpečení členovia
vyššej vrstvy, ktorí sú menej závislí na sociálnom zabezpečení. Takto je možné vysvetliť i mierne
„overpredictive“ závislosť pri premennej HOUINCave.
5. MODELY LOGISTICKEJ REGRESIE
Na kategorizovaných dátach teraz vybudujeme logisticko-regresné modely. Najprv
budujeme model metódou stepwise s požadovanou významnosťou premennej na vstupe rovnou
0,05 a na udržanie sa v modeli rovnou 0,01. Do modelu (Model 1) zahrňujeme konštantu a do
výberu povoľujeme každú z vysvetľujúcich premenných. Výsledky, dosiahnuté po 8 krokoch,
prinášajú nasledujúce tabuľky a graf.
V modeli zostalo 8 premenných, poradie kategórií v každej z nich sme tiež upravili tak aby
sme dostali kladné odhady koeficientov (preto ich mená začínajú „rank_“). Korelácia žiadnej
9
dvojice z nich pritom v absolútnej hodnote nedosahuje 0,5. Udávame aj odhady parametrov
pomocou Waldovho testu.
Vzhľadom na silné vzťahy prediktivity jednotlivých premenných nie je prekvapením ani
vysoká výpovedná schopnosť modelu, zrejmá z vysokého počtu konkordantných párov oproti
diskonkordantným, ako i z následného vysokého Sommersovho D a obdobných štatistík.
Takto vyzerajú ROC krivky:
10
Zaujímalo nás tiež ako sa model zmení, keď neumožníme prítomnosť dvoch „podozrivých
premnných“, teda HOUSSIperc1 a HOUINCave. V šiestom kroku procedúra stepwise terminuje
s týmito výsledkami:
Vidíme, že aj odobratí premenných si model stále udržuje vysokú výpovednú hodnotu. Došlo
pritom len k ďalšej zmene čo do zastúpenia premenných v modeli.
Nakoniec otestujeme Model 1 aj na ostatných voľbách, ku ktorým máme k dispozícii dáta.
Pre stručnosť sa obmedzíme len na uvedenie tabuľku odhadov koeficientov a kvality modelu
(ako v predošlom prípade).
Voľby do Snemovne 1984 Voľby do Snemovne R. 1986
11
Voľby do Snemovne R. 1988 Voľby do Snemovne R. 1990
Prezidentské voľby 1984
Najdôležitejšia skutočnosť plynúca z tohto porovnania je, že model vyvinutý pre prezidentské
voľby je o poznanie menej vhodný pre odhadovanie výsledkov volieb do Snemovne
reprezentantov. Naopak, výsledky prezidentských volieb z roku 1984 sa mu podarilo odhadnúť
takmer rovnako presne ako tých v roku 1988. Na základe porovnania si tiež môžeme všimnúť,
ktoré premenné nie sú robustné vo svojej štatistickej významnosti na hladine významnosti 0,01,
najčastejšie sa jedná o premenné „rank_P1270007“, „rank_HOUINCave“ a „rank_H025A001“.