1 ODHADOVANIE VÝSLEDKOV VOLIEB JOZEF JANOVSKÝ (273898) 1. ZDROJ DÁT Používame verejne dostupné dáta, ktoré sú súčasťou výskumného projektu „The Record of American Democracy, 1984-1990“1, agregujúceho množstvo informácií o americkej spoločnosti a politike. Dáta v ňom pochádzajú jednak zo sčítania ľudu z roku 1990 a doplnené sú výsledkami volieb rôznych druhov v období rokov 1984-1990. Tieto údaje sú dostupné na úrovni oblastí využitých práve pri danom sčítaní ľudu. Štát, na ktorom analýzu prevedieme si vyberáme podľa toho, aby mal čo najviac týchto oblastí, čo vydeľuje Pennsylvániu, ktorá ich má 2674. Na základe údajov zo sčítania ľudu sa budeme snažiť pomocou modelu logistickej regresie odhadnúť či, v danej oblasti získali v prezidentských voľbách v roku 1988 viac hlasov republikáni alebo demokrati. Následne overíme možnosť využitia tohto modelu pri predikcii výsledkov ďalších v datasete zahrnutých volieb. 2. POPIS DÁT Z datasetu sme vybrali 10 premenných a doplnili ich o tri skonštruované premenné (získané transformáciami premenných obsiahnutých v datasete), ktoré dohromady predstavujú vysvetľujúce premenné. Vysvetľovanou premennou je „víťazstvo“ republikánov v danej oblasti. „Predvýber“ vysvetľovacích premenných z pôvodného počtu 3360 premenných v datasete (vrátane dodatočne skonštruovaných) prebiehal na základe korelácií s vysvetľovanou premennou a výsledkov parciálneho stepwise logisticko-regresného modelovania2, a to tak aby sme vzali do úvahy štatisticky najvýznamejšie najvýznamnejšie premenné. URBANperc1 - Percento obyvateľstva danej oblasti, žijúceho v meste.3 HOUSSIperc1 - Percento domácností poberajúce dávky sociálneho zabezpečenia.4 HOUINCave – Priemerný príjem domácnosti v danej oblasti v $ za rok 1989.5 P0280030 – Počet obyvateľov starších než 65 rokov, ktorí doma rozprávajú iným jazykom než angličtinou, španielčinou, či ázijskými alebo pacifickými jazykmi a zároveň vôbec neovládajú angličtinu. P0310014 – Počet obyvateľov starších než 5 rokov, ktorí doma hovoria juhoslovanským jazykom. P0340033 – Počet obyvateľov, ktorí majú viacerých predkov z Juhoslávie. P0350033 – Počet obyvateľov, ktorí majú jedného predka z Juhoslávie. 1 Gary King; Bradley Palmquist; Greg Adams; Micah Altman; Kenneth Benoit; Claudine Gay; Jeffrey B. Lewis; Russ Mayer; and Eric Reinhardt. 1997. ``The Record of American Democracy, 1984-1990,'' Harvard University, Cambridge, MA [producer], Ann Arbor, MI: ICPSR [distributor]. 2 Máme tým na mysli, že sme povolili prítomnosť približne 800 vysvetľujúcich premenných v modeli a spustili stepwise procedúru. Tento postup sme zvolili z praktických technických výpočtových dôvodov (pri pustení procedúry na všetkých 3360 premenných počítač zamrzával na príliš dlhú dobu). 3 V reči premenných datasetu ide o: P0060001/P0010001. 4 V reči premenných datasetu: P0940001/P0050001. 5 V reči premenných datasetu: P0980001/P0050001. 2 P1000001 – Celkový príjem farmárov samo-zamestnávateľov za rok 1989 v $. P124B012 – Počet rodín s príjmom pod úrovňou chudoby, v ktorých je hlavou domácnosti matka bielej pleti bez manžela, bez detí mladších než 18 rokov. P087A019 – Počet domácností, v ktorých je jej hlavou 35 až 44-ročný človek bielej pleti, zarábajúci menej než 5000$ ročne. P1270007 – Počet domácností nad úrovňou chudoby, v ktorých je jej hlavou 65 až 74-ročný muž bez manželky. P1270023 – Počet domácností pod úrovňou chudoby, v ktorých je jej hlavou 65 až 74-ročná žena bez manžela. H025A001 – Medián roku stavby bytovej jednotky. rep84, rep86, rep88, rep90 – Binárna premenná nadobúdajúca hodnotu 1 ak v príslušných voľbách do Snemovne reprezentantov získali republikáni viac hlasov v danej oblasti a hodnotu 0, ak získali menej hlasov než demokrati. rep84p, rep88p - Binárna premenná nadobúdajúca hodnotu 1 ak v príslušných prezidentských voľbách získali republikáni viac hlasov v danej oblasti a hodnotu 0, ak získali menej hlasov než demokrati. 3. DESKRIPTÍVNA ANALÝZA „SUROVÝCH“ DÁT Po všeobecnom prehľade základných vlastností všetkých premenných, uvedených v tabuľke, sa teraz na ne pozrieme jednotlivo. Ako vyplýva zo zavedenia vysvetľujúcich premenných, každá z nich je intervalového typu. Deskriptívna analýza dát pritom poukázala aj na to, že je možné, že sú dáta nejakým spôsobom systematicky zaťažené technickou chybou. Existuje v nich totiž príliš veľa násobkov čísla 30, a to pri prakticky všetkých premenných. Podľa priloženej dokumentácie však neexistuje dôvod na takýto charakter dát. Kompletne prerábať celý dataset však presahuje naše možnosti a aj vzhľadom na ilustratívny charakter tejto analýzy pristupujeme k dátam tak, že ide o vedomú konštrukciu a v ďalšom sa zameriame na klasické ošetrenie kvality dát, odstránením extrémnych hodnôt, chýbajúcich hodnôt a pod. 3 4 5 4. TRANSFORMÁCIA DÁT V prvom rade sme zmenili mierku u premenných, ktoré boli výrazne odlišné v hodnotách od ostatných a potom sme ošetrili extrémne a chýbajúce hodnoty: - Premennú HOUINCave sme delíme stami a premennú P1000001 tisícmi. - V premennej URBANperc1 dosahujú tri prípady hodnoty vyše 100, takže ich nahradíme hodnotou 100. - V premennej HOUINCave priradíme 5 najvyšším hodnotám hodnotu 6. najvyššieho. - V premennej P0280030 priradíme trom najvyšším pozorovaniam hodnotu 900. - V premennej P0310014 priradíme dvom najvyšším pozorovaniam hodnotu 900. - V premennej P0340033 priradíme štyrom najvyšším pozorovaniam hodnotu 900. - V premennej P0350033 priradíme siedmim najvyšším pozorovaniam hodnotu 900. - V premennej P1000001 priradíme dvom najvyšším pozorovaniam hodnotu 3. najvyššej. - V premennej P124B012 priradíme pozorovaniu s najvyššou hodnotou hodnotu 900. - V premennej P087A019 priradíme 6 pozorovaniam s najvyššou hodnotou hodnotu 900. - V premennej P1270007 priradíme 2 pozorovaniam s najvyššou hodnotou hodnotu 870. - V premennej P1270023 priradíme pozorovaniu s najvyššou hodnotou hodnotu 900. - V premennej H025A001 priradíme 3 pozorovaniam s hodnotou 0 hodnotu 1939 (rok). - Odstraňujeme tých 89 pozorovaní, ktoré obsahovali chýbajúce hodnoty pre všetky vysvetľujúce premenné. - Zvyšné chýbajúce hodnoty vo vysvetľovaných premenných dopĺňame priemermi. Dostávame tak tabuľku: 6 Pokračujeme kategorizáciou premenných, a to tak, aby boli počty pozorovaní v nich približne vyrovnané a aby sme docielili vysokú “information value“ danej premennej (a vhodné hodnoty „weights of evidence“). Ak je to možné, do kategórií delíme po deciloch, v prípade, že by z týchto dôvodov nebolo takého rozdelenie možné, delíme do menšieho počtu skupín. Ďalej uvádzame tabuľky pre premenné po kategorizácii. Vysvetľujeme pritom premennú rep88p, teda „víťazstvo“, či „porážku“ republikánskeho kandidáta v prezidentských voľbách 1988. Medium predictivity (IV = 0.1321, 2 groups) Overpredictive (IV = 0.7539, 10 groups) Overpredictive (IV = 0.5386, 10 groups) 7 Medium predictivity (IV = 0.1079, 2 groups) Strong predictivity (IV = 0.3386, 2 groups) Medium predictivity (IV = 0.1962, 2 groups) Strong predictivity (IV = 0.3071, 2 groups) Strong predictivity (IV = 0.3843, 5 groups) Weak predictivity (IV = 0.0962, 2 groups) Weak predictivity (IV = 0.0986, 4 groups) 8 Weak predictivity (IV = 0.0840, 2 groups) Weak predictivity (IV = 0.0786, 2 groups) Strong predictivity (IV = 0.4536, 5 groups) Zhrnieme, že 4 premenné vykázali slabú prediktivitu, 3 stredne silnú, 4 silnú a 2 príliš silnú. Najmä premenná HOUSSIperc1 je kvôli svojej nezvyčajne vysokej hodnote IV „podozrivá“. Keďže tá je však jednoducho konštruovaná ako percento domácností, poberajúcich nejakú formu sociálnych dávok, autor nevidí v čom by mohlo dôjsť k chybe pri jej konštrukcii. Zároveň je logické, že tu závislosť existuje. Voličmi Republikánov sú typicky dobre zabezpečení členovia vyššej vrstvy, ktorí sú menej závislí na sociálnom zabezpečení. Takto je možné vysvetliť i mierne „overpredictive“ závislosť pri premennej HOUINCave. 5. MODELY LOGISTICKEJ REGRESIE Na kategorizovaných dátach teraz vybudujeme logisticko-regresné modely. Najprv budujeme model metódou stepwise s požadovanou významnosťou premennej na vstupe rovnou 0,05 a na udržanie sa v modeli rovnou 0,01. Do modelu (Model 1) zahrňujeme konštantu a do výberu povoľujeme každú z vysvetľujúcich premenných. Výsledky, dosiahnuté po 8 krokoch, prinášajú nasledujúce tabuľky a graf. V modeli zostalo 8 premenných, poradie kategórií v každej z nich sme tiež upravili tak aby sme dostali kladné odhady koeficientov (preto ich mená začínajú „rank_“). Korelácia žiadnej 9 dvojice z nich pritom v absolútnej hodnote nedosahuje 0,5. Udávame aj odhady parametrov pomocou Waldovho testu. Vzhľadom na silné vzťahy prediktivity jednotlivých premenných nie je prekvapením ani vysoká výpovedná schopnosť modelu, zrejmá z vysokého počtu konkordantných párov oproti diskonkordantným, ako i z následného vysokého Sommersovho D a obdobných štatistík. Takto vyzerajú ROC krivky: 10 Zaujímalo nás tiež ako sa model zmení, keď neumožníme prítomnosť dvoch „podozrivých premnných“, teda HOUSSIperc1 a HOUINCave. V šiestom kroku procedúra stepwise terminuje s týmito výsledkami: Vidíme, že aj odobratí premenných si model stále udržuje vysokú výpovednú hodnotu. Došlo pritom len k ďalšej zmene čo do zastúpenia premenných v modeli. Nakoniec otestujeme Model 1 aj na ostatných voľbách, ku ktorým máme k dispozícii dáta. Pre stručnosť sa obmedzíme len na uvedenie tabuľku odhadov koeficientov a kvality modelu (ako v predošlom prípade). Voľby do Snemovne 1984 Voľby do Snemovne R. 1986 11 Voľby do Snemovne R. 1988 Voľby do Snemovne R. 1990 Prezidentské voľby 1984 Najdôležitejšia skutočnosť plynúca z tohto porovnania je, že model vyvinutý pre prezidentské voľby je o poznanie menej vhodný pre odhadovanie výsledkov volieb do Snemovne reprezentantov. Naopak, výsledky prezidentských volieb z roku 1984 sa mu podarilo odhadnúť takmer rovnako presne ako tých v roku 1988. Na základe porovnania si tiež môžeme všimnúť, ktoré premenné nie sú robustné vo svojej štatistickej významnosti na hladine významnosti 0,01, najčastejšie sa jedná o premenné „rank_P1270007“, „rank_HOUINCave“ a „rank_H025A001“.