SOC108/708 LEKCE 3: NORMáLNí ROZLOŽENÍ (c) Petr Mareš a Ladislav Rabušic 2000 LEKCE03 NORMÁLNÍ ROZLOŽENÍ A ZÁKLADY TESTOVÁNÍ HYPOTÉZ. STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR vzorový výsledek cvičení CVIČENÍ 3.1: V souboru EVS_CR1999.sav zjistěte, zdali rozložení názoru na to, kdo by měl být odpovědný za zajištění bydlení (proměnná q54h), je normální. Řešte graficky i početně. PROCEDURA FREQUENCIES V proceduře FREQUENCIES jsme si vypočítali rozložení proměnné Q54h. I když se zdá být normálnímu velmi blízké, přece jen je nutné si to ověřit (zejména prvá strana rozložení modelu normálního rozložení příliš neodpovídá). Procedura EXPLORE: Na grafu (normal Q-Q plot) lze vidět, že se pozorované hodnoty od očekávaných (pokud by bylo rozložení normální) odchylují, o kolik se to však opticky jeví, ovlivňuje měřítko. V tomto grafu odchylek je již zřejmější, že nepůjde o normální rozložení. Test normality (Kolmogorov-Smirnov) nás pak definitivně přesvědčuje, že o normální rozložení nejde. Testujeme zde totiž nulovou hypotézu: naše empirické rozložení a (modelové) normální rozložení jsou shodná, Test nám říká, že při zamítnutí této hypotézy se dopouštíme jen nepatrného rizika chyby (menší jak 0,1%, zatímco by nám stačilo 5%, neboli hladina sig. 0,05. Tento test je důležitý, vzpomeňte si totiž, že histogram nám sice naznačil odlišnost našeho normálního rozložení od normálního, ale neřekl nám nic o tom, zda je tato odlišnost dostatečně velká, aby byla statisticky významná. CVIČENÍ 3.2: Stanovte interval spolehlivosti průměru odpovědí na otázku q54f z výzkumu EVS-ČR1999, zdali by u nás mělo vzrůstat soukromé vlastnictví obchodu a průmyslu, nebo zda by se mělo v co nejširší míře zachovat vlastnictví státní. Interval spolehlivosti stanovte se spolehlivostí 95 a 99 %. V odpovědi nad získaným výsledkem srovnejte českou situaci se situací v některých evropských zemích. K tomu použijte tabulku 1. Do ní dopočítejte intervaly spolehlivosti pro vámi zvolených pět zemí. Považujme škálu za kardinální. Pro výpočet průměru lze požít kteroukoliv z procedur DESCRIPTIVE STATISTICS (FREQUENCIES, DESCRIPTIVES či EXPLORE). Pro výpočet intervalu spolehlivosti jsou však první dvě nepříliš výhodné, počítají jen standardní chybu a interval bychom museli dopočítávat podle známých vlastností normálního rozložení (pro 95% je to +/-2S.E. a pro 99% je to +/-3S.E.). a) Příklad výstupu z procedury FREQUENCIES: b) Příklad výstupu z procedury DESCRIPTIVES: Pozor: V obou případech jsou hodnoty S.E. zokrouhleny. c) Příklad výpočtu z procedury EXPLORE: ˙ Pro 95% a) Pro 99% Země Průmě Std. N 95% Interval 99% Interval r Err. spolehlivosti spolehlivosti ČR 4,71 2,51 185 4,60 až 4,83 4,56 až 4,86 1 Pozor: Standardní odchylka nám k řešení našeho úkolu nepomůže, uvádíme ji jen proto, aby byl údaj o charakteristice rozložení postoje kompletní. Všimněte si, že jsme za větší spolehlivost zaplatili menší přesností (na 99% víme, že průměr leží v intervalu 4,56 až 4,86, ale tento interval je rozsáhlejší než když nám stačí 95% jistota). Tab. 1: Odpovědi na otázku q54f v různých evropských zemích Země Průmě Std. N 95% Interval r Dev. spolehlivosti Francie 4,03 2,23 149 8 SRN 4,05 2,14 183 6 etc. ČR 4,71 2,51 185 4,60 až 4,83 1 Tento příklad nemá řešení, protože neuvádí S.E. ale St. Dev. Museli bychom si je v souborech jednotlivých zemí spočítat, jako jsme to učinili pro Českou republiku. CVIČENÍ 3. 3: Stanovte intervaly spolehlivosti pro průměrnou volbu mužů a pro průměrnou volbu žen na škále proměnné q54f . Překrývají se tyto intervaly nebo ne (co z výsledku plyne)? a) Provedeme výběr (SELECT IF) pro muže a spočítáme požadované hodnoty (procedura EXPLORE). Lze to spočítat i pro 99% interval spolehlivosti: Totéž provedeme pro ženy: Lze to spočítat i pro 99% interval spolehlivosti: Intervaly spolehlivosti průměru voleb na škále Q54f pro muže a ženy 95% interval 99% interval spolehlivosti spolehlivosti horní spodní horní spodní hranice hranice hranice hranice muži 4.65 4,32 4,70 4,27 ženy 4,77 5,09 5,14 4,72 b) Porovnáme intervaly. Všimněte si, že nepronikají ani 99% intervaly spolehlivosti (rozsáhlejší než 95%). Lze předpokládat na 99%, že se neliší jen statistiky (průměrné volby v našem souboru), ale i parametry (průměrné volby v základním souboru, z něhož byl náš výběr proveden). zde s 95% pravděpodobností zde s 95% pravděpodobností leží parametr pro muže leží parametr pro ženy 4,2 4,3 4,4 4,5 4,6 4,7 4,8 4,9 5,0 5,1 zde s 99% pravděpodobností zde s 99% pravděpodobností leží parametr pro muže leží parametr pro ženy CVIČENÍ 3.4: Určete věkové hranice oddělujících 2,28% nejstarších a 2,28% nejmladších osob v našem souboru. O co se jedná? Znamená to určit v rozložení věku hranice vymezující 95% souboru (směrem nahoru i směrem dolů odřízneme dohromady 5%): průměrný věk +/- 2 standardní odchylky. Jak i výpočet ukazuje, nebyl to šťastný nápad pokusit se simulovat výpočet na rozložení, které není normální (ve statistickém smyslu). Tyto hranice představují: 45,66 - 2 * 16,83 = 12,03 45,66 + 2 * 16,83 = 79.35 CVIČENÍ 3.5: Co se týče umístění na škále proměnné q54f, vidíme rozdíl v průměrných volbách osob se základním vzděláním a osob s vysokoškolským vzděláním (proměnná vzdelani). Vyjádřete ovšem jejich pozici ve vztahu k průměru celého souboru pomocí standardní odchylky a obě hodnoty porovnejte (z-skóre a jejich průměrné hodnoty v obou skupinách). Rozdíly si můžeme nejprve zobrazit v proceduře EXPLORE. V proceduře DESCRIPTIVES zaškrtneme požadavek na výpočet Z- skóre. Následně spočítáme průměrné hodnoty z-skóre pro jednotlivé vzdělanostní kategorie (proměnná VZDELANI). Následná tabulka ukazuje, že průměrná hodnota na škále Q54f se u osob se základním vzděláním pohybuje 0,25 standardní odchylky nad průměrem souboru a u osob s vysokoškolským vzděláním 0,35 standardní odchylky pod průměrem souboru. CVIČENÍ 3.6: V datech zjistěte, zdali jsou rozdíly v postojích k příjmovým rozdílům (proměnná q54e) rozdílné u jednotlivých vzdělanostních skupin (proměnná isced1). Vypočítejte nejdříve průměry pro jednotlivé skupiny a zobrazte tyto průměry graficky. K odpovědi na otázku vypočítejte parametrický i neparametrický test a na základě testu normality se rozhodněte, který z vypočítaných testů je adekvátní. Řešení: Parametrický test Neparametrický test Dodatek 1: Stanovte interval spolehlivosti pro odpovědi na otázku q7_10 z výzkumu EVS-ČR1999, zdali by lidé nechtěli mít za sousedy lidi s nemocí AIDS. Kromě toho ve své odpovědi srovnejte český postoj k lidem s AIDS s ostatními evropskými zeměmi (viz tab. 2). Spočítáme si FREQUENCIES: Spočítáme si v EXPLORE: 95% interval spolehlivosti zahrnuje hodnoty 18,77 až 22,4. Pozor, jde o speciální případ výpočtu, jež je možný u dichotomické proměnné (považujeme ji za kardinální). Dodatek 2: Stanovte intervaly spolehlivosti pro jednotlivé odpovědi na otázku q17_4, zdali pracovat je povinností vůči společnosti. Pozor! Tato úloha je jiného typu než předchozí, neboť jde o kategorizovanou proměnnou. Výpočet si zjednodušíme tím, že ho, podle předepsaného vzorce, provedeme v Excelu: Ve výše uvedené tabulce vidíme, v jakém intervalu se skutečně pohybují procenta osob s různou mírou souhlasu v základním souboru, odhadujeme-li je z výsledků našeho výběrového souboru, jenž byl z tohoto základního souboru náhodně vybrán (například je-li v našem výběrovém souboru 19% osob, které s předloženým výrokem "rozhodně souhlasí", víme že s 95% pravděpodobností je jich ve skutečnosti v našem základním souboru ne méně než 17,2% a ne více než 20,8%).