LEKCE06 SROVNÁVÁNÍ SKUPIN NA ZÁKLADĚ STŘEDNÍCH HODNOT JEJICH KARDINÁLNÍCH CHARAKTERISTIK vzorový výsledek cvičení CVIČENÍ 6.1: a) Zjistěte, zdali se podle dat EVS_ČR1999.sav liší postoj k homosexualitě (q65a_8) v závislosti na intenzitě náboženského přesvědčení (q28). Výsledek ilustrujte i graficky (upravte přitom měřítko osy Y tak, aby zachycovalo plnou škálu od 1 do 10). V odpovědi se zamyslete nad možnými důvody, které k tomuto výsledku vedly. Považujme škálu za kardinální. V proceduře MEANS si vypočteme průměrné hodnoty dosažené na škále Q28 pro skupiny věřících, nevěřících a ateistů: Jak je zřejmé, postoje jednotlivých skupin se v našem souboru liší. Abychom mohli totéž tvrdit i o základním souboru, z něhož byl náš soubor vybrán, museli bychom testovat statistickou významnost vypočítaných rozdílů mezi průměry. V tomto případě by šlo buď o ONE-WAY analýzu nebo o tři t-testy, testující významnost rozdílu (víte ale, že mnohonásobné t-testy se nedoporučují a proto byste zvolili ANOVU --ONE WAY: ˙ věřící a nevěřící ˙ věřící a ateisté ˙ nevěřící a ateisté. b) Spočítejte průměry tolerance k homosexualitě (q65a_8) pro skupiny respondentů podle jejich volebních preferencí. Výsledek zobrazte graficky a poté zjistěte, zdali je rozdíl v postoji k homosexualitě mezi stoupenci komunistů a stoupenci KDU statisticky významný. Použijte parametrického i neparametrického testu. V odpovědích vždy uvádějte všechna potřebná čísla jako argumenty. POZOR: Abyste byli schopni tuto úlohu vyřešit, budete muset z proměnné q72 vytvořit pomocí RECODE novou proměnnou. Nazvěte ji preferen a její nové kódy vytvořte tak, aby měla tyto varianty: 1. KSČM, 2. ČSSD 3. KDU 4. US 5. ODS Vše ostatní, včetně 90 nevolil by -- missing value Soubor s novou proměnnou uložte! a) Spočítejte průměry tolerance k homosexualitě (q65a_8) pro skupiny respondentů podle jejich volebních preferencí. Výsledek zobrazte graficky a poté zjistěte, zdali je rozdíl v postoji k homosexualitě mezi stoupenci komunistů a stoupenci KDU statisticky významný. Použijte parametrického i neparametrického testu. V odpovědích vždy uvádějte všechna potřebná čísla jako argumenty. Voliči KSČ jsou k homosexualitě nejméně tolerantní (průměr na škále je 3,95), ale voliči KDU-ČSL jsou jim, co se týče postoje k homosexualitě velmi podobní (průměr na škále je 4,17). Připomeňme si jen, že 1 znamená maximální netoleranci a 10 maximální toleranci v rámci dané škály. Voliči obou stran jsou v tomto ohledu méně tolerantní než voliči ČSSD, ODS a zejména Unie svobody (předbíháme, ale nemůže to být dáno tím, že je mezi nimi relativně nižší podíl osob s vysokoškolským vzděláním?). Na místě je ovšem otázka, zda tento poměrně malý rozdíl nejde na vrub výběrové chyby, zda jsou rozdíly průměrné (ne)tolerance k homosexualitě skutečně statisticky významné. Použijeme tedy test statistické významnosti rozdílu (v tomto přípd Independent Samples T-test) V Grouping Vaiable jsme definovaly skupiny, pro něž budou průměry porovnávány. Podle výsledku F- testu volíme pro rozhodování první řádek (F - test nedovolil zamítnout nulovou hypotézu neboli hypotézu o shodě variancí - je zde 20,3% riziko chyby (r) Equal variance assumed). Také v t- testu jsme na tom stejně (riziko při zamítnutí nulové hypotézy o shodě průměrů je 62,5%). Nelze tedy vyloučit, že rozdíl v průměrném umístění voličů obou stran mohl být dán výběrovou chybou a v základním souboru neexistuje. Zatímco v případě voličů KDU-ČSL můžeme předpokládat, že základem odmítnutí tolerovat homosexualitu vychází z jejich náboženské víry, v případě voličů KSČM bychom mohli předpokládat vliv jejich vysokého věku (mohli bychom to díle testovat) a celkové netolerantnosti -- sbližuje je poměrně nižší vzdělání). V modulu NONPARAMETRIC TESTS: INDEPENDENT SAMPLES T-TEST použijeme "Mann-Whitney" test: Výsledek je stejný, test tentokrát upozorňuje na 81,2% riziko chyby při zamítnutí nulové hypotézy. Zkusme jen voliče KSČM a voliče ČSSD (mají k sobě blízko mnoha postoji a rozdíl v toleranci k homosexualitě je druhý nejnižší). Podle výsledku F- testu volíme pro rozhodování první řádek (F - test nedovolil zamítnout nulovou hypotézu neboli hypotézu o shodě variancí - je zde 19,5% riziko chyby (r) Equal variance assumed). V t- testu ovšem můžeme nulovou hypotézu zamítnout (riziko, že zamítneme nulovou hypotézu přestože platí je menší jak 0,1%). c) Pokusme se zjistit jak je to se statickou významností průměrné (ne)tolerance k homosexualitě mezi všemi skupinami voličů? K tomu použijeme ONE-WAY analýzy Tato tabulka nám říká, že minimálně mezi dvěmi srovnávanými skupinami voličů statisticky významný rozdíl v jejich průměrných hodnotách (ne)tolerance k homosexualitě existuje. Ještě ale stále nevíme mezi kterými. To nám řekne až Post Hoc Multiple Comparisons. Jak ukazuje níže uvedená tabulka, existují statisticky významné rozdíly: - mezi voliči KDU a voliči ČSSD, US a ODS - mezi voliči KSČM a voliči ČSSD, US a ODS. Neexistují však mezi voliči KSČM a KDU -- není vyloučeno, že mají stejnou (ne)toleranci vůči homosexualitě. Neexistují však mezi voliči ČSSD, US a ODS -- není vyloučeno, že mají stejnou (ne)toleranci vůči homosexualitě. Tyto 2 skupiny se v populaci svou mírou k homosexualitě odlišují. CVIČENÍ 6.2: Testujte, zdali výběrový soubor EVS_ČR1999.sav pochází ze základního souboru populace ČR z hlediska věku. Jelikož výběrový soubor zahrnuje populaci ČR starší 18 let, musíte nejdříve vypočítat průměrný věk tohoto základního souboru. Ve Statistické ročence České republiky 2000 si najděte tabulku Obyvatelstvo 4.-2 (str. 106) a z údajů ve sloupci 1. 7. 1999 Celkem (náš výzkum totiž proběhl v květnu 1999) a z řádků pro věk 18-99 ručně vypočtěte průměrný věk populace starší 18 let (věk 99+ chápejte jako hodnotu 99). Tuto hodnotu pak použijte v SPSS. Zatím řeším jen modelově, protože se mi podařilo na poslední chvíli zjistit, že jsem ztratil vypočítaný údaj. Dal jsem si ho zjistit a tak jen pro informaci uvádím řešení s odhadnutým věkovým průměrem (berte ho cvičně jako by byl zjištěn!). Průměrný věk v našem souboru je 45,69 let (průměrný věk mužů a žen v zadání nebyl požadován, ale logika SPSS si žádá použití alespoň jedné proměnné vymezující kategorie, pro kterou je průměr počítán (musí to být kategorizovaný znak, nejlépe o co nejmenším počtu kategorií). Předpokládejme, že jsme zjistili ve Statistické ročence průměrný věk 44,52 let: T-Test V tomto případě lze zamítnout nulovou hypotézu, věkový průměr v našem souboru se- sice jen velmi málo, ale statisticky významně liší od věkového průměru základního souboru (riziko chyb při zamítnutí této hypotézy je jen 2%). CVIČENÍ 6.3 Odpovězte na otázky: a) Jaký je průměrný věk mužů a žen (Q84) v našem souboru a zda se tyto hodnoty od sebe liší i v populaci či je jejich rozdíl v našem souboru způsoben pravděpodobně jen výběrovou chybou. Průměrný věk je v našem souboru u mužů (44,53 let) a u žen (46,77). Tento rozdíl je statisticky významný, při zamítnutí nulové hypotézy o shodě těchto průměrů v populaci se dopouštíme jen 0,4% rizika chyby (čteme signifikanci t na prvním řádku). b) Jaký je průměrný věk mužů se základním vzděláním a žen se základním vzděláním v našem souboru a v jakém intervalu se pohybují tyto průměry v celé populaci? Při zadání výpočtu v proceduře MEANS přidáme proměnnou VZDĚLANÍ (Layer 2). Ženy se základním vzděláním jsou v našem souboru v průměru mladší než muži se základním vzděláním. Intervaly spolehlivosti nám v obou případech dovolí vypočítat zadaná standardní chyba průměru. Lze řešit i pomocí výpočtů v podsouborech mužů a žen (zejména chceme-li testovat statistickou významnost rozdílu - to ovšem nebylo zadáno).