cvičení z analýzy dat sociologického výzkumu 9. lekce Jméno a příjmení: Imatrik. ročník: 1. a) Jak velkou byste očekávali souvislost mezi důležitostí Boha (q33 v datech EVS ČR1999) a četností modliteb k Bohu mimo církevní obřady? b) Potvrdilo se vám toto očekávání? Jaký koeficient jste pro výpočet použili a proč? c) Pokud ano, o čem to svědčí? d) Co znamená, že má vypočtený korelační koeficient záporné znaménko? e) Je tato korelace signifikantní? Řešení: Analyze-Descriptive Statistics-Crosstabs-Statistics=Correlations nebo Analyze-Correlate-Bivariate-Spearman a) Očekávali jsme vysokou korelaci a b) ona se potvrdila. Spearmana, jedna z proměnných je ordinální povahy. c) Svědčí to o tom, že respondenti jsou ve svých odpovědích konsistentní. d) Záporné znaménko znamená v daném případě kladnou korelaci: čím je Bůh důležitější, tím častěji se respondent modlí k Bohu i mimo církevní obřady. e) Ano, korelace je signifikantní. 2. a) Do jaké míry souvisí postoje v baterii q54a -- q54h se vzděláním respondenta (ISCED1)? Výpočet udělejte jako obdélníkovou matici, v níž vzdělání je nezávisle proměnnou. Formát výstupního výpočtu přetvořte tak, aby vzdělání bylo umístěno ve sloupci a závisle proměnné v řádcích. b) Jaký koeficient jste pro výpočet použili? c) S jakou proměnnou v dané baterii vzdělání nejvíce koreluje? Jaký je příslušný koeficient determinace? d) A s jakou proměnnou naopak vzdělání koreluje nejméně? e) Proč jsou některé korelace kladné a některé záporné? f) Proč jsou korelace tak rozdílné? g) Vyjdou výsledky stejně, pokud proměnnou vzdělání měřenou jako znak ISCED1 (se šesti kategoriemi) nahradíte proměnnou vzdelání, která má kategorie pouze čtyři?) Řešení: Omlouvám se, k tomuto úkolu jste ve svém souboru neměli proměnnou ISCED1, takže stačí pracovat s proměnnou vzdělání Analyze-Descriptive Statistics-Crosstabs-Statistics=Correlations nebo Analyze-Correlate-Bivariate-Spearman Pokud ale chceme, aby vzdělání bylo ve sloupci, musíme použít syntaxe: CORRELATIONS /VARIABLES=q54a q54b q54c q54d q54e q54f q54g q54h with ISCED1 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE. a) Souvisí do určité míry se všemi, ale korelační koeficienty jsou poměrně nízké a v jednom případě i nesignifikantní, b) Použili jsme Spearmana, protože se jedná o ordinální proměnné, z nichž jedna je dlouhá, c) Nejvíce koreluje s E, tj. Příjmy by měly být vyrovnanější nebo naopak víc motivační, koeficient determinace je 0,205^2, tj. 0,042. Vzdělání tedy určuje jen 4 % variability této proměnné. d) Nejméně koreluje s B, tj. Nezaměstnaní nabízené zaměstnání mají povinnost přijmout nebo ho mohou odmítnout e) Záleží na tom, zda se jedná o přímou nebo nepřímou úměru, f) Jsou různě postavené otázky a otočené stupnice, g) Korelace vycházejí podobně. 3. a) Testujte nulovou hypotézu, že mezi hrdostí na to být občanem ČR (q67) a preferencí místa, k němuž respondenti pociťují největší příslušnost není žádná souvislost (q71). Jaký koeficient zvolíte a proč? b) Jak danou souvislost vysvětlíte? c) Kolik bylo v souboru "evropo" a "světoobčanů", to je lidí pociťujících největší příslušnost k Evropě a ke světu? Kolik je to procent z celého souboru? Řešení: Analyze-Descriptive statistics-Crosstabs-Correlations-Statistics=Correlations nebo Kendallovo tau-c, Cells-Percentage a) Je možné zvolit např. Kendala nebo Spearmana, protože tyto proměnné lze seřadit. Korelace je ale nízká, navíc nesignifikantní. Nízkou korelaci dokládá i rozložení dat v tabulce, viz první řádek dat. Ať je člověk hrdý více nebo méně, pociťuje nejsilnější příslušnost k obci, v níž žije. b) Nejvíce lidí pociťuje nejsilnější příslušnost k obci, hrdost na občanství je řádově odlišná. c) K Evropě 47, ke světu 98, celkem tedy 145/1832 = 8 %. 4. Sledujte, jak se mění velikost korelačních koeficientů a jejich signifikance v závislosti na velikosti souboru. Zjistěte nejdříve, jaká je korelace (měřená Pearsonem) mezi délkou rozhovoru (proměnná c51) a věkem (proměnná vek) v celém souboru. poté udělejte náhodný výběr 600 respondentů z 1900 a spočítejte tutéž korelaci. Pak udělejte náhodný výběr 200 respondentů, dále 65 respondentů a 30 respondentů. V každém náhodném vývěru spočítejte korelaci a zjistěte signifikanci. Výsledky zapište do tabulky. Budou výsledky u všech studentů stejné, nebo se budou lišit. pokud ano, tak proč? Data-Select cases-Random sample of cases Analyze-Correlate-Bivariate-Pearson nebo Analyze-Descriptive Statistics-Crosstabs-Statistics=Correlations Tab.: Korelace mezi délkou rozhovoru a věkem respondenta + signifikance +--------------------------------------------------------------------------------------------+ | N = celý soubor | N = 600 | N = 200 |N = 65 |N = 30 | |------------------------+-----------------+-----------------+---------------+---------------| | r | sign. | r | sign. | r | sign. | r | sign. | r | sign. | |--------------+---------+--------+--------+--------+--------+-------+-------+-------+-------| | 0,15 | 0,000 | 0,27 | 0,000 | 0,20 | 0,006 | 0,13 | 0,286 | 0,38 | 0,032 | +--------------------------------------------------------------------------------------------+ Pozor: Výsledky se budou u jednotlivých studentů lišit, neboť náhodné výběry budou u každého studenta odlišné! Korelace se s velikostí souboru snižuje.