OPAKOVÁNÍ SEZNÁMENÍ SE SPSS PSYb2520 Statistická analýza dat II 1. setkání DNEŠNÍ PROGRAM Představení kurzu a zdrojů Učebnice Data Představení SPSS Základní analytické postupy CÍLE KURZU Získat praktickou schopnost provádět statistické analýzy s více než 2 proměnnými Rozumět prezentovaným výsledkům Korektně komunikovat výsledky analýz PŘEHLED TÉMAT Seznámení se SPSS Základní analytické postupy Lineární regrese Logistická regrese Analýza rozptylu Víceúrovňový lineární model (Faktorová analýza v PSYb2590) POŽADAVKY A ZKOUŠKA Zpracování všech průběžných úkolů (trojice) Na každý seminář, nebodováno Vstupní test – teorie statistické indukce (Field kap. 2) Průběžný test Opakování, okruh č. 1 Cvičné testy v ISu, budou rozšířeny Zápočtový test Teoretické znalosti, termíny Zkouška Během hodiny a půl vypracovat zprávu z analýzy na počítači Se všemi zdroji, vč. googlení UČEBNICE •Field, A.: Discovering statistics using SPSS, 4th 5th •http://www.statisticshell.com/ •http://www.uk.sagepub.com/field4e/study/default.htm •https://edge.sagepub.com/field5e • •Morgan et al (2002). From numbers to words. Reporting statistical results for the social sciences. Allyn & Bacon. •American Psychological Association. (2001). Publication manual of the American Psychological Association (6th ed.). Washington, DC: Author. V říjnu 7. vydání! •Zatím Appelbaum et al. (2018) https://scontent-fra3-1.xx.fbcdn.net/hphotos-xpf1/v/t1.0-9/11903886_10204948324809101_2768297236246 882883_n.jpg?oh=528e0c3426d56998075b3bdc7c474651&oe=569DC3FD OPÁČKO S FIELDEM Nelze všechno přečíst hned, projděte na test. Interaktivní sylabus se snaží ukázat, co jak číst. Kap 1 – popisná statistika Kap 2 – statistická indukce Kap 3 – seznámení se SPSS Kap 4 – Vyrábíme grafy Kap 5 – Kontrolujeme předpoklady testů Kap 6 – Neparametrické testy Kap 7 – Korelace Kap 9 – t-testy Kap 18 – Chí-kvadrát STATISTICKÝ SOFTWARE Umožňuje provádět analýzy rychle a ve velkém množství Nabízí možnosti správy dat – metadata, sdílení Ovlivňuje způsob práce – analýzy i jejich reportování Excel – dostupnost, omezené možnosti pokročilejších analýz IBM SPSS – sociální vědy, dinosaurus, garance – licence FSS Statistica – všechny vědy, -skriptování – licence MU Stata – i nejpokročilejší analýzy, nemáme multilicenci R – možné je úplně vše, méně je garantováno … IBM SPSS Nainstalovat z inet.muni.cz Při instalaci je vhodné kývnout na nabídky ohledně python a R IBM SPSS Import a export dat Datová matice a orientace v datech Data, output, syntax Transformace proměnných Popisné statistiky Grafy SPSS - IMPORT A EXPORT DAT .csv – obvyklý textový formát – hodnoty oddělené středníkem*, desetinná čárka, kromě názvů proměnných na 1. řádku žádná metadata .xls(x) – MS Excel, metadata obvykle na samostatném listu .sav – nativní formát dat SPSS, obsahuje hodně metadat *V angličtině je standardním oddělovačem hodnot čárka a desetinný znak je tečka. Problémy s importem dat za sebou často mají tuto prostou příčinu. SPSS i jiné programy si to nechají vysvětlit. DATA: LONG2 Data zakladni.csv Data zakladni.xls Data zakladni.sav SPSS – DATOVÁ MATICE Datová matice, jak jsme se ji učili v PSY117 – Data View Názvy proměnných mohou být delší Metadata zobrazena na samostatné záložce – Variable View Typ proměnné – numeric/string /date… Label – dlouhý název, popisek Values – popisky jednotlivých hodnot proměnné Missing – které hodnoty jsou kódy pro chybějící nebo neplatné odpovědi Measure – nominal/ordinal/scale Třídění – pravým tl. myši, popř. Data – Sort cases LONG2 Analyze > Descriptive statistics > Frequencies Graphs > Chart builder Graphs > Legacy dialogs > Bar SPSS – OUTPUT, SYNTAX Output – okno, kam se vypisují výstupy analýz, stromová hierarchie Syntax – okno, jehož prostřednictvím se dají zadávat textové příkazy pro vykonání analýz Syntax je záznamem analýzy, podle kterého se dá znovu celá zopakovat I když příkazy nezadáváte prostřednictvím syntaxu/e, vše, co SPSS dělá, je zaznamenáno v žurnálu. Ten najdete Edit > Options > File Locations > Journal file Automatické zobrazování syntaxu v outputu: Edit > Options > Viewer > Display commands in the log ZÁKLADNÍ POSTUP ANALÝZY DAT 1. Příprava, čištění a screening dat 2. Transformace, odvozené/vypočítané proměnné, rekódování 3. Popisné statistiky, vyjádření se k chybějícím datům 4. Plánované (konfirmační) analýzy a) ověření předpokladů b) testování plánovaných hypotéz / stanovení velikosti plánovaných efektů 5. Doplňkové, explorační analýzy 1. PŘÍPRAVA, ČIŠTĚNÍ A SCREENING DAT Cílem je mít datovou matici podle pravidel z PSY117, vědět, co v ní je. §Hrubá data je dobré mít uložena R/O a vždy pracovat s kopií. §Tabulky četností, základní popisné statistiky – přípustné hodnoty §Kontingenční tabulky – mají data všechny skupiny účastníků? §Používání kódů pro neplatná data. Opravování či mazání jen výjimečně, podle předem daných pravidel. §Změny v datech dělat ideálně výhradně pomocí zaznamenatelných příkazů (syntax). PŘÍKLAD: LONG2 DATA Data mají pocházet ze dvou kohort – šesťáků ZŠ a prváků SŠ Jaké jsou přípustné věky v této populaci? Analyze > Descriptive statistics > Explore 2. TRANSFORMACE PROMĚNNÝCH Změna kódování proměnné, sloučení kódů/kategorií např. národnost můžeme chtít překódovat na dichotomii česká/cizí Transform – Recode into Different Variables… nebo v syntaxu RECODE … INTO… Kategorizace spojité proměnné např. podle mediánu, či kvartilů Vypočítání nové proměnné např. součet 5 položek do jednoho součtového skóru Transform – Compute variable… nebo v syntaxu COMPUTE nova=jedna+druha. Transformacemi je dobré tvořit nové proměnné (nepřepisovat původní) PŘÍKLAD: LONG2 DATA Překódujme národnost Vypočítejme proměnnou – počet dětí v rodině po_deti = bratri_m + sestry_m + bratri_s + sestry_s + 1 3. POPISNÉ STATISTIKY, VYJÁDŘENÍ SE K CHYBĚJÍCÍM DATŮM Popis rozložení hodnot relevantních (= použitých v analýze) proměnných – Je natolik souladu s očekáváním, aby byla následná analýza důvěryhodná? Při analýze se díváme na momentové i pořadové statistiky a hlavně zobrazení rozložení jednotlivých proměnných. Často se díváme i na bivariační vztahy mezi proměnnými, které jsou podkladem pro další analýzy Reportujeme nejčastěji (N),M,SD, min, max + komentář ke tvaru rozložení v textu pro spojité četnosti pro kategorické Univariační histogramy či boxploty výjimečně, jsou-li ústřední otázkou analýzy 3B. …VYJÁDŘENÍ SE K CHYBĚJÍCÍM DATŮM MISSING DATA Data chybí z mnoha důvodů účastník se nakonec nezúčastnil, nebo poměrně brzy svou účast ukončil – UNIT NON-RESPONSE účastník využil svého práva na cokoli neodpovědět – ITEM NON-RESPONSE účastník odpověděl způsobem, který nelze považovat za platný, použitelný Na důvodu chybění záleží Klasifikaci MCAR…. vymyslel Rubin (1976) 3B. …VYJÁDŘENÍ SE K CHYBĚJÍCÍM DATŮM MISSING DATA Důvody chybění dat z hlediska statistiky missing data mechanism à missing data model MCAR – missing completely at random – pro každého člověka je P chybění stejná, nijak to nesouvisí s tím, co měříme kdybychom rozdělili účastníky na ty, kteří hodnotu mají, a ty, kteří ne, nenašli bychom u nich rozdíly v žádné proměnné např. výpadek proudu, vypadlý list dotazníku, přeskočení položky v záznamovém archu (když nezkoumáme pozornost ;-) Nedochází ke zkreslení statistik, jen k úbytku dat a přesnosti odhadů (CI) Obvykle nerealistický předpoklad Klasifikaci MCAR…. vymyslel Rubin (1976) MCAR vlastně popisuje princip fungování náhodných vzorků. Ti, kdo byli náhodně zahrnuti do vzorku, reprezentují ty nezahrnuté. 3B. …VYJÁDŘENÍ SE K CHYBĚJÍCÍM DATŮM MISSING DATA Důvody chybění dat z hlediska statistiky missing data mechanism à missing data model MAR – missing at random – P chybění je závislá na proměnné, kterou máme změřenou kdybychom rozdělili účastníky na ty, kteří hodnotu mají, a ty, kteří ne, našli bychom u nich rozdíly jedné nebo více proměnných např. ve třídě s horším klimatem je vyšší P přeskočení položky Když se v analýze zohlední také ty proměnné, které souvisí s chyběním, nedochází ke zkreslení statistik, jen k úbytku dat a přesnosti odhadů (CI) Realističtější předpoklad, ne vždy ale máme vše potřebné změřeno Klasifikaci MCAR…. vymyslel Rubin (1976) MCAR vlastně popisuje princip fungování náhodných vzorků. Ti, kdo byli náhodně zahrnuti do vzorku, reprezentují ty nezahrnuté. 3B. …VYJÁDŘENÍ SE K CHYBĚJÍCÍM DATŮM MISSING DATA Důvody chybění dat z hlediska statistiky missing data mechanism à missing data model NMAR/MNAR – not missing at random – P chybění ovlivňuje něco a my nevíme co Neznámé vlivy nelze zohlednit Klasifikaci MCAR…. vymyslel Rubin (1976) MCAR vlastně popisuje princip fungování náhodných vzorků. Ti, kdo byli náhodně zahrnuti do vzorku, reprezentují ty nezahrnuté. 3B. …VYJÁDŘENÍ SE K CHYBĚJÍCÍM DATŮM MISSING DATA MCAR, MAR, NMAR jsou předpokládané modely Je těžké podpořit volbu předpokladu argumenty Máme-li hodně dat, je dobré zjistit, zda chybění s nějakou proměnnou nesouvisí – a pak ji zahrnout např. Analyze > Missing Value Analysis mj. počítá, zda se ti, komu hodnota proměnné chybí a komu ne, liší v nějaké spojité proměnné (t-testy) provedením většího množství analýz hledajících vztahy – může být velmi pracné Klasifikaci MCAR…. vymyslel Rubin (1976) MCAR vlastně popisuje princip fungování náhodných vzorků. Ti, kdo byli náhodně zahrnuti do vzorku, reprezentují ty nezahrnuté. 3B. …VYJÁDŘENÍ SE K CHYBĚJÍCÍM DATŮM MISSING DATA – CO S NIMI? 1. Komunikovat, kolik čeho kde chybí 2. Zakomponovat příčiny chybění do modelů (můžeme-li) 3. Použít obecné způsoby naložení s chybějícími daty Vyřadit z analýz respondenty, kteří mají chybějící data LISTWISE DELETION – nejjednodušší & nejhorší volba Počítat každou jednotlivou statistiku ze všech dostupných dat – PAIRWISE DELETION – zachová více informace, neodstraní zkreslení. N pro celou analýzu? – obvyklá bezpracná volba IMPUTACE – doplnění chybějících dat Nesmírně záleží na P-nostním modelu chybění-doplňování – vyšší dívčí Dummy model – všem doplníme průměr – nouzová alternativa k PAIRWISE Klasifikaci MCAR…. vymyslel Rubin (1976) MCAR vlastně popisuje princip fungování náhodných vzorků. Ti, kdo byli náhodně zahrnuti do vzorku, reprezentují ty nezahrnuté. PŘÍKLAD: LONG2 DATA Analyze > Descriptive statistics > Frequencies pro národnost a počet dětí i se sloupcovým grafem 4. PLÁNOVANÉ (KONFIRMAČNÍ) ANALÝZY OVĚŘENÍ PŘEDPOKLADŮ – FIELD 6 I když předpoklady předpokládáme, je dobré se ujistit, můžeme-li. Nedodržení předpokladů má různé konsekvence – je dobré být pozorný. Normalita primárně souvisí s přesností odhadu SE a p-hodnot zajímá nás u reziduí (resp. uvnitř skupin) histogram, Q-Q plot, testy normality mohou být zrádné Homoskedascita primárně souvisí s přesností odhadu SE a p-hodnot scatterploty, boxploty pro kategorické (kategorizované) prediktory Test homoskedascity (Breusch–Pagan test) v SPSS jen pomocí R extension Leveneho test netřeba – lepší je korigovat – Welschův t-test 4. PLÁNOVANÉ (KONFIRMAČNÍ) ANALÝZY OVĚŘENÍ PŘEDPOKLADŮ – FIELD 6 Co s nedodrženými předpoklady? BOOTSTRAPPING – odhadování SE hrubou silou v SPSS k dispozici Využití korekce – např. Weschova korekce u t-testu TRANSFORMACE do normality Problematičtější, než se zdá. Vhodnější je použít model, který počítá se zešikmeným rozložením – generalizované modely Trimming, winsorizing Neparametrické testy – jen pro jednodušší analýzy 4. PLÁNOVANÉ (KONFIRMAČNÍ) ANALÝZY TESTOVÁNÍ HYPOTÉZ, ODHAD MODELU 1. Spočítání statistik, které jsou odhadem parametrů, kterými operuje hypotéza. od spočítání průměrů a jejich rozdílu, četností a jejich rozdílu, či korelací po složitější modely vyjádření velikosti účinku 2. Zohlednění nejistoty dané tím, že máme jen VZOREK vytvoření intervalu spolehlivosti pro rozdíl či korelaci test (nulové) hypotézy V SPSS obvykle dostaneme obojí v jednom kroku. PŘÍKLAD: LONG2 Analyze > Descriptive statistics > Crosstabs 5. DOPLŇKOVÉ ANALÝZY Stejně jako konfirmační. Jen je musíme jako reportovat jako doplňkové. ZÁKLADNÍ POSTUP ANALÝZY DAT 1. Příprava, čištění a screening dat 2. Transformace, odvozené/vypočítané proměnné, rekódování 3. Popisné statistiky, vyjádření se k chybějícím datům 4. Plánované (konfirmační) analýzy a) ověření předpokladů b) testování plánovaných hypotéz / stanovení velikosti plánovaných efektů 5. Doplňkové, explorační analýzy PLÁN ANALÝZY Pro preregistraci i bez ní je dobré mít plán výše uvedeného ještě před získáváním dat. Lépe se o něm mluví se zkušenostmi, a tak jej necháme na později. OPEN SCIENCE DESIDERATA (osf.io) TRANSPARENCE, otevřenost Nad rámec standardního sdělování výsledků analýz …. §Sdílení/komunikování všech kroků výzkumu, zejm. analytického postupu à analytické skripty, SPSS syntax §Sdílení dat §Preregistrace REPRODUKOVATELNOST, DŮVĚRYHODNOST, KUMULATIVNOST Kululativností se míní snazší metaanalýzy, snazší navazování na výzkum. PREZENTACE STATISTICKÝCH ANALÝZ SEKCE METHOD-RESULTS Představení dat (vzorek, metoda) – V APA samostatné sekce. Popis kroků provedených při čištění a transformaci dat. Popisné statistiky (popř. zobrazení rozložení, tabulky/grafy dle APA) Formulace hypotéz. Zdůvodnění volby testu, popř. analytického postupu Rekapitulace splnění předpokladů zvoleného testu Standardní prezentace testových statistik (u jednodušších testů v textu, u složitějších modelů v tabulkách) vč. velikosti účinku (ideálně i intervalu spolehlivosti) Interpretace výsledků testu (modelu) vzhledem k hypotéze ZÁKLADY APA-STYLU PREZENTACE VÝSLEDKŮ Styl veden principem typografické jednoduchosti. 1. Pokud nechceme prezentovat velké množství čísel (<10), uvádíme je v textu jako součást věty. Věty pro výsledky běžných analýz jsou do značné míry standardizované. Měníme v nich jen názvy proměnných a hodnoty statistik. Tyto věty najdete jak ve Fieldovi (např. kap. 10.10), tak v Morganové. Najdete je také v empirických článcích, které čtete. 2. Tabulky jsou jednoduché pouze s vodorovnými oddělujícími čarami. Tabulky mají titulek, z něhož je patrné, co v tabulce je (nespoléhá se na vysvětlení v textu) Pod tabulkou bývají poznámky vysvětlující zkratky a další info nutné k porozumění 3. Grafy šetříme a počítáme s jejich černobílým zobrazením. Snažíme se do nich vtěsnat tolik informace, aby to stálo za to. V PSYb2520 se přimlouvám spíše za jejich větší využívání, když už jsme století ovocného netopýra opustili. Uvádění p-hodnot Preferujeme uvádění přesné hodnoty, např. p = 0,013, spíše než porovnání se zvolenou hladinou alfa (tedy p < 0,05). Uvádění čísel Požíváme pouze tolik desetinných míst, kolik jich nese nějakou informační hodnotu. Při obvyklé přesnosti měření v psychologii to obvykle znamená 2-3 významné číslice, tj. řády - 1,23; 12,3; 123 apod. Neuvádíme tolik desetinných míst, kolik jich nám SPSS vypíše! Tuzemské typografické konvence – odlišnosti od angličtiny desetinná čárka, středník jako oddělovač hodnot v seznamu nula před desetinnou čárkou u čísel <1 mezera mezi číslem a znakem %, když ho čteme „procent“ – 12 % lidí absence mezery mezi číslem a znakem %, když ho čteme „procentní“ – 40% líh ÚKOL: NASTARTOVAT •Nainstalovat si SPSS a sehnat si Fielda, Morganovou a APA manuál •Zopakovat si obsah PSY117 – nejprve indukci •Najít si parťáky 1. SEMINÁRNÍ ÚKOL Ve trojicích Realizovat 3 analýzy z Long2 dat Důvěřují respondenti stejně rodičům a přátelům? Důvěřování rodičům jsou liché položky dXX_99 a důvěřování přátelům jsou ty sudé. Je rozdíl mezi důvěřování rodičům a přátelům jiný v mladší a ve starší kohortě? Jaký je vztah mezi stavem manželství rodičů a vzděláním rodičů? Využijeme stav_r99 a vzdel_ma a vzdel_ot Z analýz sepsat zprávu v souladu s konvencemi Odevzdat do neděle - půlnoci DĚKUJI ZA POZORNOST PŘÍKLADY ZDROJŮ DAT (g: „free data sets“) https://toolbox.google.com/datasetsearch http://lib.stat.cmu.edu/cgi-bin/dasl.cgi?query=Psychology&submit=Search!&metaname=topics&sort=swis hrank (data v textové podobě v odkazu za Datafile Name:“ http://www.amstat.org/publications/jse/jse_data_archive.htm StatSci.org – metazdroj - http://www.statsci.org/datasets.html http://www.kdnuggets.com/datasets/index.html - metazdroj http://www.cessda.org/ (Některá data na objednávku, jiná přímo ke stažení) https://openfmri.org/data-sets - Volná data z funkční magnetické rezonance JSOU DÍVKY VÍCE MONITOROVÁNY SVÝMI RODIČI NEŽ KLUCI? Škála monitorování vytvořit + vnitřní konzistence popsat rozložení i graficky Pohlaví Test hypotézy popis rozložení v porovnávaných skupinách t-test nebo nějaký neparametrický test? … předpoklady? velikost účinku Formulace závěru V souladu s naším očekáváním udávají kluci (M=2,72, SD=0,56) přibližně o čtvrt směrodatné odchylky nižší míru monitorování než dívky (M=2,86; SD=0,58), t(759)=3,30; p<0,01; Cohen d=0,24; 95% CI (0,06;0,22). Též podle kohorty a podle pohlaví v rámci kohorty. Kopírování do Wordu LIŠÍ SE POČET DĚTÍ V RODINÁCH RŮZNÝCH NÁRODNOSTÍ? Národnost a Počet dětí četnosti a překódování Test hypotézy kontingenční tabulka t-test nebo nějaký neparametrický test? … předpoklady? velikost účinku Formulace závěru Rozložení kategorizovaného počtu dětí v českých rodinách se liší od počtu dětí v rodinách jiných národností (c2(3, N=768)=9,44; p=0,02; Cramér V=0,11). Adjustovaná rezidua indikují, že rozdíl spočívá především v menší relativní četnosti českých rodin se 3 dětmi a větší rel. četnosti českých rodin s jedináčky. VYPOVÍDAJÍ RESPONDENTI O VŘELOSTI OBOU RODIČŮ STEJNĚ? Škála vřelosti matky a otce vytvořit + vnitřní konzistence popsat rozložení i graficky vztah mezi vřelostmi Test hypotézy t-test nebo nějaký neparametrický test? … předpoklady? velikost účinku Formulace závěru Respondenti v průměru udávají vřelost matky (M=3,23, SD=0,47) přibližně o čtvrt směrodatné odchylky vyšší než vřelost otce (M=3,08; SD=0,58), t(743)=7,61; p<0,01; Cohen d=0,29; 95% CI (0,11;0,19).