Statistická analýza dat II.
doc. Mgr. Stanislav Ježek, Ph.D.
Statistická analýza dat II.
Info
Období
podzim 2020

Odkazy na předmětové aktivity

Přednáška

https://cesnet.zoom.us/j/99524639451?pwd=a0owc1BRdjB3V0JNWGlabHhsa1lGUT09

Seminární sk. 1

https://cesnet.zoom.us/j/99973117319?pwd=Qzl1eEpGRzlNV1JzeWNZQVhPQnJwUT09

Seminární sk. 2

Seminární sk. 3

https://cesnet.zoom.us/j/98911527214

Pravidla pro účast na online seminářích

Semináře jsou povinnou součástí výuky. Toleruje se jedna neúčast. Připojujte se prosím se zapnutým videem, vypnutým mikrofonem a skutečným jménem. Účast na semináři bez videa se nepovažuje za účast. Případnou neúčast na semináři omlouvejte prosím standardně podle SZŘ. 

Pokud bychom během seminářů nějakou část nahrávali, bude to vždy po dohodě a kdo bude chtít, může své video po dobu nahrávání skrýt.

Hodnocení

Pro tento distanční semestr je struktura hodnocení zjednodušena vynecháním průběžných testů. Průběžné testy budou nahrazeny dobrovolnými odpovědníky. Pro úspěšné zvládnutí předmětu bude potřeba

  • mít přijaty všechny seminární úkoly. Seminární úkoly jsou hodnoceny na škále přijato-nepřijato a dostáváte na ně podrobnou zpětnou vazbu. Je možná jedna oprava nepřijatého seminárního úkolu.
  • abslovovat zkoušku. Zkouška bude mít teoretickou a praktickou část, obě za 50b.
Hodnotící stupnice bude A >87b, B >77b, C >67b, D > 57b, E > 49b, F < 50b. 

  

Kapitola obsahuje:
1
Studijní text
1
Web
Učitel doporučuje studovat od 7. 10. 2020 do 14. 10. 2020.
Kapitola obsahuje:
1
Studijní text
Učitel doporučuje studovat od 14. 10. 2020 do 20. 10. 2020.
Kapitola obsahuje:
2
Obrázek
1
Studijní text
Učitel doporučuje studovat od 21. 10. 2020.
Kapitola obsahuje:
1
Studijní text
Učitel doporučuje studovat od 28. 10. 2020 do 3. 11. 2020.
Učitel doporučuje studovat od 4. 11. 2020 do 10. 11. 2020.
Kapitola obsahuje:
1
Studijní text
Učitel doporučuje studovat od 11. 11. 2020 do 16. 11. 2020.
Učitel doporučuje studovat od 18. 11. 2020 do 23. 11. 2020.
Kapitola obsahuje:
1
Studijní text
Učitel doporučuje studovat od 25. 11. 2020 do 1. 12. 2020.
Učitel doporučuje studovat od 2. 12. 2020 do 7. 12. 2020.
Kapitola obsahuje:
1
Studijní text
Učitel doporučuje studovat od 9. 12. 2020 do 14. 12. 2020.
Učitel doporučuje studovat od 16. 12. 2020 do 18. 12. 2020.
Kapitola obsahuje:
1
Studijní text
Učitel doporučuje studovat od 6. 1. 2021 do 10. 1. 2021.
Učitel doporučuje studovat od 13. 1. 2021 do 17. 1. 2021.

S0 - Seznámení se SPSS

Programem semináře je seznámení se statistickým software IBM SPSS. SPSS si může každý student nainstalovat na svůj počítač z https://inet.muni.cz/app/soft/licence.

.

Cíle pro tento seminář:

  • Umíme otevřít data ve formátu .sav – variable view, data view
  • Umíme otevřít data ve formátu .csv a ve variable view doplnit metadata – labels, value labels, missing, measure 
  • Umíme spustit příkazy produkující popisné statistiky – descriptives, frequencies, examine
  • Orientujeme se v okně Output, víme, že tabulky lze editovat (pivot tray) a katenpejstovat do Excelu. Nastavíme si APA-style styl tabulek. Umíme zviditelnit Notes.
  • Víme, že všechno vlastně dělá syntax, a začneme příkazy pomocí Paste ukládat do okna syntax a ukládat je jako reprodukovatelný záznam analýzy.
  • Umíme zobrazit rozdělení proměnných v sloupcovém grafu, histogramu či boxplotu.
  • Umíme transformovat proměnné – compute, recode – a filtrovat data – filter, split file


Dílčí poznámky k Fieldovi kap.  4.

  • Většina kapitoly je o tvorbě datové matice, což je opakování.
  • Více než vkládání dat do SPSS je důležité importování (4.7). Pro vkládání většího množství dat je vhodnější tabulkový kalkulátor.
  • Sekci 4.13 lze nyní přeskočit.

Dílčí poznámky k Fieldovi kap.  5. 

  • Vše je zde relevantní, ale protože hraní si s grafy dokáže spotřebovat překvapivě velké množství času, je dobré si vyzkoušet základní podoby grafů a různé detaily zkoušet během semestru.


Literatura 

[F] kapitoly 4, 5.

Rozšiřující čtení: Grotenhuis & Chris (2014)







P1 - Úvod, opakování, základy praktické analýzy dat

Tematický okruh 1. Základy praktické analýzy dat v kontextu psychologického výzkumu, statistický software a práce s ním.

Role analýzy dat v kontextu výzkumného projektu. Principy otevřené vědy. Základní postup analýzy.  Explorační a konfirmační analýza. Příprava dat pro analýzu. Práce s chybějícími daty. Statistický model, statistické usuzování. Zdroje zkreslení výpovědní hodnoty statistik (bias). Opakování základů statistického usuzování - intervaly spolehlivosti, porovnávání průměrů, chíkvadrát testy a další neparametrické testy, korelace.



Literatura:  

Základní učebnicí pro tento předmět je Field, 5. vydání (dále jen [F]). Website knihy s užitečnými materiály naleznete zde https://edge.sagepub.com/field5e

První tématický okruh pokrývají kapitoly 1 – 3 a 6. Je to hodně stran, ale z velké části jde o opakování. Zároveň jsou zde relevantní pasáže pro paralelně běžící kurz metodologie. Následuje komentář k jednotlivým kapitolám pro efektivnější čtení.

Kapitola 1 představuje výzkumný kontext, jehož je analýza dat součástí. Ukazuje, co je jejím účelem a dává jí smysl. Kapitolu doporučuji zběžně přečíst. Sekcí 1.8 začíná opakování statistiky (zkuste si před jejím přečtením https://edge.sagepub.com/field5e2/chapter-specific-resources/1/multiple-choice-questions). Zde se ujistěte, že vám dosavadní znalosti umožňují bez problémů porozumět všem detailům. Sekce 1.9 je prvním představením zásad reportování výsledků - začíná triviálně, ale jsou v ní již nové užitečné informace.

Kapitola 2 je jádrem opáčka statistiky. Je to jinak zarámované než v PSYb1170, ale naprostou většinu prezentovaných informací znáte. Opět by to mělo být rychlé čtení, ale ujistěte se, že nakonec rozumíte všemu v této kapitole. Z této kapitoly bude vstupní test. 

Kapitola 3 je kritickým zamyšlením nad rutinním a bezmyšlenkovitým užíváním postupů statistického usuzování popsaných v kapitole 2. Čtení většiny této kapitoly si klidně nechte na později, s výjimkou sekce 3.7, která představuje standardizované velikosti účinku. Ty jsou přirozeně důležité nejen jako "lék na rutinní NHST".   

Kapitola 6 shrnuje možné příčiny zkreslení výsledků statistických analýz. Z dosud uvedených kapitol rozšiřuje naše znalosti nejvíce. Nyní by bylo dobré ji prolétnout a uvědomit si, o čem všem již jsme mluvili. K této kapitole se budeme během semestru vracet.



S1 - Základní analýzy v SPSS

Základní analýzy v SPSS.

Dílčí poznámky k Fieldovi kap.  8. 

  • Začátek kapitoly je opakování, mělo by stačit rychlé čtení.
  • Protože SPSS samo hned nenabízí intervaly spolehlivosti pro r, je dobré neminout sekci 8.2.4.
  • Většina potřebného je v sekci 8.4. (8.4.5 lze přeskočit)
  • Sekci o parciálních korelacích (8.5) je dobré si přečíst až před studiem lineární regrese.
  • Nepřeskočit 8.8!

Dílčí poznámky k Fieldovi kap.  10. 

  • Sekci 10.4 je dobré nyní přeskočit - začne dávat smysl, až se podíváme na lineární regresi
  • Sekce 10.5 a 10.6 jsou opakování.
  • Jádro jsou sekce 10.8. a 10.9. Bayesovský t-test (10.8.5, 10.9.6) lze přeskočit.
  • Nepřeskočit 10.10!

Dílčí poznámky k Fieldovi kap.  19. 

  • Sekce 19.3.7 a 19.4 lze přeskočit. 
  • Jádro jsou sekce 19.7 a 19.8 (bez 19.8.3)
Zadání seminárního úkolu
Dopracujte ve tříčlenném týmu dvě analýzy odpovídající na otázky, které jsme si stanovili a nahrubo realizovali na semináři: 
1. Důvěřují respondenti stejně rodičům jako přátelům?
2. Rozvádějí otcové s různým vzděláním různě často?
Použijte data Long2, s nimiž jsme pracovali v nultém semináři a v instruktážním videu. Jsou ve studijním materiálech semináře 0 i 1.
  
Odevzdejte textový dokument se zprávou o analýze, která bude mít podobu sekce výsledky v souladu s doporučeními APA manuálu a příručky Morganové a kol.. Zpráva bude obsahovat:

  • stručné představení dat, vzorku, na kterém byla data získána, a použitých metod měření (velmi stručná verze sekcí Vzorek a Metody - max půl strany),
  • kroky provedené v rámci přípravy dat (čištění, počítání nových proměnných),
  • informace o chybějících datech (a případné strategii, jak se s vypořádat s problémem, který představují),
  • popisné statistiky všech proměnných použitých v analýze,
  • formulace hypotéz,
  • výsledky jejich testování zahrnující vyjádření se k předpokladům použitého testu, intervaly spolehlivosti a velikosti účinku,
  • relevantní zobrazení testovaných vztahů (scatterplot, sloupcový/čárový graf s chybovými úsečkami, kontingenční tabulka) 
  • stručnou diskuzi k validitě/(ne)zkreslenosti statistik vedoucích k závěrům.

Kromě prvních dvou bodů bude asi smysluplné strukturovat zprávu zvlášť pro každou z analyzovaných hypotéz.

Odevzdejte také skript/syntax (.sps), jehož spuštěním vzniknou výsledky, které prezentujete ve své zprávě. Nejlépe je to vložit do odevzdávány jako jeden .zip pojmenovaný po vzoru U1_S3_Bílek_Fialová_Zelená.zip (tj. Úkol 1, Sem. sk. 3, jména autorů).

Pro zprávu můžete využít šablonu uloženou ve studijních materiálech .

Termín odevzdání je v pátek  (o půlnoci) následující po tomto semináři.

Vyjma zadání samotných analýz budou tyto instrukce platit i pro všechny další seminární práce v předmětu.


Poznámky ke čtení Morganové et al. [MRH]

I když je text už poměrně letitý, dobře ukazuje obecný styl reportování výsledků. Všímejte si, jakým způsobem jsou statistiky uváděny v textu. Pokud nepotřebujeme sdělit více než 5-6 číselných údajů najednou, píšeme je do vět a neděláme pro ně tabulku. Všímejte si v příkladech uvedených v [MRH], co všechno se píše do vět a jaká se používá interpunkce. Vypíchl bych, že statistiky se snažíme psát kurzívou.


 


 !Odlišnosti české interpunkce:  desetinné čárky, ne tečky, což vede k preferenci středníku jako oddělovače číselných informací v seznamech --- nula před desetinou čárkou u čísel < 1 ---  mezera mezi číslem a znakem %, když znak čteme "procent", a absence této mezery, když znak čteme "procentní".

Když je prezentovaných číselných údajů hodně, použijeme tabulku. Když už to děláme, je potřeba vytvořit tabulku se všemi náležitostmi: Titulkem, který ji označuje jako tabulku a dává jí nadpis, z něhož je zřejmé, co v tabulce je. Poznámkami pod tabulkou, které vysvětlují zkratky použité v tabulce a doplňují informace nutné pro porozumění tomu, co je v tabulce. v APA formátu používáme v rámci tabulky pouze vodorovné čáry a obecně čarami šetříme (často jsou jen 3, stejně tlusté).
   


V jednotlivých kapitolách pak najdete doporučení, jak informovat o výsledcích t-testu (s. 54), chíkvadrátu (s. 36), či korelace (s. 33). U korelace doporučují uvádět df, což je N-2. I když už dnes netestujeme signifikanci korelace t-testem, je to užitečná informace, protože nás ujišťuje, na jak velkém vzorku byla daná korelace spočítaná.

Co se týká uvádění p-hodnot, dnes preferujeme uvádění přesné hodnoty, např. p = 0,013, spíše než porovnání se zvolenou hladinou alfa (tedy p < 0,05).

Všimněte si také, s jakou přesností jsou uváděna čísla. Požíváme pouze tolik desetinných míst, kolik jich nese nějakou informační hodnotu. Při obvyklé přesnosti měření v psychologii to obvykle znamená 2-3 významné číslice, tj. řády - 1,23, 12,3, 123 apod. Neuvádíme tolik desetinných míst, kolik jich nám SPSS vypíše!  


Literatura 

[F] kapitoly 4, 5, 8, 10  a 19 (835-863).

Publikační manuál APA, 6. vydání [APA] kapitola 2; kapitola 4 (od sekce Numbers); kapitola 5

Morgan, Reichert, Harrison [MRH] kap. 2,3,5,6,7 (po s. 55),8   (online je k dispozici nové vydání z r. 2016)

Rozšiřující čtení: Grotenhuis & Chris (2014)

P2 - Lineárně regresní model

Lineárně regresní model - základy

Opakování: Korelace, parciální korelace, lineární regrese.

Mnohonásobná regrese, pojmy model a parametr, regresní koeficienty nestandardizované a standardizované, směrodatná chyba regresního koeficientu, mnohonásobný korelační koeficient R, koeficient determinace R2, postupná (stepwise) regrese, hierarchická (blockwise) regrese, parciální korelace, multikolinearita, supresory, problémy spojené s množstvím prediktorů, grafická kontrola splnění předpokladů regrese, rezidua, odlehlé a vlivné případy, power analýza pro lineární regresi.

Literatura: [F] kap.  9 a 11; [MRH] 69 – 73.


Čtení

Kapitola 8 je opakováním o korelacích - u 2. semináře je komentář k jejímu čtení.  Před přednáškou je užitečné si osvěžit i parciální a semiparciální korelace - [F] 8.5 a třeba i nakouknout do kapitoly 10.

V nejjednodušší podobě je téma statistických modelů představeno na pár stránkách v kapitole 2 - sekce 2.3-2.6.

Vše podstatné je v kapitole 9. Probereme ji se vším všudy během této a následující přednášky. Základ je v sekci 9.2. Začíná se modelem s jedním a více prediktory - jeho specifikací. Pak je potřeba odhadnout jeho parametry. Když mají parametry své hodnoty, můžeme model hodnotit jako celek. Pak teprve interpretujeme jednotlivé parametry modelu - regresní koeficienty jednotlivých prediktorů. Lineární modely jsou jako korelace náchylné k mnoha zkreslením - jejich přehled a možné způsoby řešení jsou v sekci 9.3. Když pak chceme usuzovat z parametrů modelu spočítaných na našem vzorku (tj. statistik) na populační parametry, vše potřebné obsahuje část 9.4. Sekce 9.5 pak představuje, jak uvažovat o síle testu v regresním modelu a jak velké vzorky můžeme potřebovat. Následující sekce popisují, jak to vše udělat v SPSS, a tak nás budou zajímat až na semináři. V kontextu přednášky je pak relevantní ještě sekce 9.11 o interpretaci.  






Příklady studií

McGill, R. J. (2015). Interpretation of KABC-II Scores: An Evaluation of the Incremental Validity of Cattell-Horn-Carroll (CHC) Factor Scores in Predicting Achievement. Psychological Assessment, 27(4), 1417–1426. http://doi.org/10.1037/pas0000127

Zechner, M. R., & Gill, K. J. (2016[SJ2] ). Predictors of Physical Activity in Persons With Mental Illness: Testing a Social Cognitive Model. Psychiatric Rehabilitation Journal, 39(4), 321–327. http://doi.org/10.1037/prj0000191

Open science: Příklad celé analýzy v SPSS - https://osf.io/npxag/  i v R – open science - https://osf.io/3kxja/

S2 - Lineární regrese


Zadání seminárního úkolu
Zpracujte analýzu představenou na semináři (viz PPT ze semináře).

Odevzdejte textový dokument se zprávou o analýze, která bude mít podobu sekce výsledky v souladu s doporučeními APA manuálu a příručky Morganové a kol.. Zpráva bude obsahovat:

  • stručné představení dat, vzorku, na kterém byla data získána, a použitých metod měření (velmi stručná verze sekcí Vzorek a Metody),
  • kroky provedené v rámci přípravy dat (čištění, počítání nových proměnných),
  • informace o chybějících datech a strategii, jak se s nimi naložilo v regresním modelu,
  • popisné statistiky všech proměnných použitých v analýze i s korelační maticí 
  • formulace předpokladů jako zdůvodnění specifikace modelu  (zde lze zmínit transformace či jiné způsoby řešení problémů s případnou nelinearitou vztahů)
  • popis modelu s tabulkou parametrů a jeho hodnocení prizmatem vysvětleného rozptylu
  • zhodnocení naplnění předpokladů lineárně regresního modelu a případných omezení, které z toho mohou plynout
  • stručnou interpretaci a diskuzi smyslu výsledků

Formát. Minimum je na slajdech 38 a 39 v prezentaci z první přednášky. Pamatujte na 11. přikázání - NEZKOPÍRUJEŠ TABULKU ZE SPSS!

Odevzdejte také datový soubor (.sav) a skript/syntax (.sps), jehož spuštěním vzniknou výsledky, které prezentujete ve své zprávě. Nejlépe je to vložit do odevzdávány jako jeden .zip pojmenovaný podle vzoru U2_S3_Bílek_Fialová_Zelená.zip

Pro zprávu využijte šablonu uloženou ve studijních materiálech zde.

Termín odevzdání je v pátek následující po tomto semináři .


P3 - Pokročilé aplikace lineárně regresního modelu

3. LINeárně regresní model – pokročilé aplikace

Kategorické prediktory v regresi. Interakce a moderace, mediace a Sobelův test. Nelineární regrese.

Literatura: [F] kap. 10; [MRH] 69 – 73; [H] kap. 10 s. 383 – 398 (opakování 277 – 306).   

Rozšiřující čtení: http://davidakenny.net/ 

Příklady studií:

Muenks, K., Wigfield, A., Yang, J. S., & O’Neal, C. R. (2017). How true is grit? Assessing its relations to high school and college students’ personality characteristics, self-regulation, engagement, and achievement. Journal of Educational Psychology, 109(5), 599–620. http://doi.org/10.1037/edu0000153[SJ1] 

Kondric[SJ2] , M., Kondri, M., Trajkovski, B., Strbad, M., Foreti, N., & Zeni, N. (2013). Anthropometric influence on physical fitness among preschool children : Gender-specific linear and curvilinear regression models Anthropometric Influence on Physical Fitness among Preschool Children : Gender-Specific Linear and Curvilinear Regression Mode. Coll. Antropol., 4, 1245–1252.

 

S3 - Pokročilé aplikace lineárně regresního modelu



Zadání seminárního úkolu
Zpracujte následující analýzu:
Data: V experimentu byla účastníkům popsána právnička, která nebyla v rozporu se svými schopnostmi a ambicemi povýšena. Situace je popsána tak, aby bylo zřejmé, že jde patrně o genderovou diskriminaci. Účastníci byli rozděleni náhodně do tří skupin a v každé z nich byl konec příběhu jiný. V první skupině právnička proti diskriminaci neprotestovala, v druhé skupině právnička šla na vedení firmy a protestovala proti své diskriminaci. Konečně ve třetí skupině svolala skupinový protest proti diskriminačním praktikám ve firmě.  Tohle je naše nezávislá proměnná s třemi úrovněmi - protest.

ZP: Proměnnou, kterou máte modelovat, je jak účastníci hodnotili onu právničku na škále nelíbí-líbí (liking). Technicky je tato proměnná průměrem 6 hodnocení právničky pomocí dotazníkových položek. 

Situaci komplikuje to, že různí účastníci v různé míře věří, že ženy jsou v naší společnosti diskriminovány. To měří Modern Sexism Scale (sexism). Předpokládáme tedy, že toto přesvědčení moderuje efekt nezávislé proměnné na hodnocení právničky.


Odevzdejte textový dokument se zprávou o analýze, která bude mít podobu sekce výsledky v souladu s doporučeními APA manuálu a příručky Morganové a kol.. Zpráva bude obsahovat:

  • stručné představení dat, vzorku, na kterém byla data získána, a použitých metod měření (velmi stručná verze sekcí Vzorek a Metody),
  • kroky provedené v rámci přípravy dat (čištění, počítání nových proměnných),
  • informace o chybějících datech a strategii, jak se s nimi naložilo v regresním modelu,
  • popisné statistiky všech proměnných použitých v analýze i s korelační maticí (bez dummies)
  • zdůvodnění specifikace modelu  (zde lze zmínit i transformace či jiné způsoby řešení problémů s případnou nelinearitou vztahů)
  • popis modelu s tabulkou parametrů a jeho hodnocení prizmatem vysvětleného rozptylu
  • zhodnocení naplnění předpokladů lineárně regresního modelu a případných omezení, které z toho mohou plynout, též zmínění outlierů a vlivných případů.
  • stručnou interpretaci a diskuzi smyslu výsledků

Formát. Minimum je na slajdech 38 a 39 v prezentaci z první přednášky. Pamatujte na 11. přikázání - NEZKOPÍRUJEŠ TABULKU ZE SPSS!

Odevzdejte také skript/syntax (.sps), jehož spuštěním vzniknou výsledky, které prezentujete ve své zprávě. Nejlépe je to vložit do odevzdávány jako jeden .zip pojmenovaný podle vzoru U3_S3_Bílek_Fialová_Zelená.zip. 

Pro zprávu využijte šablonu uloženou ve studijních materiálech zde.

Termín odevzdání je v pátek následující po tomto semináři.

P4 - Logistická regrese

Logistická regrese

Model a parametry logistické regrese, interpretace regresního koeficientu exp(B), log-likelihood (-2LL), vyjádření shody modelu s daty pomocí R2 Coxe & Snella a Nagelkerka, ověření předpokladů, analýza reziduí a vlivných pozorování. Generalizovaný lineární model.

Literatura: [F] kap 20 (s. 877-916); [MRH] 73 – 76

Příklady studií:

Farrer, L. M., Gulliver, A., Bennet, K., Fassnacht, D. B., & Griffiths, K. M. (2016). Demographic and psychosocial predictors of major depression and generalised anxiety disorder in Australian university students. BMC Psychiatry, 16(1), 241. http://doi.org/10.1186/s12888-016-0961-z[SJ1] 

Sznitman, S. R., Zlotnick, C., & Harel-Fisch, Y. (2016). Normalisation theory: Does it accurately describe temporal changes in adolescent drunkenness and smoking? Drug and Alcohol Review, 35(4), 424–432. http://doi.org/10.1111/dar.12351

S4 - Logistická regrese


Zadání seminárního úkolu
Zpracujte následující analýzu:
Data: titanic.sav
ZP: Budeme predikovat to, zda pasažér přežil
Prediktory:
V kroku 1 použijte jako prediktory věk,  pohlaví a třídu. V kroku 2 přidejte interakci pohlaví a třídy. V kroku 3 (volitelný) můžete zkusit predikci ještě nějak zlepšit.




Odevzdejte textový dokument se zprávou o analýze, která bude mít podobu sekce výsledky v souladu s doporučeními APA manuálu a příručky Morganové a kol.. Zpráva bude obsahovat:

  • stručné představení dat, vzorku, na kterém byla data získána, a použitých metod měření (velmi stručná verze sekcí Vzorek a Metody),
  • kroky provedené v rámci přípravy dat (čištění, počítání nových proměnných),
  • informace o chybějících datech a strategii, jak se s nimi naložilo v regresním modelu,
  • popisné statistiky všech proměnných použitých v analýze i s korelační maticí, či jiného sdělení vztahů mezi proměnnými
  • zdůvodnění specifikace modelu  (zde lze zmínit i transformace či jiné způsoby řešení problémů s případnou nelinearitou vztahů)
  • popis modelu s tabulkou parametrů a jeho hodnocení prizmatem klesajícího loglikelihoodu a klasifikační tabulky
  • zhodnocení naplnění předpokladů regresního modelu a případných omezení, které z toho mohou plynout, též zmínění outlierů a vlivných případů.
  • stručnou interpretaci a diskuzi smyslu výsledků

Formát. Minimum je na slajdech 38 a 39 v prezentaci z první přednášky. Pamatujte na 11. přikázání - NEZKOPÍRUJEŠ TABULKU ZE SPSS!

Odevzdejte také skript/syntax (.sps), jehož spuštěním vzniknou výsledky, které prezentujete ve své zprávě. Nejlépe je to vložit do odevzdávány jako jeden .zip pojmenovaný podle vzoru U4_S3_Bílek_Fialová_Zelená.zip. 

Pro zprávu využijte šablonu uloženou ve studijních materiálech .

Na vypracování je týden od semináře. Termín odevzdání je v pátek následující po tomto semináři.

P5 - Analýza rozptylu

5. Analýza rozptylu

Analýza rozptylu, F-test, sumy čtverců. Přepoklady ANOVy. Plánované kontrasty (ortogonální, neortogonální, polynomiální) a post hoc testy.  Faktoriální analýza rozptylu, model a parametry. Fixované a náhodné faktory, hlavní efekty a interakce faktorů, výhody vyváženého designu, kontrasty a post-hoc testy. Velikost účinku v kontextu ANOVy - éta, omega, parciální. Specifika reportování ANOVy.  Analýza kovariance, analýza rozptylu s opakovanými měřeními,  MANOVA.

Literatura: [F] kap. 12, 14, 13 a začátky kapitol 15(.1-.3), 16(.1-.5) a 17(.1-.2); [MRH] 55 – 68


Příklady studií:

Imhoff, R., & Banse, R. (2011). Implicit and explicit attitudes toward ex-partners differentially predict breakup adjustment. Personal Relationships, 18(3), 427–438. http://doi.org/10.1111/j.1475-6811.2010.01308.x


Komentáře ke čtení Fielda:

Kapitola 12 GLM1 představuje analýzu rozptylu. Kromě sekcí 12.8 a 12.9 není nic k přeskočení, vše je relevantní. Pokud už jste uvěřili, že ANOVA je jen převlečená regrese, můžete začít sekcí 12.2.1. Na s. 548 je přehled kontrastů nabízených SPSS. Protože SPSS samo je nevysvětluje, je dobré si sem dát záložku.

Kapitola 13 o Ancově. Četl bych ji rychle až po kapitole 14, protože přidání spojité nezávislé proměnné (kovariátu) je snáze srozumitelné, když už vím, že v modelu ANOVA může být více nezávislých proměnných. Není nutné ANCOVu zvládnout jako samostatný model. Stačí vědět, že je to totéž, co regresní model, v němž mám kategorický i spojitý prediktor. Tradičně je termínem ANCOVA pojmenován model, v němž je jeden nebo více faktorů, které mají interakce, a jeden spojitý kovariát, který nemá interakci s těmi faktory. Tomu odpovídá výchozí nastavení modelu v SPSS UNIANOVA. Nic nám ale nebrání kliknout na tlačítko "Model" a ručně přidat interakci mezi kovariátem a faktorem, nebo ubrat interakce mezi faktory. Pak už modelu nebudeme říkat ANCOVA a možná se bude kvůli interakcím obtížně interpretovat, ale můžeme ho tak specifikovat. Benefitem ANCOVy má být právě nezávislost efektu kovariátu a faktoru, což nám vlastně umožňuje interpretovat efekt faktoru bez ohledu na kovariát (ten má jen zajistit větší sílu testu). Pokud jsme faktorem experimentálně (náhodně) manipulovali, měla by být podmínka naplněna. Pokud není, nemůžeme na kovariát v interpretaci zapomenout, ale neznamená to, že bychom model neměli dělat. Podobně se to má s homogenitou regresních směrnic (=absence moderace mezi kovariátem a faktorem). Většina kapitoly 13 by po přečtení kapitoly 14 měla být jen opakováním.

Kapitola 14 o faktoriální ANOVě je druhou základní kapitolou v tomto tématu. Vedle vysvětlení matematické stránky faktoriální ANOVY si všimněte také toho, že se zde obvykle mluví o manipulovaných faktorech. Ne, že by ANOVA nefungovala s faktory, které jsme je změřili (např. pohlaví), ale jejich efekt pak závisí na ostatních proměnných v modelu a my musíme jejich efekt reportovat vždy s alespoň implicitním odkazem na celý model (jako v regresi). Když se v této kapitole vysvětluje interakce, určitě si ji spojte s moderací - je to konceptuálně to samé. Oba termíny se v současné době používají jak v regresi, tak v kontextu ANOVy - interakce je obecnější termín, moderací se míní interakce, kde alespoň jedna z proměnných je spojitá. Výpočty sum čtverců vypadají odpudivě, ale nebojte se jich, princip je jednoduchý; alespoň jednou byste měli zažít pocit, že to chápete (pak to můžete zase klidně zapomenout). Simple efekty můžete pominout, stejně jako podkapitolky 14.8 a 14.9.

Z kapitol 15,16 a 17 si přečtěte jen začátky (podkapitolky uvedené v seznamu výše). Jde je o to vědět, k čemu ty analýzy jsou. 




S5 - Analýza rozptylu


Zadání seminární práce
Zpracujte následující analýzy podle zadání ze semináře: https://is.muni.cz/auth/el/fss/podzim2020/PSYb2520/seminare/seminar_5/s5_zadani.pptx

Odevzdejte textový dokument se zprávou o analýze, která bude mít podobu sekce výsledky v souladu s doporučeními APA manuálu a příručky Morganové a kol.. Zpráva bude obsahovat:

  • stručné představení dat, vzorku, na kterém byla data získána, a použitých metod měření (velmi stručná verze sekcí Vzorek a Metody),
  • kroky provedené v rámci přípravy dat (čištění, počítání nových proměnných),
  • informace o chybějících datech a strategii, jak se s nimi naložilo v ANOVě,
  • popisné statistiky všech proměnných použitých v analýze 
  • zdůvodnění specifikace modelu  
  • popis modelu (s tabulkou analýzy rozptylu v případě faktoriální anovy)
  • grafické zobrazení průměrů i intervaly spolehlivosti
  • zhodnocení naplnění předpokladů a případných omezení, které z toho mohou plynout, též zmínění outlierů.
  • stručnou interpretaci a diskuzi smyslu výsledků

Formát. V tradici ANOVy píšeme co nejvíce informací v textu; nezapomeňte na omegy. Pamatujte na 11. přikázání - NEZKOPÍRUJEŠ TABULKU ZE SPSS! 

Odevzdejte také skript/syntax (.sps), jehož spuštěním vzniknou výsledky, které prezentujete ve své zprávě. Nejlépe je to vložit do odevzdávány jako jeden .zip pojmenovaný podle vzoru U5_S3_Bílek_Fialová_Zelená.zip. 

Pro zprávu využijte šablonu uloženou ve studijních materiálech zde.

Na vypracování je týden od semináře. Termín odevzdání je ve pátek následující po tomto semináři.

P6 - Víceúrovňový lineární model

6. Víceúrovňový lineární model

Široká a dlouhá data. Vnitrotřídní korelační koeficient. Víceúrovňová (hierarchická, vnořená, clustered) data . Pevné (fixed) a náhodné (random) koeficienty (efekty). Víceúrovňové (mixed, smíšené) normální lineární modely pro průřezová data - model s náhodným průsečíkem, model s náhodným  průsečíkem i směrnicemi. Longitudinální data - model růstových křivek. Výhody multilevel modelů. Ukazatele shody modelu s daty založené na -2LL. Centrování v multilevel modelu. Rozdílná užití ML a REML odhadu parametrů modelu.

Literatura: [F] kap. 21 – Multilevel linear models

Příklady studií:

Rammstedt, B., Mutz, M., & Farmer, R. F. (2015). The answer is blowing in the wind: Weather effects on personality ratings. European Journal of Psychological Assessment, 31(4), 287–293. http://doi.org/10.1027/1015-5759/a000236

Jang, H., Reeve, J., & Deci, E. L. (2010). Engaging students in learning activities: It is not autonomy support or structure but autonomy support and structure. Journal of Educational Psychology, 102(3), 588–600. http://doi.org/10.1037/a0019682

Sneed, J. R., Whitbourne, S. K., & Culang, M. E. (2006). Trust, identity, and ego integrity: Modeling Erikson’s core stages over 34 years. Journal of Adult Development, 13(3–4), 148–157. http://doi.org/10.1007/s10804-007-9026-3


Komentář ke čtení Fielda.

Kapitola začíná představením hierarchických (multilevel, vnořených) datových struktur. Věnuje tomu hodně prostoru, ale neměli byste v tom hledat nějakou složitost. Nepřeskočte pasáž o vnitrotřídním korelačním koeficientu (ICC). 

Co se týká benefitů multilevel modelu, jsou předloženy trochu parodicky. Ne, že bychom mohli úplně zapomenout na předpoklad nezávislosti reziduí. ML modely nám pouze mohou vyřešit závislost způsobenou členstvím ve skupinách - tedy závislost v důsledku hierarchické struktury dat. Jiné důvody závislosti, popř. členství v neznámých skupinách, nevyřeší. Podobně chybějící data jsou snáze zohlednitelná, ale neznamená to to, že bychom se jimi vůbec nemuseli zabývat. 

Myšlenka náhodných (a pevných) koeficientů (21.3.2) je zde centrální. Nepouštějte se dál, než pochopíte, oč jde. 

Pasáž 21.4.2 přeskočte. Vše, co nyní potřebujete vědět, je, že když máte v modelu více než jeden náhodný koeficient (INTERCEPT a ještě něco dalšího na řádku /RANDOM před | (btw napsáno na české klávesnici pomocí RightAlt+W)) pak VC znamená, že vaše náhodné koeficienty mezi sebou nebudou korelovat a UN znamená, že ano.  

Předpoklady ML modelu a úvahy statistické síle bych si nechal, až budete mít pocit, že v základu chápete, jak model funguje. Potom stojí za to si nechat rozšířit myšlenku centrování i o centrování kolem skupinových průměrů.

V případě ML modelu nesou pasáže o klikání v SPSS hodně informací o tom, jak modely vlastně fungují. Zatímco my jsme začínali modelem bez zohlednění hierarchické struktury dat spočítaným pomocí REGRESSION, ve Fieldovi je obyčejný regresní model spočítaný přímo v MIXED tím, že není vůbec použitá volba /RANDOM. Nezapomeňte si všímat počtu počítaných parametrů,

I když jsme se k tomu moc nedostali (až na konci semináře), pokud máme data zahrnující opakovaná měření, pak je první úrovní měření, druhou člověk a pak mohou být ještě nějaké vyšší úrovně. Pokud je mezi prediktory nějaká proměnná vyjadřující čas, jak šla jednotlivá měření po sobě (kategorická či spojitá), mluvíme o těchto ML modelech jako o modelech růstových křivek. Není zde ale nic konceptuálně nového. Prakticky je zde potřeba zvládnout převádění dat mezi širokým a dlouhým formátem. ML modely v SPSS vyžadují dlouhý formát, ale jiné procedury, třeba pro grafy a popisné statistiky, vyžadují široký formát. 

Reportování je ve Fieldovi podáno chudě. Spíše se podívejte na příklady studií výše.

S6 - Víceúrovňový lineární model


Zadání seminárního úkolu
Možnost 1
Zpracujte následující analýzu:
Data: Nová citrónová data long.sav popisují výsledky experimentu, kterým se studenti snažili ověřit hypotézu, že přítomnost citrónové vůně v místnosti zvyšuje ochotu lidí věnovat peníze na charitu. Po skupinách (IDskupiny) si zvali dobrovolníky do místnosti a tam získávali peníze na charitu (nějakou prezentací). Dary anonymních jednotlivců zaznamenávali (Dary, Pohlaví). Pro některé skupiny nasprejovali do vzduchu v místnosti citronovou vůni, pro jiné ne (Citron).

Ověřte efekt citrónu ve vzduchu a to, jak tento efekt může ovlivňovat pohlaví dárce. Je přitom potřeba zohlednit vliv skupin, protože lidé viděli, kolik dávají lidé před nimi a jejich volba velikosti daru určitě nebyla nezávislá na ostatních lidech ve skupině .

Možnost 2
Vytvořte multilevel verzi analýzy kterou děláte pro replikaci v PSYb1120. Typicky může jít o zohlednění rozdělení do skupin, dnů, či opakovaná měření apod.


Odevzdejte textový dokument se zprávou o analýze, která bude mít podobu sekce výsledky v souladu s doporučeními ve Fieldovi.  Zpráva bude obsahovat:

  • stručné představení dat, vzorku, na kterém byla data získána, a použitých metod měření (velmi stručná verze sekcí Vzorek a Metody),
  • kroky provedené v rámci přípravy dat (čištění, počítání nových proměnných),
  • popisné statistiky všech proměnných použitých v analýze, zvažte i statistiky podle skupin 
  • parametry modelu 
  • komentář k vysvětleným rozptylům
  • interpretaci všech parametrů
  • zhodnocení naplnění předpokladů a případných omezení, které z toho mohou plynout, též zmínění outlierů.
  • stručnou diskuzi smyslu výsledků

Formát. Multilevel regresi prezentujeme jako lineární, jen přidáme řádky s rozptyly náhodných koeficientů. Jako vzor lze použít i Cerniglia2018.pdf ve studijních materiálech. Pamatujte na 11. přikázání - NEZKOPÍRUJEŠ TABULKU ZE SPSS! 

Odevzdejte také skript/syntax (.sps), jehož spuštěním vzniknou výsledky, které prezentujete ve své zprávě. Nejlépe je to vložit do odevzdávány jako jeden .zip pojmenovaný podle vzoru U5_S3_Bílek_Fialová_Zelená.zip. 

Pro zprávu využijte šablonu uloženou ve studijních materiálech zde.

Na vypracování je týden od semináře. Termín odevzdání je ve středu následující po tomto semináři pro skupinu S02 a v úterý pro seminární skupiny S01 a S03 .