Přednáška 7: Teorie zobecnitelnosti 26. 10. 2021 | PSYn4790 | Psychometrika: Měření v psychologii Katedra psychologie, Fakulta sociálních studií MU Hynek Cígler | hynek.cigler@mail.muni.cz CTT: Hodně chyb, hodně reliabilit... Mnoho způsobů odhadů reliability a druhů chyby v rámci CTT: ◦ stabilita v čase = test-retest: korelace, regrese, ICC... ◦ vnitřní konzistence: alfa, omega, split-half, GLB... ◦ ekvivalence = reliabilita paralelních forem: korelace, regrese, ICC... ◦ shoda posuzovatelů: Cohenovo/Fleissovo kappa, Krippendorfova alfa, ICC... Co ale s tím? Kterou „reliabilitu“ si vybrat? ◦ Pro různé účely? Teorie zobecnitelnosti Generalizability Theory (GT) Lee J. Cronbach (1916–2001) Teorie zobecnitelnosti Generalizability Theory (GT) Lee J. Cronbach (1916–2001) Cronbach, L.J., Rajaratnam, N., & Gleser, G.C. (1963). Cronbach, 1991, cit. dle Brenan (2001, s. 3) Cronbachovo alfa Cronbachova alfa (1951) není tak docela Cronbachova: ◦ Rulonův vzorec (1939); Guttmanova korekce pomocí λ3 (1945); Hoytův vzorec (1941). Cyril Hoyt (1941) – odhad reliability pomocí ANOVA: 𝑟 𝑥𝑥′ = 𝜎𝜏 2 𝜎 𝑥 2 = 𝜎 𝑥 2 − 𝜎𝑒 2 𝜎 𝑥 2 = 𝑀𝑆𝜏 𝑀𝑆 𝑥 = 𝑀𝑆 𝑥 − 𝑀𝑆 𝑒 𝑀𝑆 𝑥 ◦ 𝑀𝑆 𝑥 - mean-square, tj. průměr sumy čtverců, tj. rozptyl. ANOVA umí „parcelovat“ pozorovaný rozptyl (ANalysis Of Variance). ◦ Typická ANOVA: jakou část pozorované variability (𝑀𝑆 𝑥) lze přičíst rozdílům mezi lidmi (betweensubjects, 𝑀𝑆𝜏) a jaká je způsobena rozdílům uvnitř (within-subjects, 𝑀𝑆𝑒)? ◦ Resp. pomocí F-testu ověřujeme, zda je 𝑀𝑆𝜏 > 0. Rulon, P. J. (1939). A simplified procedure for determining the reliability of a test by split-halves. Harvard Educational Review, 9, 99–103. Hoyt, C. (1941). Test reliability estimated by analysis of variance. Psychometrika, 6(3), 153–160. https://doi.org/10.1007/BF02289270 Guttman, L. (1945). A basis for analyzint test-retest reliability. Psychometrika, 10(4), 255–282. https://doi.org/10.1007/BF02288892 Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297–334. https://doi.org/10.1007/BF02310555 Hoytův postup Hoyt použil ANOVA k parcelování pozorované rozptylu odpovědí lidí na paralelní testy (položky). Postup výpočtu (přibližně, bez korekcí): ◦ 1. Rozptyl průměrů osob ( ത𝑋 𝑝): 𝜎 𝑥 2. ◦ 2. Rozptyl odchylek jednotlivých pozorování 𝑥𝑖𝑝 osob 𝑝 na pol. 𝑖 od jejich průměrů ത𝑋 𝑝 jako: 𝜎𝑟𝑒𝑠 2 = σ 𝑝=1 𝑁 σ 𝑝=1 𝐼 𝑥𝑖𝑝 − ത𝑋 𝑝 2 𝑁𝐼 ◦ 3. Standardní chyba odhadu průměru z 𝐼 položek jako 𝜎𝑒 = 𝜎 𝑟𝑒𝑠 2 𝐼 = 𝑆𝐷 𝑁 ◦ Protože jde o výpočet „přes všechny osoby“, obchází potíže s opakovaným měřením jedné osoby (viz minulá přednáška). ◦ 3. Reliabilita jako 𝑟 𝑥𝑥′ = 1 − 𝜎 𝑒 2 𝜎 𝑥 2. ◦ 4. Standardní chyba měření: Buď z reliability, nebo přímo jako 𝑆𝐸 = 𝜎𝑒 = 𝜎 𝑟𝑒𝑠 2 𝐼 Výsledek je ekvivalentní Cronbachovu alfa, asymptomaticky se rovná průměru všech možných split-half reliabilit (Cronbach, 1951). ◦ Kde 𝑁𝐼 je počet osob krát počet položek (celkový počet pozorování = počet kusů informace). Hoytův postup Tau-ekvivalence (všechna pozorování mají stejnou váhu, E σ 𝑖=1 𝐼 E 𝑋 𝑝𝑖 𝐼 = 𝜏 𝑝). ◦ Paralelnost položek (shodné reziduální rozptyly) lze obejít. Neexistence jiného zdroje rozptylu, než: ◦ Variabilita ve schopnostech lidí (𝜎 𝑝 2 ). ◦ Variabilita v obtížnostech položek (𝜎 𝑝𝑖 2 ). ◦ Variabilita v tom, jak různí lidé odpověděli na různé položky (𝜎 𝑝𝑖,𝑒 2 ). Co když je ale zdrojů více? ◦ Situace a změna rysu v čase, okolnosti testování, hodnotitel, dílčí oblast znalostí... Teorie zobecnitelnosti (Generalizability theory) Řešením CTT problému „mnoho chyb, mnoho reliabilit“ je teorie zobecnitelnosti. ◦ Cronbach, L.J., Rajaratnam, N., & Gleser, G.C. (1963). Theory of generalizability: A liberation of reliability theory. The British Journal of Statistical Psychology, 16, 137-163. ◦ Cronbach, L.J., Gleser, G.C., Nanda, H., & Rajaratnam, N. (1972). The Dependability of Behavioral Measurements. New York: Wiley. CTT: 𝑋 = 𝑇 + 𝑒 GT: 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒3 + … + 𝑒 𝑘 ◦ Kde např. e1 je specifický skór v daném čase (test-retest), e2 rozdílnost posuzovatelů (shoda posuzovatelů), e3 rozdílnost položek (vlastní „nepřesnost metody“, vnitřní konzistence) atd. ◦ Pro různé účely může T zahrnovat i některé chyby (např. nás zajímá výkon v daném čase a nikoliv stabilita napříč časem, přestože víme, že výkon není stabilní). Protože ale např. i ten stejný hodnotitel může hodnotit různě v různých situacích, ve vzorci výše tedy chybí interakce: ◦ 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒3 + 𝑒12 + 𝑒13 + 𝑒23 + 𝑒123 … Jinými slovy... CTT: Pouze dva zdroje variability ◦ systematický = pravý skór ◦ náhodný = chyba měření GT: Neomezeně zdrojů variability ◦ všechny jsou náhodné ve smyslu výběru z populace („prostoru“) ◦ některé mohou být systematické napříč pozorováními ◦ Pravý skór člověka napříč položkami. ◦ Přísnost hodnotitele napříč osobami. Heitman et al. (2009) Jinými slovy... „The theory describes the dependability (reliability) of generalizations made from a person’s observed score on a test to the score he or she would obtain in the broad universe of admissible observations—her “universe score” (true score in classical test theory). Hence the name, Generalizability Theory.“ (Shavelson & Webb, 2006) Universe score – problém s překladem. Proto malá anketa na FB: ◦ 42 (J. Brojáč, osobní komunikace 30. 9. 2019) ◦ globální skór, ideální skór (V. Pišl, osobní komunikace 30. 9. 2019) ◦ vesmírnej skór (A. J. Kšiňan, osobní komunikace 30. 9. 2019), skór veškera (J. Štipl, osobní komunikace 30. 9. 2019), skór veškerenstva (H. Cígler & R. Modré, osobní komunikace 30. 9. 2019) ◦ všeobecný skór (M. Čadek, osobní komunikace 30. 9. 2019) ◦ skór univerza, skór v univerzu, obecný skór (A. Ťápal, osobní komunikace 30. 9. 2019) Princip a účel GT GT zpravidla nepracuje se součtovým skóre, ale s průměrným skóre. ◦ „Průměrná odpověď“napříč „prostorem“ všech možných respondentů, položek, situací... ◦ Reliabilita průměrného a součtového skóre je ale stejná (lineární transformace). ◦ Tato průměrná odpověď pro konkrétního respondenta se označuje jako universe score. ◦ Jednotlivé zdroje rozptylu (kromě rozdílů mezi respondenty) se označují jako fasety. Dvě klíčové části GT: ◦ G-studie: Jak velká část rozptylu odpovědi na jednu položku v jedné situaci jedním respondentem (atd.) je „vysvětlena“ jednotlivými fasetami a rozdíly mezi respondenty samotnými? ◦ D-studie: Jaká bude chyba měření při využití „opakovaného měření“ v konkrétních fasetách? ◦ Např. při měření 10 položkami při 3 administracích, hodnocených 2 hodnotiteli? ◦ Využívá výsledků G-studie. Princip a účel GT Podobné předpoklady jako CTT, jde o její rozšíření. ◦ Zpravidla (nikoliv nutně) předpoklad náhodného výběru prvků dané fasety z nekonečně velkého doménového prostoru. ◦ Existují ale i úpravy pro „finite universe“. Další běžné předpoklady CTT. ◦ Jednodimenzionalita (ale existují multivariate úpravy), normální rozdělení (ale...), odpovědi na intervalové škále (ale jistá robustnost proti ordinálním položkám) atd. ◦ Tau-ekvivalence, resp. paralelnost položek (konkrétně stejný reziduální rozptyl, ale relativně vysoká robustnost zvláště při větším počtu položek. ◦ Vícedimenzionalita možná při dodržení tau-ekvivalence faset na univerzu; analogie k hierarchické ρSOF (Cho, 2016) Některé postupy GT „zobecněly“ v běžných CTT postupech. ◦ Hoyt (1941), vnitrotřídní korelace (ICC, intra-class correlation; Shrout & Fleiss, 1979). Princip a účel GT Stejně jako CTT, i GT vychází z operacionalismu. ◦ Měřeným atributem je universe score, nikoli psychický rys jako takový. ◦ Měření je tedy definováno skrze měřicí nástroj; v tomto případě spíše skrze způsob tvorby položek a popis „univerza položek“, nikoliv konkrétně vybrané položky v daném testu. Jde tedy společně s CTT o „slabou teorii měření“, na rozdíl třeba od IRT. ◦ „Weak true-score theory“. Příliš mnoho nesplnitelných předpokladů. Logika GT je nicméně využívána i v jiných teoriích měření, kde je rozptyl měřeného rysu „parcelován“ na dílčí složky. ◦ Multifasetové Raschovy modely. ◦ Hierarchické (multilevel) IRT modely a hierarchická (multilevel) faktorová analýza. ◦ Explanační IRT modely (zde je parcelována obtížnost/diskriminace položek). G-studie Studie zobecnitelnosti Generalizability study Dekompozice rozptylu Odhad rozptylových komponent ANOVA Smíšený lineární model (linear mixed model, LMM) https://community.jmp.com/t5/Discussions/How-to-implement-variance-decomposition/td-p/272070 G-studie G-studie = generalizability study (studie zobecnitelnosti) ◦ Odhaduje chybový rozptyl pojící se s jednotlivými faktory a jejich interakcemi, resp. chybu pojící se s jednou položkou/jedním měřením/apod. (a jejich interakcemi). ◦ Jinými slovy – jakou část rozptylu jednoho pozorování (interakce respondenta×položky×situace×hodnotitele×...) tvoří specifický rozptyl respondenta/položky/situace/... Zobecňuje z měření na prostor (universum). ◦ Na základě měření odhaduje rozptylové komponenty v prostoru. ◦ Tohle je ta výpočetně náročnější část GT. G-studie: Rozptylové komponenty KLASICKÁ TESTOVÁ TEORIE Složení pravého skóru: 𝑋 = 𝑇 + 𝑒 Rozptylové komponenty: 𝜎 𝑥 2 = 𝜎𝜏 2 + 𝜎𝑒 2 Reliabilita: 𝑟 𝑥𝑥′ = 𝜎𝜏 2 𝜎𝜏 2 + 𝜎𝑒 2 ◦ pravý skór a chyba jsou ortogonální, proto chybí jejich kovariance („+2𝜎𝜏𝑒 2 ) TEORIE ZOBECNITELNOSTI Složení obecného skóru – např. 2fasetový design: 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒 𝜏1 + 𝑒 𝜏2 + 𝑒12 + 𝑒 𝜏12,𝑒 Rozptylové komponenty: 𝜎 𝑥 2 = 𝜎𝜏 2 + 𝜎1 2 + 𝜎2 2 + 𝜎𝜏1 2 + 𝜎𝜏2 2 + 𝜎12 2 + 𝜎𝜏12,𝑒 2 Reliabilita: 𝑟 𝑥𝑥′ = 𝜎𝜏 2 𝜎𝜏 2 + 𝜎1 2 + 𝜎2 2 + 𝜎𝜏1 2 + 𝜎𝜏2 2 + 𝜎12 2 + 𝜎𝜏12,𝑒 2 ◦ Všechny rozptylové komponenty jsou ortogonální (protože jsou zahrnuty všechny), proto též bez kovariance. ◦ Z toho důvodu se zahrnují i nesignifikantní efekty. G-studie: příklad Příklad: 2fasetový design p × i × o. ◦ N respondentů p (persons) ◦ Osoby jsou tam vždy, proto se nepočítají do počtu faset ◦ 3 položky i (items) ◦ 2 administrace/situace o (occasions) Pozorovaný skór X: ◦ 𝑋 𝑝 = mean 𝑋 𝑝𝑖𝑜 ; E 𝑋 𝑝𝑖𝑜 = 𝑇𝑝 Pozorovaný skór je součtem všech komponent: 𝑋 𝑝𝑖𝑜 = 𝑇𝑝 + 𝑒𝑖 + 𝑒 𝑜 + 𝑒 𝑝×𝑖 + 𝑒 𝑝×𝑜 + 𝑒𝑖×𝑜 + 𝑒 𝑝×𝑖×𝑜 Celkový rozptyl pozorovaného skóre (prvků datové matice): 𝜎 𝑋 𝑝𝑖𝑜 2 = 𝜎 𝑝 2 + 𝜎𝑖 2 + 𝜎𝑜 2 + 𝜎 𝑝𝑖 2 + 𝜎 𝑝𝑜 2 + 𝜎𝑖𝑜 2 + 𝜎 𝑝𝑖𝑜,𝑒 2 Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf G-studie: Odhad rozptylových komponent Historicky GT využívala ANOVA. ◦ Fasety – „faktory“ v tradiční ANOVA terminologii. ◦ Proměnné jsou uvažovány jako random (např. náhodný výběr času) nebo fixed effect (např. test stabilně složený ze stejných položek). ◦ Random modely jsou častější. Aktuálně se zpravidla používá LMM (linear mixed model). ◦ Výhody při odhadu. ◦ Unbalanced designy, chybějící data apod. ◦ Menší předpoklady, vyšší flexibilita. ◦ Výsledek by se neměl lišit (při dodržení předpokladů), reálně jsou odlišnosti malé. GT: SW pro odhad G-studie Tradiční SW: ◦ GENOVA, mGENOVA (staré DOSovské aplikace) ◦ Různé podivné malé prográmky (G String V) SPSS (lze ručně upravit syntax pro mixed-modely). ◦ Mushquash, C. and O’Connor, B.P. (2006). SPSS and SAS programs for generalizability theory analyses, Behavior Research Methods, 38(3), 542– 547. doi: 10.3758/bf03192810 R, zejména balíček lme4 (mixed modely) a případně gtheory (nástavba lme4). ◦ Případně pak hemp dostupný na githubu (doplněk ke knize Desjardins & Bulut, 2018). Přehled dostupných programů: ◦ Taşdelen Teker, G., Güler, N. and Kaya Uyanık, G. (2015). Comparing the effectiveness of SPSS and EduG using different designs for Generalizability theory. Educational Sciences: Theory & Practice, 15(3). doi: 10.12738/estp.2015.3.2278 ◦ Yelboga, A. (2015). Estimation of Generalizability coefficient: An application with different programs. Archives of Current Research International, 2(1), 46–53. doi: 10.9734/acri/2015/17409 V předchozím případě by syntax pro R byl: ◦ Předpokladem je převedení na tzv. dlouhý formát, kde jeden řádek = 1 odpověď, a další proměnné jsou person (1-N), item (1-3), ocassion (1-2) require(lme4) require(gtheory) model <- "response ~ (1 | person) + (1 | item) + (1 | occasion) + (1 | person:item) + (1 | person:occasion) + (1 | item:occasion)" Pozn.: poslední chybovou fasetou je (1 | person:item:occasion) – ta reprezentuje „zbytek“ a je proto chybou v klasickém slova smyslu (vše, co není vysvětleno ničím předchozím) , proto ji není nutné do modelu zadávat). gstudy <- gstudy(data = data, formula = model) print(gstudy) GT: Způsob odhadu G-studie v R odp. P I O 4 1 1 1 2 1 2 1 5 1 3 1 4 1 1 2 odp. P I O 3 1 2 2 4 1 3 2 3 2 1 1 1 2 2 1 Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf D-studie Rozhodovací studie Decision study Koeficient dependability a zobecnitelnosti Absolutní a relativní D-studie D-studie Rozhodovací (Decision) studie slouží k odhadu chyby měření pro konkrétní design s využitím informací z G-studie. Definuje tzv. „prostor zobecnění“ (počtem pozorování, počtem položek atp.), pro který bude naše měření platit. ◦ V rámci tohoto prostoru má každý respondent tzv. U-skór (universe score). Odhad chyby odhadu universe skóru pro zvolený hypotetický design – např. p×I×O. D-studie: Obecný postup 1. Volba jednotky/subjektu měření (nemusí být respondent). 2. Volba designu, resp. prostoru/prostorů zobecnění. 3. Identifikace chybových složek. 4. Volba počtu prvků faset (nemusí se shodovat s G-studií). 5. Výpočet chyby odhadu. 6. Výpočet koeficientu reliability. D-studie: Dva typy zobecnění Relativní (norm-referenced) – zobecnění v rámci vybraných prvků fasety. ◦ Všechny fasety jsou zafixovány napříč měřením (např. test složený z pevného setu položek). ◦ Díky fixaci se jejich prvky stanou konstantou a rozdílná „obtížnost“ není chybou. ◦ Nezobecňuje se na celý fasetový prostor, ale právě na tyto prvky dané fasety. ◦ Reliabilita odhadována pomocí koeficientu zobecnitelnosti. ◦ Přímo srovnatelný s různými druhy CTT reliability. Absolutní (kriteriální) – zobecnění na celou fasetu. ◦ Tento odhad nese více nejistoty. ◦ Reliabilita odhadována pomocí koeficientu spolehlivosti (dependability coef.). ◦ Lze uvažovat pravděpodobnost překročení absolutního kritéria. Spíše než otázka celého designu otázka dílčích faset (smíšený design). D-studie: Dva typy zobecnění (příklady) RELATIVNÍ D-STUDIE Dotazník self-esteemu (SE) ◦ Nezajímá mě, jak by respondent skóroval na případných jiných položkách, které měří SE. ◦ Posvátná kráva?  Hodnocení písemného testu v psychometrice. ◦ Všechny testy hodnotí Hynek. Zanedbáváme, jak by bodovali jiní hodnotitelé. Přijímací zkouška do NMGR psychologie. ◦ Chceme vybrat 30 nejlepších uchazečů, nezáleží na tom, jak obtížné položky jsou letos v testu. ABSOLUTNÍ D-STUDIE „Super-komplexní dotazník depresivity“. ◦ Náhodný výběr 10 symptomů ze všech identifikovaných symptomů deprese. ◦ Záleží, zda jsme vybrali časté či řídké symptomy. Hodnocení seminární práce v psychometrice. ◦ Do hodnocení jsou zapojeni tři lidé; protože se liší přísností, záleží, kdo je komu „přidělen“. Přijímací zkouška do NMGR psychologie. ◦ Přijatý musí mít nejméně 36/60 bodů. ◦ Byly zařazeny jednoduché či těžké položky? D-studie: Odhad chyby měření Celková chyba odhadu obecného skóru = suma čtverců chyb odhadu komponent. ◦ Chyba odhadu dílčí komponenty = standardní chyba průměru1. ◦ Tedy rozptylová komponenta z G-studie dělená počtem pozorovaných prvků dané fasety: 𝜎𝑒 2 = 𝜎𝑒1 2 𝑛1 + 𝜎𝑒2 2 𝑛2 + 𝜎𝑒3 2 𝑛3 + ⋯ + 𝜎𝑒𝑘 2 𝑛 𝑘 Reliabilita se potom spočítá dle obecného vzorce pro vysvětlený rozptyl: 𝑟 𝑥𝑥′ = 𝜎𝜏 2 𝜎𝜏 2 + 𝜎𝑒 2 ◦ 𝜎𝜏 2 - rozptyl jednotek měření, tedy universe skórů ◦ 𝜎𝑒 2 - chybový rozptyl, tedy součet všech chybových komponent 1 standardní chyba průměru 𝑆𝐸 = 𝑆𝐷 𝑁 → 𝑆𝐸2 = 𝑆𝐷2 𝑁 ; SD – směrodatná odchylka; N – velikost vzorku/počet pozorování. Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf Relativní D-studie: Příklad Jaká bude chyba průměrného skóre ze 2 administrací 10položkového testu? Relativní chybový rozptyl 𝜎𝛿 2 : 𝜎𝛿 2 = 𝜎 𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎 𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = .810 1 × 10 + .230 1 × 2 + 1.413 1 × 10 × 2 = .267 Podíl chybového rozptylu (reliabilita): koeficient zobecnitelnosti: 𝐺 = 𝜌2 = 𝜎 𝑝 2 𝜎 𝑝 2 + 𝜎𝛿 2 = 1,108 1,108 + 0,267 = 𝟎, 𝟖𝟎𝟔 Koeficient zobecnitelnosti je přímo srovnatelný s reliabilitou v CTT (𝑁𝑝 = 1 vynecháno): ◦ Vnitřní konzistence 1 měření v 1 okamžik: 𝜎 𝛿 2 = 𝜎 𝑝𝑖 2 𝑁 𝑖 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁 𝑖×𝑁 𝑜 = .810 10 + 1.413 10×1 = .222  𝐺 = 1,108 1,108+0,222 = 0,833 Absolutní D-studie: Příklad Absolutní chyba průměrného skóre 10 položek a 2 měření? ◦ Zobecňuji napříč všemi přípustnými položkami i časem (admissible observation). Absolutní chybový rozptyl 𝜎∆ 2 : 𝜎∆ 2 = 𝜎𝑖 2 𝑁𝑖 + 𝜎 𝑜 2 𝑁𝑜 + 𝜎 𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎 𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎𝑖𝑜 2 𝑁𝑖 × 𝑁𝑜 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = .102 10 + .030 2 + .810 1 × 10 + .230 1 × 2 + .001 10 × 2 + 1.413 1 × 10 × 2 = .292 Podíl chybového rozptylu: koeficient spolehlivosti Φ (dependability): Φ = 𝜎 𝑝 2 𝜎 𝑝 2 + 𝜎∆ 2 = 1,108 1,108 + 0,292 = 0,791 Pokud zjišťujeme spolehlivost překročení absolutního kritéria 𝜆: Φ 𝜆 = 𝜎 𝑝 2+ 𝜇−𝜆 2 𝜎 𝑝 2+ 𝜇−𝜆 2+𝜎∆ 2 ◦ Φ 𝜆 je vyšší, čím dále je kritérium 𝜆 od průměru 𝜇. Absolutní D-studie: Příklad Absolutní chyba průměrného skóre 10 položek a 2 měření? ◦ Zobecňuji napříč všemi přípustnými položkami i časem (admissible observation). Absolutní chybový rozptyl 𝜎∆ 2 : 𝜎∆ 2 = 𝜎𝑖 2 𝑁𝑖 + 𝜎 𝑜 2 𝑁𝑜 + 𝜎 𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎 𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎𝑖𝑜 2 𝑁𝑖 × 𝑁𝑜 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = .102 10 + .030 2 + .810 1 × 10 + .230 1 × 2 + .001 10 × 2 + 1.413 1 × 10 × 2 = .292 Podíl chybového rozptylu: koeficient spolehlivosti Φ (dependability): Φ = 𝜎 𝑝 2 𝜎 𝑝 2 + 𝜎∆ 2 = 1,108 1,108 + 0,292 = 0,791 Pokud zjišťujeme spolehlivost překročení absolutního kritéria 𝜆: Φ 𝜆 = 𝜎 𝑝 2+ 𝜇−𝜆 2 𝜎 𝑝 2+ 𝜇−𝜆 2+𝜎∆ 2 ◦ Φ 𝜆 je vyšší, čím dále je kritérium 𝜆 od průměru 𝜇. Smíšená D-studie: Příklad Jaká bude test-retest reliabilita 1 měření? ◦ 10 položek: relativní faseta (zobecňujeme na těchto 10 položek, ne na všechny možné). ◦ 1 situace: absolutní faseta (zobecňujeme na všechna možná pozorování napříč časem). Chybový rozptyl: 𝜎 𝛿 2 = 𝜎 𝑝𝑖 2 𝑁𝑝 × 𝑁𝑖 + 𝜎 𝑝𝑜 2 𝑁𝑝 × 𝑁𝑜 + 𝜎 𝑝𝑖𝑜,𝑒 2 𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜 = .810 1 × 10 + .230 1 × 1 + 1.413 1 × 10 × 1 = .452 Koeficient zobecnitelnosti: 𝐺 = 1,108 1,108 + 0,452 = 0,710 D-studie: absolutní Uvažuje veškeré faktory jako náhodné, přičemž tyto faktory se mohou lišit mezi respondenty. Případně nás zajímá skór napříč všemi potenciálními prvky všech faset (typicky u kriteriálních výkonových testů): ◦ Relativní: 70 % správně z daných 10 položek. ◦ Absolutní: 70 % správně ze všech možných položek. Zobecňuje tedy na universe score napříč celým (nejvyšším) prostorem: „universe of admissible observartions“. ◦ Náhodný výběr položek, časů, hodnotitelů ze všech možných atd. ◦ Tento universe score bude mít tedy vyšší chybu než universe score. Srovnání designů Relativní D-studie ze 2 měření p×(I=10)×(O=2): G = 0,806 ◦ I, O fixed Relativní D-studie z 1 měření p×(I=10): G = 0,833 ◦ I fixed, O vynecháno ◦ Šlo by o shodný výsledek s Cronbachovým alfa z jednoho měření. Absolutní D-studie ze 2 měření p×(I=10)×(O=2): Φ = 0,791 ◦ I, O random Smíšená D-studie, test-retest z 1 měření p×(I=10)×(O=1): Φ = 0,710 ◦ I fixed, O random Využití GT Odhad reliability/chyby měření. Vývoj testu: jak se změní reliabilita, pokud použiju jiný počet prvků z domény? ◦ S minimální finanční/časovou náročností maximalizovat reliabilitu testu. ◦ Obdoba Spearman-Brownova věšteckého vzorce, ale pro více zdrojů chyb než „počet testů“. GT je velmi cenná v případě, že máme skutečně paralelní položky. ◦ Např. tzv. škrtací testy pro měření reakčního času, kde jsou dílčí položky řazené do bloků (a třeba testované opakovaně). Využití GT: Optimální počet prvků faset Seminární práce. Variuji: ◦ počtem hodnotitelů; ◦ počtem hodnocených prací. Pokud např. chci investovat na každého studenta max. čtyři hodnocené práce, co je nejvýhodnější? ◦ A) 4 pokusy, 1 hodnotitel ◦ B) 2 pokusy, 2 hodnotitelé ◦ C) 3 pokusy, 1 hodnotitel ◦ D) 1 pokus, 4 hodnotitelé Převzato z Brennan (2001) – jde o jiná data než výše. Využití GT: Multilevel design Prvkem měření nemusí být respondent, ale např. školní třída (pak je faseta „žáci“ chybou). Občas nejsou prvky „crossed“, ale „nested“. Např. žáci patří právě do jedné třídy, nepozorujeme je ve více třídách (c=class, S=student, I=item): ◦ G-studie: (s:c)×i ◦ D-studie pro žáka uvnitř třídy: (s:C)×I (C je fixed) ◦ D-studie pro žáka napříč třídami: (s:C)×I (C je random) Pokud byl design G-studie rozsáhlejší než design D-studie, může se stát, že se rozptyl universe skóru skládá z více rozptylových komponent. ◦ V příkladu výše zobecnění výkonu žáka uvnitř vs. napříč třídami. ◦ Doporučuji držet stejný design D a G studií, jinak se vše značně komplikuje (ale specifikační chyba v Gstudii...). Případně co nejkomplexnější G-studie. G-studie vs. D-studie G-STUDIE Zaměřuje se na rozptylové komponenty. ◦ Odhad jejich velikosti. Design např.: 𝑝 × 𝑡 × 𝑟 ◦ Malá písmena značí rozptylové komponenty. Vychází z dat. ◦ Zobecňuje z měření na prostor, tvoří model. ◦ Nejlépe cross-design. D-STUDIE Zaměřuje se na odhad chyby měření. ◦ A reliability. Design např.: 𝑝 × 𝑇 × 𝑅 ◦ Velká písmena značí pozorování. Vychází z modelu G-studie. ◦ Zobecňuje z prostoru na měření. ◦ Volíme design dle účelu. GT: závěrem Při zobecnění na více položek shodné výsledky s S-B vzorcem. Lze mít také více závislých proměnných (multivariate analysis of variance, MANOVA): ◦ Odhad reliability kompozitu, rozdílových skórů, profilu apod. ◦ Analogie k velmi zjednodušenému strukturnímu modelu. Výhodné při standardizaci testů, kde je přítomno více zdrojů chyb ◦ Např. examinátor-retest-položky. ◦ Minimum výhod při využití prostého odhadu test-retest reliability pomocí korelace celkových skórů, GT poskytne více informací. Nepříliš doceněná (člověk musí rozumět, aby mohl použít). Doporučuji: Brennan, R. L. (2001). Generalizability Theory. New York: Springer. ◦ Drobné texty viz studijní materiály. Srovnání GT a model-based/dimension free konceptu reliability Minulá přednáška o CTT: model-based vs. dimension free-reliabilita. ◦ Realismus: Co je měřeným rysem? Jak moc „paralelně“ jej dílčí indikátory měří? ◦ I u dimension-free reliability stále předpokládáme existenci latentního rysu (jinak by CFA model nedával smysl). ◦ Vždy jen relativní srovnání (ale absolutní lze implementovat). ◦ Zpravidla jen jeden zdroj chyby (položka), ale existují hierarchické a MTMM modely. GT: Operacionalismus. ◦ Máme definovaný prostor zobecnění, ze kterého náhodně vybíráme. ◦ Tento náhodný výběr zajišťuje (hypoteticky) asymptotickou tau-ekvivalenci vybraných prvků. ◦ Zobecňujeme na celý prostor nebo jen na vybrané prvky? Obojí je zcela odlišný pohled na měření. ◦ Oba přístupy kombinují multifastové IRT modely. Vnitrotřídní korelace pro P×I design Shrout a Fleiss (nejběžnější) McGraw a Wong (občasně používané) GT design ICC(1,1) One-way random, single score ICC(1) p (jediná faseta plus error, Ne=1) Hodnotitelé se neopakují. ICC(2,1) Two-way random, single score ICC(A,1) p×I (absolutní, Ni = 1) Stejní hodnotitelé, vybraní náhodně. ICC(3,1) Two-way mixed, single score ICC(C,1) p×I (relativní, Ni = 1) Stejní hodnotitelé, nezobecňuji na všechny možné. ICC(1,k) One-way random, average score ICC(k) p (jediná faseta plus error, Ne=k) ICC(2,k) Two-way random, average score ICC(A,k) p×I (absolutní, Ni = k) ICC(3,k) Two-way mixed, average score ICC(C,k) p×I (relativní, Ni = k) ICC(3,k) = Cronbachovo α A=agreement (shoda hodnocení), C=consistency (konzistence pořadí), k=počet hodnotitelů/skupin. Ukazatel shody posuzovatelů. Reliabilita při hodnocení 1 posuzovatelem. Reliabilita celkového hodnocení, tj. průměru všech posuzovatelů.