Přednáška 7:
Teorie zobecnitelnosti
26. 10. 2021 | PSYn4790 | Psychometrika: Měření v psychologii
Katedra psychologie, Fakulta sociálních studií MU
Hynek Cígler | hynek.cigler@mail.muni.cz
CTT: Hodně chyb, hodně reliabilit...
Mnoho způsobů odhadů reliability a druhů chyby v rámci CTT:
◦ stabilita v čase = test-retest: korelace, regrese, ICC...
◦ vnitřní konzistence: alfa, omega, split-half, GLB...
◦ ekvivalence = reliabilita paralelních forem: korelace, regrese, ICC...
◦ shoda posuzovatelů: Cohenovo/Fleissovo kappa, Krippendorfova alfa, ICC...
Co ale s tím? Kterou „reliabilitu“ si vybrat?
◦ Pro různé účely?
Teorie
zobecnitelnosti
Generalizability
Theory (GT)
Lee J. Cronbach (1916–2001)
Teorie
zobecnitelnosti
Generalizability
Theory (GT)
Lee J. Cronbach (1916–2001)
Cronbach, L.J., Rajaratnam, N.,
& Gleser, G.C. (1963).
Cronbach, 1991, cit. dle Brenan (2001, s. 3)
Cronbachovo alfa
Cronbachova alfa (1951) není tak docela Cronbachova:
◦ Rulonův vzorec (1939); Guttmanova korekce pomocí λ3 (1945); Hoytův vzorec (1941).
Cyril Hoyt (1941) – odhad reliability pomocí ANOVA:
𝑟 𝑥𝑥′ =
𝜎𝜏
2
𝜎 𝑥
2 =
𝜎 𝑥
2 − 𝜎𝑒
2
𝜎 𝑥
2 =
𝑀𝑆𝜏
𝑀𝑆 𝑥
=
𝑀𝑆 𝑥 − 𝑀𝑆 𝑒
𝑀𝑆 𝑥
◦ 𝑀𝑆 𝑥 - mean-square, tj. průměr sumy čtverců, tj. rozptyl.
ANOVA umí „parcelovat“ pozorovaný rozptyl (ANalysis Of Variance).
◦ Typická ANOVA: jakou část pozorované variability (𝑀𝑆 𝑥) lze přičíst rozdílům mezi lidmi (betweensubjects,
𝑀𝑆𝜏) a jaká je způsobena rozdílům uvnitř (within-subjects, 𝑀𝑆𝑒)?
◦ Resp. pomocí F-testu ověřujeme, zda je 𝑀𝑆𝜏 > 0.
Rulon, P. J. (1939). A simplified procedure for determining the reliability of a test by split-halves. Harvard Educational Review, 9, 99–103.
Hoyt, C. (1941). Test reliability estimated by analysis of variance. Psychometrika, 6(3), 153–160. https://doi.org/10.1007/BF02289270
Guttman, L. (1945). A basis for analyzint test-retest reliability. Psychometrika, 10(4), 255–282. https://doi.org/10.1007/BF02288892
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297–334. https://doi.org/10.1007/BF02310555
Hoytův postup
Hoyt použil ANOVA k parcelování pozorované rozptylu odpovědí lidí na paralelní testy (položky).
Postup výpočtu (přibližně, bez korekcí):
◦ 1. Rozptyl průměrů osob ( ത𝑋 𝑝): 𝜎 𝑥
2.
◦ 2. Rozptyl odchylek jednotlivých pozorování 𝑥𝑖𝑝 osob 𝑝 na pol. 𝑖 od jejich průměrů ത𝑋 𝑝 jako:
𝜎𝑟𝑒𝑠
2
=
σ 𝑝=1
𝑁 σ 𝑝=1
𝐼
𝑥𝑖𝑝 − ത𝑋 𝑝
2
𝑁𝐼
◦ 3. Standardní chyba odhadu průměru z 𝐼 položek jako 𝜎𝑒 =
𝜎 𝑟𝑒𝑠
2
𝐼
=
𝑆𝐷
𝑁
◦ Protože jde o výpočet „přes všechny osoby“, obchází potíže s opakovaným měřením jedné osoby (viz minulá přednáška).
◦ 3. Reliabilita jako 𝑟 𝑥𝑥′ = 1 −
𝜎 𝑒
2
𝜎 𝑥
2.
◦ 4. Standardní chyba měření: Buď z reliability, nebo přímo jako 𝑆𝐸 = 𝜎𝑒 =
𝜎 𝑟𝑒𝑠
2
𝐼
Výsledek je ekvivalentní Cronbachovu alfa, asymptomaticky se rovná průměru všech možných
split-half reliabilit (Cronbach, 1951).
◦ Kde 𝑁𝐼 je počet osob krát počet
položek (celkový počet pozorování
= počet kusů informace).
Hoytův postup
Tau-ekvivalence (všechna pozorování mají stejnou váhu, E
σ 𝑖=1
𝐼
E 𝑋 𝑝𝑖
𝐼
= 𝜏 𝑝).
◦ Paralelnost položek (shodné reziduální rozptyly) lze obejít.
Neexistence jiného zdroje rozptylu, než:
◦ Variabilita ve schopnostech lidí (𝜎 𝑝
2
).
◦ Variabilita v obtížnostech položek (𝜎 𝑝𝑖
2
).
◦ Variabilita v tom, jak různí lidé odpověděli na různé položky (𝜎 𝑝𝑖,𝑒
2
).
Co když je ale zdrojů více?
◦ Situace a změna rysu v čase, okolnosti testování, hodnotitel, dílčí oblast znalostí...
Teorie zobecnitelnosti
(Generalizability theory)
Řešením CTT problému „mnoho chyb, mnoho reliabilit“ je teorie zobecnitelnosti.
◦ Cronbach, L.J., Rajaratnam, N., & Gleser, G.C. (1963). Theory of generalizability: A liberation of reliability theory. The British Journal of Statistical Psychology, 16, 137-163.
◦ Cronbach, L.J., Gleser, G.C., Nanda, H., & Rajaratnam, N. (1972). The Dependability of Behavioral Measurements. New York: Wiley.
CTT: 𝑋 = 𝑇 + 𝑒
GT: 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒3 + … + 𝑒 𝑘
◦ Kde např. e1 je specifický skór v daném čase (test-retest), e2 rozdílnost posuzovatelů (shoda
posuzovatelů), e3 rozdílnost položek (vlastní „nepřesnost metody“, vnitřní konzistence) atd.
◦ Pro různé účely může T zahrnovat i některé chyby (např. nás zajímá výkon v daném čase a
nikoliv stabilita napříč časem, přestože víme, že výkon není stabilní).
Protože ale např. i ten stejný hodnotitel může hodnotit různě v různých situacích,
ve vzorci výše tedy chybí interakce:
◦ 𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒3 + 𝑒12 + 𝑒13 + 𝑒23 + 𝑒123 …
Jinými slovy...
CTT: Pouze dva zdroje variability
◦ systematický = pravý skór
◦ náhodný = chyba měření
GT: Neomezeně zdrojů variability
◦ všechny jsou náhodné ve smyslu
výběru z populace („prostoru“)
◦ některé mohou být systematické
napříč pozorováními
◦ Pravý skór člověka napříč položkami.
◦ Přísnost hodnotitele napříč osobami.
Heitman et al. (2009)
Jinými slovy...
„The theory describes the dependability (reliability) of generalizations made from a
person’s observed score on a test to the score he or she would obtain in the broad
universe of admissible observations—her “universe score” (true score in classical test
theory). Hence the name, Generalizability Theory.“ (Shavelson & Webb, 2006)
Universe score – problém s překladem. Proto malá anketa na FB:
◦ 42 (J. Brojáč, osobní komunikace 30. 9. 2019)
◦ globální skór, ideální skór (V. Pišl, osobní komunikace 30. 9. 2019)
◦ vesmírnej skór (A. J. Kšiňan, osobní komunikace 30. 9. 2019), skór veškera (J. Štipl, osobní
komunikace 30. 9. 2019), skór veškerenstva (H. Cígler & R. Modré, osobní komunikace 30. 9. 2019)
◦ všeobecný skór (M. Čadek, osobní komunikace 30. 9. 2019)
◦ skór univerza, skór v univerzu, obecný skór (A. Ťápal, osobní komunikace 30. 9. 2019)
Princip a účel GT
GT zpravidla nepracuje se součtovým skóre, ale s průměrným skóre.
◦ „Průměrná odpověď“napříč „prostorem“ všech možných respondentů, položek, situací...
◦ Reliabilita průměrného a součtového skóre je ale stejná (lineární transformace).
◦ Tato průměrná odpověď pro konkrétního respondenta se označuje jako universe score.
◦ Jednotlivé zdroje rozptylu (kromě rozdílů mezi respondenty) se označují jako fasety.
Dvě klíčové části GT:
◦ G-studie: Jak velká část rozptylu odpovědi na jednu položku v jedné situaci jedním
respondentem (atd.) je „vysvětlena“ jednotlivými fasetami a rozdíly mezi respondenty
samotnými?
◦ D-studie: Jaká bude chyba měření při využití „opakovaného měření“ v konkrétních fasetách?
◦ Např. při měření 10 položkami při 3 administracích, hodnocených 2 hodnotiteli?
◦ Využívá výsledků G-studie.
Princip a účel GT
Podobné předpoklady jako CTT, jde o její rozšíření.
◦ Zpravidla (nikoliv nutně) předpoklad náhodného výběru prvků dané fasety z nekonečně velkého
doménového prostoru.
◦ Existují ale i úpravy pro „finite universe“.
Další běžné předpoklady CTT.
◦ Jednodimenzionalita (ale existují multivariate úpravy), normální rozdělení (ale...), odpovědi na
intervalové škále (ale jistá robustnost proti ordinálním položkám) atd.
◦ Tau-ekvivalence, resp. paralelnost položek (konkrétně stejný reziduální rozptyl, ale relativně
vysoká robustnost zvláště při větším počtu položek.
◦ Vícedimenzionalita možná při dodržení tau-ekvivalence faset na univerzu; analogie k hierarchické ρSOF (Cho, 2016)
Některé postupy GT „zobecněly“ v běžných CTT postupech.
◦ Hoyt (1941), vnitrotřídní korelace (ICC, intra-class correlation; Shrout & Fleiss, 1979).
Princip a účel GT
Stejně jako CTT, i GT vychází z operacionalismu.
◦ Měřeným atributem je universe score, nikoli psychický rys jako takový.
◦ Měření je tedy definováno skrze měřicí nástroj; v tomto případě spíše skrze způsob tvorby
položek a popis „univerza položek“, nikoliv konkrétně vybrané položky v daném testu.
Jde tedy společně s CTT o „slabou teorii měření“, na rozdíl třeba od IRT.
◦ „Weak true-score theory“. Příliš mnoho nesplnitelných předpokladů.
Logika GT je nicméně využívána i v jiných teoriích měření, kde je rozptyl
měřeného rysu „parcelován“ na dílčí složky.
◦ Multifasetové Raschovy modely.
◦ Hierarchické (multilevel) IRT modely a hierarchická (multilevel) faktorová analýza.
◦ Explanační IRT modely (zde je parcelována obtížnost/diskriminace položek).
G-studie
Studie zobecnitelnosti
Generalizability study
Dekompozice rozptylu
Odhad rozptylových komponent
ANOVA
Smíšený lineární model
(linear mixed model, LMM)
https://community.jmp.com/t5/Discussions/How-to-implement-variance-decomposition/td-p/272070
G-studie
G-studie = generalizability study (studie zobecnitelnosti)
◦ Odhaduje chybový rozptyl pojící se s jednotlivými faktory a jejich interakcemi,
resp. chybu pojící se s jednou položkou/jedním měřením/apod. (a jejich
interakcemi).
◦ Jinými slovy – jakou část rozptylu jednoho pozorování (interakce
respondenta×položky×situace×hodnotitele×...) tvoří specifický rozptyl
respondenta/položky/situace/...
Zobecňuje z měření na prostor (universum).
◦ Na základě měření odhaduje rozptylové komponenty v prostoru.
◦ Tohle je ta výpočetně náročnější část GT.
G-studie: Rozptylové komponenty
KLASICKÁ TESTOVÁ TEORIE
Složení pravého skóru:
𝑋 = 𝑇 + 𝑒
Rozptylové komponenty:
𝜎 𝑥
2 = 𝜎𝜏
2 + 𝜎𝑒
2
Reliabilita:
𝑟 𝑥𝑥′ =
𝜎𝜏
2
𝜎𝜏
2 + 𝜎𝑒
2
◦ pravý skór a chyba jsou ortogonální,
proto chybí jejich kovariance („+2𝜎𝜏𝑒
2
)
TEORIE ZOBECNITELNOSTI
Složení obecného skóru – např. 2fasetový design:
𝑋 = 𝑇 + 𝑒1 + 𝑒2 + 𝑒 𝜏1 + 𝑒 𝜏2 + 𝑒12 + 𝑒 𝜏12,𝑒
Rozptylové komponenty:
𝜎 𝑥
2 = 𝜎𝜏
2 + 𝜎1
2
+ 𝜎2
2
+ 𝜎𝜏1
2
+ 𝜎𝜏2
2
+ 𝜎12
2
+ 𝜎𝜏12,𝑒
2
Reliabilita:
𝑟 𝑥𝑥′ =
𝜎𝜏
2
𝜎𝜏
2 + 𝜎1
2
+ 𝜎2
2
+ 𝜎𝜏1
2
+ 𝜎𝜏2
2
+ 𝜎12
2
+ 𝜎𝜏12,𝑒
2
◦ Všechny rozptylové komponenty jsou ortogonální
(protože jsou zahrnuty všechny), proto též bez kovariance.
◦ Z toho důvodu se zahrnují i nesignifikantní efekty.
G-studie: příklad
Příklad: 2fasetový design p × i × o.
◦ N respondentů p (persons)
◦ Osoby jsou tam vždy, proto se nepočítají do počtu faset
◦ 3 položky i (items)
◦ 2 administrace/situace o (occasions)
Pozorovaný skór X:
◦ 𝑋 𝑝 = mean 𝑋 𝑝𝑖𝑜 ; E 𝑋 𝑝𝑖𝑜 = 𝑇𝑝
Pozorovaný skór je součtem všech komponent:
𝑋 𝑝𝑖𝑜 = 𝑇𝑝 + 𝑒𝑖 + 𝑒 𝑜 + 𝑒 𝑝×𝑖 + 𝑒 𝑝×𝑜 + 𝑒𝑖×𝑜 + 𝑒 𝑝×𝑖×𝑜
Celkový rozptyl pozorovaného skóre (prvků datové matice):
𝜎 𝑋 𝑝𝑖𝑜
2
= 𝜎 𝑝
2
+ 𝜎𝑖
2
+ 𝜎𝑜
2
+ 𝜎 𝑝𝑖
2
+ 𝜎 𝑝𝑜
2
+ 𝜎𝑖𝑜
2
+ 𝜎 𝑝𝑖𝑜,𝑒
2
Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf
Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf
G-studie:
Odhad rozptylových komponent
Historicky GT využívala ANOVA.
◦ Fasety – „faktory“ v tradiční ANOVA
terminologii.
◦ Proměnné jsou uvažovány jako
random (např. náhodný výběr času)
nebo fixed effect (např. test stabilně
složený ze stejných položek).
◦ Random modely jsou častější.
Aktuálně se zpravidla používá
LMM (linear mixed model).
◦ Výhody při odhadu.
◦ Unbalanced designy, chybějící data apod.
◦ Menší předpoklady, vyšší flexibilita.
◦ Výsledek by se neměl lišit (při
dodržení předpokladů), reálně jsou
odlišnosti malé.
GT: SW pro odhad G-studie
Tradiční SW:
◦ GENOVA, mGENOVA (staré DOSovské aplikace)
◦ Různé podivné malé prográmky (G String V)
SPSS (lze ručně upravit syntax pro mixed-modely).
◦ Mushquash, C. and O’Connor, B.P. (2006). SPSS and SAS programs for generalizability theory analyses, Behavior Research Methods, 38(3), 542–
547. doi: 10.3758/bf03192810
R, zejména balíček lme4 (mixed modely) a případně gtheory (nástavba lme4).
◦ Případně pak hemp dostupný na githubu (doplněk ke knize Desjardins & Bulut, 2018).
Přehled dostupných programů:
◦ Taşdelen Teker, G., Güler, N. and Kaya Uyanık, G. (2015). Comparing the effectiveness of SPSS and EduG using different designs for
Generalizability theory. Educational Sciences: Theory & Practice, 15(3). doi: 10.12738/estp.2015.3.2278
◦ Yelboga, A. (2015). Estimation of Generalizability coefficient: An application with different programs. Archives of Current Research
International, 2(1), 46–53. doi: 10.9734/acri/2015/17409
V předchozím případě by syntax pro R byl:
◦ Předpokladem je převedení na tzv. dlouhý formát, kde jeden řádek = 1 odpověď, a další proměnné jsou
person (1-N), item (1-3), ocassion (1-2)
require(lme4)
require(gtheory)
model <- "response ~ (1 | person) + (1 | item) + (1 | occasion) + (1 | person:item) + (1 | person:occasion) +
(1 | item:occasion)"
Pozn.: poslední chybovou fasetou je (1 | person:item:occasion) – ta reprezentuje „zbytek“ a je proto chybou v klasickém slova smyslu (vše, co není
vysvětleno ničím předchozím) , proto ji není nutné do modelu zadávat).
gstudy <- gstudy(data = data, formula = model)
print(gstudy)
GT: Způsob odhadu G-studie v R
odp. P I O
4 1 1 1
2 1 2 1
5 1 3 1
4 1 1 2
odp. P I O
3 1 2 2
4 1 3 2
3 2 1 1
1 2 2 1
Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf
D-studie
Rozhodovací studie
Decision study
Koeficient dependability
a zobecnitelnosti
Absolutní a relativní D-studie
D-studie
Rozhodovací (Decision) studie slouží k odhadu chyby měření pro
konkrétní design s využitím informací z G-studie.
Definuje tzv. „prostor zobecnění“ (počtem pozorování, počtem
položek atp.), pro který bude naše měření platit.
◦ V rámci tohoto prostoru má každý respondent tzv. U-skór (universe score).
Odhad chyby odhadu universe skóru pro zvolený hypotetický design
– např. p×I×O.
D-studie: Obecný postup
1. Volba jednotky/subjektu měření (nemusí být respondent).
2. Volba designu, resp. prostoru/prostorů zobecnění.
3. Identifikace chybových složek.
4. Volba počtu prvků faset (nemusí se shodovat s G-studií).
5. Výpočet chyby odhadu.
6. Výpočet koeficientu reliability.
D-studie: Dva typy zobecnění
Relativní (norm-referenced) – zobecnění v rámci vybraných prvků fasety.
◦ Všechny fasety jsou zafixovány napříč měřením (např. test složený z pevného setu položek).
◦ Díky fixaci se jejich prvky stanou konstantou a rozdílná „obtížnost“ není chybou.
◦ Nezobecňuje se na celý fasetový prostor, ale právě na tyto prvky dané fasety.
◦ Reliabilita odhadována pomocí koeficientu zobecnitelnosti.
◦ Přímo srovnatelný s různými druhy CTT reliability.
Absolutní (kriteriální) – zobecnění na celou fasetu.
◦ Tento odhad nese více nejistoty.
◦ Reliabilita odhadována pomocí koeficientu spolehlivosti (dependability coef.).
◦ Lze uvažovat pravděpodobnost překročení absolutního kritéria.
Spíše než otázka celého designu otázka dílčích faset (smíšený design).
D-studie: Dva typy zobecnění (příklady)
RELATIVNÍ D-STUDIE
Dotazník self-esteemu (SE)
◦ Nezajímá mě, jak by respondent skóroval na
případných jiných položkách, které měří SE.
◦ Posvátná kráva? 
Hodnocení písemného testu v psychometrice.
◦ Všechny testy hodnotí Hynek. Zanedbáváme, jak
by bodovali jiní hodnotitelé.
Přijímací zkouška do NMGR psychologie.
◦ Chceme vybrat 30 nejlepších uchazečů, nezáleží
na tom, jak obtížné položky jsou letos v testu.
ABSOLUTNÍ D-STUDIE
„Super-komplexní dotazník depresivity“.
◦ Náhodný výběr 10 symptomů ze všech
identifikovaných symptomů deprese.
◦ Záleží, zda jsme vybrali časté či řídké symptomy.
Hodnocení seminární práce v psychometrice.
◦ Do hodnocení jsou zapojeni tři lidé; protože se
liší přísností, záleží, kdo je komu „přidělen“.
Přijímací zkouška do NMGR psychologie.
◦ Přijatý musí mít nejméně 36/60 bodů.
◦ Byly zařazeny jednoduché či těžké položky?
D-studie: Odhad chyby měření
Celková chyba odhadu obecného skóru = suma čtverců chyb odhadu komponent.
◦ Chyba odhadu dílčí komponenty = standardní chyba průměru1.
◦ Tedy rozptylová komponenta z G-studie dělená počtem pozorovaných prvků dané fasety:
𝜎𝑒
2 =
𝜎𝑒1
2
𝑛1
+
𝜎𝑒2
2
𝑛2
+
𝜎𝑒3
2
𝑛3
+ ⋯ +
𝜎𝑒𝑘
2
𝑛 𝑘
Reliabilita se potom spočítá dle obecného vzorce pro vysvětlený rozptyl:
𝑟 𝑥𝑥′ =
𝜎𝜏
2
𝜎𝜏
2 + 𝜎𝑒
2
◦ 𝜎𝜏
2
- rozptyl jednotek měření, tedy universe skórů
◦ 𝜎𝑒
2
- chybový rozptyl, tedy součet všech chybových komponent
1 standardní chyba průměru 𝑆𝐸 =
𝑆𝐷
𝑁
→ 𝑆𝐸2
=
𝑆𝐷2
𝑁
; SD – směrodatná odchylka; N – velikost vzorku/počet pozorování.
Převzato z http://web.stanford.edu/dept/SUSE/SEAL/Reports_Papers/methods_papers/G%20Theory%20AERA.pdf
Relativní D-studie: Příklad
Jaká bude chyba průměrného skóre ze 2 administrací 10položkového testu?
Relativní chybový rozptyl 𝜎𝛿
2
:
𝜎𝛿
2
=
𝜎 𝑝𝑖
2
𝑁𝑝 × 𝑁𝑖
+
𝜎 𝑝𝑜
2
𝑁𝑝 × 𝑁𝑜
+
𝜎 𝑝𝑖𝑜,𝑒
2
𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜
=
.810
1 × 10
+
.230
1 × 2
+
1.413
1 × 10 × 2
= .267
Podíl chybového rozptylu (reliabilita): koeficient zobecnitelnosti:
𝐺 = 𝜌2
=
𝜎 𝑝
2
𝜎 𝑝
2
+ 𝜎𝛿
2 =
1,108
1,108 + 0,267
= 𝟎, 𝟖𝟎𝟔
Koeficient zobecnitelnosti je přímo srovnatelný s reliabilitou v CTT (𝑁𝑝 = 1 vynecháno):
◦ Vnitřní konzistence 1 měření v 1 okamžik:
𝜎 𝛿
2
=
𝜎 𝑝𝑖
2
𝑁 𝑖
+
𝜎 𝑝𝑖𝑜,𝑒
2
𝑁 𝑖×𝑁 𝑜
=
.810
10
+
1.413
10×1
= .222  𝐺 =
1,108
1,108+0,222
= 0,833
Absolutní D-studie: Příklad
Absolutní chyba průměrného skóre 10 položek a 2 měření?
◦ Zobecňuji napříč všemi přípustnými položkami i časem (admissible observation).
Absolutní chybový rozptyl 𝜎∆
2
:
𝜎∆
2
=
𝜎𝑖
2
𝑁𝑖
+
𝜎 𝑜
2
𝑁𝑜
+
𝜎 𝑝𝑖
2
𝑁𝑝 × 𝑁𝑖
+
𝜎 𝑝𝑜
2
𝑁𝑝 × 𝑁𝑜
+
𝜎𝑖𝑜
2
𝑁𝑖 × 𝑁𝑜
+
𝜎 𝑝𝑖𝑜,𝑒
2
𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜
=
.102
10
+
.030
2
+
.810
1 × 10
+
.230
1 × 2
+
.001
10 × 2
+
1.413
1 × 10 × 2
= .292
Podíl chybového rozptylu: koeficient spolehlivosti Φ (dependability):
Φ =
𝜎 𝑝
2
𝜎 𝑝
2
+ 𝜎∆
2 =
1,108
1,108 + 0,292
= 0,791
Pokud zjišťujeme spolehlivost překročení absolutního kritéria 𝜆: Φ 𝜆 =
𝜎 𝑝
2+ 𝜇−𝜆 2
𝜎 𝑝
2+ 𝜇−𝜆 2+𝜎∆
2
◦ Φ 𝜆 je vyšší, čím dále je kritérium 𝜆 od průměru 𝜇.
Absolutní D-studie: Příklad
Absolutní chyba průměrného skóre 10 položek a 2 měření?
◦ Zobecňuji napříč všemi přípustnými položkami i časem (admissible observation).
Absolutní chybový rozptyl 𝜎∆
2
:
𝜎∆
2
=
𝜎𝑖
2
𝑁𝑖
+
𝜎 𝑜
2
𝑁𝑜
+
𝜎 𝑝𝑖
2
𝑁𝑝 × 𝑁𝑖
+
𝜎 𝑝𝑜
2
𝑁𝑝 × 𝑁𝑜
+
𝜎𝑖𝑜
2
𝑁𝑖 × 𝑁𝑜
+
𝜎 𝑝𝑖𝑜,𝑒
2
𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜
=
.102
10
+
.030
2
+
.810
1 × 10
+
.230
1 × 2
+
.001
10 × 2
+
1.413
1 × 10 × 2
= .292
Podíl chybového rozptylu: koeficient spolehlivosti Φ (dependability):
Φ =
𝜎 𝑝
2
𝜎 𝑝
2
+ 𝜎∆
2 =
1,108
1,108 + 0,292
= 0,791
Pokud zjišťujeme spolehlivost překročení absolutního kritéria 𝜆: Φ 𝜆 =
𝜎 𝑝
2+ 𝜇−𝜆 2
𝜎 𝑝
2+ 𝜇−𝜆 2+𝜎∆
2
◦ Φ 𝜆 je vyšší, čím dále je kritérium 𝜆 od průměru 𝜇.
Smíšená D-studie: Příklad
Jaká bude test-retest reliabilita 1 měření?
◦ 10 položek: relativní faseta (zobecňujeme na těchto 10 položek, ne na všechny možné).
◦ 1 situace: absolutní faseta (zobecňujeme na všechna možná pozorování napříč časem).
Chybový rozptyl:
𝜎 𝛿
2
=
𝜎 𝑝𝑖
2
𝑁𝑝 × 𝑁𝑖
+
𝜎 𝑝𝑜
2
𝑁𝑝 × 𝑁𝑜
+
𝜎 𝑝𝑖𝑜,𝑒
2
𝑁𝑝 × 𝑁𝑖 × 𝑁𝑜
=
.810
1 × 10
+
.230
1 × 1
+
1.413
1 × 10 × 1
= .452
Koeficient zobecnitelnosti:
𝐺 =
1,108
1,108 + 0,452
= 0,710
D-studie: absolutní
Uvažuje veškeré faktory jako náhodné, přičemž tyto faktory se
mohou lišit mezi respondenty.
Případně nás zajímá skór napříč všemi potenciálními prvky všech
faset (typicky u kriteriálních výkonových testů):
◦ Relativní: 70 % správně z daných 10 položek.
◦ Absolutní: 70 % správně ze všech možných položek.
Zobecňuje tedy na universe score napříč celým (nejvyšším)
prostorem: „universe of admissible observartions“.
◦ Náhodný výběr položek, časů, hodnotitelů ze všech možných atd.
◦ Tento universe score bude mít tedy vyšší chybu než universe score.
Srovnání designů
Relativní D-studie ze 2 měření p×(I=10)×(O=2): G = 0,806
◦ I, O fixed
Relativní D-studie z 1 měření p×(I=10): G = 0,833
◦ I fixed, O vynecháno
◦ Šlo by o shodný výsledek s Cronbachovým alfa z jednoho měření.
Absolutní D-studie ze 2 měření p×(I=10)×(O=2): Φ = 0,791
◦ I, O random
Smíšená D-studie, test-retest z 1 měření p×(I=10)×(O=1): Φ = 0,710
◦ I fixed, O random
Využití GT
Odhad reliability/chyby měření.
Vývoj testu: jak se změní reliabilita, pokud použiju jiný počet prvků z
domény?
◦ S minimální finanční/časovou náročností maximalizovat reliabilitu testu.
◦ Obdoba Spearman-Brownova věšteckého vzorce, ale pro více zdrojů chyb než
„počet testů“.
GT je velmi cenná v případě, že máme skutečně paralelní položky.
◦ Např. tzv. škrtací testy pro měření reakčního času, kde jsou dílčí položky řazené
do bloků (a třeba testované opakovaně).
Využití GT: Optimální počet prvků faset
Seminární práce. Variuji:
◦ počtem hodnotitelů;
◦ počtem hodnocených prací.
Pokud např. chci investovat
na každého studenta max.
čtyři hodnocené práce, co je
nejvýhodnější?
◦ A) 4 pokusy,
1 hodnotitel
◦ B) 2 pokusy,
2 hodnotitelé
◦ C) 3 pokusy,
1 hodnotitel
◦ D) 1 pokus,
4 hodnotitelé
Převzato z Brennan (2001) – jde o jiná data než výše.
Využití GT: Multilevel design
Prvkem měření nemusí být respondent, ale např. školní třída (pak je faseta „žáci“ chybou).
Občas nejsou prvky „crossed“, ale „nested“. Např. žáci patří právě do jedné třídy, nepozorujeme je ve
více třídách (c=class, S=student, I=item):
◦ G-studie: (s:c)×i
◦ D-studie pro žáka uvnitř třídy: (s:C)×I (C je fixed)
◦ D-studie pro žáka napříč třídami: (s:C)×I (C je random)
Pokud byl design G-studie rozsáhlejší než design D-studie, může se stát, že se rozptyl universe skóru
skládá z více rozptylových komponent.
◦ V příkladu výše zobecnění výkonu žáka uvnitř vs. napříč třídami.
◦ Doporučuji držet stejný design D a G studií, jinak se vše značně komplikuje (ale specifikační chyba v Gstudii...).
Případně co nejkomplexnější G-studie.
G-studie vs. D-studie
G-STUDIE
Zaměřuje se na rozptylové komponenty.
◦ Odhad jejich velikosti.
Design např.: 𝑝 × 𝑡 × 𝑟
◦ Malá písmena značí rozptylové komponenty.
Vychází z dat.
◦ Zobecňuje z měření na prostor, tvoří model.
◦ Nejlépe cross-design.
D-STUDIE
Zaměřuje se na odhad chyby měření.
◦ A reliability.
Design např.: 𝑝 × 𝑇 × 𝑅
◦ Velká písmena značí pozorování.
Vychází z modelu G-studie.
◦ Zobecňuje z prostoru na měření.
◦ Volíme design dle účelu.
GT: závěrem
Při zobecnění na více položek shodné výsledky s S-B vzorcem.
Lze mít také více závislých proměnných (multivariate analysis of variance, MANOVA):
◦ Odhad reliability kompozitu, rozdílových skórů, profilu apod.
◦ Analogie k velmi zjednodušenému strukturnímu modelu.
Výhodné při standardizaci testů, kde je přítomno více zdrojů chyb
◦ Např. examinátor-retest-položky.
◦ Minimum výhod při využití prostého odhadu test-retest reliability pomocí korelace celkových skórů,
GT poskytne více informací.
Nepříliš doceněná (člověk musí rozumět, aby mohl použít).
Doporučuji: Brennan, R. L. (2001). Generalizability Theory. New York: Springer.
◦ Drobné texty viz studijní materiály.
Srovnání GT a model-based/dimension
free konceptu reliability
Minulá přednáška o CTT: model-based vs. dimension free-reliabilita.
◦ Realismus: Co je měřeným rysem? Jak moc „paralelně“ jej dílčí indikátory měří?
◦ I u dimension-free reliability stále předpokládáme existenci latentního rysu (jinak by CFA
model nedával smysl).
◦ Vždy jen relativní srovnání (ale absolutní lze implementovat).
◦ Zpravidla jen jeden zdroj chyby (položka), ale existují hierarchické a MTMM modely.
GT: Operacionalismus.
◦ Máme definovaný prostor zobecnění, ze kterého náhodně vybíráme.
◦ Tento náhodný výběr zajišťuje (hypoteticky) asymptotickou tau-ekvivalenci vybraných prvků.
◦ Zobecňujeme na celý prostor nebo jen na vybrané prvky?
Obojí je zcela odlišný pohled na měření.
◦ Oba přístupy kombinují multifastové IRT modely.
Vnitrotřídní korelace pro P×I design
Shrout a Fleiss
(nejběžnější)
McGraw a Wong
(občasně používané)
GT design
ICC(1,1) One-way random, single score ICC(1) p (jediná faseta plus error, Ne=1)
Hodnotitelé se neopakují.
ICC(2,1) Two-way random, single score ICC(A,1) p×I (absolutní, Ni = 1)
Stejní hodnotitelé, vybraní náhodně.
ICC(3,1) Two-way mixed, single score ICC(C,1) p×I (relativní, Ni = 1)
Stejní hodnotitelé, nezobecňuji na všechny možné.
ICC(1,k) One-way random, average score ICC(k) p (jediná faseta plus error, Ne=k)
ICC(2,k) Two-way random, average score ICC(A,k) p×I (absolutní, Ni = k)
ICC(3,k) Two-way mixed, average score ICC(C,k) p×I (relativní, Ni = k)
ICC(3,k) = Cronbachovo α
A=agreement (shoda hodnocení), C=consistency (konzistence pořadí), k=počet hodnotitelů/skupin.
Ukazatel shody
posuzovatelů.
Reliabilita při
hodnocení 1
posuzovatelem.
Reliabilita
celkového
hodnocení, tj.
průměru všech
posuzovatelů.