Standardní chyba měření
PSYb2590: Základy psychometriky (Seminář 2)
9./16. 3. 2020
Standardní chyba měření (SEM)
• Směrodatná odchylka jednotlivých paralelních testů (pozorovaných skórů) kolem jejich průměru (pravého skóre).
• Lze využít pro konstrukci intervalu spolehlivosti pro pravý skór
• Cl = E(t) ± zvSEM ;
• Zp je kvantil normálního rozložení: z95o/o = 1,96; z90% — 1^64; z80o/0 = 1,28; z68o/0 = 1.
SEM
• Ale...
Regresní model CT
• Naměřil jsem klientovi IQ 130 v inteligenčním testu
• Náhodně vybraný z populace, nemáme žádné další informace.
* ^xxi 0,8.
Jaká je nejpravděpodobnější hodnota jeho „pravého IQ?
. o-J = (j 2 + o2
Správná odpověď je 124.
i/3 O
d
o
0
Cl
>1> >
01
^—'
O -I—I
o o
co o
CM
o
o o
o o
o
40
60
SO
100
120
140
160
IQ
Regresní model CTT
• Naměřené hodnoty se pohybují kolem pravé hodnoty, nikoliv naopak. Jinými slovy: chyba měření je chybou pravého skóru, nikoliv pozorovaného.
• Výsledkem je tzv. regrese k průměru.
• Intervaly spolehlivosti jsou „asymetrické" kolem naměřené hodnoty.
• Viz doporučení z povinné literatury (Dudek, 1979)
Regresní model CTI
• Máme 2 proměnné: Xa T
• X: M(X), VAR(X) = SD(X)2
• T: M(T) = M(X), VAR(7) = rX7VAR(X)
rXT = ^rXX' •"• rXT = rXX'
• Můžeme predikovat X z T nebo T z X
• T = bX + a
• b = rXT yl(rXT2 VAR(X)/ VAR(X))= rXT2 = rxx,
• a = M(J)-(rxxM(X)) = M(X)-(rxrM(X))
• T = rxxX + M(X)-(rxx,M(X)) = rxx{X - M(X)) + M(X)
Regresní model CTT
E(T'|x)     YXX'X ~h (1 TXX)MX
= M + (X — M)rxx-
• E(r|x) : očekávané pravé skóre na základě pozorovaného
• rxx- : reliabilita („směrnice")
• Mx : průměrné skóre; ((1 — rxx)Mx je „průsečík")
• Čím větší je reliabilita, tím větší je vliv pozorovaného skóre a menší vliv populačního průměru (a naopak).
Regresní model CTT
Obrázek 2: Simulace chyb měření a odhadu [N = 100 000)
120 100
40 J-
pravý skór (T) pozorovaný skóre (X)
průměrný rozdíl exp(T)-T      průměrný rozdílX-T
http://dx.doi.org/10.5817/TF2015-6-104
Pravé vs. pozorované skóre
• SD pravého vs. pozorovaného skóre:
_aj_ _
TXX   ~     9 _ \^XX®X
• SD pravého skóre má y/rXX'krét menší SD než pozorované skóre.
• Někdy se pro konstrukci standardních skórů používá právě odhad směrodatné odchylky pravého skóre
ax y[ř~ (např. WISC-IVUK).
• Preferovaný postup.
• V takovém případě při standardizaci použijeme standardní chybu odhadu pravého skóre:
• (Nemá vliv na další výpočty s již standardizovanými skóry.)
Postup výpočtu intervalu spolehlivosti měření
1. Výběr vhodného koeficientu reliability
• Typicky vnitřní konzistence.
2. Odhad pravého skóre.
• E(rlx) = rYY-x + (1 — rrr)Mr = MY + (X — MY)rYY-
3. Výpočet standardní chyby měření.
• SEM = <7e = ax Jl — rxx-
4. Volba šířky intervalu (hladiny spolehlivosti).
• z95% = 1'96; Zgoo/p = 1,64; Zso% = 1*28; z68o/0 = 1
5. Konstrukce Cl kolem odhadu pravého skóre.
• Cl = E(T\x) + z ' SE
Asymetrické intervaly spolehlivosti
r	0,001		0,2		0,7		0,9		0,999	
SE	14,99		13,42		8,22		4,74		0,47	
IQ	E(t)	95% Cl	E(t)	95% Cl	E(t)	95% Cl	E(t)	95% Cl	E(t)	95% Cl
40	100	[70,6-129,3]	88	[61,7-114,3]	58	[41,9-74,1]	46	[36,7-55,3]	40	[39,1-41]
60	100	[70,6-129,3]	92	[65,7-118,3]	72	[55,9-88,1]	64	[54,7-73,3]	60	[59,1-61]
80	100	[70,6-129,4]	96	[69,7-122,3]	86	[69,9-102,1]	82	[72,7-91,3]	80	[79,1-80,9]
100	100	[70,6-129,4]	100	[73,7-126,3]	100	[83,9-116,1]	100	[90,7-109,3]	100	[99,1-100,9]
120	100	[70,6-129,4]	104	[77,7-130,3]	114	[97,9-130,1]	118	[108,7-127,3]	120	[119,1-120,9,
140	100	[70,7-129,4]	108	[81,7-134,3]	128	[111,9-144,1]	136	[126,7-145,3]	140	[139-140,9]
160	100	[70,7-129,4]	112	[85,7-138,3]	142	[125,9-158,1]	154	[144,7-163,3]	160	[159-160,9]
Rozdíl dvou pozorovaných měření
• Nejjednodušeji: srovnání, zda se Cl nepřekrývají.
• Příliš striktní, malá síla testu.
• Standardní chyba rozdílu:
• V případě jediného testu: SEA_B = ax V21 — rxx-
• Očekávaným rozdílem je 0, interval se konstruuje kolem nuly.
• Předpokládá se nezávislost chyb měření.
Predikce budoucího pozorovaného
skóre
• Nepredikujeme z měření na pravý skór, ale z měření na měření; proto je nutné reliabilitu ještě jednou umocnit.
• Očekávaným skórem je odhad pravého skóre, konstruuje se kolem predikce.
• Typicky se využívá test-retest reliabilita.
• Standardní chyba predikce:
• SE
pred ~ UX
Více různých druhů chyb
• Více chyb pro více účelů. Přehled:
• Dudek, F. J. (1979). The continuing misinterpretation of the standard error of measurement. Psychological Bulletin, 86(2), 335-337. https://doi.org/10.1037/0033-2909.86.2.335
• Cígler, H., & Šmíra, M. (2015). Chyba měření a odhad pravého skóru: Připomenutí některých postupů Klasické testové teorie. TESTFÓRUM, 4(6), 67-84. https://doi.org/10.5817/TF2015-6-104
• Pro účely PS259 stačí výpočty uvedené v prezentaci.
• https://hynekcigler.shinyapps.io/kalkulacka/
• (Pozor, jen vývojová verze, není dokončeno.)
Praktické cvičení 1
• Zbyněk byl vyšetřen testem hudebního nadání a v testu dosáhl 40 bodů.
• Víte, že průměrné skóre je M=60 (SD=20) a reliabilita r=0,7.
• Jaký je interval spolehlivosti tohoto měření?
• Zbyněk není spokojen s výsledkem a nechá se vyšetřit znovu. V jakém intervalu bude nejspíše ležet jeho druhý výsledek?
Praktické cvičení 2
• Zbyšek byl vyšetřen testem matematických schopností, jeho T-skóre je T=70.
• Víte, že vnitřní konzistence je a=0,9 a test-retest po 3 měsících r=0,8.
• Jaký je interval spolehlivosti tohoto měření?
• Na základě testování Zbyšek podstoupí 3měsíční kurz rozvoje matematických schopností. Po jeho ukončení je znovu vyšetřen. Jakého skóre musí dosáhnout, aby byl kurz „úspěšný"?
Praktické cvičení 3
• Zbyněk byl vyšetřen psycholožkou dvěma talentovými testy - testem hudebního nadání a testem matematického nadání.
• V testu hudebního nadání získal Zbyněk 70 bodů z 90 možných a v testu matematického nadání 75 bodů ze 100 možných.
• Víme, že test hudebního nadání má přibližně normální rozložení o průměru 50b (SD=20) a test matematického nadání má také normální rozložení o průměru 45 (SD=15).
• Reliabilita testu hudebního nadání je rH=0,8, reliabilita testu matematického nadání je rM=0,9.
• Ve které z testovaných oblastí má Zbyněk výraznější talent?