Přednáška 6:
Férovost a zkreslení při testování
10. 11. 2020 | PSYn4790 | Psychometrika: Měření v psychologii
Katedra psychologie, Fakulta sociálních studií MU
Hynek Cígler | hynek.cigler@mail.muni.cz
Co si představíte
pod termínem férovost...
... v psychodiagnostice?
... a v psychometrice?
Férovost v psychometrice
2. kapitola českého překladu Standardů pro pedagogické a
psychologické testování (AERA, 2001).
◦ Doporučuji vydání 2014 v Aj
◦ A to i pro studium PSYn4020/PSYn5340.
„Férovost“ a s ní související téma multikulturního testování
je jedním z důležitých témat současné psychometriky
(zejména v rámci tzv. edukativního testování).
Klíčové pojmy
Přístupnost (accesibility).
◦ Měřený rys je stejně dostupný u všech potenciálních probandů.
◦ Příslušnost ke skupině probandů neovlivňuje výsledek v testu po kontrole rysu.
◦ Např. zrakové/sluchové znevýhodnění, znalost jazyka apod.
Univerzální design.
◦ Charakteristika testu, která zajišťuje přístupnost.
◦ Např. snaha o vyřazení položek se silnou kulturní specificitou.
◦ Nebo zvážení rozdílnost účelu testu napříč skupinami probandů.
4 základní významy férovosti (AERA, 2014)
Férovost při zacházení během
testování.
◦ Psychodiagnostika.
◦ „Objektivita“, rovné zacházení... se všemi
zacházím stejně.
◦ „Standardizace I“ dle Urbánka (2010).
Nepřítomnost testového zkreslení.
◦ Psychometrika.
◦ „Test bias“, „item-bias“.
◦ Test a položky měří u všech stejný rys.
◦ DIF, invariance atd.
Férovost jako přístupnost, otevřenost.
◦ Psychometrika, psychodiagnostika, teorie.
◦ „Accessibility“, „provability“.
◦ Vlastnost je u respondenta měřitelná.
Férovost jako interpretace
individuálního skóre pro daný účel
◦ Psychodiagnostika.
◦ Zvážení jedinečnosti každého respondenta.
◦ Jaká individuální specifika mohou výkon
ovlivnit.
◦ Akomodace, individuální úpravy testu.
AERA, APA, NCME (2014). Standards for educational and psychological testing. Washington: AERA. Strany 49–72.
Bias = zkreslení
Bias = systematické zkreslení
testových výsledků
◦ Reliabilita: náhodné chyby měření, není
tedy otázkou „bias“.
◦ Úvaha o zkreslení patří do validity, ale z
praktických důvodů je vyčleňována.
◦ Slovem zkreslení označujeme nenáhodné,
specifické chyby měření.
◦ „Měří test jinak pro některé populace než
pro jiné?“
◦ „Měří test jinak pro některé specifické
osoby?“
◦ „Měří test obecně spravedlivě?“
Může znamenat, že v různých
populacích např.:
◦ Je test/položka příliš snadná/obtížná.
◦ Má test/položka jiný vztah k rysu.
◦ Test má jinou faktorovou strukturu.
◦ Test měří zcela či částečně něco jiného.
◦ ...
◦ Výkon v testu je ovlivněn systematicky
něčím, co nemá souvislost s tím, co chci
měřit („konstruktově irelevantní rozptyl“).
Bias = zkreslení
Konstruktově-irelevantní
rozptyl
Měřený
atribut
Pozorované
měření
Náhodná
chyba
odpověďový
styl
záměrné
zkreslení selhání v
důsledku
znevýho-
dnění
sebe-
stylizace
atd...
Měřený
atribut
Pozorované
měření
Náhodná
chyba
odpověďový
styl
záměrné
zkreslení selhání v
důsledku
znevýho-
dnění
sebe-
stylizace
atd...
atribut
+
bias
Bias = zkreslení
Konstruktově-irelevantní
rozptyl
Potenciální oblasti
systematického zkreslení:
Zkreslení na úrovni examinátora a testové situace, nestranné zacházení.
◦ Je zacházeno se všemi respondenty stejně?
Response bias
◦ Záměrné i nezáměrné zkreslení odpovědi respondentem na úrovni položky.
Item bias
◦ Systematické rozdíly mezi osobami/skupinami v odpovědi na položku, nevysvětlitelné rozdílnými
úrovněmi latentního rysu.
Test bias
◦ Týká se systematického zkreslení celkových skórů/výsledků testu napříč skupinami respondentů.
◦ Je otázkou „férovosti testu“, oba pojmy jsou zaměnitelné.
Test bias, test fairness
FURR, s. 233
Test bias, test fairness
FURR, s. 233
Zdroje ohrožení férovosti testování
Obsah testu
◦ Který znevýhodňuje některé skupiny, osoby atd.
Kontext testové situace
Odpovědi na položky
◦ Formát položek, interpretace při kvalitativním skórování výsledků...
Příležitost k přípravě na test
Kontext testové situace
Tohle je otázka spíše do psychologické diagnostiky/etiky.
Cílem je zajistit, aby každý respondent měl možnost projevit
ty stejné schopnosti ve stejné míře.
◦ APA standard 7.12: „Testování nebo hodnocení by mělo probíhat
takovým způsobem, aby se všem testovaným osobám dostalo
stejného nebo srovnatelného zacházení během všech fází
testování.“
Administrátor testu rovněž musí být kompetentní s
konkrétním testem pracovat (školení, zácvik...).
Možnost přípravy
Všichni respondenti musí mít shodné možnosti zácviku,
poučení o cíli testování...
◦ Na tohle pozor! Běžná praxe neomlouvá...
„Tajné“ informace o způsobu dopravně-psychologického vyšetření.
Placené (a drahé) přípravné testy na přijímačky.
Neformálně dostupné informace o průběhu forenzního vyšetření.
Různý způsob informování před zahájením vyšetření.
Férovost jako přístupnost
Příklad: Přijímačky do bc studia na FSS
2 testy: studijní předpoklady (váha
0,4), ZSV (váha 0,6)
Studijní předpoklady – na výběr:
◦ SCIO (až 5 pokusů, bere se nejlepší)
◦ TSP od MU (1 pokus)
ZSV – jediná možnost:
◦ SCIO (až 5 pokusů, bere se nejlepší)
Jaké jsou nevýhody daného designu z
hlediska psychometriky?
Co byste studentům řekli, aby měli
rovné podmínky?
Simulace:
http://fssvm6.fss.muni.cz/prijimZk/
Response bias
Souvisí s „response style“.
◦ Jde o určitý styl odpovídání specifický konkrétnímu respondentovi v konkrétní situaci, který
znehodnotí/zneplatní testové výsledky.
Nahodilé odpovědi a záměrné zneplatnění výsledků.
Zkreslení v užším významu (práce Paulhuse a kol.1).
◦ Simulování a sebeznevýhodňování (záměrné). Tzv. „impression management“.
◦ Sociální žádoucnost a nezáměrné zkreslení. Tzv. „self-deception“.
Response style
◦ Tendence k souhlasu nebo nesouhlasu.
◦ Tendence k extrémním nebo průměrným odpovědím.
Hádání, tipování.
1 Řada dílčích publikací o self-presentation, overclaiming, self-management atd.
Response bias – řešení
Změna setingu testové situace, aby respondent nebyl motivován výsledky zkreslovat.
◦ Anonymita, redukce stresu, srovnání úrovně motivace...
Úprava položek
◦ Jednoduché položky – krátké jednoznačné stimuly, krátké jednoznačné a „ne-extrémní“ distraktory.
◦ U delších odpověďových (Likertových škál) je větší prostor pro zkreslení.
◦ Zajištění absence chybějících odpovědí.
◦ Rozdílná valence položek (negativní skórování).
Odhalení zkreslení
◦ Tzv. „validizační škály“ či „lži škály“ (např. v případě MMPI-II 6 různých škál).
◦ Dodatečné testy (Malingering scale – máme v KDM).
◦ Netestová detekce .
Metody ověření zkreslení
Expertní panelová review: Obsahová validita.
Diferenciální fungování položek: Vnitřní struktura testu.
Testová invariance: Vnitřní struktura testu.
Diferenciální predikce testu: Prediktivní/kriteriální validita
Panel review
Zejména v případě high-stakes testů.
Pečlivá volba tzv. expertního panelu (Subject Matter Experts, SME).
Expertní panel vytváří, reviduje a připomínkuje položky a složení
testu (zejm. didaktické a edukativní testy).
◦ Experti musí být experty na měřený konstrukt.
◦ Zároveň by ale měli dobře reprezentovat testovanou populaci.
◦ Muži i ženy, minority...
◦ Jsou ale SME z určité minority dobrými reprezentanty této minorit?
Test bias, item bias:
Férovost z hlediska psychometriky.
DIFFERENTIAL ITEM FUNCTIONING (DIF)
DIFFERENTIAL TEST FUNCTIONING (DTF)
Test/item bias
Nelze odvodit bez dat (jen odhadovat).
◦ Empirické důkazy a technická řešení.
Respondent se snaží odpovídat pravdivě, ale test měří v různých
skupinách něco jiného.
WAIS-III: „Co uděláte, když najdete na zemi zalepenou poštovní
obálku s napsanou adresou, známkou, ale bez razítka?“
WISC-III: „Co uděláte, když chcete uvařit čaj?“
Skupiny: etnikum, pohlaví, jazyk, socio-ekonomický status, region...
Dva hlavní empirické přístupy k férovosti
Na úrovni položky (item bias analysis).
◦ Které položky (a zda ta která položka) vykazují rozdílný styl odpovídání napříč
skupinami, který nelze přičíst rozdílům v úrovni latentního rysu?
◦ DIF analýza (differential item functioning)
Na úrovni testu (test bias analysis).
◦ Do jaké míry test jako celek (soubor mnoha různých položek) měří ten stejný
rys pro různé skupiny?
◦ Lze srovnávat naměřené skóry napříč skupinami?
◦ Invariance testu.
Logika ověření zkreslení
Předpoklad férovosti:
Atribut (latentní rys) „způsobuje“ pozorované odpovědi.
Systematické zkreslení znamená:
Příslušnost ke skupině moderuje tento vztah.
◦ Zvyšuje/snižuje intercept závislé proměnné.
◦ Zvyšuje/snižuje regresní koeficient.
◦ Zvyšuje/snižuje reziduální rozptyl.
Bias/zkreslení = moderace.
Test bias (zkreslení predikce)
např. přijímací zkoušky vs. státnice
situace A situace B situace C
rozdíl v průměru predikce rozdíl v přesnosti (a průměru) predikce férový test
Test bias
Ověření typicky pomocí moderačního
modelu (lineární i logistická regrese).
Krok 1: vytvoření interakční proměnné
součinem prediktoru a moderátoru.
Krok 2: prostá lineární regrese
◦ Prediktivní nebo kriteriální validita.
𝑌 = 𝑎𝑋 + 𝑏
◦ Y – kritérium, X – výsledek testu
◦ a – směrnice/slope, b – průsečík /int.
Krok 3: přidání moderátoru do regrese.
𝑌 = 𝑎𝑋 + 𝑏 + 𝑐𝑀 + 𝑑 𝑀 ∙ 𝑋
◦ M – moderátor (skupina osob...)
Signifikantní F-test rozdílu 1. a 2. modelu
(∆𝑅2) → přítomnost test bias.
◦ sig. c → rozdíl v průměru predikce.
◦ sig. d → rozdíl v přesnosti predikce.
Srovnáváme nestandardizované koeficienty!
◦ Standardizované jsou ovlivněné populačními
charakteristikami, které se lišit mohou.
DIF v CTT
Jen obtížné, protože CTT a FA nedobře modeluje odpovědi na položku v
závislosti na HS.
Komparace ULI indexů: Rozdělíme vzorek pro výpočet ULI napříč skupinami.
◦ ULI následně spočítáme pro celý vzorek, pro jednu i druhou skupinu.
◦ Jsou stejné? Jaká je korelace ULI napříč skupinami?
Komparace popularit položek.
◦ Je pořadí položek dle obtížnosti stejné napříč skupinami?
◦ Korelují popularity položek napříč skupinami?
◦ Spearmanova korelace obtížností položek.
DIF v CTT
Mantelův-Haenszelův test. Chí-kvadrát pozorovaných odpovědí pro
každou úroveň HS a následná agregace výsledků.
Postupy založené na logistické regresi.
◦ Podobný přístup jako v případě test bias.
◦ Prediktorem je hrubé skóre, závislou odpověď na položku, moderátorem
příslušnost ke skupině.
◦ Binární pol.: logistická regrese; ordinální pol.: ordinální log. regrese.
IRT: Differential Item Functioning
DIF analýza se používá se zejména v rámci IRT.
Obecný framework pro usuzování na neférovost jednotlivých
položek.
◦ Některé postupy aplikovatelné i v CTT, ale IRT je výrazně vhodnější.
◦ V CTT je např. problematické testovat non-uniform DIF (viz dále), nebo DIF
mezi skupinami, které se výrazně liší svým výkonem.
Zdroj: http://blog.questionmark.com/wp-content/uploads/2013/12/Item-Characteristic-Curve.png
Příklad: Žádné DIF
Dotazník výšky:
Někdy se uhodím do hlavy
o nízký strop, futro a podobně.
DIF:
◦ t-test: t(86) = -0,31, p=0,756
◦ M-H: χ2(1)=0,44, p=0,508.
Modrá muži, červená ženy.
Příklad: Uniform DIF
Dotazník výšky:
Jsem spíše vyšší
než muži mého věku.
DIF:
◦ t-test: t(86) = -4,63, p<0,001
◦ M-H: χ2(1)=18,7, p<0,001.
Modrá muži, červená ženy.
Příklad: uniform vs. non-uniform DIF
Uniformní DIF Non-uniformní DIF
https://shiny.cs.cas.cz/ShinyItemAnalysis/
Software
Zejména R, různé balíčky
◦ difNLR package, mirt, difR, lordif, DIFlasso, DIFtree...
On-line aplikace: https://shiny.cs.cas.cz/ShinyItemAnalysis/
Jakýkoli statistický program, který disponuje modulem pro
(ordinální) logistickou regresi.
Test bias: Invariance měření
Postup založený na konfirmační faktorové analýze, ale je použitelný i v IRT.
◦ Tzv. multiple-group CFA/IRT (MG CFA, MG IRT).
Ověřuje shodnost faktorové struktury (modelu měření) napříč skupinami.
◦ Rozdílné úrovně invariance umožňují rozdílné možnosti srovnání skupin.
Typicky se řeší při:
◦ Při konstrukci diagnostických metod: je test jako celek „férový“ pro různé skupiny
respondentů?
◦ Large-scale assessment: Do jaké míry mohu srovnávat skóry respondentů napříč
zeměmi/státy/kulturami atd.?
◦ Teoreticky při každém použití t-testu by měla být vyargumentovaná invariance napříč oběma
skupinami, aby je bylo možné srovnat.
Doporučuji: Wicherts, J. M., Dolan, C. V. (2010). Measurement Invariance in Confirmatory Factor Analysis: An Illustration Using IQ Test Performance of
Minorities. Educational Measurement: Issues and Practice 29(3), 39–47. doi: 10.1111/j.1745-3992.2010.00182.x
4 (5) stupňů invariance:
Základní:
◦ 1. Konfigurální invariance.
◦ 2. Metrická (slabá invariance).
◦ 3. Skalární (silná invariance).
Další:
◦ 4. Reziduální (striktní) invariance.
◦ 5. Paralelní skupiny.
Jednotlivé stupně/úrovně:
◦ Vyšší úrovně zahrnují všechny požadavky
úrovní nižších.
◦ Nižší úrovně jsou předpokladem úrovní
vyšších.
Analogie k „paralelním položkám.
◦ Paralelní položky: srovnání různých
položek navzájem uvnitř jedné skupiny.
◦ Invariance: srovnání stejných položek
napříč skupinami.
4 (5) stupňů invariance:
1. Konfigurální invariance:
◦ Test má stejnou strukturu (počet faktorů, přiřazení položek faktorům atd.) napříč skupinami.
◦ Měří tedy obsahově „ty stejné rysy“, ale klidně úplně „jinak“.
◦ Přesná definice rysů se může mírně lišit.
◦ Nelze srovnávat M a SD napříč skupinami, měřítko metody je jiné.
2. Metrická (slabá) invariance:
◦ Faktorové náboje v CFA jsou shodné (intercepty se mohou lišit).
◦ „Definice“ latentního rysu je stejná, je měřený „ve stejném měřítku“.
◦ Umožňuje srovnávat korelace latentních skórů napříč skupinami, dávat škály do jednoho
modelu atd.
◦ Analogie tau-ekvivalentních položek.
4 (5) stupňů invariance:
3. Skalární (silná) invariance
◦ Intercepty v CFA, jsou stejné.
◦ Umožňuje srovnávat průměry latentních skórů napříč skupinami.
◦ Např.: Češi mají vyšší skóre v PISA testech než Slováci.
◦ Např.: Pacienti v dotazníku dosahují nižšího skóre než neklinická populace.
◦ Analogie paralelních položek.
◦ V tomto případě má prostý součet položek stále trochu jiný „význam“ (kvůli
rozdílným reziduálním rozptylům).
◦ Lze ale zanedbat, má vliv jen na signifikanci srovnání skupin a velikost efektu, nikoliv na „možnost“
takového srovnání.
4 (5) stupňů invariance:
4. Reziduální (striktní) invariance
◦ Položky mají v CFA modelu stejný chybový rozptyl.
◦ Analogie striktně-paralelních položek.
◦ Vztah součtu položek a latentního rysu je napříč skupinami stejný.
5. Paralelní skupiny
◦ Na rozdíl od předchozího není vlastností jen testu, ale i skupiny.
◦ Jednotlivé skupiny respondentů mají stejné průměry a rozptyly.
◦ Jinými slovy, neexistuje žádný pozorovatelný rozdíl napříč skupinami v
odpovědích na test.
Typické stupně invariance
náboje intercepty rezidua lat. průměry lat. rozptyly
1. konfigurální volné volné volné fixované (0) fixované (1)
2. metrická
(slabá)
omezené volné volné fixované (0)
ref. skup. fixované (1)
další skup.: volné
3. skalární
(silná)
omezené omezené volné
ref. skup. fixované (0)
další skup.: volné
ref. skup. fixované (1)
další skup.: volné
4. reziduální
(striktní)
omezené omezené omezené
ref. skup. fixované (0)
další skup.: volné
ref. skup. fixované (1)
další skup.: volné
5a. ekvivalence
průměrů
omezené omezené omezené fixované (0)
ref. skup. fixované (1)
další skup.: volné
5b. ekvivalence
rozptylů
omezené omezené omezené
ref. skup. fixované (0)
další skup.: volné
fixované (1)
6. ekvivalentní
skupiny
omezené omezené omezené fixované (0) fixované (1)
◦ Alternativně lze fixovat
vybraný faktorový náboj,
nikoliv lat. rozptyl.
◦ Pořadí není zcela pevně
dané, jen 1. a 2. krok jsou
nezbytné pro všechny
další;
◦ Krok 3 je předpokladem
pro 5a a 6; 5a a 5b lze
přeskočit a rovnou
testovat 6.
◦ Pozor, v ordinální CFA a v
IRT jsou určité odlišnosti!
Model měření pro jednu skupinu: 𝜆𝑖𝑓 – náboj pol. i na faktoru f; 𝜏𝑖 – intercept (průměr) pol. i; 𝜀𝑖 –
reziduální rozptyl pol. i; 𝛼 𝑓 – průměr faktoru f; Ψ𝑓𝑓 – rozptyly nebo kovariance mezi faktory.
Alternativní způsoby ověření invariance
Multi-group CFA není jediným postupem.
Přehled všech postupů předkládá Kim, Cao, Wang and Nguyen (2017).
◦ Multiple group confirmatory factor analysis (MG CFA).
◦ Multilevel confirmatory factor analysis (ML CFA).
◦ Multilevel factor mixture modeling (ML FMM).
◦ Bayesian approximate M.I. testing (using BSEM).
◦ Alignment optimization.
Není nutné znát. MG CFA je zlatý standard a v psychologii postačuje.