Přednáška 7:
Shoda posuzovatelů
17. 11. 2020 | PSYn4790 | Psychometrika: Měření v psychologii
Katedra psychologie, Fakulta sociálních studií MU
Hynek Cígler, Adam Ťápal | hynek.cigler@mail.muni.cz
Posuzování/hodnocení v psychologii
Posuzovací škály
◦ Intenzita prožitků, příznaků nemoci, ...
Pozorování a observační studie
◦ Bylo / nebylo pozorováno nějaké chování? Do jaké kategorie zařadit to, co jsem pozoroval(a)?
Psychologická diagnostika
◦ Diagnostický nález, skóry z checklistu, ...
Hodnocení výkonu
◦ V rámci školní třídy, v testu, pořadí uchazečů při náboru zaměstnanců, ...
Kódování v kvalitativním výzkumu
... napadne vás ještě nějaký příklad?
Vřelost
1 – Výrazný nedostatek lásky
◦ Takto jsou hodnoceni rodiče respondenta, kteří nejenže nebyli oporou
jeden druhému, ale odmítali vzájemně spolupracovat nebo spolu
soupeřili, nechovali se k sobě nikterak láskyplně či ohleduplně. Takto se
posuzují vztahy charakteristické přítomností hněvu a nepřátelských
projevů nebo vztahy, v nichž se rodiče k sobě chovali chladně a
nezúčastněně. Toto hodnocení se využívá také v případech, kdy jeden z
rodičů druhého psychicky či fyzicky týral či zneužíval. Manželství, která
byla ukončena rozvodem, se hodnotí v rozmezí bodů 1–3.
3 – Nedostatek vřelosti
◦ Vztah se vyznačuje mírnou, nicméně neadekvátní nebo nekonzistentní
oporou. Potřeby jednoho nebo obou rodičů bývají občas uspokojeny,
většinou jsou však přehlíženy. Tyto páry se vyznačují vzájemnou
lhostejností, každý z partnerů žil víceméně vlastním životem, které se
prolínaly pouze sporadicky. Toto hodnocení se užívá i pro páry, které
spolu sice žily aktivně, ale jejich vzájemná interakce byla charakterizována
spíše negativně, jednali spolu například s neúctou a s nedostatečným
poskytováním opory.
5 – Ani neláskyplný, ani aktivně láskyplný
◦ Respondent hodnotí vztah svých rodičů jako „dobrý“ či „láskyplný“, ale
neuvádí detaily, které by tento pohled potvrdily či vyvrátily. Pokud je
k dispozici více detailů, lze říci, že rodiče poskytovali adekvátní
emocionální oporu jeden druhému. Přestože nijak výrazně nerozuměli
potřebám toho druhého, snažili se být si ve většině oblastí soužití
nápomocni.
◦ Někteří respondenti se mohou při popisu soustředit na dovednosti
rodičů v oblasti výchovy, a výzkumník/tazatel tak získává dojem, že
manželství rodičů hrálo sekundární roli oproti výchově dětí, která byla
pro pár prvořadá. Toto hodnocení také slouží jako průměrné
hodnocení, pokud se manželé v minulosti nechovali k sobě láskyplně,
ale tyto negativní epizody byly ve vztahu vystřídány či vynahrazeny
věrohodnými láskyplnými či obětavými činy.
7 – Láskyplný
◦ Přestože se ve vztahu mohly objevovat problémy, rodiče se vůči sobě
projevovali láskyplným a chápajícím způsobem. Lze vytušit, že vztah
byl plný důvěry a opory. Hodnocení 7 je odpovídající, pokud
respondent souvisle a srdečně hovoří o vztahu rodičů a udává, že se k
sobě pár choval s láskou, ale současně to dokládá menším množstvím
specifických detailů.
9 – Velmi láskyplný
◦ Tito rodiče se k sobě aktivně chovali láskyplně a s vzájemnou
náklonností a očividně se cítili dobře a užívali si vzájemnou společnost.
Respondent uvádí konkrétní příklady, jak si byli jeho rodiče oporou
sobě navzájem, partnersky, tak svým dětem jako rodiče. Poskytovali si
navzájem přátelství a útěchu. Není nutné, aby byl vztah popisován jako
absolutně perfektní, pro toto hodnocení se rozhodujeme tehdy,
existují-li silné důkazy, že se rodiče navzájem milovali, respektovali a
podporovali jeden druhého.
Proč se zabývat shodou?
Kdo může zaručit „objektivitu“ posuzování / hodnocení?
◦ I pokud jsou hodnotící kritéria jasně definována, jsou stejně chápána a
používána?
Ověření reliability výzkumné/diagnostické metody.
◦ Hodnocení na posuzovacích škálách, pozorování chování, hodnocení výkonu
◦ Administrace diagnostických metod – vliv administrátora
Zajištění interní validity výzkumných designů.
◦ Shoda posuzovatelů, pozorovacích schémat atp.
Co dělat s (ne)shodou?
Shodu můžeme „vynutit“ (např. použít průměrné hodnocení)
◦ Tím se ale připravujeme o informace.
... nebo ji můžeme nějak kvantifikovat a vyjádřit její míru.
◦ Míra (ne)shody je důležitý a interpretovatelný údaj.
Po kvantifikaci můžeme (ne)shodu efektivněji studovat
◦ Jak velké jsou mezi hodnotiteli rozdíly?
◦ Jsou tyto rozdíly náhodné?
◦ Jsou tyto rozdíly systematické (např. rozdílně „přísní“ hodnotitelé)?
Dvě hlavní použití míry (ne)shody1
Lze několik různých hodnocení „redukovat“ na jediný údaj?
◦ Kolik spolu mají hodnocení „společného“, jde stále o tu stejnou proměnnou?
Jaká je reliabilita takovéto redukce v případě...
◦ ... průměrného/výsledného hodnocení několika hodnotiteli?
◦ ... hodnocení jedním hodnotitelem?
1 dle Cíglera a Širůčka, nejde o autoritativní zdroj
Proč je o tom samostatná přednáška?
1. Typicky zobecňujeme na všechny potenciální hodnotitele.
◦ „Absolutní D-studie“.
2. Velmi často nominální nebo ordinální proměnné.
3. Přítomné i v kvalitativním výzkumu.
Dva hlavní typy neshody
1. Nesystematický rozdíl mezi hodnotiteli.
◦ Náhodný rozdíl.
2. Systematický rozdíl mezi hodnotiteli.
◦ Rozdíl v poměru, průměru...
...zpravidla ale pozorujeme kombinaci obou typů.
Nominální proměnné
Systematický rozdíl
◦ Rozdíl v poměru.
◦ Jeden z psychologů může dávat více
závěrů „pilot“ než druhý.
Nesystematický rozdíl
◦ Oba psychologové mají tento poměr
stejný, ale neshodnou se v určitém
procentu % případů.
Při náboru do armády posuzují dva psychologové, jestli se rekruti
hodí spíš na pilota nebo na tankistu.
(Alespoň) ordinální proměnné
Systematický rozdíl
◦ Rozdíl v průměru.
◦ Jeden z psychologů je „přísnější“ a
hodnotí každého méně body.
Nesystematický rozdíl
◦ Oba psychologové se neshodnou na
tom, kdo je nejlepší, kdo druhý
nejlepší, třetí nejlepší, atd.
Během náboru zaměstnanců mají dva psychologové za úkol obodovat
každého uchazeče na stupnici 0–10.
Jaké otázky si klást?
Kdo se má shodovat s kým?
◦ Shoda administrátorů: Vede individuální vyšetření různými administrátory ke
stejným výsledkům? (WISC...)
◦ Shoda hodnotitelů: Ohodnotí již získaný protokol různí lidé stejně? (ROR;
kvalitativní výzkum).
◦ Intra-rater reliabilita: Obdobné otázky, ale pro jednoho
administrátora/hodnotitele v různých časech.
Kolik bylo hodnotitelů?
◦ Dva (a nebo jeden dvakrát).
◦ Tři a více (nebo jeden alespoň třikrát).
Typy proměnných a související hypotézy
Nominální nebo ordinální
◦ Jaká je absolutní/relativní míra shody 2 nebo více osob?
Ordinální
◦ Jaká je míra shody v pořadí hodnocených osob?
◦ Jaká je míra shody ve střední hodnotě?
◦ Absolutní shoda (pořadí a střední hodnoty dohromady).
Intervalová/poměrová
◦ Jaká je míra shody v pořadí hodnocených osob?
◦ Jaká je míra shody ve střední hodnotě?
◦ Absolutní shoda (pořadí a střední hodnoty dohromady).
◦ V psychologické diagnostice
je typickým postupem
ověření shody v případě
položek nominálními či
ordinálními statistikami
(analogie korigovaných
korelací se škálou) a pro
celkové skóry intervalovými
statistikami.
Statistiky pro odhad
shody posuzovatelů
Nominální proměnné (n = 2)
Cohenovo kappa
◦ Kolikrát je shoda hodnotitelů vyšší než náhodná shoda?
𝜅 =
𝑃𝑜 − 𝑃𝑒
1 − 𝑃𝑒
◦ 𝑃𝑜 = pozorovaná shoda hodnocení
◦ 𝑃𝑒 = shoda hodnocení očekávaná na základě prosté náhody
◦ Signifikance: chí-kvadrát test (ale lze spočítat přímo chyba odhadu).
Nominální proměnné (n = 2)
𝜅 =
𝑃𝑜 − 𝑃𝑒
1 − 𝑃𝑒
Pozorovaná shoda hodnocení:
◦ 𝑃𝑜 =
35+49
100
= 0,84
Očekávaná shoda hodnocení na základě náhody:
◦ 𝑃𝑒 =
35+3
100
∙
35+13
100
+
13+49
100
∙
3+49
100
= 0,505
◦ V případě, že by oba odpovídali zcela nezávisle na sobě,
shodli by se v 50,5 % případů.
Kohenovo kappa: 𝜅 =
𝑃 𝑜−𝑃𝑒
1−𝑃𝑒
=
0,84 −0,505
1−0,505
= 0,677
Kritika za příliš silnou penalizaci 𝑃𝑒 (Grant et al., 2017).
0 1 SUM
0 35 13 48
1 3 49 52
SUM 38 62 100
Nominální proměnné (n = 2)
Cohenovo kappa
𝜅 =
𝑃𝑜 − 𝑃𝑒
1 − 𝑃𝑒
=
0,84 − 0,505
1 − 0,505
= 0,677
Interpretace: Podíl nárůstu shody oproti náhodné shodě je 0,68 maximálního
možného nárůstu.
Cohenovo kappa nabývá hodnot mezi -1 a 1.
◦ Interpretace vzdáleně podobná korelaci, ale měřítko je jiné.
◦ Více k interpretaci: Warrens, M. J. (2015). Five Ways to Look at Cohen's Kappa. Journal of
Psychology & Psychotherapy, 5(4). doi:10.4172/2161-0487.1000197
Proč není dobré
používat procentuální shodu?
0 1 SUM
0 42 4 46
1 4 50 54
SUM 46 54 100
0 1 SUM
0 1 4 5
1 5 91 95
SUM 5 95 100
𝑃𝑜 = 0,920
𝑃𝑒 = 0,503
𝜅 = 0,839
𝑃𝑜 = 0,920
𝑃𝑒 = 0,905
𝜅 = 0,158
Nominální proměnné (n > 2)
Cohenovo kappa je určeno jen pro dva hodnotitele.
Pro n hodnotitelů je zobecněním Fleissovo kappa.
Stejná logika a interpretace, pouze složitější výpočet.
◦ Jednoduše jen multidimenzionální kontingenční tabulka.
◦ Algoritmus viz např. https://en.wikipedia.org/wiki/Fleiss%27_kappa
Ordinální proměnné
Lze do jisté míry použít běžné statistiky, které už znáte:
Shoda středních hodnot (přísnost hodnotitelů):
◦ 2 hodnotitelé: Mann-Whitney („neparametrický t-test“).
◦ N hodnotitelů: Kruskal-Wallis („neparametrická ANOVA“).
Shoda pořadí:
◦ 2 hodnotitelé: Běžná pořadová korelace (Spearman, Kendall) pro shodu pořadí.
◦ N hodnotitelů: Kendallův koeficient konkordance (W) – viz dále
...ale máme k dispozici lepší nástroje 
Ordinální proměnné (n=2)
Můžeme k nim přistupovat jako k nominálním
proměnným, ale výsledkem je obvykle podhodnocení
shody
Řešením je vážená Cohenova kappa (weighted kappa).
Neshody jsou váženy různým způsobem – čím dále od
diagonály, tím jde o větší neshodu
◦ Jak vážit?
◦ lineární váhy (vzdálenost od diagonály)
◦ kvadratické váhy (vzdálenost od diagonály2)
◦ vlastní váhy
shoda
hodnotitel A
1 2 3
hodnotitelB
1 15 12 1
2 9 23 5
3 0 8 17
Ordinální proměnné (n=2)
Běžná (kategorická) kappa: 𝜅 = 0,401.
Ordinální kappa (lineární váhy): 𝜅 𝑤𝑙𝑖𝑛 = 0,502.
Ordinální kappa (kvadratické váhy): 𝜅 𝑤𝑞𝑢𝑎𝑑 = 0,620.
◦ Asi nejčastější případ.
◦ Vzdálenost je v řádku i sloupci... proto na druhou.
Matice vah ale může být libovolná.
◦ Např. i stejné váhy pro různá pole.
shoda
hodnotitel A
1 2 3
hodnotitelB
1 15 12 1
2 9 23 5
3 0 8 17
kvadr.
váhy
hodnotitel A
1 2 3
hodnotitelB
1 0 1 4
2 1 0 1
3 4 1 0
lineární
váhy
hodnotitel A
1 2 3
hodnotitelB
1 0 1 2
2 1 0 1
3 2 1 0
Ordinální proměnné (n>2)
Vážená Fleissova kappa
◦ Kombinace Fleissovy kappy a vážené Cohenovy kappy
◦ Bere v potaz shodu pořadí i středních hodnot
Shoda pořadí: Kendallův koeficient konkordance (W)
◦ Původní verze nepočítá s „remízami“, ale existuje zobecněná verze
◦ Odpovídá na otázku, nakolik hodnotitelé udávají stejné pořadí.
◦ Analogie Spearmanovy pořadové korelace pro více hodnotitelů.
◦ 𝑊 = ҧ𝜌 −
ഥ𝜌−1
𝑘
, kde ҧ𝜌 je průměrná Spearmanova korelace napříč všemi páry hodnotitelů a 𝑘
je počet hodnotitelů.
Intervalové proměnné
Opět lze do jisté míry použít běžné statistiky.
Shoda průměrů (přísnost hodnotitelů):
◦ 2 hodnotitelé: t-test
◦ N hodnotitelů: one-way ANOVA
Shoda pořadí:
◦ 2 hodnotitelé: Pearsonova korelace
◦ N hodnotitelů: ICC2 (viz dále)
... ale máme k dispozici lepší nástroje  (ano, už zase...)
Intervalové proměnné
Teorie zobecnitelnosti 
Pro zjednodušení jsou definovány 2×3 základní typy intra-class korelací, které
jsou konkrétními speciálními případy teorie zobecnitelnosti.
Intra-class korelace: Jak moc se podobají hodnoty v rámci stejných tříd?
◦ Vnitrotřídní korelace.
Inter-class korelace: Jak moc se podobají hodnoty napříč třídami?
◦ Příkladem je Pearsonova korelace.
Třídou je myšlen subjekt pozorování (typicky respondent).
Intra-class / vnitrotřídní korelace
Dva krát tři typy / modely (proč modely?) podle Shrouta a Fleisse (1979):
ICC1: každý subjekt je hodnocen stejným počtem různých náhodných
hodnotitelů, kteří jsou ale pokaždé jiní.
◦ Hodnotitelé jsou striktně paralelními a náhodně losovanými testy.
ICC2: každý subjekt je hodnocena stejnými náhodnými hodnotiteli, ti jsou
pokaždé stejní.
◦ Zobecňujeme na všechny hodnotitele, absolutní D-studie.
◦ Typicky je tohle to, co chcete.
ICC3: každý subjekt je hodnocen stejnými nenáhodných hodnotiteli.
◦ Zobecňujeme pouze na daný vzorek hodnotitelů, relativní D-studie.
Doporučuji (včetně SPSS notace): https://en.wikipedia.org/wiki/Intraclass_correlation
Intra-class / vnitrotřídní korelace
Tyto tři modely se dále dělí podle toho, jestli reálně dochází k:
◦ Udělení jednoho hodnocení jedním hodnotitelem: ICC(x, 1)
◦ Reliabilita jednoho posuzovatele.
◦ Udělení průměrného hodnocení od všech hodnotitelů: ICC(x, k).
◦ Kde k je počet hodnotitelů; například ICC(2, 3) pro ICC II. typu a 3 hodnotitele.
◦ Reliabilita průměru posuzovatelů.
ICC(3, k) je shodná s Cronbachovou alfou.
◦ Relativní D-studie napříč všemi položkami, které jsou „fixed“.
Odhad s pomocí ANOVA nebo lineárního modelu.
Vnitrotřídní korelace pro P×I design
Shrout a Fleiss
(nejběžněji používané)
McGraw a Wong
(občasně používané)
GT design
ICC(1,1) One-way random, single score ICC(1) p (jediná faseta plus error, Ne=1)
ICC(2,1) Two-way random, single score ICC(A,1) p×I (absolutní, Ni = 1)
ICC(3,1) Two-way mixed, single score ICC(C,1) p×I (relativní, Ni = 1)
ICC(1,k) One-way random, average score ICC(k) p (jediná faseta plus error, Ne=k)
ICC(2,k) Two-way random, average score ICC(A,k) p×I (absolutní, Ni = k)
ICC(3,k) Two-way mixed, average score ICC(C,k) p×I (relativní, Ni = k)
A=agreement, C=consistency
Intra-class / vnitrotřídní korelace
https://en.wikipedia.org/wiki/Intraclass_correlation
Krippendorfova alfa
Zobecnění konceptu klasického koeficientu alfa (např. Cronbachovy).
Cronbachova alfa: 𝛼 = 1 −
chybový rozptyl
celkový rozptyl
◦ (plus nějaké korekce na počet stupňů volnosti)
Krippendrofova alfa:
α = 1 −
pozorovaná neshoda
očekávaná neshoda
~1 −
rozdílnost v hodnocení subjektů
rozdílnost subjektů + rozdílnost v hodnocení subjektů
Použitelné pro nominální, ordinální i intervalové proměnné a libovolný počet hodnotitelů.
◦ Jen se různým způsobem vyjádří pozorovaná a očekávaná neshoda.
◦ Díky tomu stejný význam napříč různými typy proměnných, koeficienty lze srovnávat!
◦ Použitelné i v případě chybějících dat.
Kde začít? Software
SPSS: scale (ICC), crosstabs (kappa) a pluginy.
R: balíčky irr, raters, concord, psych.
Reálně existuje mnohem větší množství dalších koeficientů.
◦ Je v tom celkově zmatek.
◦ Pokusil jsem se představit ty hlavní a nejčastěji používané.
Diskuze
Který typ neshody je větší problém? Systematická vs. nesystematická?
◦ V jakých situacích?
Jaké důsledky má zpravidla systematická vs. nesystematická neshoda na odhad
reliability např. ve standardizační studii inteligenčního testu?
Co mají společného Cronbachova alfa a Kendallův koeficient konkordance?