Tento příklad je velmi náročný, obsahuje hodně komplikovaných faset. Můžete očekávat, že příklad v průběžném testu bude o něco jednodušší; přišlo mi to lepší než naopak. Pokud tento příklad pochopíte a dokážete celý postup sledovat, písemný test bude hračka ;)
Řešené příklady
Řešené příklady z průběžného testu
Zadání
V níže citovaném článku popisují využití teorie zobecnitelnosti v případě, kdy tři hodnotitelé hodnotili ve třech scénářích 18 zdravotních sester pomocí 41 kritérií. Článek nečtěte! :-) Zamyslete se ale nad následujícími třemi otázkami:
- Podívejte se na tabulku 2. Dokázali byste spočítat koeficienty dependability a zobecnitelnosti pro různé designy? Co kdyby posouzení realizovalo pět hodnotitelů ve 20 kritériích, ale v rámci jediného scénáře; cílem by bylo participanty prostě jen seřadit, a studie by proto byla relativní?
- Co kdyby byl scénář stejný jako předtím, kritéria by byla stále relativní, ale chtěli byste zobecňovat na prostor všech možných hodnotitelů i scénářů?
- Při pohledu na obrázek 1 se vám zdá výhodnější zvyšovat počet hodnotitelů, nebo počet scénářů (klíčová je časová zátěž hodnotitelů, časová zátěž sester vás příliš netrápí)? Jaký počet hodnocení se zdá být ideální? Počítejte s pevným počtem 41 položek.
Nemusíte odpovídat, stačí se zamyslet. Pokud to zkusíte spočítat, napište výsledek; pokusím se vám dát zpětnou vazbu. Každopádně podobný příklad se může vyskytnout v písemném testu.
O’Brien, J., Thompson, M. S., & Hagler, D. (2019). Using Generalizability Theory to Inform Optimal Design for a Nursing Performance Assessment. Evaluation & the Health Professions, 42(3), 297–327. https://doi.org/10.1177/0163278717735565
Řešení
R=Rater, I=Item (kritérium), S=Scenario.
Obecná pravidla:
- Relativní fasety nejsou chybovými složkami.
- Absolutní fasety jsou chybovými složkami.
- Interakce relativních faset navzájem nejsou chybovými složkami.
- Interakce jakékoli fasety s objektem měření je chybovou složkou.
- Jakákoli Interakce s absolutní fasetou je chybovou složkou.
Prosím, neučte se ta pravidla nazpaměť; jsou veskrze logická a napsal jsem je tady na koleně :-)
Příklad 1: 5 hodnotitelů, 20 kritérií, 1 scénář. Relativní D-studie.
D-studie zahrnuje tři fasety s designem R×I×S. Podle zadání má být relativní, a proto nehraje roli výběr hodnotitelů, kritérií ani scénáře. Ve zcela relativní studii nehraje roli ani interakce fixovaných zdrojů rozptylu; například interakce pěti (relativních) hodnotitelů a 20 (relativních kritérií) je shodná pro všechny respondenty, a není proto chybovým rozptylem. Jinými slovy, chybovým rozptylem jsou pouze ty komponenty, které nabývají rozdílných hodnot pro jednotlivé respondenty; jde o ty komponenty, které zahrnují interakci s respondenty. Interpretace takovéhoto koeficientu by byla očekávaná korelace paralelních testů v případě, kdy by těch stejných pět hodnotitelů hodnotilo stejné respondenty ve stejných 20 položkách a stejném scénáři za předpokladu, že by se mezi situacemi nic nezměnilo, resp. by situace byly zcela paralelní (což nelze očekávat, reálně bychom museli zahrnout novou fasetu, situaci, a do modelu ji zapracovat).
Relativní chybový rozptyl:
Koeficient zobecnitelnosti je nedostatečný, . Zhruba by šel odečíst z grafu (G koeficient, pět hodnotitelů, spodní řádek s 1 scénářem), kde je však odhadnut pro plný počet 41 položek.
Příklad 2: 5 hodnotitelů, 20 kritérií, 1 scénář. Smíšená D-studie.
Design je stejný jako v předchozím případě, jen hodnotitelé i scénáře jsou absolutními fasetami, zatímco kritéria zůstávají relativní. Výsledkem tedy bude očekávaná korelace paralelních testů, pokud by těm stejným respondentům bylo vylosováno pět nových hodnotitelů a zcela nový scénář (kritéria se ale nezmění, nechceme zobecňovat na prostor všech možných kritérií). Chybový rozptyl budou tvořit všechny komponenty, které se liší pro různé respondenty; jedinou výjimkou je tedy samotná faseta kritérié, která zůstává konstantní. Absolutní chybový rozptyl by v tomto případě byl
Koeficient dependability je sice ještě nižší, nikoli však příliš, .
Zde chci upozornit, že zvolený design nemá příliš smysl a hlavně jen málo praktického využití. Hodnotitelé skutečně mohou být náhodní, je ale otázkou, zda má smysl za náhodnou (absolutní) fasetu považovat i scénáře.
Příklad 3: Optimální design D-studie
Osobně bych s pomocí grafu došel k závěru, že nemá smysl zvyšovat počet scénářů nad tři, možná (v případě relativní D-studie) nad čtyři. Stejně tak bych volil jen tři až pět hodnotitelů. Pokud by cílem bylo přijímací řízení a tedy ryze relativní D-studie, pak bych volil 3 hodnotitele a čtyři scénáře; scénáře bych držel vždy jako fixní fasetu. Pokud by se hodnotitelé různili, pak bych volil spíše pět hodnotitelů a tři scénáře. To ale záleží ale na individuálním názoru, je potřeba uvažovat o cíli takového měření, a pro to je v zadání relativně málo informací.