Základy psychometriky
prof. PhDr. Tomáš Urbánek, Ph.D.


Psychometrika v kontextu psychologie
•Psychometrika a další psychologické disciplíny
–obecná psychologie – obecné zákonitosti lidské psychiky, platné pro všechny
–diferenciální psychologie – rozdíly mezi jedinci nebo skupinami, jejich příčiny
–vývojová psychologie – poznatky o úrovních zjišťovaných charakteristik na jednotlivých věkových
úrovních, principy vývoje
–metodologie – metody, techniky a postupy konstrukce a výzkumu psychodiagnostických metod
–matematika a statistika – metody zpracování dat, tvorba modelů měření, chování apod.
–klinická a poradenská psychologie (a diagnostika) – nové podněty, „objednávka“ metod, zkušenosti z
praxe
–další aplikované disciplíny (psychologie práce, personalistika atd.)

Historie psychometriky
•Dávná historie
–povědomí o existenci individuálních rozdílů v psychických vlastnostech
•Epos o Gilgamešovi
•Bible
–Čína kolem 2200 př. n. l.
•ústní zkoušky a pravidelné přezkušování císařských úředníků

Historie psychometriky
•Řecko
–Hippokrates
•4 tělní tekutiny (krev, žluč, hlen, černá žluč)
–Sokrates, Platón, Aristoteles
–Galenos
•4 temperamentové typy na základě převládající tělní tekutiny
•

Inspirace z literatury
•Theophrastos
–považován za zakladatele charakterologie
•Miguel de Cervantes y Saavedra
–Důmyslný rytíř Don Quijote de La Mancha
•William Shakespeare
–Hamlet, Macbeth, Othello, Shylock, …
•Stendhal, Honoré de Balzac, Charles Dickens, Victor Hugo, Thomas Mann

„Slepé uličky“
•astrologie
•chiromantie
•frenologie
•fyziognomie
•numerologie
•
• Většinou sporná platnost jejich poznatků
• Psychometrika je striktně vědeckou disciplínou.

Počátky psychologie jako vědy
•Přístup k duševně nemocným
–Středověk
•exorcismus
–Philippe Pinel
•„zbavil šílence okovů“
–Jean-Martin Charcot a Pierre Janet
•průkopníci funkčního pojetí psychických poruch
•počátky hypnózy, počátky psychodiagnostiky
–
•

Počátky psychologie jako vědy
•Experimentální přístupy
–psychofyzika
•G.T. Fechner – Elemente der Psychophysik (1860)
•E.H. Weber
•Wilhelm Wundt
–
–založení psychologické laboratoře v Lipsku (1879) považováno za zrod vědecké psychologie

Tři zdroje psychometriky
•kolem roku 1830 – 3 relativně nezávislé proudy
•Francie
–studium osob vybočujících z šablon normálního chování (např. Esquirol, Itard, Seguin, Charcot a
Ribot)
•Německo
–experimentální výzkum chování normálních dospělých lidí (Weber, Fechner a Wundt)
•
•Matematika
–užitečnost křivky normálního rozložení (vyjádření v roce 1733 de Moivrem) jako matematického
nástroje (Laplace a Gauss)
–pro měření lidských charakteristik Quetelet v roce 1846

„Praotcové“ mentálního testování
•
•Francis Galton (1822-1911)
•
•James McKeen Cattell (1860-1944)
•
•Alfred Binet (1857-1911)

Francis Galton
•ovlivněný prací svého nevlastního brantrance Charlese Darwina (O původu druhů; 1859)
•knihy Hereditary Genius (1869) a Inquiries into Human Faculty and its Development (1883)
–v podstatě počátky vědeckého zkoumání individuálních rozdílů a mentálních testů
•asi 1886 – antropometrická laboratoř
–měření fyzických a sensomotorických charakteristik
•pojem statistické korelace
–matematická formulace později – Karl Pearson (1857-1936)
•význam – počátek používání statistických metod jako hlavního matematického nástroje pro vědecké
zkoumání individuálních rozdílů

James McKeen Cattell
•doktorát – u W. Wundta v Lipsku
–propojení experimentální metodologie s americkým pragmatismem
–rigorózní pozorování chování, ale nesouhlas s klasickou představou o nutnosti zobecnění týkajících
se normální lidské dospělé mysli
–doktorská disertace zaměřena na studium individuálních rozdílů v reakčním čase (přes Wundtovy
námitky)
•jeho názor – odchylky nezmizí ani při použití nejrigoróznější experimentální kontroly
–odchylky tehdy považovány za chyby
–spíše je považoval za projevy vlivu reálných proměnných
•kontakty s Galtonem
–později založil psychologické laboratoře na Pennsylvánské a Kolumbijské universitě
–vývoj a úpravy psychologických testů
•tehdy – dominantní názory empirismu (John Locke) a asocianismu
–komplexní projevy psychiky chápány jako kombinace jednodušších sensorických zkušeností
•rané pokusy o měření
–sensorické schopnosti a jiné jednodušší funkce (míry reakčního času, rozlišování vizuálních a
auditivních podnětů, citlivost k bolesti)
•výsledky
–žádný významný vztah mezi výsledky takových testů u studentů 1. ročníku Kolumbijské university a
jejich známkami

Alfred Binet
•počátky – experimentální psychologie ve francouzské tradici
–zájem byl o jedince odlišné od normy
–výzkum retardovaných dětí
•1896 – série testů „komplexnějších“ psychických procesů
–na základě pečlivého studia rozdílů v chování retardovaných, normálních a nadaných dětí (společně
s kolegou Victorem Henrim)
•dále – mnoho experimentálních výzkumů
–rozdíly výkonu dětí vyššího věku nebo z vyšších školních tříd a výkonu mladších dětí
•důsledek – přímý přístup k měření obecné schopnosti shledán užitečnějším než měření jednodušších
funkcí
•1904 – Binet členem komise zaměřené na studium výuky retardovaných dětí
•s Théodorem Simonem – první formální škála pro přímé měření komplexnějších schopností

Shrnutí raného vývoje
•základní matematické úpravy měření od Galtona a jeho následovníků v Anglii
•důležitost přísné kontroly pozorování od Wundta a jeho spolupracovníků z Německa
•individuální rozdíly jako legitimní téma psychologického výzkumu Cattell v USA
•Binet ve Francii nalezl obsah testů nutný k tomu, aby z nich byly užitečné nástroje

Pozdější vývoj
•významné metody
–Woodworth Personal Data Sheet (1919)
•v podstatě typ standardizovaného psychiatrického interview
–Rorschachův test (1920)
–TAT (1935)
–MMPI (1943)
•od 20. let
–měření zájmů, postojů a hodnot – např. Kurt Lewin (experimentální výzkum konfliktu, frustrace a
aspirační úrovně)
•20. a 30. léta
–mnoho jednoskórových i víceskórových nástrojů diagnostiky osobnosti (některé zaměřeny na
psychopatologii)
•40 a 50. léta
–růst aplikovaných oblastí psychologie spolu s vývojem metod konstrukce, skórování s interpretace
psychometrických nástrojů
•50. a 60. léta
–např. výzkum autoritářské osobnosti, závislosti/nezávislosti na poli, výkonové motivace,
represe-senzitizace, místa kontroly
•významným faktorem vývoje se stala výpočetní technika

Další důležité postavy a instituce
•VB – Karl Pearson, Charles Spearman, Cyril Burt, Geoffrey Thompson
•USA – T. L. Kelley, L. L. Thurston, J. P. Guilford a jejich žáci
•Skandinávie – Rasch
•Nizozemsko
•Německo
•Odborné společnosti – Society for Personality Assessment, International Society for Study of
Individual Differences,
•Časopis – Personality and Individual Differences
•

Cíle psychodiagnostiky a psychometriky
•pokus u vědecké řešení problému předpovídání budoucnosti
–největší zisk (aspoň pro klienta) – predikce na základě toho, co se stalo v minulosti za podobných
podmínek (současně jeden ze základních předpokladů vědy)
•
•3 základní aplikace psychologického měření: prognóza, diagnóza a výzkum

Použití metod
•prognóza (také predikce)
–primární důraz na rozdíly mezi výkony jedinců nebo mezi výkony jedince a nějakým standardem
(normou)
–není nutné najít příčiny úspěchu, stačí empiricky zjištěný vztah mezi nějakým pozorovatelným
chováním a nějakou mírou pozdějšího úspěchu (může být ateoretická)
–příklady
•přijímací zkoušky: inteligenční testy se dětem předkládají proto, aby predikovaly jejich
akademický výkon
•konkurz: ti, kteří byli vybráni, uspějí, a ti, kteří vybráni nebyli, by neuspěli nebo by neměli
takové výsledky jako ti, kteří vybráni byli
•známkování: známka je chápána jako predikce kvality výkonu jedince v nějaké budoucí situaci
•diagnóza
–větší pozornost věnována analýze a popisu různých charakteristik u jediné osoby
–primární cíl je najít charakteristiky odpovědné za diagnostikované obtíže
–snaha o zlepšení situace díky odhalení příčiny obtíží
•výzkum
–nutnost – testy nejsou zcela validními mírami mentálních charakteristik

Normativní a ipsativní měření
•podle Cattella
•normativní měření
–výsledky testu interpretovány z hlediska výkonů jiných osob ve stejné situaci
–také měření vztahující se k normám
•ipsativní měření
–interpretace výkonu v testové situaci v kontextu výkonů v jiných testových situacích
•
•Příklad: Neúspěch žáka, který měl ve srovnání s ostatními výborné výsledky v přijímacích testech,
ve studiu.
•možnosti:
–snaha porovnat další schopnosti žáka s výkonem jiných žáků (normativní)
–snahou posoudit úkoly, při jejichž plnění je student úspěšný, s úkoly, při jejichž plnění je
nespěšný (ipsativní)

Klasifikace psychodiagnostických metod
•existují stovky psychodiagnostických metod (viz např. stránky Buros Institute – www.unl.edu/buros)
•nezbytné je použití mnoha různých kritérií klasifikace:
•Hlavní:
–I. Podle typu měřeného rysu
–II. Podle způsobu měření
–III. Podle účelu

I. Klasifikace podle typu rysu
 (podle Cronbacha, 1960)
•míry typického chování
•typické chování
–postoje, zájmy a osobnostní charakteristiky
–neexistují zde správné ani špatné odpovědi
–předpokladem je pravdomluvnost proband
•
•míry maximálního výkonu
•maximální výkon
–schopnosti, znalosti, dovednosti
–odpovědi porovnány s klíčem rozlišujícím správné a špatné odpovědi
–předpoklad, že testovaná osoba ze sebe vydá to nejlepší
Nutno uvážit:
u testů maximálního výkonu – vrozené schopnosti, míra vlivu prostředí nebo kombinace obojího?
obecné problémy klasifikace – mnoho testů obtížně zařaditelných

II. Klasifikace podle způsobu měření
(více klasifikací)
•individuální ´ skupinové – administrace testu pouze jedné osobě nebo skupině osob
–některé metody nelze administrovat skupinově
•objektivní ´ subjektivní – způsob skórování metod (spojitá dimenze)
–objektivní – každá osoba skórující test konkrétního jedince dospěje ke stejnému skóru
–subjektivní – hodnocení je do jisté míry ponecháno na osobě, která provádí skórování
•test typu papír-tužka ´ performanční test – psaní nebo manipulace
•verbální ´ neverbální – použití nebo nepoužití verbálních podnětů
–neverbální - nepoužívají se žádná psaná nebo mluvená slova ani jako instrukce ani jako samotné
položky
–instrukce pomocí demonstrací a pantomimy
–odpovědi často pomocí nějaké manipulace s aparátem
–použití u negramotných, u lidí mluvících cizím jazykem
•silové ´ rychlostní – rozdíl spočívá v čase a jeho vlivu na výsledek (spojitá dimenze)
–čistě rychlostní test – složen z položek tak snadných, že každý je schopen zodpovědět je správně
–získaný skór je zcela závislý na tom, kolik položek osoba vyřeší v povoleném čase
–čistě silový test – každá osoba může zkusit řešit kteroukoli položku a její skór závisí zcela na
tom, kolik otázek zodpoví bez ohledu na tempo, jakým pracuje

III. Klasifikace podle účelu
•testy pro umístění osob, klasifikaci nebo výběr
•
•Další možné klasifikace
–např.: konvenční, situační nebo projektivní
–klinické, testové nebo přístrojové
•

Klinický a psychometrický přístup
•hlavní rozdíl – prognóza o jedinci ´ prognóza o skupině osob
•Meehl, P. E. (1954)
–diagnostika je velmi podobná samotné vědecké práci: čas od času konfrontace s velkým množstvím
dat, pokus o odpověď na otázku, co vysvětluje tato pozorování, toto vysvětlení téměř vždy naznačuje
další skutečnosti, které by mělo být možné pozorovat v budoucnu – teprve pak se uchylujeme
k formální logice a statistice a tyto implikace zobecňujeme a testujeme
•Meehlova studie – porovnání klinické a psychometrické predikce chování
–19 studií s víceznačnými výsledky
–10 studií nenašlo rozdíly
–9 studií našlo rozdíly ve prospěch psychometrických metod
–ani jedna neprokázala lepší výsledky klinické metody
•nevyhnutelný závěr
–při současným stavu poznání je při dostatku dat psychometrický přístup úspěšnější
–klinici umí zřejmě lépe terapii než predikci a diagnózu

Klinický a psychometrický přístup
•Klinická logika
•
•Extenzívní informace o jediné osobě
•Lze použít libovolná data
•Predikce založená na znalostech teorie chování
•Predikci jako kreativní akt musí provést vysoce zkušená osoba
•Lze použít i nahodilé jevy
•Psychometrická logika
•
•Intenzívní zkoumání několika rysů
•Všechny informace v podobě členství ve skupinách
•Predikce založená na počtu pravděpodobnosti
•Predikce jako formální důsledek pozorování může provést i úředník (laborant)
•Nelze využít řídké (nahodilé) jevy
•

Měření
•Definice: měření v nejširším slova smyslu je proces přiřazování čísel objektům podle zavedených
pravidel
–pravidla – závisí na typu srovnávání, které je možné provádět s měřenými objekty; manipulace
s čísly musí být možné provádět analogicky také s objekty samotnými
•4 typy škál (pravidel):
–nominální – přiřazení číselných označení jednotlivým objektům nebo třídám
•pravidlo: všichni jedinci ze stejné skupiny mají přiřazeno stejné číslo; žádní dva jedinci
z různých skupin nemají přiřazeno stejné číslo
•např.: přiřazení libovolných čísel různým zaměstnaneckým skupinám nebo diagnózám
•matematická operace: počítání velikostí jednotlivých tříd (absolutní a relativní četnost); relace
„=“ a „¹“
–ordinální (pořadová) – seřazení objektů podle nějakého kritéria
•pravidlo: + tranzitivita relací „větší než“ a „menší než“
•např.: pořadí v závodě
•matematické operace: + porovnávání skórů navzájem (<, £, ³, >]
–intervalová – stanoveny stejné jednotky po celé délce škály
•pravidlo: + aditivita škály
•např.: měření teploty
•matematické operace: + sečítání a odčítání
–poměrová – objektům přiřazovány hodnoty reálných čísel
•pravidlo: + poloha absolutní nuly
•např.: hmotnost, výška
•matematické operace: + násobení a dělení (kromě operací výlučných pro imaginární čísla)

Příklad
•
•normální měření výšky pomocí metru
•měření výšky pomocí metru od vrchu stolu
•měření výšky od vrchu stolu pomocí knih naskládaných na sebe
•rozdělení osob na skupiny vyšší a nižší než nějaký standard

Problémy s měřením v psychologii
•většina měření v psychologii je ordinální
•3 možná řešení:
•
•1. omezení se na použití statistických procedur speciálně vytvořených pro pořadová data (medián;
Kendallovo tau apod.)
•2. předpoklad (na základě empirických důkazů nebo logických dedukcí) normálního rozložení měřeného
hypotetického rysu v populaci
•3. nejběžnější je uznání faktu, že míry behaviorálních charakteristik jsou relativní a nikoli
absolutní kvantity
–„hrubé“ skóry pak nejsou nikdy interpretovány přímo (transformace na nějaký „vážený“ skór, jehož
podstatou je porovnání výkonu jedince s výkonem celé skupiny)
•

Otázky povahy měřených rysů
•definice rysu: v teoretických pojmech vyžadujících vysvětlení nebo pomocí jistých pozorování
naznačujících jeho existenci
•psychický rys: přijatelný (pojmový) nástroj pro vymezení určité množiny pozorování nebo teoretický
pojem
–předpoklad, že se projevuje v pozorovatelném lidském chování
•vlastnosti
–1. pojem vysvětluje současná pozorování (tzn. známá fakta a empirické zákony)
–2. také implikuje nová pozorování
•konstrukt: pojem splňující požadavky vysvětlování současných znalostí a poskytování implikací o
nových pozorováních; proto má každý rys připojeny jisté vlastnosti
• např.: osoba s danou úrovní této vlastnosti bude s jistou pravděpodobností chovat způsobem X,
pokud se dostane do situace Y
•znalosti o psychickém rysu
–1. co test měří a jaké jsou jeho vztahy k ostatním rysům
–2. co platí o lidech, kteří dosáhnou určitého testového skóru

Otázky týkající se rysů
•možné otázky:
–Je rys u jednotlivce stabilní nebo fluktuuje v čase?
–Jaké je rozložení rysu v lidské populaci?
–Do jaké míry je rys ovlivněn dědičností a do jaké prostředím?
–Jaké jsou zákony ovládající vývoj rysu, jak osoba dospívá?
•
•současný pohled: hypotetický konstrukt nemůže být správný nebo špatný, ale pouze užitečný nebo
neužitečný z hlediska vysvětlování současných znalostí a naznačování nových vztahů k ověřování
•nemožné: mít zcela uspokojivou a univerzální definici psychického rysu, protože by byla nutná
kompletní data o lidech a jejich chování a jejich dokonalá znalost
•hodnocení testu: nutné vědět něco o testu samotném a o autorově pojetí rysu
•

Požadavky na měření
•přesnost – vzhledem k účelu, pro které budou naměřené hodnoty použity
•opakovatelnost – stejná hodnota při opakovaném měření stejného objektu
•objektivita – různí lidé provádějící měření by měli naměřit stejnou hodnotu
•adekvátnost – měřící nástroj, jednotky měření, náročnost na vybavení, složitost procedury,
vzhledem k účelu atd.

Přímost a nepřímost měření
•přímé měření – veličinu měřenou pro nějaký objekt měříme pomocí stejné veličiny, která je součástí
(vlastností) nástroje měření
–délku (výšku, hloubku) měříme porovnáním s délkou měřidla (pravítko, pásmová míra)
–hmotnost objektu měříme porovnáním s hmotností závaží (např. laboratorní váhy)
•nepřímé měření – veličinu měříme porovnáním s jinou veličinou, která má pro daný měřící nástroj
matematicky definovaný vztah s veličinou měřenou
–hmotnost měříme prostřednictvím délky protažení nějaké pružiny (mincíř) nebo prohnutí vhodného
média (osobní váhy)
–teplotu měříme prostřednictvím délky rtuťového nebo lihového sloupce (teploměr) nebo ohnutí
kovového pásku (bimetalové přístroje)

Měření v psychologii
•téměř výhradně nepřímé!
•
•Důsledek
•
•Nutnost kritérií: tvůrci i uživatelé měřících nástrojů v psychologii musí být schopni posoudit,
jestli jsou tyto nástroje kvalitní
•

Klasifikace chyb měření
•proměnné (náhodné) chyby: při opakovaném měření téže veličiny (v psychologii v ještě větší míře)
–relativní nepřítomnost chyb u psychodiagnostické metody (reliabilita)
•osobní chyby: zdroje neobjektivity, v podstatě osobní rovnice diagnostika
–2 osoby po přečtení téže zprávy o vyšetření učiní 2 různé závěry
•konstantní chyby: plyne z nepřímosti většiny měření v psychologii
–např. u většiny testů je nutné čtení a bylo by chybou, pokud by rozdíly ve výkonu v testu
souvisely více se čtením než se zjišťovanou schopností
•chyby interpretace: skór jedince nemá smysl bez kontextu výkonu ostatních osob z relevantní
populace (nutnost definovat skupinu a pravidla srovnávání)

Eliminace chyb měření
•standardizace – formální podoba psychodiagnostických metod (grafická úprava, postup testování,
pravidla interpretace výsledků)
•normalizace (součást standardizace) – test je předložen dobře vymezené skupině a její výkon je
pečlivě zaznamenán
–porovnání výkonu jedince s výkonem skupiny pomocí tzv. vážených skórů
•
•typy norem – podle povolání, regionu, národnosti, pohlaví, věku, školní třídy atp.
•2 druhy skupin:
• 1. skupina, do které proband patří
• 2. skupina, do které proband aspiruje

Standardy
•Charakteristiky metod a kritéria pro jejich posouzení
•charakteristiky testů slouží současně jako kritéria pro jejich posouzení; mají těsnou souvislost
se zdroji chyb
•
•nutnost: snaha o nepřítomnost všech těchto chyb
Charakteristika
Souvislost se zdrojem chyb
Normalizace
snaha vyhnout se interpretačním chybám
Reliabilita
relativní nepřítomnost proměnných chyb
Standardizace
Objektivita
eliminace osobních chyb
Validita
odstranění konstantních chyb

Vztahy charakteristik


Upozornění
•
•pokud je test standardizovaný, objektivní a reliabilní, ale není validní, je k ničemu, protože
nelze určit, co měří!
•posouzení samotné validity nestačí pro posouzení ostatních charakteristik
•
•

Formální podoba diagnostické metody
•testový sešit a záznamový arch; různé pomůcky pro testování (kostky, seznamy, ukázky)
•
•Instrukce – pokyny pro probandy, jak mají postupovat v psychodiagnostické situaci; návod pro
zaznamenávání odpovědí
•Položky – základní jednotka dotazníkových a testových metod; otázka nebo úkol, který je třeba
vyřešit
•
•Typy položek:
•
•Otázky a úkoly
• - grafické
• - verbální
•Odpovědi
• - otevřené
• - uzavřené - dichotomické
• - polytomické (multiple-choice)
• - škály
•Formát odpovídání
• - souhlas-nesouhlas
• - vůbec-zcela
• - počet bodů škály

Náhodné chyby a pravé skóry
•rozdíl od fyzikálního měření – proměnné chyby jsou mnohem větší a vlivnější, proto je otázka, jaká
je skutečná hodnota měřeného rysu
–možné řešení: průměr z opakovaných měření jako rozumný odhad
•2 komponenty pozorované hodnoty (X):
–1. skutečná hodnota (tzv. pravý skór) (t):
–2. chyba měření (e):
•
• Xi = ti + ei
•
•Příklad: osoba zná správnou odpověď na 43 položek, uhádne odpověď na 4 další, ale splete se
v místě, kam má zaznamenat odpověď, což znamená, že chyba je 3 = 4 – 1

Reliabilita
•Základní úvaha – při měření mnoha stolů stejné délky je veškerá variabilita naměřených hodnot
způsobena chybou
–tzn. rozptyl měření je odhad míry chyby
•u stolů různých délek – variabilita je způsobena zčásti vlivem skutečných rozdílů a zčásti vlivem
chyby, tzn. celkový rozptyl se skládá z rozptylu pravých skórů a rozptylu chyb

Teoretická definice reliability
•Předpoklad – nekorelovanost pravých skórů a chyb měření
•
• sX2 = st2 + se2
•
•RELIABILITA – podíl variability pravých skórů k celkové variabilitě
•

Odhad reliability
•protože pravé skóry nelze v principu zjistit, reliabilitu je možné pouze odhadovat
•Některé přístupy:
1.test-retest
2.paralelní formy
3.split-half
4.vnitřní konsistence
5.Kuder-Richardson
•Rozdíl – v pojetí náhodných chyb měření

Testová-retestová reliabilita
•náhodná chyba: cokoli, co mění skór proměnné měřené dvakrát v různém čase, tzn. reliabilita ve
smyslu stability
•postup: test se dá stejné skupině osob dvakrát po sobě (x a x’)
•předpoklad – měřený rys se v čase nemění, rozptyl chyb v obou případech stejný
•odhad reliability: korelace výsledků 1. a 2. měření
•otázka: je předpoklad, že se rys nemění v čase, realistický?
–při dlouhém odstupu v testování se úroveň rysu může změnit, což vede k podhodnocení odhadu
reliability (nutné uvážit hlavně u dětí)
–po příliš krátké době může dojít ke klamnému nadhodnocení vlivem zapamatování si odpovědí
(doporučují se 3 měsíce)
•závěr: test-retestová reliabilita je buď podhodnocena nebo nadhodnocena

Reliabilita paralelních forem
•náhodná chyba: jakýkoli rozdíl ve skórech v obou formách
–obvykle se obě formy administrují bezprostředně po sobě, aby byl vyloučen vliv nestability
–reliabilita ve smyslu ekvivalence
•cíl: překonání vlivu zapamatování u testové-retestové reliability
•problém: jak zajistit skutečnou paralelnost obou forem
•striktní paralelnost: právě tehdy, když se položky vybírají ze stejného obsahového universa
položek stejným způsobem
–posouzení je možné často pouze na základě expertního posudku
–několik variant ekvivalence
•empirické posouzení: pomocí statistické analýzy, tzn. stejné průměry a rozptyly položek a
kovariance mezi položkami v obou formách
•odhad reliability: korelace výsledků obou forem

Split-half reliabilita
•problémy s předchozími pojetími: možné reálné fluktuace rysu se považují za chyby
•paralelní formy: snaha o řešení administrací obou testů současně
•alternativa: administrace testu jako celku a jeho následné rozdělení na dvě poloviny
•problém: zajištění skutečné stejnosti polovin
•rigorózní přístup: analýza položek, hledání párů položek s analogickým obsahem, obtížností,
diskriminační účinností
•častý praktický postup: sudé a liché položky zvlášť
•odhad reliability: korelace mezi oběma polovinami

Split-half reliabilita
•problém: reliabilita je funkcí délky testu (počtu položek) – roste s počtem položek
–proto – nutná korekce získaného odhadu reliability pro celý test
•
•Spearmanův-Brownův vzorec:
•
•
•
•
•předpoklad: položky měří stejný rys; rozptyly obou polovin jsou stejné (lze zajistit pečlivým
výběrem do obou polovin)

Split-half reliabilita
•Guttmanův vzorec: nevyžadující rovnost rozptylů (Guttman, 1945):
•
•
•
•
•
•
•
•pojetí chybového rozptylu: rozdíl mezi rozptylem celkového skóru odhadnutého ze dvou polovin a ze
všech položek společně (na základě možnosti přepsat vzorec tak, aby vyjadřoval původní definici
reliability)
•

Reliabilita jako vnitřní konsistence
•požadavek: pokud jedna položka testu měří určitou proměnnou, pak další položky musí měřit tutéž
proměnnou
–projeví se vztahy mezi položkami
•paralela: v podstatě zobecnění split-half reliability na n testů délky 1
•nesouhlas: Cattell tvrdil, že čím specifičtější položky, tím nižší je validita
•ale: žádný konstruktér testu nebyl schopen konstruovat test s položkami korelujícími s kritériem,
ale ne mezi sebou

Odhad vnitřní konsistence
•Cronbachův koeficient alfa
•
•
•
•
•k  – počet položek; si2 – rozptyl i-té položky; st2 – rozptyl celého testu

Kuder-Richardsonova reliabilita
•chyby: nekonsistence ve výkonech v jednotlivých položkách
–reliabilita jako míra homogenity
•ideální případ: seřazení položek podle vzrůstající obtížnosti
–každá osoba dosáhne bodu, před kterým vyřešila všechny položky a za kterým nevyřešila žádnou
–pokud to platí pro každou osobu, pak se test vyznačuje dokonalou reliabilitou podle Kudera a
Richardsona (1937)
•chyba: vzniká nesprávným seřazením položek podle obtížnosti
–rozumný požadavek: pokud je test čistá míra jediného rysu, tzv. homogenní test

Vzorec K-R 20
•
•
•
•
•
•n – počet položek testu; sx2 – rozptyl naměřených testových skórů; pj – podíl osob, které mají
j-tou položku správně; qj = 1 – pj, pjqj – rozptyl dichotomické položky
•

Reliabilita podle Hoyta
•odlišné pojetí chyby (Hoyt, 1941): kolísání výkonu osoby od položky k položce se nepovažuje za
chybu, ale za reálné intraindividuální rozdíly
–neměly by být součástí odhadu reliability
•
•3 komponenty rozptylu:
1.skutečné interindividuální rozdíly
2.intraindividuální rozdíly (měřené rozptylem položky)
3.chybové interindividuální rozdíly

Analýza rozptylu
•Model rozptylu:
•
•Odhad reliability:
•
•
•Nebo – pomocí sum čtverců:

Faktory ovlivňující odhad reliability
1.
1.Metoda odhadu reliability
2.Délka testu
3.Heterogenita skupiny
4.Časové aspekty
5.Konstrukce a administrace

Metoda odhadu reliability
•paralelní formy – nižší odhady než test-retest
–považovány za dolní hranici odhadu, preferují se
•paralelní formy obsahují fluktuace forem i času
•test-retest obsahuje klamnou reliabilitu způsobenou zapamatováním si odpovědí
•split-half – považována za horní hranici
–jediné měření vede k nadhodnocení reliability u testů se silnou rychlostní komponentou
–vysoká reliabilita může být iluzí způsobenou přísným časovým limitem a postupem split-half
•Kuder-Richardson – podhodnocuje v případě, že test není homogenní, a nadhodnocuje, pokud homogenní
je

Délka testu
•myšlenkový postup:
–Jakákoli sada položek testu představuje výběr ze všech možných položek daného obsahového univerza.
–Kdyby se toto univerzum použilo celé, test by měl nekonečnou délku a skór osoby by se rovnal
pravému skóru.
–Protože se jedná o výběr, naměřený skór je pouze odhadem pravého skóru.
–Stejně jako ve statistice platí, že čím rozsáhlejší je výběr, tím přesnější je odhad.

Heterogenita skupiny
•homogenní skupiny – klesá podíl variability pravých skórů a tím i reliabilita
–chybová variabilita stále stejná
•často: různé koeficienty reliability pro různé skupiny
•řešení: index, který je funkcí reliability, ale nezávislý na variabilitě skupiny:

Standardní chyba měření
•Standardní chyba měření: odhad směrodatné odchylky chyb při opakovaném výběru
•teoreticky: standardní chyba měření je průměr směrodatných odchylek rozložení při opakovaných
výběrech
•Vzorec:
•
•
•problém: index v jednotkách testového skóru, takže ho není možné porovnávat u různých testů

Časové aspekty
•u testů s vlivem času je reliabilita ve smyslu konsistence nadhodnocena
•v praxi: většina testů má složku rychlosti
–obvykle je snaha, aby dokončilo pouze 75-90% osob
•proto nutnost: paralelní formy nebo test-retest
•nejjednodušší postup: rozdělení testu na 2 poloviny před administrací (každá část odděleně
časovaná a skórovaná) a použití Guttmanova nebo Spearman-Brownova vzorce
•i přesto mají rychlostní testy obvykle vyšší reliabilitu než silové, a to možná proto, že je větší
konsistence v tempu práce než v kvalitě výkonu
•nejjednodušší míra „rychlostnosti“:
•
•
•
•
•sr2 – rozptyl skórů při počítání všech řešených položek, bez ohledu na jejich správnost, sc2 –
rozptyl skórů pouze pro správně řešené položky
–čistě silový test: sr2 = 0
–čistě rychlostní test: všechny řešené položky jsou správně sr2 = sc2
•

Konstrukce a administrace
1.vlastnosti testu samého
–uspořádání položek: lepší je dát jednodušší položky na začátek
–vzájemně závislé nebo téměř identické položky snižují reliabilitu (test je tím vlastně zkrácen)
–„chytáky“ a emocionálně zabarvené položky snižují reliabilitu (zvyšuje se vliv náhody)
2.forma položky
–možnost uhádnutí odpovědi zvyšuje chybu (vhodnější jsou mnohonásobné volby)
–příliš jednoduché nebo příliš složité položky nediskriminují (opět de facto zkrácení testu – kde
není variabilita, nemůže být ani reliabilita)
3.faktory u vyšetřované osoby
–nepochopení celé situace testování (běžné v počátcích testování)
–obecný postoj (např. tendence odpovídat kladně nebo záporně, tendence hádat, snaha zkreslit
výsledky)
4.fyzický stav zkoumané osoby
–zjištěno, že nevolnost nemá vliv na výkon, ale snižuje se subjektivní hodnocení výkonu
(pochopitelně nesmí dojít k opravdu vážným potížím)
5.faktory administrátora
–vztah s testovanou osobou
–přesvědčení o důležitosti
–chybné nebo nedostatečné instrukce
–chybně přečtený čas (nebo přílišná benevolence vzhledem k času)
•

Minimální žádoucí reliabilita metody
•Přísné požadavky:
–aspoň 0,50 pro hodnocení výkonu skupiny
–aspoň 0,90 pro hodnocení rozdílů v úrovni výkonu skupiny u dvou a více výkonů
–aspoň 0,94 pro hodnocení úrovně individuálního výkonu
–aspoň 0,98 pro hodnocení rozdílů v úrovních individuálních výkonů ve dvou a více výkonech
•Minimum:
–aspoň 0,70

Vztah reliability a validity
•platí: maximální možná validita se rovná odmocnině z reliability
•
•Korekce nereliability pro korelaci 2 testů:
•
•
•
•platí: maximální pozorovatelná korelace testu a kritéria je rovna součinu reliabilit obou měření

Závěrečné poznámky
•míry typického chování mají nižší reliabilitu než míry maximálního výkonu
•
•soubor: test pro klinické skupiny musí být testován u těchto skupin
–např. schizofreniky je velmi obtížné testovat, proto zde bývá nízká reliabilita
•
•Závěr: koeficient reliability je třeba interpretovat z hlediska použitého postupu a homogenity
zkoumané skupiny a ve světle účelu použitého testu, měřeného rysu a reliability podobně zaměřených
testů

Validita
•Otázka – měří test skutečně to, co měřit má?
–(měření v psychologii je nepřímé)
•Způsoby zjišťování – mnoho – 3 základní přístupy zaměřené na 3 hlavní komponenty testové situace
•Základní typy validity
–obsahová validita – obsah testové situace a chování osoby v testové situaci
–empirická validita – posouzení vztahu mezi testovým skórem a vnějším kritériem
–konstruktová validita – teoretické otázky existence nějakého rysu
•V současnosti
–neuvažuje se o typech validity, ale o typech důkazů o validitě

Obsahové důkazy o validitě
•
•Zjevná validita
•
•Výběrová validita
•
•Faktorová validita

Zjevná (zdánlivá, face) validita
–u zdánlivě validního testu se zdá, že měří to, o čem se tvrdí (předpokládá), že měří
–ale neexistuje logický vztah mezi zdánlivou a skutečnou validitou
–při psaní položek často jediné vodítko, ustavení vztahu probanda k testové situaci
–může zvýšit motivaci osob
–není žádoucí vlastností dotazníků, pravděpodobně vede ke zkreslení, zvláště při výběrech osob
(konkursy apod.)
–u testů schopností problémy nepůsobí, ale zjevně validní test úzkosti by např. při výběru
civilních pilotů nikdy nefungoval
•Příklad: posuzování rozměrů různých předmětů denní potřeby je zdánlivě validní např. jako test
praktických znalostí, ale ve spojení s časovým limitem může být testem úzkosti

Výběrová (sample) validita
•vlastní obsahová validita, validita na základě definice, posouzení výběru prvků obsahového
univerza, souvislost se zjevnou validitou
•použití – výkonové testy a testy vědomostí a schopností
•postup – expertní posouzení
1.pečlivá definice rysu nebo obsahové oblasti v pojmech chování
2.rozdělení celé oblasti do kategorií představující hlavní aspekty oblasti
3.posouzení počtu položek v každé kategorii
•Příklad: obsahová validity hudebního testu pro studenty by se zkoumala prostřednictvím posouzení
testu skupinou hudebníků nebo hudebních pedagogů; jejich vyjádření, zda test pokrývá všechny
důležité aspekty hudební schopnosti očekávatelné u studentů s určitou zkušeností

Faktorová validita
•obsah testu na základě faktorové analýzy různých obsahů
–někdy je faktorová validita považována za součást empirické, ale ve skutečnosti se nehodnotí
kritérium
•Příklad:
–původně 7 faktorů inteligence podle Thurstonea (porozumění slovům, slovní fluence, čísla,
prostorové vztahy, asociační paměť, percepční rychlost, obecné usuzování)
–později FA odhalovala další a další faktory
–Guilford na základě svých výzkumů přes 40 faktorů intelektu, po roce 1956 systematizace:
–120 faktorů
•I. operace: kognice, paměť, produktivní myšlení (konvergentní a divergentní myšlení), hodnocení
•II. obsahy: sémantický, symbolický, figurální, behaviorální
•III. produkty: jednotky, třídy, vztahy, systémy, transformace, implikace

Empirické důkazy o validitě
•prokázání vztahu mezi výsledkem testu a nějakým kritériem
•Důkaz
–Pearsonova nebo jiná korelace
–rozdíl v definovaných skupinách, procenta správně klasifikovaných osob vzhledem k jasně
definovaným skupinám
•problém – nalezení vhodného kritéria – kritérium by mělo být vysoce reliabilní a validní, u
některých ukazatelů vhodné kritérium neexistuje
•omezení – omezení rozsahu hodnot v důsledku předvýběru osob
•Příklad: u hudebníků neexistuje vztah mezi hudebním sluchem a libovolnou další proměnnou, protože
hudební sluch mají všichni, ve výzkumu není velice důležitá skupina (ti, kteří neuspěli nebo
neprojevili zájem), což omezuje vztah mezi proměnnými

Empirické důkazy o validitě
•
•Prediktivní validita
•Souběžná validita
•Inkrementální validita
•Diferenciální validita

Prediktivní validita
•test vyznačující se prediktivní validitou bude predikovat nějaké kritérium
•Příklad: vztah inteligence a akademického úspěchu
–korelace skórů inteligenčního testu dětí v 5 letech s jejich následnými akademickými úspěchy
–problémem je index akademického úspěchu (problém srovnatelnosti známek z různých předmětů, škol
atd.)
–očekávaná korelace IQ a kritéria významná, ale nepříliš těsná (0,3-0,4)

Souběžná (concurrent) validita
•souběžně validní testy navzájem vysoce korelují
–způsob, jak nahradit prediktivní validitu
•
•Příklad: korelace mezi současně administrovanými testy neverbální inteligence
•

Inkrementální validita
•definice – inkrementální validitu má test, který přináší informaci, kterou nelze získat z jiných
zdrojů
–vždy vzhledem k nějakému účelu
–nulová korelace reliabilního testu s některým testem použitým v baterii může znamenat informaci
•nutné – při výběrech
•kritérium – výsledky mnohonásobné regrese
•položky – měly by korelovat s kritériem, ale nulově mezi sebou
–tzn. měly by mít inkrementální validitu
–to je v rozporu s požadavkem vnitřní konsistence
•Příklad: různé subtesty inteligenčního testu mají vůči sobě inkrementální validitu v situaci
zjišťování struktury schopností (např. při poradenství pro volbu školy)

Diferenciální validita
•2 významy:
1.
1.validita pro rozlišování na dané vlastnosti mezi osobami
–použití – praktická psychodiagnostika
–Příklad: testy zájmů mají nízké korelace s úspěchem na univerzitě, ale platí to do různé míry u
různých skupin osob
–inteligence považována za faktor všech intelektuálních činností, ale zájem o vědu koreluje více se
zájmy o hudební aktivity nebo historii
2.validita pro odlišení daného rysu od rysů ostatních
–použití – posouzení konstruktové validity
–Příklad: u mnoha testů osobnostních rysů je prvním úkolem validizace dokázat, že test neměří
extraverzi nebo neuroticismus (nebo další příbuzné rysy)

Konstruktové důkazy o validitě
•vyjádření potřeby – zprávy z výborů APA pro psychologické testy (1952, 1954
–každá validizační studie má obsahovat také hodnocení samotného měřeného konstruktu a teorie
•pojem – Cronbach a Meehl (1955)
•logický postup (Cronbach a Meehl, 1955):
1.předpoklad, že test měří rys A
2.posouzení současné teorie o rysu A
3.formulace hypotéz, s čím bude a s čím nebude mít rys A vztah
4.empirické ověření hypotéz

Typy hypotéz
• Příklad pro test inteligence
1.
1.skóry testu budou korelovat se skóry jiných testů inteligence administrovaných nyní a
v budoucnosti (souběžná a prediktivní validita)
2.skóry testu nebudou korelovat s testy, které nejsou považovány za testy daného rysu (tzn.
definice pomocí vyloučení – souběžná a diskriminační validita)
3.skóry testu budou korelovat s akademickými výkony nyní a v budoucnosti (prediktivní validita)
4.skóry testu budou na vysoké hladině významnosti diskriminovat mezi různými skupinami profesí
5.ve faktorové studii schopností budou faktory testu vysoce sytit první společný faktor
6.při oddělené analýze různých sociálních skupin bude stále významná korelace mezi testem a
akademickým výkonem

Vyvrácení hypotéz
•3 možnosti (Cronbach a Meehl, 1955):
•
1.test neměří danou proměnnou (konstrukt)
2.teoretická síť generující hypotézu je nesprávná
3.testování hypotézy selhalo

Poznámky ke konstruktovým důkazům o validitě
1.někdy se zjistí, že kritérium používané v raných stadiích vývoje testu je méně validní než test
–Příklad: IQ testy byly původně vytvořeny tak, aby korelovaly s hodnocením učitelů, dnes se IQ
považuje za přesnější
2.uživatel testu potřebuje znát i teorii a důkazy její platnosti
–dokud není teorie „pochopena“, není možné ji validizovat
3.konstruktovou validitu testu lze hodnotit pouze tehdy, když je zveřejněn
–je na místě opatrnost při používání testů, jejichž principy jsou tajné
4.každý výsledek ve shodě s teorií postupně podporuje validitu
–ale dobře zakotvený negativní nález může vše najednou vyvrátit
5.otázka po validitě testu je v konečném důsledku naivní, protože test nelze nikdy zcela
validizovat (Cronbach a Meehl, 1955)
–test může být validní pouze vzhledem k nějakému účelu

Přístup MTMM
•princip: 2 míry stejného rysu by měly vysoce korelovat, ale vysoká korelace s irelevantním rysem
je v rozporu s validitou
–postupy: korelační a faktorová analýza
•přístup MTMM: (Campbell a Fiske, 1959) – konvergentní a diskriminační princip uplatněný při
analýze aspoň 2 rysů měřených aspoň 2 metodami
–tzv. MTMM matice
•
1.diagonály reliability
2.diagonály validity
3.heterorysové-monometodové trojúhelníky
4.heterorysové-heterometodové trojúhelníky

Způsob uvažování
•důkaz konvergentní validity: hodnoty v diagonálách validity jsou statisticky významně nenulové a
dost vysoké, aby podpořily zájem o další výzkum
•
•důkazy diskriminační validity:
1.
1.hodnoty v diagonále validity jsou vyšší než hodnoty v sousedním heterorysovém-heterometodovém
trojúhelníku
2.hodnoty v diagonále validity jsou vyšší než hodnoty v heterorysových-monometodových
trojúhelnících
3.ve všech heterorysových trojúhelnících lze pozorovat podobné vzorce korelací

Princip matice MTMM


Aspekty validity: Samuel Messick
•Obsahové
•Věcné (předmětné)
•Strukturní
•Zobecnitelnost
•Externí
•Důsledkové

Konstrukce psychodiagnostických metod
•Obecné poznámky
•konstrukce metody – směs tvořivého postupu a vysoce odborné výzkumné činnosti
•nutnost – vhodný postup výběru položek
–základ takového postupu tvoří nějaká konkrétní metoda analýzy položek
•Konstrukce testu
•- vymezení a rozdělení zkoumané oblasti (viz zdánlivá validita)
•- často posouzení prvních představ experty z řad kolegů

Tvorba položek
•snaha stimulovat odpovědi o typickém chování (přímá otázka)
•
•dotaz o jedinečném důsledku plynoucím z nějaké charakteristiky (nepřímá otázka)
•
•snaha zjistit úroveň schopnosti, dovednosti, vědomosti

Formáty odpovídání
•
•krátká odpověď
•doplňování vět
•škála
•mnohonásobná volba
•spojování
•

Zásady tvorby položek
•otázka a instrukce má být co nejjasnější
–vyhýbat se složitým nebo nezvyklým formulacím
–uvést vše potřebné pro výběr odpovědi
–na správných odpovědích se musí shodnout kompetentní experti
–všechny nesprávné alternativy by měly přibližně stejně přijatelné
–nelze použít překrývající se nebo navazující odpovědi
–mnohonásobných voleb aspoň 3 alternativy
–párování nemá obsahovat více než 10 prvků na každé straně
–odpověďová škála 5-9 bodů

Zásady tvorby položek
•vyhýbání se náznakům
–všechny alternativy gramaticky vyrůstající z hlavní věty
–správné odpovědi podobné délky jako distraktory
–ani stereotypní ani učebnicové formulace
–u nesprávných odpovědí nepoužívat extrémy jako vždy nebo nikdy
–správné odpovědi by neměly být na zvláštním místě častěji než jinde

Zásady tvorby položek
•vyhýbání se kontaminacím
–vyhýbat se chytákům
–vyhýbat se dlouhým a rozvitým větám s mnoha kvantifikacemi
–slova opakující se v odpovědích mají být součástí otázky
–pokud existuje logické uspořádání odpovědí, mělo by být použito
–vyhýbat se dvojitému záporu

Analýza položek
•Základní myšlenka analýzy položek – pokusná verze testu předložena vybranému souboru osob, získaná
data jsou statisticky zpracována, výsledky slouží jako vodítka pro další modifikaci metody
•
•Hlavní zásady
•Výběr osob – v ideálním případě data od velkého a reprezentativního souboru osob
–velký soubor – čím větší soubor, tím nižší standardní chyby výběrových statistik
–aspoň 2–3´ větší než počet proměnných (klasická analýza položek)
–aspoň 2–3´ větší než počet parametrů faktorového modelu (faktorová analýza)
–reprezentativní soubor – podobající se v hlavních charakteristikách populaci, pro kterou je metoda
určena (nutno uvážit, které charakteristiky budou mít vztah s měřeným rysem)

Klasická analýza položek
•Charakteristiky položek
–obtížnost položky – procento osob, které odpověděly správně (vlastně jednoduchost)
•u osobnostních testů – procento osob, které odpověděly v diagnostickém směru (tzv. popularita
položky)
–rozlišovací účinnost položky – vztah skóru položky a skóru celého testu
•také – reliabilita položky
•korekce – skór položky a součtu zbylých položek testu
–validita položky – vztah skóru položky a nějakého vnějšího kritéria

Vhodné míry vztahu
•Pearsonova korelace a její modifikace
–např. bodově-biseriální korelace
•Pearsonova korelace, u které je jedna z proměnných dichotomická)
•
•
•
•
•kde m1 – průměr celkového skóru osob s položkou vyřešenou správně, m0 – průměr celkového skóru
osob s položkou vyřešenou nesprávně, sx – směrodatná odchylka celkových skórů, pi – podíl
(procento) osob s položkou zodpovězenou správně, qi = 1 – pi

Psychometrický paradox
•jak roste vnitřní konsistence testu, klesá jeho validita
•
–Souvislosti
•inkrementální validita
•nutnost kompromisu mezi vnitřní konsistencí a „nekonsistencí“ obsahu položek

Metody konstrukce testů
a analýzy položek
•klasické přístupy:
•
•
–
•
•
•
•nové přístupy:
1.přístup založený na kritériu
2.přístup založený na klasické analýze položek
3.přístup založený na faktorové analýze
4.přístupy založené na teorii odpovídání na položku

Přístup založený na kritériu
•cíl – metoda, která bude rozlišovat mezi určitými skupinami osob
–příklad – MMPI, Strongův zájmový inventář
•
•použití – aplikované oblasti psychologie, screening
•nedostatky - jedná se o produkty slepého empirismu
–absence psychologického významu
–skupiny se zřejmě neliší pouze v jediné proměnné
–nemusí být jasné, co škála měří
–problém výběru vhodných skupin
•sama klasifikace do skupin může být velmi nereliabilní
–značná specifičnost těchto testů

Postup analýzy položek
1.Určení skupin, mezi kterými má test rozlišovat
•nebo jiného kritéria
2.Výběr osob do výzkumu
•rozsah roste s počtem skupin, mezi kterými má test rozlišovat (diagnostické a kontrolní skupiny –
aspoň 200 ve skupině)
3.Administrace pokusné verze metody vybraným osobám
4.Statistická analýza
•t-testy, analýza diskriminační funkce, korelace položky s členstvím ve skupině
5.Posouzení položek
•statisticky významný vztah s kritériem, výběr žádoucího počtu položek (nutno připravit jich aspoň
2´ tolik)
6.Pohlaví
•analýza pro muže a ženy zvlášť (snaha vybrat položky, které mají v obou skupinách podobné
výsledky)
7.Validizace
•ověření výsledků na nové skupině osob nebo s novým kritériem (modifikace a opakování postupu od
začátku)

Alternativní postupy
•Metoda postupného skládání
–výběr nejvalidnější položky, k ní výběr další položky, která má spolu s ní nejvyšší validitu atd.
dokud nevznikne test žádané délky
•Metoda postupné redukce rezidua
–výběr nejvalidnější položky, jako další je vybrána ta položka, která nejlépe predikuje reziduální
kritérium atd. opět až do stanoveného počtu položek
•
•Možnost ověření pomocí faktorové analýzy
1.faktorování škály – její lokalizace ve faktorovém prostoru spolu s jinými škálami (pokud škála
měří 1-2 faktory)
2.faktorování položek – faktorová analýza položek škály spolu s položkami jiných škál

Přístup založený na klasické analýze položek
•cíl – homogenní test
•
•Postup - velmi podobný jako u předchozí metody
–tzn. pokusná verze metody administrovaná reprezentativnímu a velkému souboru osob atd.
•
•Kritéria
–Rozlišovací účinnost položky
•korelace skóru položky a celkového skóru (nad 0,3)
–Obtížnost položky
•p-hodnota (jednoduchost/popularita – mezi 0,2 a 0,8)

Další cíle tohoto přístupu
•Nutnost prokázat validitu
–tento způsob výběru položek do testu zvyšuje homogenitu, je tedy jisté, že test něco měří, ale co?
•Nutnost prokázat jednofaktorovost
–homogenita není totéž jako jednorozměrnost (opět možnost uplatnění faktorové analýzy)
•
•Výhoda
–není nutný tak rozsáhlý soubor (často stačí N = 100)
•Nevýhoda
–nemožnost konstrukce více škál současně

Přístup založený na faktorové analýze
•cíl – jednofaktorový test
•
•Postup – opět velmi podobný jako u předchozích metod
•
•FA – z testu jsou vyřazeny položky, které mají na prvním společném faktoru nižší náboje než 0,3
•
•Opět – nutnost prokázat validitu metody, v tomto případě s důrazem na validitu získaných faktorů
•
•Nutnost prokázat reliabilitu metody – jednofaktorový test je vnitřně konsistentní, proto je třeba
zjistit test-retest reliabilitu

Konstrukce rychlostního testu
•Nelze
–použít ani klasickou analýzu položek
–ani faktorovou analýzu
•důvod
–korelace mezi položkami jsou artefakty časového omezení administrace testu a uspořádání položek
•položky umístěné v testu brzy po sobě spolu korelují, kdežto vzdálené položky ne
•
•Nutný postup
–administrace testu několika skupinám osob s různým časovým omezením
–výběr časového omezení, které má nejvyšší reliabilitu (tzn. i nejvyšší rozlišovací schopnost)

Důležitost replikace
•
• Ve všech případech je nutné prokázat, že zjištěné výsledky platí i pro jiné osoby než ty, která
byla testovány při tvorbě testu

Normalizace – tvorba norem
•Normalizace
–někdy také nazývána standardizace (to je širší pojem)
•Účel norem
–snaha vyhnout se chybám interpretace
–porovnání individuálního skóru v testu se skóry relevantní populace
–testovým skórům dávají normy psychologický smysl (umožňují interpretaci)

Dvě základní otázky
1.
1.jak je definována skupina
•pohlaví, věk, školní třída, povolání, region, socioekonomický status atd.
2.
2.jaké je pravidlo porovnávání
•
•

Základní pojmy
•hrubý skór
–nějaká míra úspěchu nebo neúspěchu v testu (počet vyřešených úkolů, reakční čas atp.)
–nějaká míra souhlasu nebo nesouhlasu se skupinou položek (např. součet hodnot u jednotlivých
položek)
•odvozený skór (vážený skór)
–skór definovaný na základě porovnání hrubých skórů vyšetřované osoby se skóry určitého souboru
osob
•normy
–vhodná transformace hrubého skóru na odvozený skór na základě srovnání s relevantní normativní
skupinou

Význam normálního rozložení


Možné výjimky z normality
1.test je pro danou skupinu příliš obtížný nebo snadný (šikmé rozložení)
–řešení: za předpokladu normality možnost plošné transformace, obecně ale nutnost revize a
položkové analýzy
2.skupina není homogenní vzhledem k měřenému rysu (bimodální nebo polymodální rozložení)
–řešení: oddělená analýza a normy pro jednotlivé podskupiny
3.rys souvisí se sociální konformitou (rozložení typu J nebo L)
–řešení: transformace do normálního tvaru se nedá použít, normální rozložení je chybný předpoklad

Soubory pro tvorbu norem
•2 kritéria
–
–velikost a reprezentativnost
–reprezentativnost je do značné míry nezávislá na velikosti
–malý soubor nemůže být opravdu reprezentativní vzhledem k velké populaci
•závisí to na homogenitě populace
•

Metody výběru
•Pravděpodobnostní výběr
–Náhodný výběr
–Stratifikovaný náhodný výběr
•
•Nepravděpodobnostní výběr
–Kvótní výběr
–Výběr metodou sněhové koule
–Záměrný výběr

Náhodný výběr
•Princip – stejná pravděpodobnost, že jakýkoli člen populace bude součástí výběrového souboru
–dostatečně velký náhodný soubor tak může být zcela reprezentativní vzhledem k populaci, pro kterou
byl vybrán
•Definice populace – operacionální, např. na základě vhodného seznamu
–problém – takový seznam zpravidla neexistuje (seznamy na základě sčítání lidu jsou neaktuální,
volební seznamy obvykle nekompletní, telefonní seznamy nadhodnocují zastoupení středních vrstev
atp.)
•Procedury náhodného výběru
–tabulky náhodných čísel (počáteční pozice určena hodem kostky)
–generátor pseudonáhodných čísel v počítači
–každá i-tá osoba od určité pozice za předpokladu, že pozice v seznamu je náhodná
•Problémy – náhodný výběr je možný pouze tam, kde existuje nějaký adekvátní seznam populace; soubor
musí být velký, což znamená velké nároky na čas a peníze

Stratifikovaný náhodný výběr
•
•Princip – rozdělení heterogenní populace do několika homogennějších populací
•Proměnné pro stratifikaci – musí mít souvislost se studovanou proměnnou
–pokud je jich příliš mnoho, soubor je obrovský
–při použití nevhodných proměnných nebude reprezentativní
•
•Příklad: normy pro Lorge-Thorndikeův inteligenční test pro děti jsou velmi kvalitní (u nás
neznámý)
–definice populace založena na obcích
–nutné vzít v úvahu také věk dětí
–stratifikační proměnné (vztah se skórem IQ v obcích)
•procento gramotnosti dospělých v obci
•podíl odborných pracovníků v obci
•procento vlastnictví domů
•medián hodnoty domovního nájemného
•výběr – 44 tříd obcí, v každém typu otestováno 11000 dětí v každé věkové úrovni od 6-17, výsledkem
je N = 132000

Pravidla pro výběr z obecné populace
1.stratifikovaný výběr je efektivnější a pro standardizaci testu nejlepší
2.obvykle stačí 4 úrovně klasifikace (při příliš velkém počtu kritérií je nutný příliš velký
soubor)
3.stratifikační proměnné musí vysoce korelovat s testem
4.v každé podskupině musí být dostatek osob
–300 je minimum
•pak např. 5 sociálních tříd, 2 pohlaví, 5 věkových skupin – tzn. 50 kategorií – tzn. N = 15000

Výběr ze speciálních populací
•soubory mohou být menší, ale je mnohem větší problém s definicí populace
•
•např.:
–stačí při výzkumu zlodějů kritérium usvědčení z krádeže?
•mnoho zlodějů je nechycených
–seznam osob s diagnózou schizofrenie
•kromě toho problém s malou shodou v diagnózách

Pravidla pro výběr ze speciálních populací
•
1.stratifikace výběru podle proměnných nejvýše korelujících s testem
2.
2.minimální N = 300
3.
3.malý soubor je lepší než nic, ale je nutné na to uživatele norem upozornit

Typy odvozených skórů
•
•Věkové a ročníkové skóry
•
•Percentily
•
•Standardní skóry

Věkové a ročníkové skóry
•nejstarší způsob jak vyjádřit srovnání s relevantní skupinou (mentální věk)
–nelze použít, pokud rys nemá těsný vztah s věkem
•
•výhoda – jsou pochopitelné i pro laiky
•použití – obecné nebo školní schopnosti a výkonové testy
•2 možnosti
–průměrný skór pro každou věkovou úroveň
–průměrný věk pro každou úroveň skóru

Klasický IQ
•William Stern
•
• ___MV___  x 100
•      ChV
•
•MV – mentální věk, ChV – chronologický věk

Percentily
•skóry, pod které spadají daná procenta normativní skupiny
•výhoda – chápou i osoby, které test vyplňovaly
–jednoduchá interpretace dokonce i při šikmém nebo bimodálním rozložení
•Nevýhody
–jedná se o ordinální skóry, takže nelze použít parametrické statistické metody
–rozložení percentilů je rovnoměrné, kdežto rozložení testových skórů obecně normální
•
•2 typy zkreslení:
–malé rozdíly kolem průměru se nadhodnocují
–poměrně velké rozdíly na koncích distribuce se setřou
•
•použití – vysvětlení výsledků

Standardní skóry
•převedení jednotek hrubých skórů na jednotky definované směrodatnou odchylkou
–existuje jich mnoho druhů, všechny jsou odvozeny od z-skórů:
•
•
•
•
•kde zi – z-skór osoby i, xi – skór získaný osobou i v testu X, mX – průměr rozložení skórů testu
X, sX – směrodatná odchylka skórů testu X
–vlastnosti
•průměr m = 0
•směrodatná odchylka s = 1
•většina hodnot leží v rozmezí od –3 do +3
•jedná se o lineární transformaci hrubých skórů, takže je zachováno původní rozložení hrubých skórů

Výhody a nevýhody z-skórů
•Výhoda
–stejné z-skóry jsou vždy ekvivalentní
•z = 2 je vždy 2 směrodatné odchylky nad průměrem
•možnost srovnávat skóry různých testů
•
•Nevýhody
1.většina psychologů jim příliš nerozumí (probandi ještě méně)
2.mnoho testů nemá normální rozložení (nelze převádět na percentily)

Řešení nevýhody 1
•lineární transformace na jinou standardní škálu
–přičtení vhodné hodnoty průměru
–násobení směrodatné odchylky vhodnou konstantou
•
•Obecný vzorec:
•
•zt = a + bz
•
•kde zt – transformovaný z-skór, a – průměr transformované distribuce, b – směrodatná odchylka
transformované distribuce, z  – původní z-skór

Typy transformovaných z-skórů
•
•T-skóry m = 50 s = 10
•Steny m = 5,5 s = 1,5
• (standard ten – výsledkem je 10 skórů)
•staniny m = 5 s = 2
• (standard nine – 9 skórů)
•Wechslerovy testy inteligence (deviační IQ)
• m = 100 s = 15 (nebo 16)
•

Řešení nevýhody 2
•transformace celého rozložení na rozložení normální
–tzv. plošná transformace
•
•předpoklady: je možné provést pouze u proměnných, jejichž původní rozložení je přibližně normální,
existuje teoretický předpoklad normálního rozložení a soubor pro normalizaci je dostatečně velký a
reprezentativní

Alternativní metody interpretace testových skórů
•
•Obsahové kritérium
•
•Expektanční tabulky
•
•Regresní metoda
•
•Ipsativní skóry

Obsahové kritérium
•úzká souvislost s obsahovou validitou
–musí existovat jasně definovatelný obsah
•
•použití: nejběžnější na elementární úrovni v odborných předmětech (např. hudba, matematika)
•problém: nalezení kritických skórů pro danou metodu

Expektanční tabulky
•tabulky obsahující pravděpodobnosti úspěchu nebo neúspěchu pro dané hodnoty skórů
–zcela empirický postup
•
•nutnost:
–jasně definovaná kritéria (často vzdělávací a průmyslové aplikace testů)
–testování velkých souborů osob z relevantní populace (aspoň 20 osob pro každou buňku tabulky)
•problém:
–použití pravděpodobnostní předpovědi v individuálním případě
•(z dlouhodobého hlediska jsou rozhodnutí pro velký počet osob správná, ale pro libovolného
jednotlivce může jít o chybné rozhodnutí)
–je nutné velké množství informací

Regresní metoda
•použití regresní rovnice k predikci skórů kritéria ze skórů testu
•
•Regresní rovnice:
•
•Ypred = a + bX
•
•kde Ypred – predikovaný skór kritéria, a – regresní konstanta, b – regresní koeficient, X – skór
v testu
•
•velikost chyby predikce: závisí na těsnosti vztahu testu a kritéria
•použití regresní metody: má smysl pouze při nízké hodnotě standardní chyby odhadu

Ipsativní skóry
•porovnání hodnot různých subtestů u jedné osoby
•
•např.: pro každou položku výběr nejvíce a nejméně sympatické odpovědi (test obranných mechanismů)
•zvláštnosti:
1.korelační matice položek nedává smysl (negativní korelace škál představují artefakt), takže např.
výsledky faktorové analýzy nelze interpretovat
2.nemá smysl vytvářet normy, protože skóry mezi osobami nejsou srovnatelné (jedinou možností jsou
pořadí odpovědí u osob)
•použití: základ pro diskusi s osobou, která vyplnila test (tzn. hlavně v klinické a poradenské
psychologii)
•

Metody založené na IRT
(teorii odpovídání na položku)
•
•normy nejsou v zásadě vůbec nutné
–ale vytvářejí se pro lepší interpretaci výsledků
•

Kde nejsou normy důležité
•ve výzkumu
•při psychometrické analýze individuálních rozdílů
•při studiu vlastností, schopností, osobnosti, motivace, nálad atd.
•
•právě naopak: transformace na odvozené skóry může znamenat ztrátu informace (redukce variability)

Nové přístupy v psychodiagnostice
•
•Teorie odpovědi na položku
•
•Počítačové adaptivní testy
•
•Teorie zobecnitelnosti

Teorie odpovědi na položku
•IRT – item response theory
–
–počátky těchto přístupů už u Thorndika a Thurstona
–vývoj dlouho v pozadí vývoje klasické teorie testů
–IRT je ale obecnější a flexibilnější
•

Porovnání s klasickou teorií testů
•Klasická teorie testů
•
1.Standardní chyba měření se týká všech skórů určité populace (také celkový index reliability)
2.
2.
2.Delší testy jsou reliabilnější než kratší
3.Porovnání skórů testů u různých forem závisí na míře paralelnosti testů
4.Nezkreslené odhady vlastností položek závisí na reprezentativních výběrech z populace
•Teorie odpovědi na položku
•
1.Standardní chyba měření se liší pro jednotlivé osoby s odlišnými vzorci odpovědí, ale lze ji
zobecnit v dané populaci (podmíněná st. chyba měření)
2.Kratší testy mohou být reliabilnější než delší testy
3.Porovnání skórů testů u různých forem je optimální, pokud se úroveň obtížnosti pro jednotlivé
osoby liší
4.Nezkreslené odhady vlastností položek lze získat z nereprezentativních výběrů

Charakteristiky IRT
•Cíl IRT: vývoj testů, u kterých jsou vlastnosti položek nezávislé na souboru a měření latentního
rysu nezávislé na položkách
•Latentní rys: odpovědi na položky lze vysvětlit existencí latentního rysu
•
•Charakteristická funkce položky: vztah skóru položky s vektorem latentního rysu
–u dichotomické položky se jedná o pravděpodobnost kladné (nebo správné) odpovědi v závislosti na
úrovni latentního rysu
–normální ogiva – jeden z modelů pro charakteristickou funkci položky

Parametry položky
•a) rozlišovací účinnost položky
–míra variability v závislosti na úrovni latentního rysu
–přesněji – směrnice (strmost) křivky v oblasti kolem pravděpodobnosti správné odpovědi rovné 0,5
•b) obtížnost položky
–poloha charakteristické funkce položky na škále latentního rysu
–přesněji – bod na škále latentního rysu, kde charakteristická křivka položky přetíná hodnotu
pravděpodobnosti správné odpovědi 0,5
•c) parametr pseudo-uhádnutelnosti
–pravděpodobnost kladné/správné odpovědi u osoby s nulovou úrovní latentního rysu

Různé modely IRT
•1PL – model s jedním parametrem (Raschův model)
–obtížnost
•2PL – model se dvěma parametry
–obtížnost a rozlišovací účinnost
•3PL – model se třemi parametry
–obtížnost, rozlišovací účinnost a pseudo-uhádnutelnost

Tvar charakteristické křivky položky
•
•základním předpoklad – monotónní rostoucí křivka
–některé křivky inspirované psychofyzikou
–mezi různými typy křivek existuje značná shoda
–nejvíce normální ogiva nebo logistická křivka (výhodnější výpočet a použití v psychofyzice)

Charakteristické křivky
 a parametry položek


Konstrukce testu podle IRT
•každá položka by měla mít jinou charakteristickou funkci
–obecný tvar (definovaný vhodnou funkcí) by měly mít stejný
–hlavní zájem – úroveň obtížnosti a rozlišovací účinnost položek
•
•Důležité vlastnosti:
–možnost odhadu skórů osob na položkách, které osoby neřešily za předpokladu znalosti pozice
položek na škále latentního rysu
•tzn. na základě známé char. funkce položky – CHFP
–skór podmnožiny položek dovoluje odhad skóru celého testu
•výhoda ve srovnání s ekvivalentními testy
–odhady obtížnosti jsou nezávislé na úrovních latentního rysu osob
–parametry položek nezávislé na populaci a parametry osob nezávislé na položkách

Další důležité indexy
•
•Informace položky:
–
•
•Informace testu:
–analogie křivky informace položky, suma křivek informace jednotlivých položek; tzn. úroveň
přesnosti testu pro každou úroveň latentního rysu
•
•Podmíněná standardní chyba měření:

Podobnosti IRT a klasické teorie testů
•faktorová analýza tetrachorických korelací položek je dobrým testem jednorozměrnosti položek za
předpokladu modelu normální ogivy
•faktorové náboje položek v prvním faktoru jsou dobrými odhady sklonu charakteristické křivky
položek
•na základě p (jednoduchost) a r (korelace položky s celkem) lze vypočítat obtížnost, rozlišovací
účinnost a uhádnutelnost

Počítačově administrované testování
•možnost administrovat položky, které by jinak administrovat nešlo
•počítačový test jako paralelní forma k testu papír-tužka
•
•Základní požadavky: instrukce musí být jasné, ovládání jednoduché
–odpovídání na otázky
–přechod k další otázce
–změna odpovědi
–zpětné prohlížení)

Výhody počítačové administrace
•možnost okamžité práce s daty
•administrace vždy naprosto stejná
–podmínkou je ale např. stejné vybavení – např. monitor
•možnost testování handicapovaných atd.
•údajně poctivější odpovědi
–před počítačem neexistují zábrany

Nevýhody počítačového testování
•při hromadném testování nutný počítač pro každou osobu
–náklady na vyšetření
•nutná ekvivalence počítačové a tradiční formy
•častá námitka, že neexistuje živý kontakt s osobami
•u počítačově administrovaných inteligenčních testů údajně vyšší úzkost a nižší motivace osob
•zejména se nedoporučuje počítačová interpretace výsledků
–např. jak citlivě informovat o nepříznivých výsledcích
•etické problémy
–zacházení s lidmi jako s objekty

Počítačové adaptivní testování
•Adaptivní testování:
–postup, při kterém se používají pouze položky testu vybrané na základě vhodného kritéria
•Počítačové adaptivní testování:
–každé osobě lze administrovat pouze malou část položek vybraných přímo pro ni díky spojení
s teorií odpovědi na položku
•Základy počítačového adaptivního testování:
–index obtížnosti na základě IRT pro každou položku
–administrace položky s 50% úrovní obtížnosti
–po správné odpovědi administrace obtížnější položky, po nesprávné odpovědi administrace jednodušší
položky
•Důsledek:
–testy tak mohou být mnohem kratší

Položková banka
•
•množina položek, ze kterých je možné vybírat pro účely počítačového adaptivního testování
•možnost konstrukce velmi přesných paralelních testů
•úzké spojení s teorií odpovědi na položku
•

Výhody počítačového adaptivního testování
•
•pro většinu osob stačí krátký test
•při dostatečné zásobě položek možnost opakovaného testování
•při výběrových řízeních může každá osoba dostat jinou sadu položek
•použití části položek a přitom přesný skór
•test jako součást expertního systému

Nevýhody počítačového adaptivního testování
•
•v některých oblastech nemá pojem obtížnosti smysl
•
•stejné jako u počítačově administrovaného testování
•