Faktorová analýza
PSY259 – ZÁKLADY PSYCHOMETRIKY (PŘEDNÁŠKA 4)
6. 4. 2020 | ADAM ŤÁPAL
CTT vs. teorie latentních rysů (např. FA)
Klasická testová teorie:
• Položky jsou paralelními (zaměnitelnými) testy (měřítky) měřeného konstruktu
• Měřeným konstruktem je pravé skóre (true score) osoby v testu
• Měřený konstrukt je tedy závislý na testu (souboru položek), je jím
operacionalizovaný („Pravé skóre je to, co měříme tímto testem“)
• Operacionalismus: Konstrukt (a jeho význam) nelze oddělit od metody
• Antirealismus: Konstrukt reálně neexistuje, je něčím, co jsme si jen vymysleli
CTT vs. teorie latentních rysů (např. FA)
Teorie latentních rysů:
• Konstrukty reálně existují
• Konstrukty způsobují reakce na stimuly / odpovědi na položky
• Konstrukty jsou společnou příčinou chování
(Položky v testu inteligence spolu korelují, potože správnost odpovídání na ně má
společnou příčinu – inteligenci)
• Realismus: Konstrukty = latentní rysy existují a jsou příčinou pozorovaného
chování
Faktorová analýza
• Vysvětluje / popisuje vztahy mezi (spojitými) manifestními proměnnými
a (spojitými) latentními proměnnými (rysy)
• Manifestní proměnná (MV) – proměnná, kterou lze přímo měřit či pozorovat
• Latentní proměnná (LV) – proměnná, kterou NELZE přímo měřit či pozorovat –
hypotetický konstrukt. Faktory ve faktorové analýze jsou právě latentními
proměnnými. Tedy – faktor (LV) je stále nějaká (spojitá) proměnná a různí lidé
„mají“ své skóry na této proměnné (alespoň to je předpoklad J )
Manifestní proměnné:
Běh:
1) Jak rychle zaběhl 100m?
2) Jak rychle zaběhl 400m?
3) Jak rychle zaběhl 800m?
Šachy:
1) Kolikrát z 10 her porazil cvičenou opici?
2) .... okresního mistra v šachu?
3) .... Garriho Kasparova?
Měřené osoby:
Adolf
Běh: (20s, 90s, 180s)
Šachy: (3, 1, 0)
Bruno
Běh: (40s, 180s, 300s)
Šachy: (4, 2, 1)
Cecil
Běh: (50s, 190s, 320s)
Šachy: (7, 4, 3)
Manifestní proměnné:
Běh:
1) Jak rychle zaběhl 100m?
2) Jak rychle zaběhl 400m?
3) Jak rychle zaběhl 800m?
Šachy:
1) Kolikrát z 10 her porazil cvičenou opici?
2) .... okresního mistra v šachu?
3) .... Garriho Kasparova?
Latentní proměnné:
Schopnost rychle běžet
Skill v šachu
Měřené osoby:
Adolf
Běh: (20s, 90s, 180s)
Šachy: (3, 1, 0)
Bruno
Běh: (40s, 180s, 300s)
Šachy: (4, 2, 1)
Cecil
Běh: (50s, 190s, 320s)
Šachy: (7, 4, 3)
Faktorová analýza
• Schopnost rychle běžet ani skill v šachu neumíme (nemůžeme) nijak „přímo“
měřit, zbývá nám na ně usuzovat
• Předpokládáme, že obě latentní proměnné se manifestují skrze něco, co měřit
nebo pozorovat můžeme – manifestní proměnné
• Rozdílná schopnost rychle běžet mezi osobami se bude manifestovat rozdílnými
časy na jednotlivých tratích, ale nebude mít sama o sobě nic společného s
počtem výher v šachu
• Rysy osobnosti či postoje se mohou manifestovat mírou (nesouhlasu) s
tvrzeními, která by měla být pro vysokou/nízkou míru rysu typická
(„Hrozně rád jsem ve společnosti středem pozornosti“)
Faktorová analýza
• Faktorová analýza nám do ruky dává matematický nástroj (statistický model),
který nám umožňuje vztahy mezi manifestními a latentními proměnnými studovat
• Na předchozích slidech jsme si představili základní premisu FA konceptuálně...
• Pojďme to vzít trochu techničtěji a abstraktněji – představením modelu
Základní pojmy
• Jaká je typická podoba dat v případě faktorové analýzy?
• Multivariační data – data pro soubor osob, větší množství manifestních
(měřených, pozorovaných) proměnných (např. skóry z testů, škál, položek...)
Datová matice:
Co sloupec, to proměnná
Co řádek, to osoba
Základní pojmy
• Jednotlivé buňky v datové matici představují skór dané osoby na dané
manifestní proměnné
• Fundamentální premisa faktorové analýzy: Tyto skóry nejsou nějakými
náhodnými hodnotami, ale vykazují určité systematické aspekty, kterými se
můžeme zabývat
Datová matice:
Co sloupec, to proměnná
Co řádek, to osoba
Základní pojmy
Datová matice:
X =
Skór osoby i na proměnné j
x11 x12 x1p
xij
xN1 xN2 xNp
p sloupců (proměnných)
N řádků (osob)
Základní pojmy
Čeho si můžeme na těchto datech všimnout?
◦ Variabilita každé proměnné napříč osobami
(rozptyl / SD)
◦ Kovariance dvou proměnných napříč osobami
(kovariance / korelace)
x11 x12 x1p
xij
xN1 xN2 xNp
Základní pojmy
Korelační matice:
R =
1 r12 r13 r1p
r21 1 r23 r2p
r32 r32 1 r3p
rkj
rjk
rp1 rp2 rp3 1
p manifestních proměnných
p manifestních
proměnných
Pozn.: Na obrázku je korelační matice (na diagonále jsou jedničky 𝑟!! = 1, mimo diagonálu korelace 𝑟!"), faktorová analýza
ale velmi často pracuje s kovarianční maticí, kde na diagonále je rozptyl (𝜎!!
#
) a mimo diagonálu kovariance (𝜎!") příslušných
proměnných. Typicky EFA pracuje s korelační, zatímco CFA s kovarianční maticí. Z kovarianční matice lze získat korelační
matici snadno, 𝑟!" =
$!"
$!!
# $""
#
. Naopak to nefunguje, protože korelační matice nenese informaci o rozptylech.
Základní princip FA
• Korelace mezi dvěma manifestními proměnnými je způsobena tím, že tyto
manifestní proměnné jsou funkcemi jednoho nebo více společných faktorů
• V rámci nějaké domény existuje (relativně) malé množství faktorů, které
ovlivňují (relativně) velké (hypoteticky nekonečné) množství manifestních
proměnných. Tím způsobují pozorovatelné korelace (kovariance) mezi těmito
manifestními proměnnými
• Míra toho, jak moc ten který faktor ovlivňuje danou manifestní proměnnou, je
reprezentována faktorovým nábojem – jakousi silou, s jakou faktor ovlivňuje
manifestní proměnnou (0 = faktor MV neovlivňuje). Faktorové náboje jsou
ekvivalentní regresním koeficientům – faktor je nezávislá proměnná (prediktor)
a MV je závislá proměnná (outcome)
Model dat v FA
• Vraťme se k příkladu s během a šachy
Čas 100m! = 𝜆" ∗ 𝑆𝑐ℎ𝑜𝑝. 𝑏ěℎ! + 𝜆Š ∗ 𝑆𝑘𝑖𝑙𝑙. š𝑎𝑐ℎ!
• Čas, za který osoba i uběhne 100m, je lineární funkcí skóru osoby i na latentních
proměnných Schopnost běžet a Skill v šachu
• 𝜆" a 𝜆Š jsou mírou lineárního efektu těchto latentních proměnných na skór (čas) v
manifestní proměnné Běh na 100 metrů. Jedná se o faktorové náboje
• Faktorové náboje nemají subscript i, nezávisí na dané osobě
• ...závisí však na MV. V tomto případě bude zřejmě platit 𝜆Š = 0
Model dat v FA
• Ovlivnily ale výkon osoby i pouze tyto latentní proměnné? Co když třeba sice dobře běhá, ale
nemá rád krátké tratě (takže se moc nesnažil) a ještě k tomu mu špatně změřili čas?
Čas 100m! = 𝜆" ∗ 𝑆𝑐ℎ𝑜𝑝. 𝑏ěℎ! + 𝜆Š ∗ 𝑆𝑘𝑖𝑙𝑙. š𝑎𝑐ℎ! + 𝑅á𝑑. 𝑘𝑟á𝑡𝑘é. 𝑡𝑟𝑎𝑡ě! + 𝐶ℎ𝑦𝑏𝑎!
• Schopnost běhat by ovlivnila i jiný výsledek člověka i, třeba v běhu na 1000 metrů – byla by v
tomto případě tzv. obecným / společným faktorem
• Láska ke krátkým tratím i momentální chyba měření jsou v tomto případě tzv. unikátním
faktorem – čas v běhu na 1000m neovlivní.
• Láska ke krátkým tratím je ale v tomto případě systematická – pokud by člověk i běžel 200m,
projeví se a stane se v takovou chvíli obecným (společným faktorem). Takovou část unikátního
faktoru nazýváme specifickým faktorem.
Common Factor Model
• Právě jsme si (konceptuálně) popsali tzv. Common Factor Model (L. L. Thurstone),
který je modelem faktorové analýzy od 40. let 20. století do současnosti
• Dle CFM jsou manifestní proměnné funkcí dvou druhů faktorů:
• Obecných / společných faktorů (Common factors), které jsou společné dvěma a
více MV v datové matici
• Unikátních faktorů (Unique factors), které ovlivňují pouze jednu MV. Unikátní
faktory tak nevysvětlují (nezpůsobují) žádnou korelaci mezi dvěma MVs.
Common Factor Model
• Každý unikátní faktor se skládá ze dvou komponent:
• Ze specifického faktoru
• Z (náhodné) chyby měření
...specifický faktor reprezentuje nějaké systematické vlivy, které ovlivňují pouze jednu
danou manifestní proměnnou. Chyba měření představuje náhodnou chybu.
• Pokud nemáme k dispozici žádné další informace, v modelu nelze chybu od
systematického faktoru oddělit.
• Systematický faktor se ale může stát společným faktorem, jestliže nás začne zajímat
nějaká další manifestní proměnná, která je jím také ovlivňována
Common Factor Model
• Rozptyl každé manifestní proměnné je rozložitelný následujícím způsobem:
Pozorovaný rozptyl = Společný rozptyl + Unikátní rozptyl
Unikátní rozptyl = Specifický rozptyl + Chybový rozptyl
è Pozorovaný rozptyl = Společný rozptyl + Specifický rozptyl + Chybový rozptyl
Komunalita (Communality) =
'()*+č-ý /)0(12*
3)0)/)45-ý /)0(12*
= 1 −
6-78á1-í /)0(12*
3)0)/)45-ý /)0(12*
... = podíl pozorovaného rozptylu, který je způsoben obecnými (společnými) faktory
Common Factor Model
𝑥>? = 𝜇? + 𝜆?@ 𝑧>@ + 𝜆?A 𝑧>A + ⋯ + 𝜆?B 𝑧>B + 1𝑢>?
Průměr + Obecné faktory + Unikátní faktor
𝑥7; je skór osoby i na manifestní proměnné j
𝜇; je průměr manifestní proměnné j
Common Factor Model
𝑥!" = 𝜇" + 𝜆"# 𝑧!# + 𝜆"$ 𝑧!$ + ⋯ + 𝜆"% 𝑧!% + 1𝑢!"
Průměr + Obecné faktory + Unikátní faktor
𝑧78 je skór osoby i na obecném faktoru k
𝜆;8 je faktorový náboj manifestní proměnné j na faktoru k
𝑢7; je skór osoby i na unikátním faktoru j
Common Factor Model
Rovnice modelu vypadá jako rovnice pro vícenásobnou lineární regresi
◦ Manifestní proměnné jsou závislými proměnnými
◦ Faktory jsou nezávislými proměnnými
◦ Faktorové náboje jsou regresními koeficienty
• Faktorový model je jako sada vícenásobných lineárních regresí, kde nezávislé proměnné jsou
nepozorované a neměřené (...a nepozorovatelné a neměřitelné)
• Všechny parciální korelace mezi jednotlivými manifestními proměnnými - ve chvíli, kdy
kontrolujeme vliv obecných faktorů – jsou předpokládány za nulové
• Jinými slovy – korelace mezi jednotlivými manifestními proměnnými jsou způsobeny pouze
obecnými faktory
Common Factor Model
• Model dat slouží k vysvětlení struktury a podoby syrových dat (tedy skórů na manifestních
proměnných)
• Faktorová analýza se však vlastně nezabývá strukturou a podobou syrových dat. Zabývá se
vysvětlením kovariancí / korelací mezi MVs. Má to „malou“ výhodu – nepotřebujeme k
tomu znát skóry osob na latentních proměnných (které stejně neznáme a znát nemůžeme –
jsou nepozorované a neurčitelé [indeterminate])
Model kovarianční struktury
• Kovarianční struktura (tedy vysvětlení korelací / kovariancí) v Common Factor Modelu:
𝜮 = 𝜦𝜱𝜦&
+ 𝑫 𝝍
• Σ (sigma) je matice korelací / kovariancí mezi manifestními proměnnými
• Λ (lambda) je matice faktorových nábojů (apostrof značí transpozici)
• Φ (phi / fí) je matice korelací / kovariancí mezi (obecnými) faktory. Faktory být korelované nemusí
– v takovém případě lze říci, že faktory jsou tzv. ortogonální
• Dψ (D-psi / D-psí) je matice rozptylů unikátních faktorů
• ...jak možná správně tušíte, k faktorové analýze nepotřebujete syrová data, ale korelace /
kovariance mezi MVs.
O co nám tedy ve FA jde?
• Cílem je odhalit, pochopit a popsat strukturu, která „způsobuje“ korelace mezi
manifestními proměnnými
• Chceme tedy identifikovat (nebo ověřit) počet a charakter (význam) faktorů, které
způsobují pozorované korelace mezi manifestními proměnnými
• Jinými slovy, chceme přijít na to, kolik obecných / společných faktorů ovlivňuje naše
manifestní proměnné a odhadnout sílu a směr (+ / -) faktorových nábojů
• Velikost a směr faktorových nábojů nám napomáhá v určení podstaty faktoru. Význam
faktoru je totiž vymezen tou podmnožinou všech manifestních proměnných, které jsou
faktorem výrazně ovlivňovány
Příklad
Představme si, že pro vzorek jedinců máme k dispozici skóry ze 4 testů:
porozumění textu (PC), slovní zásoba (VO), aritmetika (AR), matematické slovní
úlohy (MPS). Z dat získáme následující korelační matici:
PC VO AR MPS
PC 1
VO .49 1
AR .14 .07 1
MPS .48 .42 .48 1
Příklad
Chtěli bychom identifikovat faktory, které „můžou“ za korelace mezi
proměnnými, abychom těmto korelacím porozuměli. Aplikujeme metody
faktorové analýzy a získáme následující matici faktorových nábojů:
Faktor 1 Faktor 2
PC .70 .10
VO .70 .00
AR .10 .70
MPS .60 .60
Příklad
Faktor 1 Faktor 2
PC .70 .10
VO .70 .00
AR .10 .70
MPS .60 .60
• Prvky v této matici představují sílu lineárního vztahu mezi každým faktorem a
každým testem (manifestní proměnnou)
• Jaký může být význam Faktoru 1 a Faktoru 2?
Explorační a konfirmační FA
• Ve světě faktorové analýzy rozlišujeme dvě situace:
• Explorační (exploratory / unrestricted) FA:
Nemáme žádnou (nebo jen velmi mlhavou) představu o tom, kolik faktorů a
jakého charakteru je „za daty“
• Konfirmační (confirmatory / restricted) FA:
Máme celkem jasnou představu o tom, kolik faktorů a jakého charakteru je „za
daty“
• ...teoretický model, který v obou případech používáme, je totožný!
Na závěr
• Mějme na paměti, že FA je model – model, který reprezentuje nějakou
hypotetickou strukturu uvnitř pozorovaných dat. Každý matematický model je –
alespoň do nějaké míry – chybný a nedá se říct, že by perfektně a bez výhrad
korespondoval s realitou
• Model, který nám sice dává smysl konceptuálně, ale vůbec nesedí na data, je
(většinou) k ničemu
• Model, který skvěle sedí na data, ale nedává nám konceptuálně smysl, je
(většinou) rovněž k ničemu
• Neplatí, že by jen tak jakákoli data byla vhodná pro faktorovou analýzu.