Faktorová analýza
PSY252 Statistická analýza dat v psychologii II
8.12.2010

Latentní a manifestní proměnné
Classical test theory, latent & manifest variables, structural equation modelling
2
}Perspektiva CTT:
}(pro)Jevy, které spolu nějakým způsobem souvisejí, mají stejnou podstatu, jsou určeny stejnou
latentní proměnnou
}LP je hypotetický konstrukt, odvozený právě z manifestací (jevů), které spolu nějakým způsobem
kovariují
}Manifestní proměnné tedy sdílí nějakou část svého celkového rozptylu
7.12.2011

Faktorový model
7.12.2011
Celkový rozptyl, sdílený rozptyl, jedinečný rozptyl
3
}Dvě složky rozptylu manifestní proměnné ve faktorovém modelu:
}Komunalita: sdílený (faktorový) rozptyl – určený latentní proměnnou,  „společný“ s ostatními
proměnnými
}Unicita: jedinečnost, vlastní část rozptylu proměnné
}Unicita = 1 – komunalita
}CTT: Unicita zahrnuje jednak část „vlastního rozptylu“ proměnné, jednak chybu měření
}Sdílený rozptyl je patrný z korelační matice MP; jsou-li korelace MP nenulové, potom MP sdílí
nějakou část rozptylu
}

Faktorový model
7.12.2011
Factor loadings, simple structure, communality,
4
}Korelující proměnné mohou být nahrazeny jedinou proměnnou, která je jejich lineární kombinací –
faktorem.
}Faktorový náboj (Fx, Fy) je interpretován jako korelace původní proměnné s daným faktorem.
}Komunalita h2 = FxP12 * FyP12 je faktorový rozptyl položky, podíl rozptylu položky vyčerpaný daným
faktorovým řešením.
}„Dobrá struktura“ je požadavek na jasnost faktorové matice. Každá položka by měla vysoko skórovat
v právě jednom faktoru, každý faktor by měl obsahovat dva nebo více vysokých faktorových nábojů.
1
,17
,59
,08
P4
,17
1
,19
,74
P3
,59
,19
1
-,14
P2
,08
,74
-,14
1
P1
P4
P3
P2
P1
Korelační matice
,77
,66
,58
P4
,87
-,35
,87
P3
,81
,77
,47
P2
,89
-,60
,73
P1
h2
F2
F1
Faktorová matice

Explorativní a konfirmatorní FA
7.12.2011
5
}Exploratorní faktorová analýza je analytický postup, jehož smyslem je nalézt optimální matici
faktorových nábojů, které maximálně zjednoduší korelační matici
}= při co nejmenším počtu faktorů vysvětlí co největší podíl celkového rozptylu
}„Redukce korelační matice“
}Metoda maximální věrohodnosti (maximum likelihood)
}Vlastní FA; zdůrazňuje specifické faktory
}Analýza hlavních komponent (principal components)
}Postupný rozbor sdílených rozptylů; zdůrazňuje g-faktor
}Konfirmatorní faktorová analýza je test hypotézy o korelační a faktorové matici
}Matice je nulová
}Matice má konkrétní strukturu
}
}Kdykoliv je to možné, měli bychom se snažit o použití CFA – tedy formulovat hypotézy, spíše než
dojit data
}Software nám bohužel nevychází vstříc
}STATISTICA – SEPATH
}SPSS – AMOS
}LISREL, M+ a další

Předpoklady použití FA
7.12.2011
6
}Možnost vytvoření smysluplné korelační matice:
}Alespoň ordinální úroveň měření
}Rozložení proměnných nesmí být extrémně šikmé
}Proměnné musí pocházet zhruba ze stejné domény
}Až na speciální případy nemá smysl analyzovat jednotlivé položky osobnostního dotazníku společně
se součtovými skóry jiného či proměnnými úplně jiného charakteru (výsledky výkonového testu)
}Smysluplný počet položek:
}3 při předpokladu jediného faktoru
}k*2 při předpokladu k faktorů (jinak nemůže vzniknout Thurstonova struktura)
}Adekvátní počet měření
}Málo je málo a moc je moc J
}Absolutní minimum velikosti vzorku je N>5*mp a současně N>20*k, ideálně od N>20*mp
}Extrémně velké soubory poskytují nepříjemně přesné odhady parametrů:
¨V CFA paradoxně dochází k zamítnutí jakéhokoliv modelu
¨V ML nikdy nevyjde uspokojivě test dobré shody
¨Proto se zavádí tzv. Chi2/df ratio: Chi2/df by měl poskytovat hodnotu okolo 2, nikdy více než 5
}

Komunality
7.12.2011
7
}Přehled komunalit...
}V PC vždy vyšší. požadavek alespoň 0,7 teoreticky!
}V případě ML pozor na tzv. nevlastní řešení (Heywoodův případ) – faktorová matice je problematická
}Znamená, že některá z položek „vyčnívá“, je sama o sobě faktorem

Eigenvalue & Explained variance
7.12.2011
8
}Přehled vysvětleného rozptylu
}Eigen value – vlastní hodnota
}Suma eigenvalues vždy rovna počtu položek J
}Vypovídá o poměru rozptylu vysvětleného daným faktorem/komponentou vzhledem k celku
}Obdobně procentuální údaj
}Eigenvalue je obvykle kriteriem volby počtu interpretovaných faktorů/komponent
}Eigen > 1
}Nemá smysl interpretovat faktory, které vysvětlují méně než „jednu“ proměnnou

Je řešení smysluplné?
Test dobré shody a reprodukovaná matice
7.12.2011
9
}Test dobré shody (pouze ML)
}Test hypotézy o residuální matici
}!!! Testujeme hypotézu o tom, že residuální matice je nulová – tedy naším požadavkem je dojít k
neprůkaznému testu
}V praxi problematické, na velkých souborech je test vždy průkazný a na malých průkaznost
nespolehlivá
}Proto požadavek na Chi2/df ratio okolo hodnoty 2
}
}Residuální matice by neměla obsahovat věcně významné korelace (dejme tomu do 10%)

Komponentová/faktorová matice
7.12.2011
10
}Primární výstup PC/ML, obsahuje matici nerotovaných faktorových nábojů
}Kontrola požadavků na dobrou strukturu! Za nepodstatné lze považovat pouze náboje pod 0,1
}Pokud není jasná dobrá struktura, rotujeme.

Rotovaná matice
7.12.2011
11
}Rotovaná matice je výsledek pokusu „vyčistit“ řešení při zachování stávajících dimenzí
}Pokud ani rotovaná matice nedává smysl, opouštíme FA jako řešení daného problému...