Faktorová analýza PSY252 Statistická analýza dat v psychologii II 8.12.2010 Latentní a manifestní proměnné Classical test theory, latent & manifest variables, structural equation modelling 2 }Perspektiva CTT: }(pro)Jevy, které spolu nějakým způsobem souvisejí, mají stejnou podstatu, jsou určeny stejnou latentní proměnnou }LP je hypotetický konstrukt, odvozený právě z manifestací (jevů), které spolu nějakým způsobem kovariují }Manifestní proměnné tedy sdílí nějakou část svého celkového rozptylu 7.12.2011 Faktorový model 7.12.2011 Celkový rozptyl, sdílený rozptyl, jedinečný rozptyl 3 }Dvě složky rozptylu manifestní proměnné ve faktorovém modelu: }Komunalita: sdílený (faktorový) rozptyl – určený latentní proměnnou, „společný“ s ostatními proměnnými }Unicita: jedinečnost, vlastní část rozptylu proměnné }Unicita = 1 – komunalita }CTT: Unicita zahrnuje jednak část „vlastního rozptylu“ proměnné, jednak chybu měření }Sdílený rozptyl je patrný z korelační matice MP; jsou-li korelace MP nenulové, potom MP sdílí nějakou část rozptylu } Faktorový model 7.12.2011 Factor loadings, simple structure, communality, 4 }Korelující proměnné mohou být nahrazeny jedinou proměnnou, která je jejich lineární kombinací – faktorem. }Faktorový náboj (Fx, Fy) je interpretován jako korelace původní proměnné s daným faktorem. }Komunalita h2 = FxP12 * FyP12 je faktorový rozptyl položky, podíl rozptylu položky vyčerpaný daným faktorovým řešením. }„Dobrá struktura“ je požadavek na jasnost faktorové matice. Každá položka by měla vysoko skórovat v právě jednom faktoru, každý faktor by měl obsahovat dva nebo více vysokých faktorových nábojů. 1 ,17 ,59 ,08 P4 ,17 1 ,19 ,74 P3 ,59 ,19 1 -,14 P2 ,08 ,74 -,14 1 P1 P4 P3 P2 P1 Korelační matice ,77 ,66 ,58 P4 ,87 -,35 ,87 P3 ,81 ,77 ,47 P2 ,89 -,60 ,73 P1 h2 F2 F1 Faktorová matice Explorativní a konfirmatorní FA 7.12.2011 5 }Exploratorní faktorová analýza je analytický postup, jehož smyslem je nalézt optimální matici faktorových nábojů, které maximálně zjednoduší korelační matici }= při co nejmenším počtu faktorů vysvětlí co největší podíl celkového rozptylu }„Redukce korelační matice“ }Metoda maximální věrohodnosti (maximum likelihood) }Vlastní FA; zdůrazňuje specifické faktory }Analýza hlavních komponent (principal components) }Postupný rozbor sdílených rozptylů; zdůrazňuje g-faktor }Konfirmatorní faktorová analýza je test hypotézy o korelační a faktorové matici }Matice je nulová }Matice má konkrétní strukturu } }Kdykoliv je to možné, měli bychom se snažit o použití CFA – tedy formulovat hypotézy, spíše než dojit data }Software nám bohužel nevychází vstříc }STATISTICA – SEPATH }SPSS – AMOS }LISREL, M+ a další Předpoklady použití FA 7.12.2011 6 }Možnost vytvoření smysluplné korelační matice: }Alespoň ordinální úroveň měření }Rozložení proměnných nesmí být extrémně šikmé }Proměnné musí pocházet zhruba ze stejné domény }Až na speciální případy nemá smysl analyzovat jednotlivé položky osobnostního dotazníku společně se součtovými skóry jiného či proměnnými úplně jiného charakteru (výsledky výkonového testu) }Smysluplný počet položek: }3 při předpokladu jediného faktoru }k*2 při předpokladu k faktorů (jinak nemůže vzniknout Thurstonova struktura) }Adekvátní počet měření }Málo je málo a moc je moc J }Absolutní minimum velikosti vzorku je N>5*mp a současně N>20*k, ideálně od N>20*mp }Extrémně velké soubory poskytují nepříjemně přesné odhady parametrů: ¨V CFA paradoxně dochází k zamítnutí jakéhokoliv modelu ¨V ML nikdy nevyjde uspokojivě test dobré shody ¨Proto se zavádí tzv. Chi2/df ratio: Chi2/df by měl poskytovat hodnotu okolo 2, nikdy více než 5 } Komunality 7.12.2011 7 }Přehled komunalit... }V PC vždy vyšší. požadavek alespoň 0,7 teoreticky! }V případě ML pozor na tzv. nevlastní řešení (Heywoodův případ) – faktorová matice je problematická }Znamená, že některá z položek „vyčnívá“, je sama o sobě faktorem Eigenvalue & Explained variance 7.12.2011 8 }Přehled vysvětleného rozptylu }Eigen value – vlastní hodnota }Suma eigenvalues vždy rovna počtu položek J }Vypovídá o poměru rozptylu vysvětleného daným faktorem/komponentou vzhledem k celku }Obdobně procentuální údaj }Eigenvalue je obvykle kriteriem volby počtu interpretovaných faktorů/komponent }Eigen > 1 }Nemá smysl interpretovat faktory, které vysvětlují méně než „jednu“ proměnnou Je řešení smysluplné? Test dobré shody a reprodukovaná matice 7.12.2011 9 }Test dobré shody (pouze ML) }Test hypotézy o residuální matici }!!! Testujeme hypotézu o tom, že residuální matice je nulová – tedy naším požadavkem je dojít k neprůkaznému testu }V praxi problematické, na velkých souborech je test vždy průkazný a na malých průkaznost nespolehlivá }Proto požadavek na Chi2/df ratio okolo hodnoty 2 } }Residuální matice by neměla obsahovat věcně významné korelace (dejme tomu do 10%) Komponentová/faktorová matice 7.12.2011 10 }Primární výstup PC/ML, obsahuje matici nerotovaných faktorových nábojů }Kontrola požadavků na dobrou strukturu! Za nepodstatné lze považovat pouze náboje pod 0,1 }Pokud není jasná dobrá struktura, rotujeme. Rotovaná matice 7.12.2011 11 }Rotovaná matice je výsledek pokusu „vyčistit“ řešení při zachování stávajících dimenzí }Pokud ani rotovaná matice nedává smysl, opouštíme FA jako řešení daného problému...