Faktorová analýza PSY252 Statistická analýza dat v psychologii II 9.12.2009 Latentní a manifestní proměnné } Perspektiva CTT: } (pro)Jevy, které spolu nějakým způsobem souvisejí, mají stejnou podstatu, jsou určeny stejnou latentní proměnnou } LP je hypotetický konstrukt, odvozený právě z manifestací (jevů), které spolu nějakým způsobem kovariují } Manifestní proměnné tedy sdílí nějakou část svého celkového rozptylu Faktorový model } Dvě složky rozptylu manifestní proměnné ve faktorovém modelu: } Komunalita: sdílený (faktorový) rozptyl – určený latentní proměnnou, „společný“ s ostatními proměnnými } Unicita: jedinečnost, vlastní část rozptylu proměnné } Unicita = 1 – komunalita } CTT: Unicita zahrnuje jednak část „vlastního rozptylu“ proměnné, jednak chybu měření } Sdílený rozptyl je patrný z korelační matice MP; jsou-li korelace MP nenulové, potom MP sdílí nějakou část rozptylu Faktorový model } Korelující proměnné mohou být nahrazeny jedinou proměnnou, která je jejich lineární kombinací – faktorem. } Faktorový náboj (Fx, Fy) je interpretován jako korelace původní proměnné s daným faktorem. } Komunalita h^2 = FxP1^2 * FyP1^2 je faktorový rozptyl položky, podíl rozptylu položky vyčerpaný daným faktorovým řešením. } „Dobrá struktura“ je požadavek na jasnost faktorové matice. Každá položka by měla vysoko skórovat v právě jednom faktoru, každý faktor by měl obsahovat dva nebo více vysokých faktorových nábojů. Explorativní a konfirmatorní FA } Explorativní faktorová analýza je analytický postup, jehož smyslem je nalézt optimální matici faktorových nábojů, které maximálně zjednoduší korelační matici } = při co nejmenším počtu faktorů vysvětlí co největší podíl celkového rozptylu } „Redukce korelační matice“ } Metoda maximální věrohodnosti (maximum likelihood) } Vlastní FA; zdůrazňuje specifické faktory } Analýza hlavních komponent (principal components) } Postupný rozbor sdílených rozptylů; zdůrazňuje g-faktor } Konfirmatorní faktorová analýza je test hypotézy o korelační a faktorové matici } Matice je nulová } Matice má konkrétní strukturu } Kdykoliv je to možné, měli bychom se snažit o použití CFA – tedy formulovat hypotézy, spíše než dojit data } Software nám bohužel nevychází vstříc } STATISTICA – SEPATH } SPSS – AMOS } LISREL, M+ a další Předpoklady použití FA } Možnost vytvoření smysluplné korelační matice: } Ordinální úroveň měření } Rozložení proměnných nesmí být extrémně šikmé } Proměnné musí pocházet zhruba ze stejné domény } Až na speciální případy nemá smysl analyzovat jednotlivé položky osobnostního dotazníku společně se součtovými skóry jiného či proměnnými úplně jiného charakteru (výsledky výkonového testu) } Smysluplný počet faktorů: } 3 při předpokladu jediného faktoru } k*2 při předpokladu k faktorů (jinak nemůže vzniknout Thurstonova struktura) } Adekvátní počet měření } Málo je málo a moc je moc J } Absolutní minimum velikosti vzorku je N>5*mp a současně N>20*k, ideálně od N>20*mp } Extrémně velké soubory poskytují nepříjemně přesné odhady parametrů: ¨ V CFA paradoxně dochází k zamítnutí jakéhokoliv modelu ¨ V ML nikdy nevyjde uspokojivě test dobré shody ¨ Proto se zavádí tzv. Chi2/df ratio: Chi2/df by měl poskytovat hodnotu okolo 2, nikdy více než 5 Komunality } Přehled komunalit... } V PC vždy vyšší. požadavek alespoň 0,7 teoreticky! } V případě ML pozor na tzv. nevlastní řešení (Heywoodův případ) – faktorová matice je problematická } Znamená, že některá z položek „vyčnívá“, je sama o sobě faktorem Eigenvalue & Explained variance } Přehled vysvětleného rozptylu } Eigen value – vlastní hodnota } Suma eigenvalues vždy rovna počtu položek J } Vypovídá o poměru rozptylu vysvětleného daným faktorem/komponentou vzhledem k celku } Obdobně procentuální údaj } Eigenvalue je obvykle kriteriem volby počtu interpretovaných faktorů/komponent } Eigen > 1 } Nemá smysl interpretovat faktory, které vysvětlují méně než „jednu“ proměnnou Je řešení smysluplné? Test dobré shody a reprodukovaná matice } Test dobré shody (pouze ML) } Test hypotézy o residuální matici } !!! Testujeme hypotézu o tom, že residuální matice je nulová – tedy naším požadavkem je dojít k neprůkaznému testu } V praxi problematické, na velkých souborech je test vždy průkazný a na malých průkaznost nespolehlivá } Proto požadavek na Chi2/df ratio okolo hodnoty 2 } Residuální matice by neměla obsahovat věcně významné korelace (dejme tomu do 10%) Komponentová/faktorová matice } Primární výstup PC/ML, obsahuje matici nerotovaných faktorových nábojů } Kontrola požadavků na dobrou strukturu! Za nepodstatné lze považovat pouze náboje pod 0,1 } Pokud není jasná dobrá struktura, rotujeme. Rotovaná matice } Rotovaná matice je výsledek pokusu „vyčistit“ řešení při zachování stávajících dimenzí } Pokud ani rotovaná matice nedává smysl, opouštíme FA jako řešení daného problému...