Explorační FA PSY259 – ZÁKLADY PSYCHOMETRIKY (SEMINÁŘ 4) 14. 4. 2020 | ADAM ŤÁPAL Review přednášky • Manifestní (pozorované) a latentní (skryté) proměnné, vždy spojité • Faktory jsou latentními proměnnými, jsou nepozorovatelné a neměřitelné • Fundamentální princip FA: Manifestní proměnné korelují právě proto, že jsou ”způsobovány” jednou stejnou (nebo více stejnými) latentními proměnnými • FA je model, který popisuje / vysvětluje korelace mezi MVs tím, že postuluje existenci společných (common) LVs - společných faktorů Review přednášky • Manifestní proměnné jsou lineární funkcí latentních proměnných • Míra toho, jak moc která LV ovlivňuje kterou MV je reprezentována tzv. faktorovým nábojem (ty jsou jako regresní koeficienty) • Common Factor Model: Pozorovaný rozptyl = Společný rozptyl + Specifický rozptyl + Chybový rozptyl Komunalita (Communality) = !"#$%č'ý )#*"+,$ -#*#)#./'ý )#*"+,$ = 1 − 0'12á+'í )#*"+,$ -#*#)#./'ý )#*"+,$ ... = podíl pozorovaného rozptylu, který je způsoben obecnými (společnými) faktory Review přednášky 𝑥!" = 𝜇" + 𝜆"# 𝑧!# + 𝜆"$ 𝑧!$ + ⋯ + 𝜆"% 𝑧!% + 1𝑢!" Průměr + Obecné (společné) faktory + Unikátní faktor 𝑥15 je skór osoby i na manifestní proměnné j 𝜇5 je průměr manifestní proměnné j 𝑧12 je skór osoby i na obecném faktoru k 𝜆52 je faktorový náboj manifestní proměnné j na faktoru k 𝑢15 je skór osoby i na unikátním faktoru j Review přednášky Rovnice modelu vypadá jako rovnice pro vícenásobnou lineární regresi ◦ Manifestní proměnné jsou závislými proměnnými ◦ Faktory jsou nezávislými proměnnými ◦ Faktorové náboje jsou regresními koeficienty • Faktorový model je jako sada vícenásobných lineárních regresí, kde nezávislé proměnné jsou nepozorované a neměřené (...a nepozorovatelné a neměřitelné) • Všechny parciální korelace mezi jednotlivými manifestními proměnnými - ve chvíli, kdy kontrolujeme vliv obecných faktorů – jsou předpokládány za nulové • Jinými slovy – korelace mezi jednotlivými manifestními proměnnými jsou způsobeny pouze obecnými faktory Review přednášky • Cílem FA je odhalit, pochopit a popsat strukturu, která „způsobuje“ korelace mezi manifestními proměnnými • Chceme tedy identifikovat (nebo ověřit) počet a charakter (význam) faktorů, které způsobují pozorované korelace mezi manifestními proměnnými • Jinými slovy, chceme přijít na to, kolik obecných / společných faktorů ovlivňuje naše manifestní proměnné a odhadnout sílu a směr (+ / -) faktorových nábojů • Velikost a směr faktorových nábojů nám napomáhá v určení podstaty faktoru. Význam faktoru je totiž vymezen tou podmnožinou všech manifestních proměnných, které jsou faktorem výrazně ovlivňovány Review přednášky • Ve světě faktorové analýzy rozlišujeme dvě situace: • Explorační (exploratory / unrestricted) FA: Nemáme žádnou (nebo jen velmi mlhavou) představu o tom, kolik faktorů a jakého charakteru je „za daty“ • Konfirmační (confirmatory / restricted) FA: Máme celkem jasnou představu o tom, kolik faktorů a jakého charakteru je „za daty“ • ...teoretický model, který v obou případech používáme, je totožný! Explorační faktorová analýza (EFA) • Ještě jednou, k čemu je tedy vlastně dobrá EFA? • Máme data, která jsou pro FA vhodná (předpoklad existence latentních proměnných), ale nemáme (jasnou) představu o faktorové struktuře • Máme několik (vágních) nápadů, jak by mohla faktorová struktura vypadat • Teoretický model neexistuje • Existující teoretický model nepopisuje data dobře (a u toho nechceme skončit) è chceme (lépe) prozkoumat (explorovat) možnou faktorovou strukturu Explorační faktorová analýza (EFA) • Jak to (ve zkratce) funguje? 1) Stanovíme si, na jaká data model aplikujeme (jaké máme MVs?) 2) Zvolíme si počet (nikoliv však charakter) společných faktorů (tohle může působit neintuitivně – vždyť to děláme proto, že nevíme! Více později J ) 3) Zvolíme si metodu odhadu parametrů modelu (více později J ) 4) Pomocí softwaru odhadneme faktorové náboje všech MVs 5) Vyhodnotíme shodu modelu s daty (fit) Předpoklady EFA • Model stojí na určitých předpokladech, které jsou nutností k tomu, aby se dal odhadnout a matematicky odvodit: 1) Obecné (společné) faktory a unikátní faktory jsou nezávislé a nekorelují spolu 2) Unikátní faktory jsou navzájem rovněž nezávislé a nekorelují spolu 3) Obecné a unikátní faktory mají z definice průměr 0 4) Obecné a unikátní faktory mají z definice rozptyl 1 (a tedy i SD = 1) Příklad v JASPu • Klasický dataset Holzinger & Swineford (aka Svinibrod), 1939 • 301 dětí, skóry z 9 testů: • Visual Perception, Cubes, Lozenges • Paragraph Comprehension, Sentence Completion, Word Meaning • Speeded Addition, Speeded Counting, Speeded Discrimination Shoda modelu s daty • Nějaký výsledek zpravidla vždy dostaneme. Jak ale poznáme, že model popisuje data dobře? 1) Rozdíl mezi pozorovanými korelacemi MVs a tzv. modelem implikovanými korelacemi MVs à Reziduální matice (kterou JASP neumí! 😠) 2) Test of perfect fit (𝜒!): H0: Model (v populaci) naprosto přesně popisuje data H1: Data nemají požadovanou faktorovou strukturu …“žádoucí“ je tedy vysoká p-hodnota …test je dost přitažený za vlasy a umí napáchat v praxi spíše víc škody než užitku …test je extrémně senzitivní na velikost vzorku Shoda modelu s daty • Nějaký výsledek vždy dostaneme. Jak ale poznáme, že model popisuje data dobře? 3) Indexy shody modelu s daty. V JASPu a JAMOVI najdeme: TLI (Tucker-Lewis Index), jde o tzv. inkrementální index - „Kde na kontinuu mezi nejhorším možným (0) a nejlepším možným (1) modelem se nachází náš model?“ - Typicky chceme vidět TLI > .9 (ale není to vytesané do kamene) RMSEA (Root Mean Square Error of Approximation), jde o tzv. absolutní index - Stejně jako TLI bere v úvahu komplexitu modelu - Typicky chceme vidět RMSEA < .08 (ale není to vytesané do kamene) Počet faktorů • Počet faktorů volíme a priori předem • Nemůžeme nikdy úplně znát „pravdu“ (skutečný počet společných faktorů) …což nemalou řadu výzkumníků dost znervózňuje • Existuje proto řada postupů, jak zvolit optimální počet faktorů, od jednoduchých rules-of-thumb po sofistikovanější postupy • …měli bychom je ale brát spíše jako pomocníky než jako “pravdu“. Žádná science machine, která udělá science za vás, neexistuje. • Nejdůležitějšími kritérii jsou shoda modelu s daty a interpretabilita modelu (dá se model interpretovat a dává smysl?) Počet faktorů • Kaiser-Guttmanovo kritérium • Počet eigenvalues větších než 1 je spodní hranicí skutečného počtu faktorů • Pravidelně nepochopeno a zneužíváno • Nemá v podstatě žádnou oporu v teorii, nepoužívejte (viz http://www.quantpsy.org/pubs/preacher_maccallum_2003.pdf) • Scree plot („sutinový graf“) • Seřadit eigenvalues dle velikosti, zanést na graf a propojit spojnicí • Tolik faktorů, kolikátá eigenvalue je „bodem zlomu“ na grafu • Subjektivní, bez dostatečné opory v teorii Počet faktorů • Hornova Paralelní analýza • Kaiser-Guttmanovo kritérium vylepšené o zvážení výběrové chyby • Když už se spoléhat na Kaiser-Guttmanovo pravidlo, tak jedině takto • Velicerovo MAP (Minimum Average Partial) • Iterativní procedura • Optimální počet faktorů je takový počet, který modeluje ještě nějakou systematickou korelaci mezi MVs Rotační indeterminace • aka „rotační neurčitelnost“ • 𝜮 = 𝜦𝜱𝜦" + 𝑫 𝝍 • Jako řešení hledáme matici faktorových nábojů 𝜦, která vyhoví rovnici výše • Máme ale maličký, úplně malinkatý problémeček - pokud takovou matici najdeme (a pokud uvažujeme řešení s 2 a více faktory), pak existuje nekonečně mnoho dalších takových matic 𝜦, které jsou lineárními transformacemi té původní 𝜦 • Takže – pokud najdeme nějaké řešení, pak jsme jich našli nekonečně mnoho a všechny z nich jsou stejně „dobrá“ Rotační indeterminace • To se může zdát docela divné – proč hledáme nějaké řešení, když jich existuje nekonečně mnoho stejně dobrých? A jaké si tedy máme vybrat? • Není to tak hrozné, jak se může zdát. Tato různá řešení jsou jen transformacemi jedno druhého, jsou matematicky ekvivalentní. Jen nejsou ekvivalentní pro naše oči, a některá mohou být lépe interpretovatelná lidmi než jiná. • Koncept jednoduché struktury „simple structure“ (Thurstone) Rotační indeterminace • Tohoto principu využívá tzv. rotace, jeden ze základních interpretačních mechanismů EFA • Získané řešení můžeme „rotovat“ (transformovat na jiné) tak, aby se nám ulehčil proces interpretace, tedy proces atribuce významu jednotlivým faktorům • Význam faktorům totiž připisujeme na základě struktury jejich faktorových nábojů Rotační indeterminace • Ortogonální rotace (orthogonal) – společné faktory jsou nekorelované • např. Varimax, Quartimax, … • Oblé rotace (oblique) – společné faktory mohou korelovat • např. Oblimin, Simplimax, … • Ortogonální rotace jsou (podle nás) spíše reliktem minulosti, protože jsou méně výpočetně náročné. Používejte oblé rotace. Metoda odhadu parametrů • Je jich celá řada J • Nejobvyklejší metody jsou založeny na: • Maximum Likelihood (ML, silný předpoklad normality MVs) • Metodě nejmenších čtverců (Least Squares, menší předpoklad normality MVs) • Ordinary Least Squares (OLS) • Minimum Residual (Minres) • Analýza hlavních komponent (Principal Component Analysis, PCA) • Nejde o FA (je to jiný model), ale SPSS to chytře vydává za metodu odhadu parametrů • Použití v psychologii spíše neobvyklé, ale denní chleba třeba v machine learningu Heywood cases • Heywoodovy případy – někdy se může stát, že v odhadnutém modelu je některý rozptylový parametr záporný. • Rozptyl ale nemůže být záporný…je to něco jako dělit nulou. Když se to stane, někde umře koťátko nebo vesmír imploduje. • Pokud se vám to stane, pak je váš model nejspíš příliš složitý (příliš mnoho faktorů), nebo vám zlobí nějaká položka • …když už jsme u toho, obecně se snažte, aby vás model nebyl složitější, než je nutno. Úspornost (parsimony) je hlavním principem modelování (jakéhokoliv) Pár tipů • Simple structure • Faktor musí být identifikován alespoň 3 manifestními proměnnými • Používejte oblé rotace • Faktory můžete „obrátit“ • Faktorové skóry neznáme a znát nemůžeme, dají se ale odhadnout (což JASP ani JAMOVI neumí….) • EFA tedy v tomto kurzu používejte především k ověření / exploraci faktorové struktury a na základě ověření pracujte se součtovými skóry (pokud to budete potřebovat) Pár tipů • Pečlivě uvádějte postup volby počtu faktorů, metodu extrakce i rotace • U EFA je zcela akceptovatelné vyzkoušet sérii modelů, nejde o rybaření! • Máte-li silné předpoklady o modelu, volte CFA (o ní si povíme příště) • Alespoň N = P * F * 5 respondentů, kde P je počet položek a F počet faktorů • Nepoužívejte PCA • Nejmenší čtverce jsou vhodnou první volnou pro estimátor