PSY117/454 Statistická analýza dat v psychologii Přednáška 11 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ ­ NEPARAMETRICKÉ METODY ... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot nominální proměnné Výzkumné otázky... Liší se významně preference nějakých politických stran? Liší se poměrné zastoupení kuřáků mezi ženami a muži? Souvisí nějak preference politické strany s odhadem měsíčního příjmu respondenta? Otázky směřují buď k rozdílu četností různých jevů v rámci jedné proměnné (četnost různých jevů v jedné populaci), k rozdílu četností jevu mezi různými proměnnými (četnost jevu v různých populacích), Nebo k pravděpodobnosti výskytu dvou (či více) jevů současně. Nominální proměnná Též kategoriální, alternativní Zařazení jevu do určité kategorie Jednotlivé kategorie musí být disjunktní ­ validita Kategorie mohou vzniknout i transformací z proměnné vyššího řádu ­ kategorizace pořadí, známek ve škole, ,,nižší úzkost x vyšší úzkost" atd. Klíčová slova Četnost, relativní četnost, očekávaná četnost, rezidua, 2 (Chi-kvadrát) AJ: frequency, relative frequency, expected frequency, residuals, Chi-square 2 ­ test dobré shody Liší se empirické četnosti nějakých jevů od teoreticky očekávaných četností? Házení kostkou ­ kolikrát padne 1,2,... Preference stran H0: F(x) = F0(x) vs. H1: F(x) F0(x) kde k je počet kategorií, ni pozorovaná četnost v kat. i, pi je očekávaná četnost Rozdělení 2; stupně volnosti df = k-1 Překoná-li hodnota 2 kritickou mez, H0 zamítáme. Pro získání pravděpodobnosti 2 CHIDIST(x,volnost); CHIINV(prst, volnost) Očekávané četnosti... při uniformním rozložení 1:1:1...; nebo libovolně teoretické (10:24:32...) ! N empirických = N očekávaných = - = k i i ii np npn 1 2 2 )( AJ: Chi-square goodness-of-fit test, observed (empirical) frequency vs. expected frequency Závislost kategoriálních proměnných Jaká je souvislost preference politické strany a úrovně hrubého příjmu voliče? Jaká je pravděpodobnost společného výskytu dvou jevů z x a y možných? Podmínka disjunkce! Kontingenční tabulka ... řádky x sloupce = r x s Ve těle tabulky jsou četnosti jednotlivých kombinací, v okrajích tzv. marginální četnosti ­ sumy sloupců nebo řádků. Tedy n12 znamená počet osob ve druhém sloupci prvního řádku; počet osob, u nichž nastal jev A1 a současně B2. B1 B2 ... Bx Řádkové součty A1 n11 n12 ... n1s n1. A2 n21 n22 ... n2s n2. ... ... ... ... ... ... Ax nr1 nr2 ... nrs nr. Sloupcové součty n.1 n.2 ... n.s n AJ: contingency table (crosstabulation, ctosstab) Závislost kategoriálních proměnných Postup analogický, jako u jednorozměrné verze testu 2 Očekávané četnosti: mij 2 Stupně volnosti: df = (r-1)*(s-1) B1 B2 ... Bx Řádkové součty A1 n11 n12 ... n1s n1. A2 n21 n22 ... n2s n2. ... ... ... ... ... ... Ax nr1 nr2 ... nrs nr. Sloupcové součty n.1 n.2 ... n.s n n nn m ji ij .. = = = - = r i s j ij ijij m mn 1 1 2 2 )( Síla vztahu v kontingenční tabulce Koeficient kontingence (Pearson) Ckor Cramerovo V Ckor se interpretuje jako Pearsonova korelace, V jako R 2. Tedy Ckor 2 V. Oba koeficienty v intervalu (0;1) Neindikují ovšem žádným způsobem ,,směr" vztahu. Směrů je v kontingenční tabulce mnoho :-) A proto... jsou kontingenční tabulky mnohdy účelné i tehdy, máme-li k dispozici data na vyšší úrovni měření. Nelineární vztahy Možnost výpočtu reziduí: nij ­ mij = resi Součet residuí v tabulce vždy nula Umožňují zjistit, kde jsou lokalizovány největší odchylky od náhodného rozložení četností v tabulce.... V SPSS: Standardizovaná rezidua (Pearsonova): rozdělení reziduí je normální s odchylkou 1; tedy standardizovaná rezidua s hodnotou +- 1,96 jsou ,,zajímavá". Hendl str. 297 ­ 313. AJ: strength of association, contingency coefficient, standardized residuals Testy středních hodnot pro ordinální proměnné ­ neparametrické metody Metody užívající parametrů normálního rozložení nejsou dobře použitelné v případech, kdy Data nepochází z normálního rozložení Data mají ordinální charakter; nebo se jedná o krátké intervalové škály Jsou malé výběry Obecně parametry m, s nedávají dobrou informaci Neparametrické metody problém překonávají, jsou robustní vůči rozložení dat. Pro jeden výběr: znaménkový, ... Pro párové srovnání: Wilcoxon, ... Pro 2 nezávislé výběry: Mann-Whitney U, Kolmogorov-Smirnov Z a mnoho dalších... na velkém vzorku je ale koneckonců robustní i t-test ­ platnost centrální limitní věty Non-parametric, robust, data assumptions, sign test, sample distribution etc. Příklad I Jeden výběr, znaménkový test Liší se hodnota medianu od stanovené? H0: Md = Md0; H1: Md Md0 ... => H0: 2 = 2 0; H1: 2 2 0 Asymptotický test pomocí normálního rozdělení: di = xi ­ Md0; Z+ je počet kladných rozdílů, analogicky Z-; di = 0 ignorujeme. Platí-li H0, Z+= Z-. Z+ + Z- = n. z = (2Z+ - n)/n Padne-li statistika z do intervalu z/2, H0 nezamítáme. Přesný test by využil binomického rozdělení. Silnější alternativou je Wilcoxonův test pro jeden výběr; zohledňuje absolutní velikost rozdílů od Md0. Pro závislé výběry di = xi ­ yi; znaménkovým nebo W- testem zkoumáme, zda pro H0 střední hodnota d = 0. Neparametrické testy pro nezávislé výběry Mediánový test Je­li medián dvou výběrů shodný, leží na jedné straně Md 50% každého výběru. Určíme Md pro celý soubor; četnosti hodnot ležících nad i pod Md by měly být stejné pro x i y. V asymptotické verzi testu je možné použít kvantily normálního rozložení pro: ))()()(( )( dccadbba nbcad z ++++ - = ))()()(( )( dccadbba nbcad z ++++ - = x y Md c d c+d a+c b a+b b+d n Silnější alternativou je Wilcoxonův test pro nezávislé výběry nebo Mann-Whitney U, popřípadě další...