PSY117/454 Statistická analýza dat v psychologii Přednáška 8 Statistické usuzování, odhady Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead Výběr ­ od deskripce k indukci Deskripce dat, odhad parametrů Usuzování = inference = indukce Počítá se s náhodným výběrem tj. výběr jedince splňuje podmínky náhodného pokusu není-li výběr v pravém slova smyslu náhodný, uvažujeme, v čem se p-dobně liší od náhodného AJ: statistical description, inference, population, sample, data, statistics, inference, parameters, random sample (sampling) Statistiky a parametry Na vzorku (datech) počítáme statistiky Hodnotě statistiky v celé populaci říkáme parametr. Pro parametry používáme odpovídající písmena řecké abecedy např. průměr: statistika m, parametr (mí) další: s ­ (sigma), r ­ (ró), d ­ (delta - rozdíl) Statistiky jsou odhady parametrů tj. jsou vždy zatíženy chybou ­ výběrovou chybou chyby náhodné ­ umíme spočítat, známe-li výběrové rozložení chyby systematické ­ nevhodné statistiky, špatné měření, špatný způsob výběru vzorku (metodologie) Jak dobré jsou tyto odhady? AJ: estimates, sampling error. random error, systematic error, sampling distribution Výběrové rozložení a sm. chyba Spočítáme-li tutéž statistiku na mnoha nezávislých náhodných vzorcích získáme mnoho různých odhadů parametru tyto odhady mají nějaké rozložení - výběrové rozložení http://onlinestatbook.com/stat_sim/sampling_dist/index.html Výběrové rozložení obvykle můžeme popsat průměrem ­ ten se u dobrých statistik blíží hodnotě parametru směrodatnou odchylkou ­ říkáme jí směrodatná chyba ((odhadu) parametru) nebo také střední chyba a obecněji i výběrová chyba Čím je velikost vzorku/ů větší, tím je směrodatná chyba menší AJ: sampling distribution, standard error (of the mean) Výběrové rozložení (odhadu) průměru Odhad průměru má přibližně normální rozložení, jehož průměr je se směrodatnou chybou ..................... Platí to i tehdy, když rozložení proměnné není normální. a to ,,díky" centrálnímu limitnímu teorému Jenomže my obvykle neznáme ... Neznáme-li , musíme použít s průměr zůstává , směrodatná chyba je nyní ...................... výběrové rozložení není normální, jde o Studentovo t -rozložení jako normální s těžšími konci (t je pro t-rozložení totéž, co z pro normální rozložení) má různé tvary pro různá n : stupně volnosti ­ (ný) zde = n -1; čím vyšší n, tím se t-rozložení blíží normálnímu AJ: central limit theorem, Student's t-distribution, degrees of freedom (d.f.) n x = n s sx = Studentovo t -rozložení Výběrové rozložení dalších statistik Nyní je tedy třeba ke každé popisné statistice znát ještě další vlastnost ­ teoretické výběrové rozložení relativní četnost ­ přibližně normální - Hendl 156 rozptyl ­ po transformaci 2-rozložení (chí kvadrát) - Hendl 159 Pearsonův korelační koeficient ­ po Fisherově transformaci normální ­ Hendl 252 Teoretická výběrová rozložení různých statistik jsou různá statistika je obvykle nějak transformována do podoby, která má jedno z následujících rozložení normální chí-kvadrát rozložení (Pearsonovo) t-rozložení (Studentovo) F-rozložení (Fisherovo, Snedecorovo) není třeba je znát z hlavy, programy je používají za vás pro interpretační potřeby si obvykle vystačíme s představou výběrového rozložení průměru Pozor, centrální limitní teorém se týká pouze výběrového rozložení průměru AJ: chi-square distribution, F-distribution Bodové vs. intervalové odhady Parametr se můžeme snažit odhadnout... bodovým odhadem ­ tj. odhadujeme přímo hodnotu parametru, např. průměr. Kvalita bodového odhadu viz Hendl 169. intervalovým odhadem ­ tj. odhadnutím intervalu, který parametr s určitou p-ností zahrnuje výsledkem intervalového odhadu je interval spolehlivosti interval spolehlivosti tvoříme z bodového odhadu a znalosti jeho výběrového rozložení, tj. (bododchylka) intervalový odhad je lepší - obsahuje více informací té p-nosti se v tomto kontextu říká hladina spolehlivosti (1-) typicky se používá 95% a 99% hladina spolehlivosti pak říkáme, že hledaný parametr je s 95% p-ností v intervalu spol. AJ: point estimate, interval estimate, confidence interval (CI), level of confidence, consistency, unbiasedness, relative efficiency, resistence X zXCI 2/1)1( -- = je p-nost chyby a proto je hladina spolehlivosti 1-, tj. 95% spolehlivost znamená 5% chybovost: (1-0,05) Příklad konstrukce intervalu spolehlivosti Na vzorku dětí (n=100) s různobarevnýma očima jsme spočítali průměrné IQ 130 a s =15. bodový odhad průměrného IQ v populaci dětí s různobarevnýma očima (tj. parametru, ) je 130 intervalový odhad střed intervalu spolehlivosti bude na bodovém odhadu, tj. m víme, že výběrové rozložení průměru má t­rozložení se stupni volnosti = n -1 = 99 zvolíme-li hladinu spolehlivosti 1- =95%, pak v tabulkách (Excelu) zjistíme, že 95% rozložení je mezi hodnotami t=-2,276 a 2,276 (tj. 1-/2t ()= 0,975t (99) = 2,276 excel: TINV(0,025;99)) směrodatná chyba odhadu průměru sm = s /n = 15/ 100 = 1,5 interval spolehlivosti = (m - 2,276sm; m + 2,276sm) = (126,6 ; 133,4), tj. s 95% pravděpodobností 126,6 133,4 pozor na tento rozdíl: ve středu intervalu je m, někde v intervalu je v 95% případů Interpretace intervalu spolehlivosti ... je prostá, avšak zrádná 95% interval spolehlivosti znamená, že sestrojujeme-li tento interval dle výše uvedených instrukcí, v 95% případů sestrojení intervalu tento interval zahrnuje odhadovaný parametr, tj. v 95% případů je závěr, že je mezi čísly a a b, správný. V tomto smyslu to také znamená, že máme subjektivní 95% jistotu, že parametr je v námi určeném intervalu. V konkrétním případě, kdy jsme spočetli konkrétní interval spolehlivosti (126,6 133,4), to neznamená, že v 95% případech je v intervalu od 126,6 do 133,4. To proto, že je konstanta; při opakovaných výzkumech se nemění. Díky omylnému výběru v každém výzkumu vychází poněkud jiný interval sestrojený podle jiného výběrového průměru. Jinými slovy, trefujeme se obručí na kolík a ne kolíkem do obruče. O čem tohle slovíčkaření je? O rozdílu mezi četnostním a subjektivním (Bayesovským) pojetím pravděpodobnosti. Shrnutí Na vzorcích počítáme statistiky, které jsou odhadem populačních parametrů. K posouzení přesnosti takového odhadu musíme znát výběrové rozložení statistiky, kterou k odhadu používáme, zejména jeho variabilitu ­ směrodatnou chybu. Směrodatná chyba klesá především s velikostí vzorku. Přesnost odhadu parametru sdělujeme prostřednictvím intervalu spolehlivosti.