Analýza dat -- lekce 03 Standardizované normální rozložení. Z -- skóre. (c) Petr Mareš Fakulta sociálních studií katedra sociologie STANDARDNÍ (NORMOVANÉ) NORMÁLNÍ ROZLOŽENÍ Normální rozložení získává praktický význam až standardizací (normováním). Ve STANDARDNÍM (NORMOVANÉM) NORMÁLNÍM ROZLOŽENÍ jsou všechny hodnoty (daného znaku u všech jednotek) vyjádřeny standardním skórem. STANDARDNÍ SKÓRE (Z-SKÓRE) Udává "jaký násobek standardní odchylky pod či nad průměrem se původní hodnota nachází". xi - x z = sx Příklad: u 1. test: Průměr = 6 bodů, std. odchylka = 4,2 u 2. test: Průměr = 10 bodů, std. odchylka = 3, JEDINEC DOSÁHL v: Ř 1. testu 12 bodů a má standardizované skóre: 12 - 6 z = "ź"ź"ź"ź"ź"ź = 1,43 4,2 Ř V 2. testu 12 bodů, má standardizované skóre: 12 - 10 z = "ź"ź"ź"ź"ź"ź = 0,56 3,6 V prvním testu se tedy umístil lépe. POMOCÍ Z-SKÓRE STANDARDIZUJEME DATA Do seskupovací analýzy (cluster analysis) okresů ČR vstupují proměnné o různém měřítku: u Míra nezaměstnanosti (má možnost nabývat hodnot od 0 do 100: nikdo není nezaměstnaný = 0 až všichni jsou nezaměstnaní = 100%). u Výše přijmu (má možnost nabývat hodnot například od 0 do 1 000 000 nebo i více). u Proměnná .... Váha proměnných o různém řádu by ve výpočtu byla nesouměřitelná (proměnné s větším řádem by měly větší váhu). Proto je zaměníme za z-skóre. CO OBVYKLE ZJIŠŤUJEME OBECNĚ: Jak je zjištěná hodnota při předpokladu "teoretického" rozložení pravděpodobná či nepravděpodobná. U NORMÁLNÍHO rozložení: Jak je zjištěná hodnota při předpokladu "normálního" rozložení pravděpodobná či nepravděpodobná. STATISTICKÁ INFERENCE Výběrový soubor základní soubor. Smysluplné je jen: Ř Jde-li o VÝBĚR (při vyčerpávajícím šetření to nemá smysl). Ř Jde-li o NÁHODNÝ VÝBĚR (jednotky mají stejnou pravděpodobnost, že budou vybrány. Ř Jde-li o NEZÁVISLÝ VÝBĚR (výběr žádné jednotky nezvyšuje ani nesnižuje pravděpodobnost výběru jiných jednotek). Příklady závislého výběru: u Opisují-li studenti v testu, jejich výsledky nejsou nezávislé). u Párovaná data. PARAMETR je NEZNÁMÁ veličina (nemáme-li možnost vyčerpávajícího šetření) vlastnost základního souboru ě = průměr v základním souboru ó = standardní odchylka v základním souboru ó2 = variance v základním souboru STATISTIKA je ZNÁMÁ vlastnost výběrového souboru x = průměr ve výběrovém souboru s = standardní odchylka ve výběrovém souboru s2 = variance ve výběrovém souboru Standardní odchylku rozdělení výběrových průměrů nazýváme STANDARDNÍ CHYBOU (SE.M. = Standard Error of Mean) Histogram nepředstavuje rozložení hodnot nějaké proměnné ve výběrovém souboru, ale ROZLOŽENÍ PRŮMĚRŮ JEJÍCH ROZLOŽENÍ V 500 VÝBĚRECH. Distribuce je cca normální (čím více výběrů bychom provedli, tím více by se normální distribuci blížila). Standardní chybu průměru můžeme vypočítat, známe-li velikost výběrového souboru a standardní odchylku v populaci. VÝBĚROVÁ CHYBA Protože je rozložení průměrů všech možných výběrů NORMÁLNÍ, pak lze určit kde se zvolenou pravděpodobností leží parametr. Zvolíme-li např. pravděpodobnost 95% (5% riziko chyby), měl by PARAMETR ležet v intervalu +/- 1,96 směrodatné chyby (což je VÝBĚROVÁ CHYBA pro tuto pravděpodobnost) od průměru průměrů ze všech možných výběrů. (SPSS nám standardní chybu vypočítá) INTERVAL SPOLEHLIVOSTI Nevíme tedy, kde parametr leží přesně, víme však alespoň to v jakém intervalu parametr leží při zvolené pravděpodobnosti. INTERVAL SPOLEHLIVOSTI výběrová chyba C.I.95% = X +/- z * s/ ăN standardní/směrodatná chyba INTERVAL SPOLEHLIVOSTI (Confidence Interval pro průměr na HV = 95%) výběrová chyba C.I.95% = X +/- 1,96 * s/ ăN standardní/směrodatná chyba u Obvyklý je 95% interval spolehlivosti (ze 100 výběru bude 95 správných). Vybereme nejmenší interval pod normálním rozložením X, jemuž odpovídá 95% pravděpodobnost. (dvě krajní oblasti s pravděpodobností 2,5% na každé straně ponecháme stranou). u Z tabulky kumulativních pravděpodobností normovaného normálního rozložení lze zjistit kritickou hodnotu z = 1,96 pro tuto pravděpodobnost. Interval je určen 1,96 směrodatné odchylky výběrového průměru (směrodatné chyby). GRAPHS ERROR BAR INTERVAL SPOLEHLIVOSTI (Confidence Interval pro % výskytu na HV = 95%) C.I.95% = p +/- 1,96 * ăp*(1-p) / N u p = pozorovaný podíl, kolem něhož je interval spolehlivosti konstruován u N = velikost výběrového souboru Příklad: Ve výběrovém souboru 1100 osob ze základní populace by volilo určitou politickou stranu 30% voličů: C.I.95% = p +/- 1,96 . ăp*q / N C.I.95% = 30 +/- 1,96 . ă30*70 / 1100 C.I.95% = 2,7 ~ 3 V základním souboru by ji s 95% pravděpodobností volilo: ne méně než 27% a ne více jak 33% voličů. VŠIMNĚME SI Pokud by volilo určitou politickou stranu jen 5% voličů: C.I.95% = 5 +/- 1,96 . ă5*95 / 1100 = 4,3 Výběrová chyba je nejen větší, ale má i větší význam. CO OVLIVŇUJE VELIKOST STANDARDNÍ CHYBY V případě, že by byla v populaci stejná proporce dvou vlastností (muž, žena, ...), pak ve výběru o 100 jedincích by byl interval spolehlivosti +/-10%, ale ve výběru o 400 jedincích +/-5% a ve výběru 1000 jedinců +/-3% (konkrétně při požadované hladině významnosti 95%). PŘÍKLAD: Ř Kdyby bylo ve výběrovém souboru (při jeho velikosti 100 jednotek) 90% osob podporujících vstup ČR do EU a 10% odpůrců tohoto vstupu (nebo naopak), pak by byl interval spolehlivosti +/-6%. Ř Kdyby byl podíl podpory vstupu do EU a odporu proti němu ve stejně velkém výběrovém souboru vyrovnaný (50% a 50%), interval spolehlivosti by byl +/-10% (požadovaná hladina významnosti 95%).