Přednáška VI. Intervalové odhady Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti investice do rozvoje vzdělávání Opakování-nestranné a MLE ,; Jaký je princip nestranných odhadů? ■^Jakýje princip odhadů metodou MLE? ■*Jak vypadají nestranný a MLE odhad parametru o2? Tomáš Pavlík Biostatistika Opakování- použití průměru a mediánu ^Jmenujte výhody a nevýhody průměru a mediánu jako statistik pro odhad střední hodnoty náhodné veličiny. •^Jmenujte příklad, kdy průměr je výhodnější než medián, a příklad, kdy medián je výhodnější než průměr. Tomáš Pavlík Biostatistika Spolehlivost bodového odhadu Výběr číslo 1 Výběr číslo 2 S i I y H- o o V Pracujeme-li s výběrem z cílové populace, je třeba na základě variability pozorovaných dat spočítat tzv. interval spolehlivosti pro bodový odhad. R J y o Interval spolehlivosti na základě výběru číslo 1. h—e o Tomáš Pavlík y H- IBA Biostatistika Celá cílová populace o Umíme-li „změřit" celou cílovou populaci, nepotřebujeme interval spolehlivosti, protože jsme schopni odhadnout sledovaný parametr přesně - v praxi je tato situace nereálná. A Intervalový odhad Bodový odhad je prvním krokem ve statistickém popisu dat. Co nám říká jedno číslo? Studie 1 může publikovat číslo xv studie 2 číslo x2. Které je správnější, lepší, přesnější? Bodový odhad je sám o sobě nedostatečný pro popis parametru rozdělení pravděpodobnosti náhodné veličiny. Zajímá nás přesnost (spolehlivost) bodového odhadu. Tomáš Pavlík Biostatistika 2. Variabilita pozorovania variabilita výběrového průměru Populace a náhodná veličina Cílová populace - skupina subjektů, o které chceme zjistit nějakou informaci. Realizujeme-li náhodně výběr z cílové populace, dostaneme výběrovou populaci (experimentální vzorek). ZnakX= náhodná veličina X-vlastnost, která nás zajímá. Realizace náhodné veličiny - reálné číslo, pozorovaná hodnota na vybraném subjektu. Náhodný výběr - množina n nezávislých náhodných veličin se stejným rozdělením: Xv X2,..., Xn. Realizace náhodného výběru - reálná čísla, hodnoty pozorované na výběrové populaci. Tomáš Pavlík Biostatistika Pravděpodobnostní chování náhodné veličiny 1' F(x),f(x) a p(x) - popisují chování náhodné veličiny úplně, ale složitě. Dvě charakteristiky odráží vlastnosti rozdělení jedním číslem: střední hodnota a rozptyl. Odmocnina z rozptylu je směrodatná odchylka. E(X),D(X),SD(X) i-; Platí následující: Jednotlivé realizace náhodné veličiny vykazují variabilitu (dle SD(X)). Jakákoliv statistika (např. průměr) je jako transformace náhodných veličin také náhodnou veličinou. Má tedy i rozdělení pravděpodobnosti. Jednotlivé realizace statistiky nad různými náhodnými výběry také vykazují variabilitu (opět úměrnou SD(X)). Tomáš Pavlík Biostatistika Co je zajímavé - výběrový průměr ■ Rozdělení pravděpodobnosti výběrového průměru tím méně variabilní čím více pozorování je v průměru zahrnuto. * Rozdělení pravděpodobnosti výběrového průměru se s rostoucím n přestává podobat rozdělení původních dat a začíná se podobat rozdělení normálnímu. ■ Proč? Tomáš Pavlík Biostatistika Co je zajímavé - výběrový průměr - Rozdělení pravděpodobnosti výběrového průměru tím méně variabilní čím více pozorování je v průměru zahrnuto -> plyne z vlastností rozptylu transformované náhodné veličiny. Rozdělení pravděpodobnosti výběrového průměru se s rostoucím n přestává podobat rozdělení původních dat a začíná se podobat rozdělení normálnímu -> plyne z centrální limitní věty. Tomáš Pavlík Biostatistika Charakteristiky výběrového průměru - Máme posloupnost Xp Xn nezávislých, stejně rozdělených náhodných veličin, které mají konečnou střední hodnotu jU a rozptyl o2. X,~N(p,a2) SD(X) = /)( V) =Q Pro odhad, respektive statistiku, se tomuto výrazu říká směrodatná chyba nebo standardní chyba („standard error") a značí se SE. Tomáš Pavlík Biostatistika Příklad - výběrový průměr Základní prostor Q Náhodná veličina X Náhodný výběr X1; X2,...,Xn Výběrový průměr X 0 0 Xl X2 X3X4 X5 R 0 ^ BHS/j. Tomáš Pavlík IBA IM) Biostatistika Shrnutí - Směrodatná odchylka (SD) není směrodatná chyba popisné statistiky (SE)! 1; Směrodatná odchylka (SD) je odrazem variability náhodné veličiny ve sledované populaci. Směrodatná chyba (SE) je odrazem přesnosti popisné statistiky jako odhadu střední hodnoty náhodné veličiny Pozor na rozdíl mezi SD a SE v článcích a knihách - tabulkách a grafech! Tomáš Pavlík Biostatistika Příklad - výška člověka Náhodná veličina bude výška člověka: X ~ 7V(175,15 ) , tedy uvažujme střední hodnotu 175 cm a směrodatnou odchylku 15 cm. Jak se chovají průměry pro náhodné výběry o velikosti n = 10, n = 100 a n = 1000? Kód v R: x <- rep(0, 100) # vytvořím si vektor pro ukládáni průměrů for (i in 1:100) { porn <- rnorm(10, 175, 15) x[i] <- mean(pom)} # cyklus pro výpočet výběrových průměrů pro n=10 hist(x, breaks=10, xlim=c(160,190)) # vykresleni histogramu pro výběrové průměry pro n=10 for (i in 1:100) { porn <- rnorm(100, 175, 15) x[i] <- mean(pom)} # cyklus pro výpočet výběrových průměrů pro n=100 hist(x, breaks=10, xlim=c(160,190)) # vykresleni histogramu pro výběrové průměry pro n=100 for (i in 1:100) { porn <- rnorm(1000, 175, 15) x[i] <- mean(pom)} # cyklus pro výpočet výběrových průměrů pro n=1000 hist(x, breaks=10, xlim=c(160,190)) # vykresleni histogramu pro výběrové průměry pro n=1000 mu Tomáš Pavlík irK ^ Biostatistika * BA \í,„a ^ Příklad - výška člověka Původní pozorování mají rozsah hodnot zhruba od 120 cm do 220 cm. Kde se pohybují jednotlivé průměry? Výběrové průměry ze vzorku n = 10 Výběrové průměry ze vzorku n = 100 Výběrové průměry ze vzorku n = 1000 160 165 170 175 180 185 19 160 165 170 175 180 185 16 160 165 170 175 180 185 19C Tomáš Pavlík Biostatistika Příklad - výška člověka i-; Původní pozorování mají rozsah hodnot zhruba od 120 cm do 220 cm. Kde se pohybují jednotlivé průměry? Výběrové průměry ze vzorku n = 10 od 160 cm do 190 cm ---> 170 175 180 185 19 X, tf(175,JýL-) Výběrové průměry ze vzorku n = 100 od 170 crn do 180 cm d 160 165 170 175 180 185 16 X2~7V(175,^) Výběrové průměry ze vzorku n = 1000 od 173 cm tiio 177 cm 165 170 180 185 X-. Tomáš Pavlík Biostatistika 3. Centrální limitní věta Připomenutí: standardizace normálního rozdělení Standardizace je transformace náhodné veličiny s N(u.,o2) na N(0,1). ■* Důvod: řada statistických metod byla odvozena pro standardizované normální rozdělení, N(0,1). Děláme to tedy opět kvůli lepší možnosti hodnocení dat. TT X - jLl * Teoretická standardizace náhodné veličiny: U = ■* Praktická standardizace naměřených hodnot: ut = Tomáš Pavlík IMI Biostatistika Centrální limitní věta Klíčová věta umožňující sestrojení intervalových odhadů. Máme posloupnost Xp Xn nezávislých, stejně rozdělených náhodných veličin, které mají konečnou střední hodnotu \x a rozptyl o1. Pak platí, že pro «-»oo má suma Xj = ^.Xi přibližně normální rozdělení pravděpodobnosti. Tomáš Pavlík Biostatistika Centrální limitní věta Máme posloupnost Xp Xn nezávislých, stejně rozdělených náhodných veličin, které mají konečnou střední hodnotu \x a rozptyl a2. Pak platí, že pro n^cc má výběrový průměr X = jl^Xi přibližně normální rozdělení se střední hodnotou \x a rozptylem a2/n. Tedy (X-ju)I( / 30 pro rozdělení podobná normálnímu a > 100 pro rozdělení nepodobná normálnímu. Tomáš Pavlík Biostatistika Co je super - Centrální limitní věta funguje i když rozdělení původní náhodné veličiny není normální rozdělení pravděpodobnosti. A dokonce i když není spojité! mu Tomáš Pavlík irK ilMJ ^ Biostatistika * BA \í,„a ^ Příklad - binomické rozdělení - Chceme sledovat s jakou přesností lze odhadnout podíl hypertoniků v dospělé populaci ČR. ^ Předpokládejme, že skutečný podíl dospělých s hypertenzí je 0,2. * Náhodná veličina X: osoba trpí / netrpí hypertenzí. ■ Pravděpodobnostní funkce X (alternativní rozdělení) Tomáš Pavlík Ano Ne Hypertenze IBA ML Biostatistika Příklad - binomické rozdělení • Náhodná veličina 5 bude součet X„ /= 1,n. " Náhodná veličina Y bude definována jako S/n. E(S) = np D(S) = np{\ - p) E(Y) = E(S) ln = p D(Y) = D(S) I n2 = (p(\ -p))ln * Jak se chová Y pro náhodné výběry o velikosti n = 10, n = 100 a n = 1000? -u Tomáš Pavlík JU_ | IUI f Biostatistika Příklad - binomické rozdělení 1000 realizací veličiny Y při n = 10 1000 realizací veličiny Y při n = 100 1000 realizací veličiny Y při n = 1000 P = 0,2 3.0 0.2 0.4 0.6 O.Ě P = 0,2 P = 0,2 3 2 04 Tomáš Pavlík IBA Biostatistika Co když ale n nejde do nekonečna? Není-li velikost vzorku n dostatečně velká, nelze rozdělení výběrových průměrů považovat za normální. * Aproximace Studentovým f rozdělením (viz přednáška o jednotlivých rozdělení pravděpodobnosti: Lze ho chápat jako aproximaci normálního rozdělení pro malé vzorky, pro velké velikosti souborů konverguje k normálnímu rozdělení). Tomáš Pavlík Biostatistika 4. Intervalové odhady Co je super... pokračování * Centrální limitní věta mi říká, že rozdělení pravděpodobnosti výběrového průměru můžu při dostatečném n aproximovat normálním rozdělením. * Když provedu standardizaci, tak dokonce standardizovaným normálním rozdělením. Iiml>(j ;;<.v)-f \::c"::c/,< -> f^f ~ A^(0,1) Tomáš Pavlík Biostatistika Interval spolehlivosti Princip vytvoření intervalového odhadu pro výběrový průměr, respektive konstrukce intervalu spolehlivosti pro výběrový průměr, je shodný s teoretickým pozadím pravidla ± 3o. o A d / \ CM A O / 34.1% 34.1% / O o _____---- o 1 1 i i -3a -2a -1a M ""V 1a 68,3 % všech hodnot -v- 95.6 % všech hodnot -v- 99.7 % všech hodnot ?f 0.1% n— 2a 3a Tomáš Pavlík IBA Biostatistika Připomenutí - kvantilová funkce Inverzní funkce k distribuční funkci, výsledkem není pravděpodobnost, ale číslo na reálné ose, které odpovídá určité pravděpodobnosti. ■* Distribuční funkce F(x) = P(X < x) * Kvantilová funkce xp = F~\P(X < x)) = F~\p) Spojitá náhodná veličina Tomáš Pavlík IBA x Biostatistika Kvantily standardizovaného normální rozdělení Oblast, kde se náhodná veličina se standardizovaným normálním rozdělením realizuje s pravděpodobností 1 - a lze vyjádřit pomocí následujícího vztahu: P(Za/2 — Z ^ Z\-all) ~ ^V(0,l)(Zl-a/2) ^JV(0,1) (Za/2) — 1 2 2 ^ a Tomáš Pavlík Biostatistika Kvantily standardizovaného normální rozdělení o o >■ Pravděpodobnosti Tomáš Pavlík * mm * /ba w imi: 0,995 1,96 = z0 975 1,64 = 20950 Biostatistika ?- Kvantily 100(l-a)% interval spolehlivosti pro |i Máme náhodný výběr Xv X2,Xn z normálního rozdělení. Xt ~ N(ju, a ) Budeme předpokládat, že o známe! Z předchozího snímku víme, že platí: P(Za/2 —Z< Z\-al2 ) = ^N(0,l) (Zl-a/2 ) ~~ ^N(0,l) (Zcc/2 ) = ^~ T_ T ~ ^ _ ^ Když si rozepíšeme a upravíme výraz na levé straně, dostaneme: - a = P(zal2 < Z < zx_all) = P(-zt_al2 ■ naměřené hodnoty SK = \4/v 100 =1,4 mm Hg 'i-«/2("-l) = l>98 ■> z tabulek 95% IS = (D,H) = (X--fn tx_all(n-1);X + fn t,_a/2(n-1)) 95% IS = (D,H) = (123,4-^ř,_0>05/2(99); 123,4 + ^^^(99)) 95% IS = (D,H) = (120,6; 126,2) Tomáš Pavlík (IMI) Biostatistika Šířka intervalu spolehlivosti Co ovlivňuje šířku intervalu spolehlivosti? 100(1 -a)% ISproM = (D,H) = (X-±tx_all(n-\)\X + ±tx_all(n-1)) 1. Velikost vzorku - s rostoucí velikostí vzorku je IS užší (máme více informace a odhad je přesnější), zároveň se kvantily f rozdělení blíží kvantilům standardizovaného normálního rozdělení. 2. Variabilita náhodné veličiny 3. Spolehlivost, kterou požadujeme Tomáš Pavlík Biostatistika Šířka intervalu spolehlivosti Co ovlivňuje šířku intervalu spolehlivosti? 100(1 -a)% ISproM = (D,H) = (Xyfctx_an{n-\);X + fntx_all{n-1)) 1. Velikost vzorku 2. Variabilita náhodné veličiny - čím náhodná veličina vykazuje větší variabilitu, tím je IS pro odhad střední hodnoty širší, tedy odhad je méně přesný. 3. Spolehlivost, kterou požadujeme Tomáš Pavlík mu IBA Biostatistika Šířka intervalu spolehlivosti •*Co ovlivňuje šířku intervalu spolehlivosti? 100(1 -a)% ISpro fi = (D,H) = (X - £ tx_all(n -1);X + £ tx_all(n-1)) 1. Velikost vzorku 2. Variabilita náhodné veličiny >^ 3. Spolehlivost, kterou požadujeme - chceme-li mít větší jistotu, že náš IS pokrývá neznámou střední hodnotu, IS musí být samozřejmě širší, stačí-li nám menší spolehlivost, bude užší. Standardně se používá 95% IS (ale také 90% anebo 99%) Tomáš Pavlík Biostatistika Poznámka 1 •*l_ze vytvořit i IS pro odhad parametru o, který je založen na již zmíněné statistice K. , n-\ 2 2 cr * Lze vytvořit i IS pro odhad podílu dvou parametrů o-l a o2 (pomocí F statistiky). Ten lze použít pro hodnocení homogenity rozptylů dvou výběrů, která je jedním z předpokladů v testování hypotéz. Tomáš Pavlík Biostatistika Poznámka 2 - Velmi důležitý je i IS pro odhad střední hodnoty rozdílu dvou náhodných veličin. y~~N(M2,a22) y~N(ti2,%) y x-y Známe-li a1 a o2, provedeme standardizaci a pak odvodíme 100(l-a)% IS: l-a = P(x-y-zl_ a 12 \/ «| n ^ + ^