Přednáška VI. Intervalové odhady
Motivace
Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti
investice do rozvoje vzdělávání
Opakování-nestranné a MLE
,; Jaký je princip nestranných odhadů?
■^Jakýje princip odhadů metodou MLE?
■*Jak vypadají nestranný a MLE odhad parametru o2?
Tomáš Pavlík
Biostatistika
Opakování- použití průměru a mediánu
^Jmenujte výhody a nevýhody průměru a mediánu jako statistik pro odhad střední hodnoty náhodné veličiny.
•^Jmenujte příklad, kdy průměr je výhodnější než medián, a příklad, kdy medián je výhodnější než průměr.
Tomáš Pavlík
Biostatistika
Spolehlivost bodového odhadu
Výběr číslo 1
Výběr číslo 2
S i I
y H-
o
o
V
Pracujeme-li s výběrem z cílové populace, je třeba na základě variability pozorovaných dat spočítat tzv. interval spolehlivosti pro bodový odhad.
R J
y
o
Interval spolehlivosti na základě výběru číslo 1.
h—e
o
Tomáš Pavlík
y
H-
IBA
Biostatistika
Celá cílová populace
o
Umíme-li „změřit" celou cílovou populaci, nepotřebujeme interval spolehlivosti, protože jsme schopni odhadnout sledovaný parametr přesně - v praxi je tato situace nereálná.
A
Intervalový odhad
Bodový odhad je prvním krokem ve statistickém popisu dat.
Co nám říká jedno číslo? Studie 1 může publikovat číslo xv studie 2 číslo x2. Které je správnější, lepší, přesnější?
Bodový odhad je sám o sobě nedostatečný pro popis parametru rozdělení pravděpodobnosti náhodné veličiny.
Zajímá nás přesnost (spolehlivost) bodového odhadu.
Tomáš Pavlík
Biostatistika
2. Variabilita pozorovania variabilita
výběrového průměru
Populace a náhodná veličina
Cílová populace - skupina subjektů, o které chceme zjistit nějakou informaci.
Realizujeme-li náhodně výběr z cílové populace, dostaneme výběrovou populaci (experimentální vzorek).
ZnakX= náhodná veličina X-vlastnost, která nás zajímá.
Realizace náhodné veličiny - reálné číslo, pozorovaná hodnota na vybraném subjektu.
Náhodný výběr - množina n nezávislých náhodných veličin se stejným rozdělením: Xv X2,..., Xn.
Realizace náhodného výběru - reálná čísla, hodnoty pozorované na výběrové populaci.
Tomáš Pavlík
Biostatistika
Pravděpodobnostní chování náhodné veličiny
1' F(x),f(x) a p(x) - popisují chování náhodné veličiny úplně, ale složitě. Dvě charakteristiky odráží vlastnosti rozdělení jedním číslem: střední hodnota a rozptyl. Odmocnina z rozptylu je směrodatná odchylka.
E(X),D(X),SD(X)
i-; Platí následující:
Jednotlivé realizace náhodné veličiny vykazují variabilitu (dle SD(X)). Jakákoliv statistika (např. průměr) je jako transformace náhodných veličin také náhodnou veličinou. Má tedy i rozdělení pravděpodobnosti.
Jednotlivé realizace statistiky nad různými náhodnými výběry také vykazují variabilitu (opět úměrnou SD(X)).
Tomáš Pavlík
Biostatistika
Co je zajímavé - výběrový průměr
■ Rozdělení pravděpodobnosti výběrového průměru tím méně variabilní čím více pozorování je v průměru zahrnuto.
* Rozdělení pravděpodobnosti výběrového průměru se s rostoucím n přestává podobat rozdělení původních dat a začíná se podobat rozdělení normálnímu.
■ Proč?
Tomáš Pavlík
Biostatistika
Co je zajímavé - výběrový průměr
- Rozdělení pravděpodobnosti výběrového průměru tím méně variabilní čím více pozorování je v průměru zahrnuto -> plyne z vlastností rozptylu transformované náhodné veličiny.
Rozdělení pravděpodobnosti výběrového průměru se s rostoucím n přestává podobat rozdělení původních dat a začíná se podobat rozdělení normálnímu -> plyne z centrální limitní věty.
Tomáš Pavlík
Biostatistika
Charakteristiky výběrového průměru
- Máme posloupnost Xp    Xn nezávislých, stejně rozdělených náhodných veličin, které mají konečnou střední hodnotu jU a rozptyl o2.
X,~N(p,a2) SD(X) =   /)( V) =Q
Pro odhad, respektive statistiku, se tomuto výrazu říká směrodatná chyba nebo standardní chyba („standard error") a značí se SE.
Tomáš Pavlík
Biostatistika
Příklad - výběrový průměr
Základní prostor Q
Náhodná veličina X
Náhodný výběr X1; X2,...,Xn
Výběrový průměr X
0
0
Xl X2 X3X4    X5 R
0
^ BHS/j.
Tomáš Pavlík
IBA
IM)
Biostatistika
Shrnutí
- Směrodatná odchylka (SD) není směrodatná chyba popisné statistiky (SE)!
1; Směrodatná odchylka (SD) je odrazem variability náhodné veličiny ve sledované populaci.
Směrodatná chyba (SE) je odrazem přesnosti popisné statistiky jako odhadu střední hodnoty náhodné veličiny
Pozor na rozdíl mezi SD a SE v článcích a knihách - tabulkách a grafech!
Tomáš Pavlík
Biostatistika
Příklad - výška člověka
Náhodná veličina bude výška člověka: X ~ 7V(175,15 ) , tedy uvažujme střední hodnotu 175 cm a směrodatnou odchylku 15 cm. Jak se chovají průměry pro náhodné výběry o velikosti n = 10, n = 100 a n = 1000? Kód v R:
x <- rep(0,   100) # vytvořím si vektor pro ukládáni průměrů
for   (i in 1:100) {
porn <- rnorm(10,   175, 15)
x[i]   <- mean(pom)} # cyklus pro výpočet výběrových průměrů pro n=10
hist(x,  breaks=10,  xlim=c(160,190))   # vykresleni histogramu pro výběrové průměry pro n=10
for   (i in 1:100) {
porn <- rnorm(100,   175, 15)
x[i]   <- mean(pom)} # cyklus pro výpočet výběrových průměrů pro n=100
hist(x,  breaks=10,  xlim=c(160,190))   # vykresleni histogramu pro výběrové průměry pro n=100
for   (i in 1:100) {
porn <- rnorm(1000,   175, 15)
x[i]   <- mean(pom)} # cyklus pro výpočet výběrových průměrů pro n=1000
hist(x,  breaks=10,  xlim=c(160,190))   # vykresleni histogramu pro výběrové průměry pro n=1000
mu
Tomáš Pavlík      irK        ^ Biostatistika * BA \í,„a ^
Příklad - výška člověka
Původní pozorování mají rozsah hodnot zhruba od 120 cm do 220 cm. Kde se pohybují jednotlivé průměry?
Výběrové průměry ze vzorku n = 10
Výběrové průměry ze vzorku n = 100
Výběrové průměry ze vzorku n = 1000
160 165 170 175 180 185 19
160 165 170 175 180 185 16
160 165 170 175 180 185 19C
Tomáš Pavlík
Biostatistika
Příklad - výška člověka
i-; Původní pozorování mají rozsah hodnot zhruba od 120 cm do 220 cm. Kde se pohybují jednotlivé průměry?
Výběrové průměry ze vzorku n = 10
od 160
cm do 190 cm --->
170 175 180 185 19
X,
tf(175,JýL-)
Výběrové průměry ze vzorku n = 100
od 170 crn
do 180 cm
d
160 165 170 175 180 185 16
X2~7V(175,^)
Výběrové průměry ze vzorku n = 1000
od 173 cm tiio 177 cm
165 170
180 185
X-.
Tomáš Pavlík
Biostatistika
3. Centrální limitní věta
Připomenutí: standardizace normálního rozdělení
Standardizace je transformace náhodné veličiny s N(u.,o2) na N(0,1). ■* Důvod: řada statistických metod byla odvozena pro standardizované normální rozdělení, N(0,1). Děláme to tedy opět kvůli lepší možnosti hodnocení dat.
TT    X - jLl
* Teoretická standardizace náhodné veličiny:     U =
■* Praktická standardizace naměřených hodnot:  ut =
Tomáš Pavlík
IMI Biostatistika
Centrální limitní věta
Klíčová věta umožňující sestrojení intervalových odhadů.
Máme posloupnost Xp    Xn nezávislých, stejně rozdělených náhodných veličin, které mají konečnou střední hodnotu \x a rozptyl o1.
Pak platí, že pro «-»oo má suma Xj = ^.Xi přibližně normální rozdělení pravděpodobnosti.
Tomáš Pavlík
Biostatistika
Centrální limitní věta
Máme posloupnost Xp    Xn nezávislých, stejně rozdělených náhodných veličin, které mají konečnou střední hodnotu \x a rozptyl a2. Pak platí, že pro n^cc má výběrový průměr X = jl^Xi přibližně normální rozdělení se střední hodnotou \x a rozptylem a2/n.
Tedy   (X-ju)I(<jI fn) má přibližně standardizované normální rozdělení pravděpodobnosti:
limP(z^<x)= f ^=e~u2'2du
D   > / <JI'\\n J—oo v^TT
mu
Tomáš Pavlík lIMl ^ Biostatistika
IBA X,, ^
CLV-zjednodušená interpretace
* Pokud je rozdělení pravděpodobnosti náhodné veličiny normální, pak je i rozdělení průměru pozorovaných hodnot normální (a to i pro n = 1).
^ Pokud rozdělení pravděpodobnosti náhodné veličiny není normální, pak je rozdělení průměru pozorovaných hodnot přibližně normální, když/? je dostatečně velké ( n —» oo ).
^„Dostatečně velké" znamená > 30 pro rozdělení podobná normálnímu a > 100 pro rozdělení nepodobná normálnímu.
Tomáš Pavlík
Biostatistika
Co je super
- Centrální limitní věta funguje i když rozdělení původní náhodné veličiny není normální rozdělení pravděpodobnosti. A dokonce i když není spojité!
mu
Tomáš Pavlík      irK ilMJ ^ Biostatistika * BA \í,„a ^
Příklad - binomické rozdělení
- Chceme sledovat s jakou přesností lze odhadnout podíl hypertoniků v dospělé populaci ČR.
^ Předpokládejme, že skutečný podíl dospělých s hypertenzí je 0,2.
* Náhodná veličina X: osoba trpí / netrpí hypertenzí.
■ Pravděpodobnostní funkce X (alternativní rozdělení)
Tomáš Pavlík
Ano
Ne
Hypertenze
IBA
ML
Biostatistika
Příklad - binomické rozdělení
• Náhodná veličina 5 bude součet X„ /= 1,n. " Náhodná veličina Y bude definována jako S/n.
E(S) = np D(S) = np{\ - p)
E(Y) = E(S) ln = p        D(Y) = D(S) I n2 = (p(\ -p))ln
* Jak se chová Y pro náhodné výběry o velikosti n = 10, n = 100 a n = 1000?
-u
Tomáš Pavlík      JU_ | IUI f Biostatistika
Příklad - binomické rozdělení
1000 realizací veličiny Y při n = 10
1000 realizací veličiny Y při n = 100
1000 realizací veličiny Y při n = 1000
P = 0,2
3.0 0.2 0.4 0.6 O.Ě
P = 0,2
P = 0,2
3 2 04
Tomáš Pavlík
IBA
Biostatistika
Co když ale n nejde do nekonečna?
Není-li velikost vzorku n dostatečně velká, nelze rozdělení výběrových průměrů považovat za normální.
* Aproximace Studentovým f rozdělením (viz přednáška o jednotlivých rozdělení pravděpodobnosti: Lze ho chápat jako aproximaci normálního rozdělení pro malé vzorky, pro velké velikosti souborů konverguje k normálnímu rozdělení).
Tomáš Pavlík
Biostatistika
4. Intervalové odhady
Co je super... pokračování
* Centrální limitní věta mi říká, že rozdělení pravděpodobnosti výběrového průměru můžu při dostatečném n aproximovat normálním rozdělením.
* Když provedu standardizaci, tak dokonce standardizovaným normálním rozdělením.
Iiml>(j ;;<.v)-f   \::c"::c/,<   ->  f^f ~ A^(0,1)
Tomáš Pavlík
Biostatistika
Interval spolehlivosti
Princip vytvoření intervalového odhadu pro výběrový průměr, respektive konstrukce intervalu spolehlivosti pro výběrový průměr, je shodný s teoretickým pozadím pravidla ± 3o.
o		A	
d		/	\
CM	A		
O	/	34.1%	34.1%
	/		
O			
o	_____----		
o                 1 1			i i
-3a -2a
-1a
M
""V
1a
68,3 % všech hodnot -v-
95.6 % všech hodnot -v-
99.7 % všech hodnot
?f 0.1%
n— 2a
3a
Tomáš Pavlík
IBA
Biostatistika
Připomenutí - kvantilová funkce
Inverzní funkce k distribuční funkci, výsledkem není pravděpodobnost, ale číslo na reálné ose, které odpovídá určité pravděpodobnosti.
■* Distribuční funkce F(x) = P(X < x)
* Kvantilová funkce   xp = F~\P(X < x)) = F~\p)
Spojitá náhodná veličina
Tomáš Pavlík
IBA
x
Biostatistika
Kvantily standardizovaného normální rozdělení
Oblast, kde se náhodná veličina se standardizovaným normálním rozdělením realizuje s pravděpodobností 1 - a lze vyjádřit pomocí následujícího vztahu:
P(Za/2 — Z ^ Z\-all) ~ ^V(0,l)(Zl-a/2)     ^JV(0,1) (Za/2) — 1     2      2      ^ a
Tomáš Pavlík
Biostatistika
Kvantily standardizovaného normální rozdělení
o
o
>■ Pravděpodobnosti
Tomáš Pavlík
*      mm *
/ba w
imi:
0,995
1,96 = z0 975 1,64 = 20950
Biostatistika
?- Kvantily
100(l-a)% interval spolehlivosti pro |i
Máme náhodný výběr Xv X2,Xn z normálního rozdělení. Xt ~ N(ju, a ) Budeme předpokládat, že o známe! Z předchozího snímku víme, že platí:
P(Za/2 —Z< Z\-al2 ) = ^N(0,l) (Zl-a/2 ) ~~ ^N(0,l) (Zcc/2 ) = ^~ T_ T ~ ^ _ ^
Když si rozepíšeme a upravíme výraz na levé straně, dostaneme:
- a = P(zal2 < Z < zx_all) = P(-zt_al2 <Z< zx_al2) = P{-zx_al2 < jjfi < z,_a/2) = P(- fn zx_al2 <X-n<fn zx_al2 ) = P{X-fn zx_al2 <»<X + fn zx_all)
100(l-a)% IS pro |i má tvar: (D,H) = (X --fczx_al2;X + fn Zl_al2)
nu
Tomáš Pavlík      ^Ějr * (Ml I Biostatistika
100(l-a)% interval spolehlivosti pro
- Co ten vzorec znamená?
(D,H) = (X-±zl_a/2;X +
Tedy zjednodušeně:
100(1 - a)% IS = X± zY_al2SE{X)
Tomáš Pavlík
Biostatistika
Interpretace intervalu spolehlivosti
Poloha neznámého parametru je konstantní (jsme-li frekventisti)!
•*95% interval spolehlivosti má následující interpretaci:
Pokud bychom opakovaně vybírali skupiny subjektů o stejné velikosti (n) a počítali výběrový průměr s 95% IS, pak 95 % těchto intervalů spolehlivosti neznámý parametr obsahuje a 5 % ho neobsahuje. Tedy 95% IS obsahuje neznámý parametr s rizikem a.
o
(—j—
{-h
{-1-)
*2J
Igg
H-)
Vgg llgg
H-)
diôo xioo h10C
Tomáš Pavlík
IBA \^
ML
Biostatistika
Co když neznáme o?
*; V předchozím případě jsme předpokládali, že známe přesnou hodnotu rozptylu / směrodatné odchylky. To je v praxi nereálné!
^ Musíme použít jinou statistiku s jiným rozdělením pravděpodobnosti.
^Čím bychom mohli nahradit o? * K čemu to povede?
Tomáš Pavlík
Biostatistika
Co když neznáme o?
Musíme použít jinou testovou statistiku s jiným rozdělením pravděpodobnosti.
^Čím bychom mohli nahradit o?
Náhrada ale není úplně jednoduchá - není to dosazenís za o. K čemu to bude?
Pomočíš2 vytvoříme statistiku s chí-kvadrát rozdělením (x2) - tu pak použijeme pro vytvoření statistiky se Studentovým f rozdělením (viz přednáška o jednotlivých rozděleních pravděpodobnosti):
■s Logické je použít výběrovou směrodatnou odchylku s.
n
X
Tomáš Pavlík
IMI Biostatistika
Co když neznáme o?
n — 1 2 2
* Lze ukázat, že statistika K-  —s ~x (n~ty
a
X — u
Použijeme ještě standardizovanou normální veličinu Z =   - Í=- ~ ÍV(0,1)
A obě dohromady použijeme pro vytvoření 7statistiky:
K/(n-\)      (n-\)s2 /(n-\)a2 sNn
* Z toho plyne tvar 100(l-a)% intervalu spolehlivosti pro |ív případě, že neznáme hodnotu o:
(A H) = (X-± tx_all (n-\);X + ± h_all {n -1))
Tomáš Pavlík       iaX ilMIi Biostatistika
Příklad - konstrukce intervalu spolehlivosti
Chceme sestrojit 95% IS pro odhad střední hodnoty systolického tlaku studentů vysokých škol.
« = 100
Xn =123,4 mm Hg ,v = .VD = 14,0mm Hg
>■ naměřené hodnoty
SK = \4/v 100 =1,4 mm Hg
'i-«/2("-l) = l>98
■> z tabulek
95% IS = (D,H) = (X--fn tx_all(n-1);X + fn t,_a/2(n-1)) 95% IS = (D,H) = (123,4-^ř,_0>05/2(99); 123,4 + ^^^(99))
95% IS = (D,H) = (120,6; 126,2)
Tomáš Pavlík
(IMI) Biostatistika
Šířka intervalu spolehlivosti
Co ovlivňuje šířku intervalu spolehlivosti?
100(1 -a)% ISproM = (D,H) = (X-±tx_all(n-\)\X + ±tx_all(n-1))
1. Velikost vzorku - s rostoucí velikostí vzorku je IS užší (máme více informace a odhad je přesnější), zároveň se kvantily f rozdělení blíží kvantilům standardizovaného normálního rozdělení.
2. Variabilita náhodné veličiny
3. Spolehlivost, kterou požadujeme
Tomáš Pavlík
Biostatistika
Šířka intervalu spolehlivosti
Co ovlivňuje šířku intervalu spolehlivosti?
100(1 -a)% ISproM = (D,H) = (Xyfctx_an{n-\);X + fntx_all{n-1))
1. Velikost vzorku
2. Variabilita náhodné veličiny - čím náhodná veličina vykazuje větší variabilitu, tím je IS pro odhad střední hodnoty širší, tedy odhad je méně přesný.
3. Spolehlivost, kterou požadujeme
Tomáš Pavlík
mu
IBA
Biostatistika
Šířka intervalu spolehlivosti
•*Co ovlivňuje šířku intervalu spolehlivosti?
100(1 -a)% ISpro fi = (D,H) = (X - £ tx_all(n -1);X + £ tx_all(n-1))
1. Velikost vzorku
2. Variabilita náhodné veličiny >^
3. Spolehlivost, kterou požadujeme - chceme-li mít větší jistotu, že náš IS pokrývá neznámou střední hodnotu, IS musí být samozřejmě širší, stačí-li nám menší spolehlivost, bude užší. Standardně se používá 95% IS (ale také 90% anebo 99%)
Tomáš Pavlík
Biostatistika
Poznámka 1
•*l_ze vytvořit i IS pro odhad parametru o, který je založen na již zmíněné
statistice K. ,
n-\ 2 2
cr
* Lze vytvořit i IS pro odhad podílu dvou parametrů o-l a o2 (pomocí F statistiky). Ten lze použít pro hodnocení homogenity rozptylů dvou výběrů, která je jedním z předpokladů v testování hypotéz.
Tomáš Pavlík
Biostatistika
Poznámka 2
- Velmi důležitý je i IS pro odhad střední hodnoty rozdílu dvou náhodných veličin.
y~~N(M2,a22) y~N(ti2,%)
y x-y
Známe-li a1 a o2, provedeme standardizaci a pak odvodíme 100(l-a)% IS:
l-a = P(x-y-zl_
a 12 \/ «| n
^ + ^<//1-//2<X-7 + _-,
-a 12 \ / «| «
L + -)
■* Neznáme-li ax a a2, použijeme statistiky K1 a /C2, abychom se zbavili o1 a o2, výsledná statistika má opět Studentovo f rozdělení.
2 ,2
Tomáš Pavlík
/BA Sgfr
Příklad
* Radiofrekvenční ablace tkáně slinivky břišní u prasat. Sledujeme vliv typu chlazení okolních struktur (A - žádné, B - průplach vodou) na největší rozměr nekrózy. Zajímá nás rozdíl v efektu obou typů chlazení a jeho 95% IS.
nA = 18 xA =25,1 mm SDA = sA = 0,8 SEA =0,8 18 =0,19 mm nB=\7       xB =21,8 mm       SDB = sB = 2,4      SE B =2,4/ 17 =0,58 mm
Dosadíme do vzorce s použitím příslušného f kvantilu: ^o,975(v) = 2,03 l-a = p(xA-xB-h.a/2(y\i^ + t íjUa-VbÍZa-Zb+ h-an(y)^ + ^)
= P(2,1<^-//B<4,5)
mu
Tomáš Pavlík      irK        ^ Biostatistika
Poznámka 3
* Interval spolehlivosti počítá pouze s variabilitou danou náhodným výběrem, nepočítá se zdroji systematického zkreslení.
* Příklady:
* Měření krevního tlaku může být systematicky zkresleno starým měřidlem (^technical bias").
* Měření krevního tlaku může být systematicky zkresleno tím, že se do studie přihlásí pouze určitá skupina osob („selection bias").
Tomáš Pavlík
Biostatistika
Neparametrické metody pro konstrukci IS
^Variabilitu výběrového průměru lze odhadnout i pomocí neparametrických metod:
■* Bootstrap -je založen na principu opakovaného vzorkování naměřených dat s vracením, kdy pro vytvoření nového vzorku dat může být každý prvek použit více než jednou, právě jednou anebo není použit vůbec (ovšem se zachováním celkové velikosti souboru n i velikosti jednotlivých skupin).
^Jackknife - opakovaný výpočet sledované charakteristiky je prováděn vždy s vynecháním právě jednoho pozorování. Tento postup nám stejně jako v případě metody bootstrap poskytuje představu o rozsahu hodnot, ve kterých se námi sledovaná charakteristika může pohybovat, budeme li považovat naměřená data za reprezentativní vzorek z cílové populace.
Tomáš Pavlík
Biostatistika
Příklad
Máme náhodný výběr o velikosti n = 100 z N(0,1). Vytvoříme 95% IS pro průměr pomocí směrodatné chyby a pomocí metody bootstrap (1000 bootstrap vzorků).
x = 0,079
(d,h) = (-0,126; 0,284)
(</,A) = (-0,133; 0,264)
Tomáš Pavlík
IBA
Biostatistika
Poděkování...
Rozvoj studijního oboru „Matematická biologie'' PřF MU Brno je finančně podporován prostředky projektu ESF č. CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia Matematické biologie" a státním rozpočtem České republiky
18f k BH pnSt  t^í čími
^^^^fc I    soclalnL      ^^^^^^^ MINISTERSTVO ŠKOLSTVÍ. OP Vzdělávání 'J-^iJr^
^0 M   fondvCR EVROPSKÁ UNIE     mládeže a tělovýchovy     pro konkurenceschopnost        4ííA p*"
investice do rozvoje vzdělávání
Tomáš Pavlík
Biostatistika