Matematika IV - 13. přednáška Bodové a intervalové odhady Michal Bulant Masarykova univerzita Fakulta informatiky 12. 5. 2008 = A Náhodný výběr Q Bodové a intervalové odhady • Martin Panák, Jan Slovák, Drsná matematika, e-text. • Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická statistika, Matfyzpress, 4. vydání, 2006, 230 stran, ISBN 80-867-3271-1. • Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Popisná statistika, Masarykova univerzita, 3. vydání, 2002, 48 stran, ISBN 80-210-1831-3. • Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Teorie pravděpodobnosti a matematická statistika (sbírka příkladů), Masarykova univerzita, 3. vydání, 2004, 117 stran, ISBN 80-210-3313-4. Náhodný výběr □ g - = -E-OQ^O" Nechť Xl,... ,Xn je náhodný výběr. (Náhodným výběrem rozsahu n rozumíme n-tici nezávislých a stejně rozdělených náhodných veličin X\,.. .,Xn ~ Fx(x)). Nechť Xl,... , X„ je náhodný výběr. (Náhodným výběrem rozsahu n rozumíme n-tici nezávislých a stejně rozdělených náhodných veličin X\,.. . ,X„ ~ Fx(x)). Statistiku M = ^ 5Z,"=1X,- nazýváme výběrový průměr, statistiku S2 = ^r Eľ=i(x'' - M)2 výběrový rozptyl a statistiku S = VŠ* výběrová směrodatná odchylka. Analogicky se definují i výběrová kovariance, příp. výběrový korelační koeficient pro dvourozměrný náhodný výběr. Nechť Xl,... , X„ je náhodný výběr. (Náhodným výběrem rozsahu n rozumíme n-tici nezávislých a stejně rozdělených náhodných veličin X\,.. . ,X„ ~ Fx(x)). Statistiku M = ^ 5Z,"=1X,- nazýváme výběrový průměr, statistiku S2 = ^r Eľ=i(x'' - M)2 výběrový rozptyl a statistiku S = VŠ* výběrová směrodatná odchylka. Analogicky se definují i výběrová kovariance, příp. výběrový korelační koeficient pro dvourozměrný náhodný výběr. B Necht Xi,.. ., Xn je náhodný výběr rozsc ihu n z rozdělení se střední hodnotou ß a rozptylem a2 . Pak platí: • E(M) = = H, • D(M) -- = var(/W) = a2/n, • E (S2) = = a2. .^ -0 0,0 ooooooooooooo Naho Uvažme nyní speciální případ, kdy je X\,..., Xn náhodný výběr z normálního rozdělení A/(/x, a2). 9 M a S2 jsou nezávislé náhodné veličiny. □ g - = ooooooooooooo Naho Uvažme nyní speciální případ, kdy je X\,..., Xn náhodný výběr z normálního rozdělení A/(/x, a2). • M a S2 jsou nezávislé náhodné veličiny. • M ~ N(n, a2/n), a tedy U = (M - ß)/{a/y/n) ~ A/(0,1). □ s - = Uvažme nyní speciální případ, kdy je Xi,..., Xn náhodný výběr z normálního rozdělení A/(/x, a2). B ft » M a S2 jsou nezávislé náhodné veličiny. • M ~A/(/í, a2/n), a tedy U = (M- -Ai)/(2~X2(n). ooooooooooooo Naho Uvažme nyní speciální případ, kdy je X\,..., Xn náhodný výběr z normálního rozdělení A/(/x, a2). • M a S2 jsou nezávislé náhodné veličiny. • M ~ N(n, a2/n), a tedy U = (M - ß)/{a/y/n) ~ A/(0,1). . 7 = (M-/i)/(S/0i)~t(n-l). • K = (n - 1)S2/(T2 - X2(n - 1). •E(^/-^)>2~X2(n). ooooooooooooo Naho Uvažme nyní speciální případ, kdy je X\,..., Xn náhodný výběr z normálního rozdělení A/(/x, a2). • M a S2 jsou nezávislé náhodné veličiny. • M ~ N(n, a2/n), a tedy U = (M - ß)/{a/y/n) ~ A/(0,1). . 7 = (M-/i)/(S/0i)~t(n-l). • K = (n - 1)S2/(T2 - X2(n - 1). •E(^/-^)>2~X2(n). Poznámka K odhadu ß, neznáme-li a2, slouží T, v opačném případě U. ooooooooooooo Naho Uvažme nyní speciální případ, kdy je X\,..., Xn náhodný výběr z normálního rozdělení A/(/x, a2). • M a S2 jsou nezávislé náhodné veličiny. • M ~ N(n, a2/n), a tedy U = (M - ß)/{a/y/n) ~ A/(0,1). . 7 = (M-/i)/(S/0i)~t(n-l). • K = (n - 1)S2/(T2 - X2(n - 1). •E(^/-^)>2~X2(n). Poznámka K odhadu ß, neznáme-li a2, slouží T, v opačném případě U. K odhadu a2, neznáme-li //, slouží K, v opačném případě následující (bezejmenná?) statistika, která je vlastně statistikou K, v níž místo odhadu M použijeme přímo ß. Důkaz. Položme Z; = (X; — /x)/<7, což jsou zřejmě nezávislé náhodné veličiny s normovaným normálním rozdělením. Zřejmě je X = a + crEnZ, kde a = (ß,..., ß) je vektor samých /x, a proto má X podle věty z předchozí přednášky mnohorozměrné normální rozdělení. Je-li dále d vektor ze samých 1/n, pak má náhodná veličina M = d1X (jednorozměrné) normální rozdělení se střední hodnotou dTa = /ia rozptylem dTu2End = u2/n. Důkaz. Položme Z; = (X; — /x)/<7, což jsou zřejmě nezávislé náhodné veličiny s normovaným normálním rozdělením. Zřejmě je X = a + crEnZ, kde a = (ß,..., ß) je vektor samých /x, a proto má X podle věty z předchozí přednášky mnohorozměrné normální rozdělení. Je-li dále d vektor ze samých 1/n, pak má náhodná veličina M = d1X (jednorozměrné) normální rozdělení se střední hodnotou dTa = /ia rozptylem dTu2End = u2/n. Ostatní tvrzení se dokážou obdobně. D Příklad V roce 1951 bylo rozsáhlým statistickým průzkumem zjištěno, že střední hodnota výšky desetiletých chlapců je 136,1 cm se směrodatnou odchylkou cr = 6,4 cm. Příklad V roce 1951 bylo rozsáhlým statistickým průzkumem zjištěno, že střední hodnota výšky desetiletých chlapců je 136,1 cm se směrodatnou odchylkou a = 6,4 cm. V roce 1961 byla zjištěna výška pouze u 15 náhodně vybraných chlapců: 130 140 136 141 139 133 149 151 139 136 138 142 127 139 147 Otázkou je, zda se v porovnání s rokem 1951 změnila střední výška chlapců, pokud předpokládáme, že variabilita výšek se v různých generacích příliš nemění. Řešení Vzhledem k tomu, že základní soubor všech desetiletých chlapců je rozsáhlý, lze zmíněná data považovat za náhodný výběr3. Zjistíme, že výběrový průměr M = 139,133, n = 15 a s využitím statistiky U dostáváme, že s 95% pravděpodobností leží hodnota ß v intervalu (M - 1, 96(7/y/ň; M + l, 96a/y/ň) = (135, 9; 142,4). Protože i střední hodnota výšek z roku 1951 leží v tomto intervalu, nemáme vážný důvod tvrdit, že se střední výška změnila. Řešení Vzhledem k tomu, že základní soubor všech desetiletých chlapců je rozsáhlý, lze zmíněná data považovat za náhodný výběr3. Zjistíme, že výběrový průměr M = 139,133, n = 15 a s využitím statistiky U dostáváme, že s 95% pravděpodobností leží hodnota ß v intervalu (M - 1, 96(7/y/ň; M + l, 96a/y/ň) = (135, 9; 142,4). Protože i střední hodnota výšek z roku 1951 leží v tomto intervalu, nemáme vážný důvod tvrdit, že se střední výška změnila. Pokud bychom ovšem připustili vyšší možnost omylu a stanovili interval se spolehlivostí pouze 90%, pak bychom na této hladině hypotézu, že střední výška se změnila, přijali - interval je nyní (136,41;141,85). Řešení Vzhledem k tomu, že základní soubor všech desetiletých chlapců je rozsáhlý, lze zmíněná data považovat za náhodný výběr3. Zjistíme, že výběrový průměr M = 139,133, n = 15 a s využitím statistiky U dostáváme, že s 95% pravděpodobností leží hodnota ß v intervalu (M - 1, 96(7/y/ň; M + l, 96a/y/ň) = (135, 9; 142,4). Protože i střední hodnota výšek z roku 1951 leží v tomto intervalu, nemáme vážný důvod tvrdit, že se střední výška změnila. Pokud bychom ovšem připustili vyšší možnost omylu a stanovili interval se spolehlivostí pouze 90%, pak bychom na této hladině hypotézu, že střední výška se změnila, přijali - interval je nyní (136,41;141,85). Podobně, pokud nás zajímá pouze dolní odhad střední hodnoty výšek chlapců (a vůbec tedy nepřipouštíme možnost, že by se střední výška snížila), pak s 95% pravděpodobností je střední výška větší než 136,41, a tedy nyní opět přijímáme hypotézu, že se střední výška zvýšila. ooooooooooooo Necht je Xu,..., Xm\ náhodný výběr rozsahu m z rozdělení N{ß, g\) a X\2,..., Xn2 je na něm nezávislý náhodný výběr rozsahu n z rozdělení N (/i, 2. Označme M\, M2 jejich výběrové průměry a Si,S2 výběrové rozptyly. Dále necht je 52_(m-l)512 + (n-l)522 * m + n-2 vážený průměr výběrových rozptylů. Pak platí: ooooooooooooo Necht je Xu,..., Xm\ náhodný výběr rozsahu m z rozdělení N{ß, g\) a X\2,..., Xn2 je na něm nezávislý náhodný výběr rozsahu n z rozdělení N (/i, u^), přičemž m, n > 2. Označme M\, M2 jejich výběrové průměry a Si,S2 výběrové rozptyly. Dále necht je (m - 1)S2 + (n 1)S| m + n-2 vážený průměr výběrových rozptylů. Pak platí: 9 M\ — M2 a S^ jsou stochasticky nezávislé, ooooooooooooo Necht je Xu,..., Xm\ náhodný výběr rozsahu m z rozdělení N{ß, g\) a X\2,..., Xn2 je na něm nezávislý náhodný výběr rozsahu n z rozdělení N (/i, u^), přičemž m, n > 2. Označme M\, M2 jejich výběrové průměry a Si,S2 výběrové rozptyly. Dále necht je (m - 1)S2 + (n 1)S| m + n - 2 vážený průměr výběrových rozptylů. Pak platí: • M\ — M2 a S^ jsou stochasticky nezávislé, • M1-M2~ N(ßl -ß2,d + U)t ooooooooooooo Necht je Xu,..., Xm\ náhodný výběr rozsahu m z rozdělení N{ß, g\) a X\2,..., Xn2 je na něm nezávislý náhodný výběr rozsahu n z rozdělení N (/i, u^), přičemž m, n > 2. Označme M\, M2 jejich výběrové průměry a Si,S2 výběrové rozptyly. Dále necht je (m - 1)S2 + (n 1)S| m + n - 2 vážený průměr výběrových rozptylů. Pak platí: • M\ — M2 a S^ jsou stochasticky nezávislé, • M1-M2~ N(ßl -ß2,d + U)t r2 • je-li af = a\ pak K = {m + n- 2)Sl/u2 ~ X2(m + n - 2) ooooooooooooo Necht je Xu,..., Xm\ náhodný výběr rozsahu m z rozdělení N{ß, g\) a X\2,..., Xn2 je na něm nezávislý náhodný výběr rozsahu n z rozdělení N (/i, u^), přičemž m, n > 2. Označme M\, M2 jejich výběrové průměry a Si,S2 výběrové rozptyly. Dále necht je (m - 1)S2 + (n 1)S| m + n - 2 vážený průměr výběrových rozptylů. Pak platí: 9 M\ — M2 a S^ jsou stochasticky nezávislé, • M1-M2~ N(ßl - ß2, ^ + ^) , r2 • je-li af = a\ pak K • F (m + n- 2)Si/a< syst o\lo\ F{m — 1, n X2(m + n -!)■ 2) Užití ooooooooooooo • Statistika U, vzniklá normováním Mi — Mi, se používá pro odhad rozdílu ßi — ß2, známe-li rozptyly v\,o\. • Statistika U, vzniklá normováním Mi — Mi, se používá pro odhad rozdílu ßi — ß2, známe-li rozptyly a2,a2. • Je-li a\ = a2 = a2, pak statistika T (vzniklá z U nahrazením teoretického společného rozptylu a2 váženým průměrem výběrových rozptylů S2) slouží pro odhad rozdílu ßi — ßi, neznáme-li rozptyl a2. • Statistika U, vzniklá normováním Mi — Mi, se používá pro odhad rozdílu ßi — ß2, známe-li rozptyly a2,a2. • Je-li a\ = a2 = a2, pak statistika T (vzniklá z U nahrazením teoretického společného rozptylu a2 váženým průměrem výběrových rozptylů S2) slouží pro odhad rozdílu ßi — ßi, neznáme-li rozptyl a2. • Statistika K = (m + n — 2)S2/a2 slouží k odhadu společného rozptylu a2. ooooooooooooo Statistika U, vzniklá normováním Mi — M2, se používá pro odhad rozdílu ßi — ß2, známe-li rozptyly a2,a2. Je-li a\ = a2 = o1, pak statistika T (vzniklá z U nahrazením teoretického společného rozptylu a2 váženým průměrem výběrových rozptylů S2) slouží pro odhad rozdílu ßi — ß2, neznáme-li rozptyl a2. Statistika K = (m + n — 2)S2/a2 slouží k odhadu společného rozptylu a2. c2 /c2 Statistika F = \, \ slouží k odhadu podílu rozptylů o\ja\. O libovolné. Z Cebyševovy nerovnosti máme P(\Tn - E(Tn)\< 6/2) > 1 - D(T„)/(e/2)2. □ s - = Je-li posloupnost Tn odhadů parametru 9 asymptoticky nestranná a platí-li limn^oo D{Tn) = O, pak Tn je konzistentním odhadem 9. Buď e > O libovolné. Z Čebyševovy nerovnosti máme P{\T„- E{Tn)\ < e/2) > 1 - D(T„)/(e/2)2. Zároveň pro dostatečně velké n máme \E(Tn) — 9\ < e/2. Proto P(\ Tn-9\ P{\ Tn - E{Tn)\ < e/2, \E(Tn) - 9\ < e/2) = P(\Tn-E(Tn)\ M + -^=U!_ V" a/2 - -(/W - ^l-a/2) = 0 o-— 2-—j=u\-al'l-V" Příklad Nechť Xi,..., Xn je náhodný výběr z rozdělení A/(/x; 0,1). Jaký musí být minimální rozsah výběru, aby velikost 95% intervalu spolehlivosti pro fi nepřesáhla číslo 0,03? Podle předchozí tabulky dostáváme (pro a = 0,05) a 0,03>M + ^u1_a/2-(M v n — 2-—j=u\-al'l-V" :"l-a/2) Proto n > 4a2 u\ ,0 1—a/2 170,7 0,032 a rozsah výběru tedy musí splňovat n > 171. fii - [12 (známe a\, a\) Mx-M2± \Jg- + %ui-a/2 Mi - ^2 (neznámé o-f = df) Mx- M2± S*^± + ^r!_a/2 , 3 . 73 2 7 (m+n-2)S2 (m+n-2)S2 \ společný rozptyl a í g^+gg' ggg^=tj j podíl rozptylů crí/c? (-p------f^i-----ť\, t—Hi—tt ) Interv ooooooooo«ooo ilních rozdělení ßi — ß2 (známe a2, a2) M1-M2±^ + ŽUl_a/2 Mi ~~ ß2 (neznámé a\ = a2) Ml-M2±S^± + \tl_a/2 společný rozptyl a2 í {m+n-2)Sl {m+n-2)Sl \ \xl_a/2(m+n-2)' xl/2(m+n-2) J podíl rozptylů (T2/a2 / Si/Si Si/Si \ \Fi-a/2(m-l,n-l)> Fa/2(m-l,n-l) ) Poznámka Pokud a priori nevíme, jestli jsou rozptyly shodné, můžeme to ověřit tak, že nejprve sestrojíme interval spolehlivosti pro (T2/a2. Obsahuje-li 1, lze (s pravděpodobností 1 — a) považovat rozptyly za shodné a tento rozptyl odhadovat pomocí statistiky K jak je uvedeno v tabulce. Nechť (Xl, Vi),..., (Xn, Yn) je výběr z rozdělení □ S - = .= -f)<\o oooooooooo«oo íého rozdělení Nechť (Xi, Ví),..., (Xn, Yn) je výběr z rozdělení A/2 (7Í (712 (712 (71 - /í2 a zavedeme rozdílový výběr Z; = X\ — Y,. g/~r výběru Z má ř-rozdělení s n — 1 stupni volnosti, proto jsou hranice intervalu spolehlivosti 1 — a pro /x rovny Označíme ß = ßi Pak statistika 7 = M± -7=h-a/2(n - !)• Příklad U šesti nových automobilů bylo testováno, nakolik se sjíždějí pneumatiky na předních kolech. Byly naměřeny tyto hodnoty (v mm): číslo auta 1 2 3 4 5 6 sjetí pravé pneu 1,8 1,0 2,2 0,9 1,5 1,6 sjetí levé pneu 1,5 1,1 2,0 1,1 1,4 1,4 Předpokládejte, že jde o realizaci náhodného výběru z dvourozměrného normálního rozdělení a rozhodněte, jestli nedochází k výraznějšímu nesymetrickému sjíždění pneumatik (tj. sestrojte 95% interval spolehlivosti pro ß = ßi — ßi)- Řešení Postupně vypočteme: Z = (0, 3; M = 0,0833, S = 0,1941. -0,1; 0,2;-0,2; 0,1; 0,2), □ s - = ■€. -o<\(y Řešení Postupně vypočteme: Z = (0, 3; —0, M = 0,0833, S = 0,1941. Pak jsou intervalu spolehlivosti M±^ř1_a/2(n-l) = 0,0833±0 (-0,12; 0,29). 1;0,2;-0,2;0,1;0 krajními body hledá 1941-2,5706/^6, 2), iného tj- 95% Řešení Postupně vypočteme: Z = (0, 3; -0,1; 0, 2; -0, 2; 0,1; 0, 2), M = 0,0833, S = 0,1941. Pak jsou krajními body hledaného 95% intervalu spolehlivosti M ± ^ri_«/2(n - 1) = 0,0833 ± 0,1941 • 2,5706/vU tj. (-0,12; 0,29). Poznamenejme, že snadno odvodíme i míru rizika, se kterou bychom mohli tvrdit, že je ß\ > ß2> tj. že pravé pneumatiky se sjíždějí více než levé. Je to takové číslo a, aby příslušný interval spolehlivosti neobsahoval číslo 0 - v našem případě je a = 0, 34, což je riziko příliš vysoké.