oooooooooooo Náhodný vyber ooooooooo Matematika IV - 11. přednáška Náhodný vektor, náhodný výběr Michal Bulant Masarykova univerzita Fakulta informatiky 5. 5. 2008 = oooooooooooo Obsah pi Náhodný vektor Q Náhodný výběr Náhodný vyber ooooooooo □ s - = ■€. -o<\(y • Martin Panák, Jan Slovák, Drsná matematika, e-text. • Karel Zvára, Josef Štěpán, Pravděpodobnost a matematická statistika, Matfyzpress, 4. vydání, 2006, 230 stran, ISBN 80-867-3271-1. • Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Popisná statistika, Masarykova univerzita, 3. vydání, 2002, 48 stran, ISBN 80-210-1831-3. • Marie Budíková, Štěpán Mikoláš, Pavel Osecký, Teorie pravděpodobnosti a matematická statistika (sbírka příkladů), Masarykova univerzita, 3. vydání, 2004, 117 stran, ISBN 80-210-3313-4. oooooooooooo lán pře« Náhodný vektor Náhodný vyber ooooooooo □ s Je-li (Q, A, P) pravděpodobnostní prostr a Xi,...,X„ na něm definované náhodné veličiny s distribučními funkcemi F\,..., F„, pak náhodným vektorem je n-tice X = {X\,... ,Xn) s distribuční funkcí definovanou vztahem Fx(xi,...,x„) = P(Xi < xi,..., Xn < x„). V tomto kontextu nazýváme F simultánní distribuční funkcí náhodného vektoru X a F; marginální distribuční funkcí náhodné veličiny X;. Podobně jako v případě diskrétní náhodné veličiny označuje p(xi,...,x„) pravděpodobnostní funkci diskrétního náhodného vektoru X, je-li F(xi,... ,x„) = Y^ ■■■ Yl p(rl' • • •' r")- tl = Q>{X, Y) polární souřadnice náhodného vektoru (X, Y) a určíme rozdělení vektoru (/?, ). oooooo»ooooo Náhodný vyber ooooooooo Příklad Nechť (X, Y) je náhodný vektor, který má rovnoměrné rozdělení na jednotkovém kruhu K = {(x, y) : x2 + y2 < 1}. Zřejmě je hustota tohoto rozdělení rovna 1/tt pro (x, y) G K a 0 jinde a je rovněž vidět, že X, Y nejsou nezávislé. Označme R = R{X, y)aí> = Q>{X, Y) polární souřadnice náhodného vektoru (X, Y) a určíme rozdělení vektoru (/?, ). Pro 0 < fi < 1 a 0 < ip1 < 2vr je P(R < ri,4> < ipx) = -7Tf: 7T 2^1 2vr 2vr 2rdtpdr. Hustota je tedy rovna f(r, ip) rovna 0 všude jinde. ^ pro 0 < r < 1, 0 < Lp < 2tt a ooooooo«oooo Náhodný vyber ooooooooo Příklad (pokr. Marginální hustoty g{r) a h{ip) veličin R a se nyní snadno dopočtou: g(r) h{ se nyní snadno dopočtou: g{r) = /•oo J —oo f(r, má rovnoměrné rozdělení (0,2ti-), odk ud E(4>) = 7T a D( se nyní snadno /•CX g(r) = / J — CX f(r,) = / ■/ — CX f(r, má rovnoměrné rozdělení D(í>) = 7T2/3, snadno rovněž odvodí D(R) = 1/18. Všimněme si ale zejména, že f(r,ip) nezávislost veličin R a . (0,2ti-), odk me E(/?) = = *(')%). ud E(4>) = 7T a 2/3, což znamená = OOOOOOOO0OOO Vlastnos Náhodný vyber ooooooooo Pro náhodné vektory X, Y stejné dimenze, konstantní matici B a konstantní vektor a (odpovídajících dimenzí) platí • E(X + Y) = E(X) + E(Y), W3H Pro náhodné vektory X, Y stejné dimenze, konstantní matici B a konstantní vektor a (odpovídajících dimenzí) platí • E(X + Y) = E(X) + E(Y), • E(a + BX) = ~-a+BE(X), W3H Pro náhodné vektory X, Y stejné dimenze, konstantní matici B a konstantní vektor a (odpovídajících dimenzí) platí • E(X + Y) = E(X) + E(Y), » E(a + BX) = a + B- E(X), • var(a + B • X) = ßvar(X)ßr . W3H Pro náhodné vektory X, Y stejné dimenze, konstantní matici B a konstantní vektor a (odpovídajících dimenzí) platí • E(X + Y) = E(X) + E(Y), » E(a + BX) = a + B- E(X), • var(a + B • X) = ßvar(X)ßr . OOOOOOOO0OOO Vlastnos Náhodný vyber ooooooooo Pro náhodné vektory X, Y stejné dimenze, konstantní matici B a konstantní vektor a (odpovídajících dimenzí) platí • E(X + Y) = E(X) + E(Y), » E(a + BX) = a + B- E(X), • var(a + B • X) = ßvar(X)ßr . Důkaz. Důkaz vyplývá z vlastností náhodných veličin a ze vztahu var(X) = E((X - E(X))(X - E(X))T). D □ s - = ■€. -o<\(y ooooooooo«oo Mnohon Náhodný vyber ooooooooo Necht jsou složky náhodného vektoru Z = {Z\,..., Zn) nezávislé a mají rozdělení Z; ~ A/(0,1), dále necht Q je ortonormální matice řádu n. Pak jsou rovněž složky náhodného vektoru U = QTZ nezávislé a každá má rozdělení N(0, í). Má tedy U (stejně jako Z) nulovou střední hodnotu a jednotkovou varianční matici a oba vektory jsou zobecněním normovaného normálního rozdělení. V následující definice zavedeme zobecnění normálního rozdělení s obecnými parametry: ooooooooo«oo Mnohon Náhodný vyber ooooooooo Necht jsou složky náhodného vektoru Z = {Z\,..., Zn) nezávislé a mají rozdělení Z; ~ A/(0,1), dále necht Q je ortonormální matice řádu n. Pak jsou rovněž složky náhodného vektoru U = QTZ nezávislé a každá má rozdělení N(0, í). Má tedy U (stejně jako Z) nulovou střední hodnotu a jednotkovou varianční matici a oba vektory jsou zobecněním normovaného normálního rozdělení. V následující definice zavedeme zobecnění normálního rozdělení s obecnými parametry: Definice Nechť jsou složky náhodného vektoru Z = (Zi,..., Z„) nezávislé a mají rozdělení Z; ~ A/(0,1) a nechť a G Mm je vektor konstant a B konstantní matice typu m x n. Označme dále V = V ■ BT. Pak řekneme, že náhodný vektor U = a + B ■ Z má m-rozměrné normální rozdělení Nm(a, V). Pomocí vlastností charakteristik snadno spočítáme, že E(U) = a,var(ľ) = V = BBT. Pokud je matice V regulární, pak existuje hustota náhodného vektoru a je tvaru f(Ul, ...,um) = (2vr)-m/2| l/r^exp r-±(u - a)rl/"> - a)) . Pomocí vlastností charakteristik snadno spočítáme, že E(U) = a,var(Ľ) = V = BBT. Pokud je matice V regulární, pak existuje hustota náhodného vektoru a je tvaru f(Ul, ...,um) = (2vr)-m/2| l/r^exp (~(u - a)TV-\u - a)\ . Pro úvahy ve statistice je důležitá následující věta. Necht má vektor U rozdělení Nm(a, V), necht c £M.k a matice D typu k x m jsou konstanty. Pak má c + D ■ U k-rozměrné normální rozdělení Nk(c + Da, DVDT). = OOOOOOOOOO0O Náhodný vyber ooooooooo Pomocí vlastností charakteristik snadno spočítáme, že E(U) = a,var(Ľ) = V = BBT. Pokud je matice V regulární, pak existuje hustota náhodného vektoru a je tvaru f(Ul, ...,um) = (2vr)-m/2| l/r^exp (~(u - a)TV~\u - a)\ . Pro úvahy ve statistice je důležitá následující věta. Necht má vektor U rozdělení Nm(a, V), necht c £M.k a matice D typu k x m jsou konstanty. Pak má c + D ■ U k-rozměrné normální rozdělení Nk(c + Da, DVDT). Důkaz. 1 Vyjádříme-li matici V = BBT, dostáváme c + DU = c + D(a + BZ) = (c + Da) + (DB) Z = - Nk(c + Da,DBBTDT). Speciálně je tedy marginální rozdělení podvektoru vektoru s mnohorozměrným normálním rozdělením opět mnohorozměrné normální a je-li navíc D jednořádková matice, dostáváme, že libovolná lineární funkce takového vektoru má normální rozdělení. Speciálně je tedy marginální rozdělení podvektoru vektoru s mnohorozměrným normálním rozdělením opět mnohorozměrné normální a je-li navíc D jednořádková matice, dostáváme, že libovolná lineární funkce takového vektoru má normální rozdělení. Připomeňme ještě jednou rozdělení odvozená od normálního: rozdělení transformace střední hodnota rozptyl N(ß,a2) x2(k) t(k) F(k,m) ß + aZ *l = EjU zf ß k 0 m/(m - 2) a2 2/c k/{k - 2) 2m2(k+m-2) k(m-2)2(m-4) Xl/m oooooooooooo Plán přei Q Náhodný výběr Náhodný vyber ooooooooo □ s oooooooooooo Náhodný vyber •oooooooo Definice Náhodným výběrem rozsahu n rozumíme n-tici nezávislých a stejně rozdělených náhodných veličin X\,... ,Xn ~ fx(x). oooooooooooo Náhodný vyber •oooooooo Definice Náhodným výběrem rozsahu n rozumíme n-tici nezávislých a stejně rozdělených náhodných veličin X\,... ,Xn ~ fx(x). Náhodným výběrem rozsahu n s p-rozměrného rozdělení rozumíme n-tici nezávislých a stejně rozdělených p-rozměrných náhodných vektorů. oooooooooooo Náhodný vyber •oooooooo Definice Náhodným výběrem rozsahu n rozumíme n-tici nezávislých a stejně rozdělených náhodných veličin X\,... ,Xn ~ fx(x). Náhodným výběrem rozsahu n s p-rozměrného rozdělení rozumíme n-tici nezávislých a stejně rozdělených p-rozměrných náhodných vektorů. V matematické statistice často pracujeme s transformacemi náhodného výběru, takovým náhodným veličinám (příp. vektorům) říkáme statistiky. V následujícím zavedem několik důležitých statistik a ukážeme jejich souvislost s číselnými charakteristikami náhodných veličin. oooooooooooo Základní Náhodný vyber o»ooooooo Definice Nechť Xi,..., Xn je náhodný výběr. Statistiku 1 - n ^ /=i nazýváme výběrový průměr, statistiku výběrový rozptyl a statistiku S = VŠ^ výběrová směrodatná odchylka. Analogicky se definují i výběrová kovariance, příp. výběrový korelační koeficient pro dvourozměrný náhodný výběr. oooooooooooo Vlastnos, Náhodný vyber oo«oooooo Protože jsou uvedené statistiky náhodnými veličinami, lze se přirozeně ptát po jejich číselných charakteristikách. Necht X\,..., Xn je náhodný výběr rozsahu n z rozdělení se střední hodnotou ß a rozptylem a2 . Pak platí: 9 E(M) = n, Protože jsou uvedené statistiky náhodnými veličinami, lze se přirozeně ptát po jejich číselných charakteristikách. roffii Necht Xi,.. ., Xn je náhodný výběr rozsc ihu n z rozdělení se střed nil hodnotou ß a rozptylem a2 . Pak platí: 9 E(M) = = li, 9 D(M) -- = var(/W) = a2/n, Protože jsou uvedené statistiky náhodnými veličinami, lze se přirozeně ptát po jejich číselných charakteristikách. roffii Necht Xi,.. ., Xn je náhodný výběr rozsc ihu n z rozdělení se střed nil hodnotou ß a rozptylem a2 . Pak platí: 9 E(M) = = li, 9 D(M) -- = var(/W) = a2/n, . E(S2) - = a2. oooooooooooo Náhodný vyber OOO0OOOOO Důkaz. Ukážeme jen (nejsložitější) 3. tvrzení. Snadno se odvodí, že platí £(X; - /x)2 = ]T(X; - Mf + n(M - tf oooooooooooo Náhodný vyber OOO0OOOOO Důkaz. Ukážeme jen (nejsložitější) 3. tvrzení. Snadno se odvodí, že platí £(X; - /x)2 = £(X; - Mf + n(M - /x)2. Proto je E (S2) = -j^E^CX, - /x)2 - ^E(M - /x)2 = ^lEvarW-^Ivar(M) = n-1 n-1 ^■2 ^2 -<7 = a . D □ S - = -š -f)<\0 V předchozí větě jsme ukázali, že výběrový průměr M splňuje E(M) = ß, jehostřední hodnota tedy rovna odhadovanému parametru ß. V takovém případě říkáme, že statistika M je nestranným odhadem parametru ß. V předchozí větě jsme ukázali, že výběrový průměr M splňuje E(M) = ß, jehostřední hodnota tedy rovna odhadovanému parametru ß. V takovém případě říkáme, že statistika M je nestranným odhadem parametru ß. Podobně jsme viděli, že S2 je nestranným odhadem parametru a2. V předchozí větě jsme ukázali, že výběrový průměr M splňuje E(M) = ß, jehostřední hodnota tedy rovna odhadovanému parametru ß. V takovém případě říkáme, že statistika M je nestranným odhadem parametru ß. Podobně jsme viděli, že S2 je nestranným odhadem parametru a2. Všimněme si rovněž, že „přirozeněji" definovaná statistika - ^{X-, — M)2 není nestranným odhadem a2, její střední hodnota je totiž ^o2. V předchozí větě jsme ukázali, že výběrový průměr M splňuje E(M) = ß, jehostřední hodnota tedy rovna odhadovanému parametru ß. V takovém případě říkáme, že statistika M je nestranným odhadem parametru ß. Podobně jsme viděli, že S2 je nestranným odhadem parametru a2. Všimněme si rovněž, že „přirozeněji" definovaná statistika - ^{X-, — M)2 není nestranným odhadem a2, její střední hodnota je totiž n^cr2. Rozmyslete si, je-li S nestranným odhadem směrodatné odchylky a. oooooooooooo Náhodm Náhodný vyber OOOOO0OOO Uvažme nyní speciální případ, kdy je X\,..., Xn náhodný výběr z normálního rozdělení A/(/x, a2). 9 M a S2 jsou nezávislé náhodné veličiny. □ g - = oooooooooooo Náhodm Náhodný vyber OOOOO0OOO Uvažme nyní speciální případ, kdy je X\,..., Xn náhodný výběr z normálního rozdělení A/(/x, a2). • M a S2 jsou nezávislé náhodné veličiny. • M ~ N(n, a2/n), a tedy U = (M - ß)/{a/y/n) ~ A/(0,1). □ s - = Uvažme nyní speciální případ, kdy je Xi,..., Xn náhodný výběr z normálního rozdělení A/(/x, a2). B ft • M a S2 jsou nezávislé náhodné veličiny. • M ~ N(n, a2/n), a tedy U = (M - ß)/{a/y/n) ~A/(0,1). • K = {n - l)S2/a2 ~ x2(n - 1). Uvažme nyní speciální případ, kdy je Xi,..., Xn náhodný výběr z normálního rozdělení A/(/x, a2). B ft • M a S2 jsou nezávislé náhodné veličiny. • M ~ N(n, a2/n), a tedy U = (M - ß)/{a/y/n) ~A/(0,1). • K = {n - l)S2/a2 ~ x2(n - 1). •£(*/-^»2~x2(")- oooooooooooo Náhodm Náhodný vyber OOOOO0OOO Uvažme nyní speciální případ, kdy je X\,..., Xn náhodný výběr z normálního rozdělení A/(/x, a2). • M a S2 jsou nezávislé náhodné veličiny. • M ~ N(n, a2/n), a tedy U = (M - ß)/{a/y/n) ~ A/(0,1). • K = {n- l)S2/a2 ~ x2(n - 1). •£(*/-^»2~x2(")- • T = (M-fi)/(S/y/?i)~t{n-l). oooooooooooo Náhodm Náhodný vyber OOOOO0OOO Uvažme nyní speciální případ, kdy je X\,..., Xn náhodný výběr z normálního rozdělení A/(/x, a2). • M a S2 jsou nezávislé náhodné veličiny. • M ~ N(n, a2/n), a tedy U = (M - ß)/{a/y/n) ~ A/(0,1). • K = {n- l)S2/a2 ~ x2(n - 1). •£(*/-^»2~x2(")- • T = (M-fi)/(S/y/?i)~t{n-l). oooooooooooo Náhodm Náhodný vyber OOOOO0OOO Uvažme nyní speciální případ, kdy je X\,..., Xn náhodný výběr z normálního rozdělení A/(/x, a2). • M a S2 jsou nezávislé náhodné veličiny. • M ~ N(n, a2/n), a tedy U = (M - ß)/{a/y/n) ~ A/(0,1). • K = {n- l)S2/a2 ~ x2(n - 1). •£(*/-^»2~x2(")- • T = (M-fi)/(S/y/?i)~t{n-l). Poznámka K odhadu /i, známe-li