Pravděpodobnost a statistika I Marie Forbelská Jan Koláček ν= 1 ν= 2 ν= 3 ν= 5 ν=10 ν=20 ν=30 ν=40 ν=50 Obsah Úvod 5 1. Anotace 5 2. Literatura 5 Kapitola 1. Kolmogorova axiomatická definice pravděpodobnosti 7 1. Náhodný pokus 7 2. Značení 7 3. Definice jevového pole 8 4. Posloupnosti jevů a jejich limity 9 5. Borelovské množiny 11 6. Definice pravděpodobnostního prostoru 12 7. Vlastnosti pravděpodobnosti 13 Kapitola 2. Podmíněná pravděpodobnost a nezávislost 19 1. Motivační příklad 19 2. Definice a vlastnosti podmíněné pravděpodobnosti 20 3. Nezávislost náhodných jevů 23 Kapitola 3. Náhodné veličiny a náhodné vektory 27 1. Náhodná veličina 27 2. Distribuční funkce 28 3. Náhodné veličiny diskrétního typu 31 4. Příklady diskrétních rozdělení 32 5. Náhodné veličiny absolutně spojitého typu 35 6. Příklady spojitých rozdělení 36 7. Singulární rozdělení 40 8. Náhodné vektory 41 9. Marginální náhodné vektory 46 10. Nezávislé náhodné veličiny 50 11. Rozdělení transformovaných náhodných veličin 53 12. Transformace náhodných vektorů 55 13. Základní vlastnosti normálního a odvozených rozdělení 60 Kapitola 4. Číselné charakteristiky rozdělení pravděpodobností 71 1. Střední hodnota, její vlastnosti a výpočet 71 2. Obecné a centrální momenty 75 3. Kovariance a korelační koeficient 77 4. Kvantily a další číselné charakteristiky 81 Kapitola 5. Charakteristická funkce 83 1. Komplexní náhodná veličina 83 2. Definice a vlastnosti charakteristická funkce 84 Kapitola 6. Konvergence náhodných veličin a centrální limitní věta 89 1. Konvergence podle pravděpodobnosti a slabý zákon velkých čísel 89 2. Konvergence skoro jistě a silný zákon velkých čísel 91 3 4 M3121 Pravděpodobnost a statistika I 3. Konvergence posloupnosti distribučních funkcí 91 4. Centrální limitní věty 91 Úvod 1. Anotace Tento text je určen zejména pro studenty předmětu „M3121 Pravděpodobnost a statistika I . Jde o základní kurz pravděpodobnosti a matematické statistiky, který je výchozím pro další teoretické i aplikačně zaměřené stochastické předměty. Kurz obsahuje axiomatický přístup k teorii pravděpodobnosti, dále popisuje náhodné veličiny a náhodné vektory a rozdělení pravděpodobností. Poté se zabývá charakteristikami rozdělení pravděpodobností, zejména charakteristikami polohy a variability, zmínka je též o charakteristické funkci. Závěr kurzu je věnován zákonům velkých čísel a centrální limitní větě. Většina tvrzení je přímo dokázána, některé složitější pasáže se odkazují na literaturu. Zkoumaná problematika je demonstrována na příkladech se snahou o lepší srozumitelnost textu. Pro více příkladů odkazujeme studenty na cvičení k tomuto kurzu. 2. Literatura DUPAČ, V., HUŠKOVÁ, M. Pravděpodobnost a matematická statistika. Karolinum. Praha 1999. MICHÁLEK, J. Úvod do teorie pravděpodobnosti a matematické statistiky. Státní pedagogické nakladatelství. Praha 1984. RÉNYI, A. Teorie pravděpodobnosti, ACADEMIA, Praha 1972. ZVÁRA, K., ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress. Praha 2001. 5 KAPITOLA 1 Kolmogorova axiomatická definice pravděpodobnosti 1. Náhodný pokus Teorie pravděpodobnosti se zabývá matematickými modely náhodných dějů, jejichž výsledek není jednoznačně určen. Takovému náhodnému jevu budeme říkat náhodný pokus. Výsledkem takového pokusu může být číslo, například počet bodů na horní straně hrací kostky při jednom vrhu, nebo počet vrhů hrací kostkou než padne šestka, naměřená veličina, například krevní tlak pacienta, číselné vektory a posloupnosti, časový průběh nějaké funkce na daném intervalu libovolný kvalitativní ukazatel, například vytažení koule dané barvy z osudí obsahující různorodé barvy, odpověď ano či ne respondenta při průzkumu mínění. O náhodném pokusu hovoříme tedy tehdy, když • konáme pokus, jehož výsledek není jednoznačně určen podmínkami, za nichž je prováděn; • přitom nás zajímají je takové pokusy, u kterých sledovaný jev, označme jej A, vykazuje v opakovaných pokusech jakousi stabilitu (tzv. statistickou stabilitu), tj. relativní četnost fn(A) = nA n výskytu jevu A v posloupnosti n „nezávislých pokusů má tendenci při velkých hodnotách n se příliš neměnit, tedy má tendenci držet se nějaké fn(A) ≈ p(A), tj. lim n→∞ fn(A) = p(A). Dále již budeme předpokládat, že náhodný (nebo též stochastický) pokus je statisticky stabilní. 2. Značení V dalším budeme používat následující značení: Ω prostor elementárních jevů, který chápeme jako množinu všech možných „nejjemnějších (tj. těch, které lze ještě rozlišovat) výsledků daného pokusu. Předpokládá se, že Ω = ∅ je neprázdná abstraktní množina, počet jejich prvků může být konečný, spočetný i nespočetný, je vyčerpávající, tj. obsahuje absolutně všechny možné výsledky, výsledky jsou neslučitelné. ω elementární jev, který chápeme jako jednobodovou množinu. Například při jednom hodu kostkou jsou elementárními jevy jednotlivé možné výsledky, tj. padnutí 1, 2, 3, 4, 5, 6. A, B, . . . A1, . . . , An jevy (značené velkými písmeny ze začátku abecedy) získáme množinovými operacemi nad elementárními jevy. Speciálními jevy jsou: ∅ nemožný jev Ω jistý jev Například při jednom hodu kostkou kromě elementárních jevů (padnutí 1, 2, 3, 4, 5, 6) můžeme uvažovat i další jevy jako je padnutí sudého či lichého čísla, padnutí čísla menšího než šest, apod. exp Ω = 2Ω systém všech podmnožin množiny Ω. 7 8 M3121 Pravděpodobnost a statistika I Mezi jednotlivými jevy mohou platit různé vztahy a můžeme pomocí nich vytvářet nové jevy, například C = A ∪ B jev C nastane, pokud nastane jev A nebo jev B C = A ∩ B jev C nastane, pokud společně nastane jev A i jev B. Pokud A ∩ B = ∅, jevy A a B se nazývají neslučitelné. C = A − B jev C nastane, pokud nastane jev A při vyloučení (nenastoupení) jevu B A = Ac = Ω − A jev A je jev opačný k jevu A C = ∞ n=1 An jev C nastane, pokud nastane alespoň jeden z jevů A1, . . . , An, . . . C = ∞ n=1 An jev C nastane, pokud nastanou všechny jevy A1, . . . , An, . . . 3. Definice jevového pole Abychom mohli zavést exaktní matematický model náhodného pokusu, je vhodné uvažovat vhodný systém náhodných jevů. Definice 3.1. Mějme neprázdnou množinu Ω = ∅ a neprázdný systém podmnožin A ⊆ exp Ω, pro který platí (i) Ω ∈ A (ii) A ∈ A ⇒ A ∈ A (iii) A1, . . . , An, . . . ∈ A ⇒ ∞ n=1 An ∈ A (σ aditivita), pak A nazýváme jevovou σ–algebrou na Ω, dvojici (Ω, A) nazýváme jevové pole a libovolný prvek A ∈ A nazýváme náhodný jev (vzhledem k (Ω, A)). Poznámka 3.2. Dvojice (Ω, A) se v teorii míry nazývá měřitelným prostorem. Poznámka 3.3. Podmínka (i) v předchozí definici je vlastně zbytečná a uvádí se spíše z historických důvodů. Předpokládáme totiž, že A je neprázdný systém podmnožin, tj. existuje A ∈ A. Dle podmínky (ii) je také A ∈ A. Položíme-li A1 = A, An = A pro n ≥ 2, pak podle (iii) Ω = ∞ n=1 An ∈ A. Poznámka 3.4. S náhodnými jevy pracujeme jako s množinami, takže pro ně platí de Morganovy vzorce n=1,2,... An = n=1,2,... An a n=1,2,... An = n=1,2,... An. Uvedeme zde důkaz prvního z nich, druhý by se dokázal analogicky a doporučujeme ho čtenáři jako domácí cvičení. Důkaz. ω ∈ n=1,2,... An ⇔ ω /∈ n=1,2,... An ⇔ ∀n ∈ N ω /∈ An ⇔ ∀n ∈ N ω ∈ An ⇔ ω ∈ n=1,2,... An. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 9 Věta 3.5. Nechť (Ω, A) je jevové pole. Pak platí (1) ∅ ∈ A (2) A1, A2 ∈ A ⇒ A1 ∪ A2 ∈ A A1 ∩ A2 ∈ A A1 − A2 ∈ A (3) A1, . . . , An, . . . ∈ A ⇒ ∞ n=1 An ∈ A Důkaz. (1) V definici jevového pole z vlastností (i) a (ii) dostáváme: Ω ∈ A ⇒ Ω = ∅ ∈ A. (2) Nechť A1, A2 ∈ A. Sjednocení: pro n ≥ 3 položíme An = ∅, takže pro n = 1, 2, . . . platí An ∈ A. Z definice jevového pole z vlastnosti (iii) dostáváme: A1 ∪ A2 = ∞ n=1 An ∈ A. Průnik: A1 ∩ A2 = A1 ∩ A2 = A1 ∈A ∪ A2 ∈A ∈ A. Rozdíl: A1 − A2 = A1 ∈A ∩ A2 ∈A ∈ A. (3) Nechť A1, . . . , An, . . . ∈ A, pak s využitím de Morg. pravidel dostaneme: ∞ n=1 An = ∞ n=1 An ∈A ∈ A 4. Posloupnosti jevů a jejich limity Definice 4.1. Horní limitou posloupnosti jevů {An}∞ n=1 nazýváme množinu všech ω ∈ Ω, které patří do nekonečně mnoha množin An. Označujeme lim sup n→∞ An. Dolní limitu posloupnosti jevů {An}∞ n=1 definujeme jako množinu všech ω ∈ Ω, které patří do všech množin An s výjimkou konečného počtu těchto množin. Označujeme lim inf n→∞ An. Poznámka 4.2. Z definice je zřejmě vidět, že platí lim inf n→∞ An ⊆ lim sup n→∞ An. Věta 4.3. Platí (1) lim inf n→∞ An = ∞ n=1 ∞ k=n Ak (2) lim sup n→∞ An = ∞ n=1 ∞ k=n Ak (3) lim sup n→∞ An = lim inf n→∞ An Důkaz. (1) Jestliže ω ∈ lim inf n→∞ An, pak patří do každé An s vyjímkou konečného počtu An ⇔ ∃ n takové, že ω ∈ ∞ k=n Ak ⇔ ω ∈ ∞ n=1 ∞ k=n Ak. (2) Jestliže ω ∈ lim sup n→∞ An, pak patří do nekonečně mnoha An ⇔ pro ∀ n ∃ k ≥ n takové, že ω ∈ Ak ⇔ pro ∀ n platí ω ∈ ∞ k=n Ak ⇔ ω ∈ ∞ n=1 ∞ k=n Ak. 10 M3121 Pravděpodobnost a statistika I (3) ω ∈ lim sup n→∞ An ⇔ neplatí, že ω patří do nekonečně mnoha An ⇔ neplatí, že pro ∀ n ∃ k ≥ n takové, že ω ∈ Ak ⇔ ∃ n ∀k ≥ n ω /∈ Ak⇔ ∃ n ∀k ≥ n ω ∈ Ak ⇔ ∃ n ω ∈ ∞ k=n Ak⇔ ω ∈ ∞ n=1 ∞ k=n Ak = lim inf n→∞ An. Poznámka 4.4. (Motivace) Uveďme ještě trochu jiný pohled na vztahy v předchozí větě, který by mohl mít spíše motivační charakter. Konkrétně sledujme vztah (1). Označme In = inf{Ak; k ∈ {n, n + 1, n + 2, . . . }} = ∞ k=n Ak. Zřejmě platí I1 ⊆ I2 ⊆ . . . a můžeme psát lim inf n→∞ An = lim n→∞ In = sup n∈{1,2,... } In = ∞ n=1 In = ∞ n=1 ∞ k=n Ak. Definice 4.5. Limita posloupnosti jevů. Řekneme, že posloupnost náhodných jevů {An}∞ n=1 má limitu A, právě když A = lim sup n→∞ An = lim inf n→∞ An. Věta 4.6. Pokud existuje limita posloupnosti náhodných jevů {An}∞ n=1, pak lim n→∞ An ∈ A. Důkaz. Předpokládejme, že limita existuje, pak A = lim n→∞ An = ∞ n=1 ∞ k=n Ak ∈A ∈ A. Věta 4.7. (1) Je-li An ⊆ An+1 (n = 1, 2, . . .) ⇒ ∃ A = lim n→∞ An a platí A = ∞ n=1 An. (2) Je-li An ⊇ An+1 (n = 1, 2, . . .) ⇒ ∃ A = lim n→∞ An a platí A = ∞ n=1 An. Důkaz. Chceme–li dokázat, že existuje příslušná limita, musíme prokázat, že horní i dolní limita se rovná. (1) Nechť An ⊆ An+1. (a) Horní limita: lim sup n→∞ An = ∞ n=1 ∞ k=n Ak. Označme Bn = ∞ k=n Ak. S využitím vztahu B1 = B2 = · · · = Bn = Bn+1 = · · · upravujme lim sup n→∞ An = ∞ n=1 ∞ k=n Ak Bn=B1 = ∞ n=1 B1 = B1 = ∞ k=1 Ak. (b) Dolní limita: lim inf n→∞ An = ∞ n=1 ∞ k=n Ak. Označme Cn = ∞ k=n Ak. S využitím vztahu Cn = An upravujme lim inf n→∞ An = ∞ n=1 ∞ k=n Ak Cn=An = ∞ n=1 An. Protože horní i dolní limity jsou shodné, platí první tvrzení věty. (2) Nechť An ⊇ An+1. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 11 (a) Horní limita: lim sup n→∞ An = ∞ n=1 ∞ k=n Ak. Označme Bn = ∞ k=n Ak. S využitím vztahů B1 = A1, B2 = A2, . . . , Bn = An, Bn+1 = An+1, . . . upravujme lim sup n→∞ An = ∞ n=1 ∞ k=n Ak Bn=An = ∞ n=1 An. (b) Dolní limita: lim inf n→∞ An = ∞ n=1 ∞ k=n Ak. Označme Cn = ∞ k=n Ak. S využitím vztahu C1 = C2 = · · · = Cn = Cn+1 = · · · upravujme lim inf n→∞ An = ∞ n=1 ∞ k=n Ak Cn=C1 = ∞ n=1 C1 = C1 = ∞ k=1 Ak. Protože i v tomto případě horní i dolní limity jsou shodné, platí i druhé tvrzení věty. 5. Borelovské množiny Věta 5.1. Nechť S je systém podmnožin Ω. Pak existuje množinová σ–algebra σ(S) taková, že platí (1) S ⊆ σ(S) (2) Je-li A∗ množinová σ–algebra taková, že S ⊆ A∗ , pak σ(S) ⊆ A∗ . Důkaz. Položme σ(S) jako průnik množinových σ–algeber obsahujících S. Pak samozřejmě S ⊆ σ(S) a σ(S) je σ–algebra, neboť axiomy platí pro každý prvek průniku, tedy i pro průnik. Definice 5.2. Množinová σ–algebra σ(S) z předchozí věty se nazývá minimální množinová σ–algebra generovaná (systémem) S. Poznámka 5.3. Borelovské množiny. Položme Ω = (−∞, ∞) = R Sx = {(−∞, x ; x ∈ R}, Sx ⊆ 2Ω = 2R . Podle předchozí věty existuje minimální množinová σ–algebra σ(Sx) = B generovaná systémem intervalů (−∞, x ; x ∈ R. Nazveme ji borelovskou množinovou σ–algebrou v R. Její prvky se nazývají borelovské množiny. Analogicky lze definovat borelovskou množinovou σ–algebru v Rn Bn = σ(Sx): Ω = Rn Sx = {(−∞, x1 × (−∞, x2 ; × · · · × (−∞, xn ; x ∈ Rn }, Sx ⊆ 2Ω = 2Rn . 12 M3121 Pravděpodobnost a statistika I 6. Definice pravděpodobnostního prostoru Definice 6.1. Axiomatická definice pravděpodobnosti. Nechť (Ω, A) je jevové pole a P je množinová funkce definovaná na A s vlastnostmi (1) P(Ω) = 1 (tj. P je normovaná) (2) pro ∀ A ∈ A je P(A) ≥ 0 (tj. P je nezáporná) (3) je-li {An}∞ n=1posloupnost náhodných jevů, které jsou po dvou neslučitelné, tj. Ai ∩Aj = ∅ pro i = j, pak P ∞ n=1 An = ∞ n=1 P(An) (tj. P je σ–aditivní) Funkci P nazýváme pravděpodobností a trojici (Ω, A, P) pravděpodobnostním pro- storem. Příklad 6.2. (Příklady různých definicí pravděpodobnosti) (1) Konečná množina Ω: Ω = {ω1, . . . , ωn} konečná množina elementárních jevů A = 2Ω A je systém všech podmnožin množiny Ω P pravděpodobnost libovolného jevu A = {ωi1 , . . . , ωik } ∈ A je rovna P(A) = k j=1 P(ωij ), přitom platí n i=1 P(ωi) = 1. Jestliže platí P(ωi) = 1 n mluvíme o klasickém pravděpodobnostním pokusu, ve kterém platí P(A) = |A| |Ω| , kde |A| značí počet elementárních jevů v A. (2) Váhová definice pravděpodobnosti: Ω = {ωi}∞ i=1 spočetná množina elementárních jevů A = 2Ω A je systém všech podmnožin množiny Ω P pravděpodobnost libovolného jevu A = {ωij }∞ j=1 ∈ A je rovna P(A) = ωij ∈A P(ωij ) = ωij ∈A pij , přitom platí ωij ∈Ω pij = 1. (3) Geometrická definice pravděpodobnosti: Ω ⊆ Rn borelovská podmnožina A = Bn (Ω) A je nejmenší borelovská σ–algebra nad Ω P pravděpodobnost jevu A je rovna P(A) = µ(A) µ(Ω) , kde Lebesgueova míra µ je konečná a kladná. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 13 7. Vlastnosti pravděpodobnosti Věta 7.1. Nechť (Ω, A, P) je pravděpodobnostní prostor. Pak pravděpodobnost P má následující vlastnosti: (1) P(∅) = 0 (2) A, B ∈ A, A ∩ B = ∅ ⇒ P(A ∪ B) = P(A) + P(B) (3) A, B ∈ A, A ⊆ B ⇒ P(B − A) = P(B) − P(A) (4) ⇒ P(A) ≤ P(B) (5) A ∈ A ⇒ 0 ≤ P(A) ≤ 1 (6) ⇒ P(A) = 1 − P(A) (7) A, B ∈ A ⇒ P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (8) A1, . . . , An ∈ A ⇒ P n i=1 Ai = n i=1 P(Ai) − n−1 i=1 n j=i+1 P(Ai ∩ Aj) + n−2 i=1 n−1 j=i+1 n k=j+1 P(Ai ∩ Aj ∩ Ak) + · · · · · · (−1)n−1 P(A1 ∩ · · · ∩ An) (9) ⇒ P n i=1 Ai ≤ n i=1 P(Ai). Důkaz. (1) Protože jevy jistý Ω a nemožný ∅ jsou neslučitelné, můžeme upravovat 1 = P(Ω) axiom (1) def.psti = P(Ω ∪ ∅ ∪ ∅ . . . ) = =1 P(Ω) +P(∅) + P(∅) + . . . axiom (3) definice pravděpodobnosti ⇒ P(∅) = 0. (2) Předpokládejme, že A, B ∈ A, A ∩ B = ∅. Uvažujme posloupnost po dvou neslučitelných jevů: A, B, ∅, ∅, . . .. Pak s využitím axiomů (3) definice pravděpodobnosti můžeme upravovat P(A ∪ B) = P(A ∪ B ∪ ∅ ∪ ∅ ∪ · · · ) = P(A) + P(B) + P(∅) =0 + P(∅) =0 + · · · = P(A) + P(B). (3) Předpokládejme, že A, B ∈ A, A ⊆ B. Pak můžeme psát: B = A ∪ (B − A) neslučitelné jevy , takže s využitím předchozí vlastnosti (2) dostaneme P(B) = P(A ∪ (B − A)) = P(A) + P(B − A) ⇒ P(B − A) = P(B) − P(A). (4) Analogicky jako v předchozím případě dostaneme P(B) = P(A) + P(B − A) ⇒ P(A) = P(B) − P(B − A) ≥0 ⇒ P(A) ≤ P(B). 14 M3121 Pravděpodobnost a statistika I (5) Předpokládejme, že A ∈ A. Pokud A = ∅ nebo A = Ω, tvrzení zřejmě platí. Proto uvažujme ∅ ⊂ A ⊂ Ω. S využitím předchozí vlastnosti (4) dostaneme 0 = P(∅) ≤ P(A) ≤ P(Ω) = 1. (6) Jestliže A ∈ A, pak také A = Ω − A ∈ A. Pokud A = ∅ nebo A = Ω, tvrzení zřejmě platí. Proto uvažujme ∅ ⊂ A ⊂ Ω. Díky tomu, že A ⊂ Ω a vlastnosti (3), dostaneme P(A) = P(Ω − A) vl.(3) = P(Ω) − P(A) = 1 − P(A). (7) Jestliže A, B ∈ A, pak jejich sjednocení lze vyjádřit jako sjednocení tří neslučitelných jevů, tj. A ∪ B = (A − (A ∩ B)) 1.jev ∪ (A ∩ B) 2.jev ∪ (B − (A ∩ B)) 3.jev , takže pravděpodobnost P(A ∪ B) = P ((A − (A ∩ B)) ∪ (A ∩ B) ∪ (B − (A ∩ B))) = P (A − (A ∩ B)) + P (A ∩ B) + P (B − (A ∩ B)) = P(A) − P(A ∩ B) 1. člen + P(A ∩ B) 2. člen + P(B) − P(A ∩ B) 3. člen = P(A) + P(B) − P(A ∩ B) (8) Dokážeme matematickou indukcí z předchozí vlastnosti. (9) Jestliže A1, . . . , An ∈ A, pak díky vlastnosti (7) postupně dostaneme P n i=1 Ai = P n−1 i=1 Ai + P(An) − P An ∩ n−1 i=1 Ai ≥0 = P n−2 i=1 Ai + P(An−1) − P An−1 ∩ n−2 i=1 Ai ≥0 + P(An) − P An ∩ n−1 i=1 Ai ≥0 ... = P(A1) + · · · + P(An)−P(A1 ∩ A2) − · · · − P An ∩ n−1 i=1 Ai a odtud již dostáváme tvrzení věty, že P n i=1 Ai ≤ n i=1 P(Ai). RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 15 Věta 7.2. Spojitost pravděpodobnosti. Nechť (Ω, A) je jevové pole, P reálná množinová funkce definovaná na A s vlastnostmi: (i) P(Ω) = 1 (ii) pro ∀ A ∈ A : P(A) ≥ 0 (iii) A, B ∈ A, A ∩ B = ∅ ⇒ P(A ∪ B) = P(A) + P(B) (aditivita, ne σ-aditivita) pak následující vlastnosti jsou ekvivalentní (1) P je pravděpodobnost na (Ω, A). (2) spojitost pravděpodobnosti zdola: A1, A2, . . . ∈ A, An ⊆ An+1 ⇒ lim n→∞ P(An) = P ∞ n=1 An = P lim n→∞ An (3) spojitost pravděpodobnosti shora: A1, A2, . . . ∈ A, An ⊇ An+1 ⇒ lim n→∞ P(An) = P ∞ n=1 An = P lim n→∞ An (4) spojitost pravděpodobnosti shora v nule: A1, A2, . . . ∈ A, An ⊇ An+1, ∞ n=1 An = ∅ ⇒ lim n→∞ P(An) = 0. Důkaz. (1)⇒(2) Nejprve dokážeme, že pravděpodobnost P je spojitá zdola. Předpokládejme, že P je pravděpodobnost a mějme posloupnost náhodných jevů {An}∞ n=1 takovou, že An ⊆ An+1. Položme B1 = A1, Bn = An − An−1 pro n ≥ 2, takže ∞ n=1 An = ∞ n=1 Bn a přitom Bi ∩ Bj = ∅ pro i = j. S využitím vztahu An = n i=1 Bi postupně upravujme: P ∞ n=1 An = P ∞ n=1 Bn ax(3) = ∞ n=1 P(Bn) = lim n→∞ n i=1 P(Bi) = lim n→∞ [P(A1) + P(A2 − A1) + · · · + P(An − An−1)]. =P(An) (2)⇒(3) Předpokládejme, že P je spojitá zdola. Dokážeme, že je spojitá i shora. Nechť pro posloupnost náhodných jevů {An}∞ n=1 platí An ⊇ An+1. Protože An ∈ A, pak pro posloupnost opačných náhodných jevů {An}∞ n=1 platí An ⊆ An+1. Díky předpokladu a de Morg. pravidlům lim n→∞ P(An) = P ∞ n=1 An = P ∞ n=1 An = 1 − P ∞ n=1 An , takže lim n→∞ P(An) = lim n→∞ 1 − P(An) = 1 − 1 − P ∞ n=1 An = P ∞ n=1 An . (3)⇒(4) Předpokládejme, že P je spojitá shora. Dokážeme pak, že je spojitá shora i v nule. Nechť pro posloupnost náhodných jevů {An}∞ n=1 platí An ⊇ An+1 a ∞ n=1 An = ∅, pak podle předchozí implikace lim n→∞ P(An) = P ∞ n=1 An = 0, neboť ∞ n=1 An = ∅. (4)⇒(1) Předpokládejme, že P je spojitá shora v nule. Ukážeme, že P splňující vlastnosti (i), (ii) a (iii) je pravděpodobnost. Jediná vlastnost, která v tomto výčtu vlastností chybí, je σ–aditivita: 16 M3121 Pravděpodobnost a statistika I P ∞ i=1 Bi ? = ∞ i=1 P(Bi), kde Bi ∩ Bj = ∅ pro i = j. Mějme n lib., pevně. Ozn. Zn+1 = ∞ i=n+1 Bi. Pak Zn ⊇ Zn+1 a ∞ n=1 Zn = ∅, neboť ∞ n=1 Zn = ∞ n=1 ∞ i=n Bi = lim sup n→∞ Bn = {ω ∈ Ω : ω patří do nekonečně mnoha Bi} = ∅, protože Bi jsou po dvou disjunktní. Protože podle předpokladu je P spojitá shora v nule, tak platí lim n→∞ P(Zn) = 0. Nyní využijeme aditivitu množinové funkce P a pro n ≥ 2 počítejme P ∞ i=1 Bi = lim n→∞ P(B1 ∪ · · · ∪ Bn ∪ Zn+1) = lim n→∞ n i=1 P(Bi) + P(Zn+1) = lim n→∞ n i=1 P(Bi) + lim n→∞ P(Zn+1) =0 = ∞ i=1 P(Bi). Věta 7.3. Nechť (Ω, A, P) je pravděpodobnostní prostor, An ∈ A pro n = 1, 2, . . . a existuje limita An. Pak platí P lim n→∞ An = lim n→∞ P(An). Důkaz. Připome ˇme, že limita existuje, pokud existuje horní i dolní limita a rovnají se, tj. A = lim n→∞ An = lim inf n→∞ An = ∞ n=1 ∞ k=n Ak ozn.Bn = lim sup n→∞ An = ∞ n=1 ∞ k=n Ak ozn.Cn . Díky vztahům ∞ k=n Ak = Bn ⊆ Bn+1 = ∞ k=n+1 Ak a ∞ k=n Ak = Cn ⊇ Cn+1 = ∞ k=n+1 Ak dosta- neme P lim inf n→∞ An =P ∞ n=1 ∞ k=n Ak =P ∞ n=1 Bn V 7.2,(2) = lim n→∞ P(Bn)=lim inf n→∞ P(Bn) Bn⊆An ≤ ≤lim inf n→∞ P(An) ≤ lim sup n→∞ P(An) An⊆Cn ≤ lim sup n→∞ P(Cn) = lim n→∞ P(Cn) V 7.2,(3) = =P ∞ n=1 Cn = P ∞ n=1 ∞ k=n Ak = P lim sup n→∞ An Protože první a poslední člen se rovnají, všude platí rovnost, takže i lim inf n→∞ P(An) = lim sup n→∞ P(An) = lim n→∞ P(An) a díky tomu i tvrzení věty. Věta 7.4. Cantelliho lemma. (též Borelovo-Cantelliho lemma). Nechť {An}∞ n=1 je posloupnost náhodných jevů na (Ω, A, P) taková, že ∞ n=1 P(An) < ∞, pak P(lim sup n→∞ An) = 0. Důkaz. Nejprve vyjádřeme P(lim sup n=→∞ An) = P ∞ n=1 ∞ k=n Ak S využitím faktu, že ∞ k=n Ak =Cn ⊇ Cn+1 = ∞ k=n+1 Ak RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 17 je klesající posloupnost náhodných jevů, můžeme upravovat 0 ≤ P(lim sup n=→∞ An) = P ∞ n=1 ∞ k=n Ak = P ∞ n=1 Cn = lim n→∞ P(Cn) = lim n→∞ P ∞ k=n Ak V.7.1,vl(9) ≤ ∞ k=n P(Ak) ≤ lim n→∞ ∞ k=n P(Ak) Protože Zn = ∞ k=n P(Ak) je zbytek konvergentní řady, neboť předpokládáme, že ∞ n=1 P(An) < ∞, pak musí platit P(lim sup n→∞ An) = 0. Příklad 7.5. I když ještě neznáme pojem „náhodná veličina , uvedeme motivační příklad pro lepší pochopení předchozí věty. Nechť {Xn}∞ n=1 je posloupnost náhodných veličin, pro které platí P(Xn = 0) = 1 n2 a označme An jev Xn = 0 (přesněji An = {ω ∈ Ω; Xn(ω) = 0}). Zkoumáme pravděpodobnost, že jev An nastane pro nekonečně mnoho n. Řada ∞ n=1 P(An) je konvergentní, neboť lim n→∞ 1 n2 = π 6 < ∞. Je tedy splněn předpoklad pro Cantelliho lemma, které říká, že pro nekonečně mnoho n nastane jev An s pravděpodobností 0. Naopak, téměř jistě (s pravděpodobností 1) je Xn = 0 pro všechny konečné n-tice. KAPITOLA 2 Podmíněná pravděpodobnost a nezávislost 1. Motivační příklad Mějme urnu s a černými a b bílými koulemi. Dvakrát táhneme bez vracení po jedné kouli. Zajímá nás pravděpodobnost, s jakou ve druhém tahu vytáhneme bílou kouli, za předpokladu, že také v prvním tahu jsme vytáhli bílou kouli. Nejprve označme náhodné jevy B1 . . . v 1. tahu jsme vytáhli bílou kouli B2 . . . v 2. tahu jsme vytáhli bílou kouli Z klasické definice pravděpodobnosti plyne, že P(B1) = b a+b . Obdobně, v situaci, kdy jsme už vytáhli v 1. tahu bílou kouli, další bílou kouli vytáhneme s pravděpodobností P(B2|B1) = b − 1 a + b − 1 , protože pro 2. tah je k dispozici pouze b − 1 bílých a a černých koulí. Označení P(B2|B1) jsme použili pro podmíněnou pravděpodobnost náhodného jevu B2 za podmínky výskytu náhodného jevu B1. Kromě toho je pravděpodobnost průniku náhodných jevů B1 ∩ B2 rovna P(B1 ∩ B2) = b a + b · b − 1 a + b − 1 , neboť příznivých jevů je b(b − 1) a všech možných výsledků dvou tahů je: 1 2 · · · b − 1 1 · · · a 1 2 ... b (bi1 , bi2 ) (bi1 , bi3 ) · · · (bi1 , bib ) (bi2 , bi1 ) (bi2 , bi3 ) · · · (bi2 , bib ) ... ... (bib , bi1 ) (bib , bi2 ) · · · bib ,bib−1 (bi2 , cj1 ) · · · (bi1 , cja ) (bi2 , cj1 ) · · · (bi2 , cja ) ... ... (bib , cj1 ) · · · (bib , cja ) jev B1 1 ... a (cj1 , bi1 ) (cj1 , bi2 ) · · · (cj1 , bib ) ... ... (cja , bi1 ) (cja , bi2 ) · · · (cja , bib ) (cj1 , cj2 ) · · · (cj1 , cja ) ... ... (cja , cj1 ) · · · cja,cja−1 1 2 · · · b 1 · · · a − 1 jev B2 takže všech možných jevů je b(b − 1 + a) + a(b + a − 1) = b2 − b + ba + ab + a2 − a = (a + b)(a + b − 1). Podmíněnou pravděpodobnost lze zapsat i takto P(B2|B1) = P(B1 ∩ B2) P(B1) = b a+b · b−1 a+b−1 b a+b = b − 1 a + b − 1 Tedy z Ω jsme přešli na B1 a z náhodného jevu B2 bereme jen ty, které jsou také v B1. 19 20 M3121 Pravděpodobnost a statistika I 2. Definice a vlastnosti podmíněné pravděpodobnosti Definice 2.1. Nechť (Ω, A, P) je pravděpodobnostní prostor, B ∈ A, P(B) > 0. Pak číslo P(A|B) = P(A ∩ B) P(B) nazýváme podmíněnou pravděpodobností jevu A za podmínky (že nastal jev) B. Poznámka 2.2. Z předchozí definice ihned vyplývá, že pravděpodobnost průniku náhodných jevů lze vyjádřit P(A ∩ B) = P(A|B)P(B) a přitom se předpokládá, že P(B) > 0. Ukážeme, že tento vztah platí i v případě, že P(B) = 0. Nejprve je třeba si uvědomit, že A ∩ B ⊆ B. Je-li tedy P(B) = 0, pak P(A ∩ B) = 0. Zcela symetricky platí také P(A ∩ B) = P(B|A)P(A). Značení: Mějme pevně daný náhodný jev B ∈ A, pro který platí P(B) > 0. Označme PB : A → 0, 1 : PB(A) = P(A|B) Věta 2.3. PB je pravděpodobnost na (Ω, A) pro každé B ∈ A, pro které P(B) > 0. Důkaz. Je-li PB je pravděpodobnost na (Ω, A), musí být normovaná, nezáporná a σ-aditivní. (1) Normovanost PB(Ω) = P(B∩Ω) P(B) = P(B) P(B) = 1. (2) Nezápornost PB(A) = P(A∩B) P(B) ≥ 0 pro ∀ A ∈ A. (3) σ-aditivita {An}∞ n=1je posloupnost po dvou neslučitelných náhodných jevů PB ∞ n=1 An = P ∞ n=1 An ∩B P(B) = P ∞ n=1 (An∩B) P(B) = ∞ n=1 P(An∩B) P(B) = ∞ n=1 P(An|B) = ∞ n=1 PB(An) Věta 2.4. Platí (1) P(A|Ω) = P(A) pro ∀ A ∈ A. (2) P n i=1 Ai = P(A1) · P(A2|A1) · P(A3|A1 ∩ A2) · · · · · P(An|A1 ∩ . . . ∩ An−1) pro P n−1 i=1 Ai > 0 ( Věta o násobení pravděpodobností) Důkaz. (1) P(A|Ω) = P(A∩Ω) P(Ω) = P(A) P(Ω) = P(A) pro ∀ A ∈ A. (2) P n i=1 Ai =P An ∩ n−1 i=1 Ai pozn.2.2 = P An| n−1 i=1 Ai P n−1 i=1 Ai pozn.2.2 =P An| n−1 i=1 Ai P An−1| n−2 i=1 Ai P n−2 i=1 Ai pozn.2.2 = · · · =P An| n−1 i=1 Ai P An−1| n−2 i=1 Ai · · · · · P(A2|A1) · P(A1) RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 21 Definice 2.5. Nechť (Ω, A, P) je pravděpodobnostní prostor. Náhodné jevy {An}∞ n=1 ∈ A tvoří úplný systém jevů na (Ω, A, P), jestliže platí Ai ∩ Aj = ∅, pro i = j, a ∞ n=1 An = Ω. Věta 2.6. (Vzorec pro úplnou pravděpodobnost). Nechť posloupnost {An}∞ n=1 tvoří úplný systém jevů na (Ω, A, P) takový, že P(Ai) > 0 pro i = 1, 2, . . .. Pak platí P(B) = ∞ i=1 P(Ai)P(B|Ai). Důkaz. P(B) = P(B ∩ Ω) = P B ∩ ∞ i=1 Ai = P ∞ i=1 (B ∩ Ai) = ∞ i=1 P(B ∩ Ai) pozn.2.2 = ∞ i=1 P(Ai)P(B|Ai) Věta 2.7. (Bayesův vzorec). Nechť posloupnost {An}∞ n=1 tvoří úplný systém jevů na (Ω, A, P) takový, že P(Ai) > 0 pro i = 1, 2, . . . a B ∈ A, kde P(B) > 0. Pak P(Aj|B) = P(Aj)P(B|Aj) n i=1 P(Ai)P(B|Ai) pro j = 1, 2, . . . . Důkaz. S využitím poznámky 2.2 a vzorce pro úplnou pravděpodobnost můžeme upravovat P(Aj|B) = P(Aj ∩ B) P(B) = pozn.2.2 P(Aj)P(B|Aj) ∞ i=1 P(Ai)P(B|Ai) úpl.pst(V 2.6) . Věta 2.8. (Bayesův vzorec – modifikace). Nechť posloupnost {An}∞ n=1 tvoří úplný systém jevů na (Ω, A, P) takový, že P(Ai) > 0 pro i = 1, 2, . . ., A ∈ A, kde P(A) > 0 a B ∈ A. Pak P(B|A) = {i:P(A∩Ai)>0} P(Ai)P(A|Ai)P(B|A ∩ Ai) ∞ i=1 P(Ai)P(A|Ai) . Důkaz. Využitím předchozích vztahů lze lehce dospět k tvrzení (zkuste jako domácí cvičení). Terminologie: Aj · · · hypotézy, j = 1, 2, . . . P(Aj) · · · apriorní pravděpodobnost P(Aj|B) · · · aposteriorní pravděpodobnost 22 M3121 Pravděpodobnost a statistika I Poznámka 2.9. Bayesův vzorec se používá v případě, jestliže: • Máme úplný systém hypotéz A1, . . . , An, které se navzájem vylučují a vyčerpávají všechny možnosti. • Přitom známe jejich apriorní pravděpodobnosti P(Ai). • Nastal jev B a navíc známe podmíněné pravděpodobnosti P(B|Ai). • Co nás především zajímá, jsou nové aposteriorní pravděpodobnosti P(Ai|B), které berou v úvahu, že nastal jev B. Příklad 2.10. (Lékařská diagnostika). Je známo, že nějakou konkrétní nemocí, označme ji D (disease), trpí 1% populace. Nemoc je diagnostikována na základě vyšetření, jehož spolehlivost je 95%, jestliže vyšetřovaná osoba trpí nemocí D, a je 70%, pokud nemocí D netrpí. Vyšetřujeme náhodně zvolenou osobu. Určete pravděpodobnost správné diagnózy, pokud byl výsledek (a) pozitivní, (b) negativní. Řešení: Označme jev A · · · vyšetřované osoba trpí chorobou D jev B · · · výsledek vyšetření je pozitivní Ze zadání známe: apriorní pravděpodobnost P(A) = 0.01, což je pravděpodobnost, že náhodně vybraná osoba má danou nemoc D, říká se jí prevalence nemoci. Spolehlivost vyšetření se popisuje pomocí dvou charakteristik: • pro pozitivní výsledek P(B|A) = 0.95 . . . tzv. senzitivita testu • pro negativní výsledek P( ¯B| ¯A) = 0.7 . . . tzv. specificita testu (a) Určíme aposteriorní pravděpodobnost správné diagnózy, pokud byl výsledek pozitivní, tj. spočítáme podmíněnou pravděpodobnost P(A|B) = P(A∩B) P(B) . Nejprve vypočítáme P(B)=P(B ∩ Ω) = P(B ∩ (A ∪ ¯A)) = P((B ∩ A) ∪ (B ∩ ¯A) neslučitelné jevy ) = P(B ∩ A pozn.2.2 ) + P(B ∩ ¯A pozn.2.2 ) =P(A)P(B|A) + P( ¯A)P(B| ¯A) =0.01 · 0.95 + (1 − 0.01) · (1 − 0.7) = 0.0095 =P(A∩B) + 0.297 =P( ¯A∩B) = 0.3065 Nakonec dosadíme P(A|B) = P(A∩B P(B) = P(A)P(B|A) P(B) = 0.0095 0.3065 = 0.030995 tj. 3.1%, což je překvapivý výsledek, čekali jsme o mnoho lepší. Většina lidí bez zaváhání odpoví, že by mělo být 95%, neboť taková je přece spolehlivost vyšetření pro pozitivního jedince. Vysvětleme si podrobně, co značí aposteriorní pravděpodobnost správného určení diagnózy, když výsledek testu byl pozitivní. Je třeba si uvědomit, že uvažujeme náhodně vybraného jedince. Pravděpodobnost, že má danou chorobu, je dána prevalencí, a ta činí 1%. Naproti tomu 99% nemocí netrpí. Mezi těmi, kteří nemocí trpí, dává test s 95% správný (tj. pozitivní) výsledek, (senzitivita testu). Mezi těmi, kteří nemocí netrpí, dává test s 70% správný (tj. negativní) výsledek (specificita testu), takže pozitivní (nesprávný) výsledek s 30%. (b) Naprosto analogicky dostaneme P( ¯A| ¯B)=P( ¯A∩ ¯B) P( ¯B) = P( ¯A)P( ¯B| ¯A) P( ¯A)P( ¯B| ¯A)+P(A)P( ¯B|A) = (1−0.01)·0.7 (1−0.01)·0.7+0.01·(1−0.95) = 0.693 0.693+0.0005 = 0.693 0.6935 = 0.99928. Na konkrétním příkladu s 100 000 jedinci si ukážeme, proč vyšla pravděpodobnost správného výsledku při pozitivním testu tak malá a pravděpodobnost správného výsledku při negativním testu tak vysoká. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 23 A . . . nemoc má prevalence= 0.01 1 000 ¯A . . . nemoc nemá 99 000 celkem 100 000 B . . . test je pozitivní senzitivita= 0.95 950 29 700 30 650 P(A|B)= 950 30 650 =0.030995 ¯B . . . test je negativní 50 specificita= 0.7 69 300 69 350 P( ¯A| ¯B)=69 300 69 350 =0.99928 3. Nezávislost náhodných jevů Velmi důležitým pojmem je nezávislost. Intuitivně cítíme, že jevy A a B jsou nezávislé, pokud hodnota pravděpodobnosti podmíněného jevu bude rovna nepodmíněné pravděpodobnosti, tj. P(A|B) = P(A∩B) P(B) = P(A) a P(B|A) = P(A∩B) P(A) = P(B). Odtud pak vychází následující definice nezávislosti. Definice 3.1. Nechť (Ω, A, P) je pravděpodobnostní prostor. Pak řekneme, že jev A ∈ A a jev B ∈ A jsou nezávislé (vzhledem k pravděpodobnosti P), jestliže P(A ∩ B) = P(A)P(B). Věta 3.2. (a) Libovolný náhodný jev A ∈ A a jev jistý jsou nezávislé. (b) Libovolný náhodný jev A ∈ A a jev nemožný jsou nezávislé. (c) Nechť A ∈ A a B ∈ A jsou nezávislé jevy. Pak také A a ¯B, ¯A a B, ¯A a ¯B jsou nezávislé. Důkaz. (a) P(Ω) = 1 ∧ P(A ∩ Ω) = P(A) = P(A) · 1 = P(A) · P(Ω) (b) P(∅) = 0 ∧ P(A ∩ ∅) = P(∅) = 0 = P(A) · P(∅) (c) Nechť A, B ∈ A ∧ P(A ∩ B) = P(A)P(B), počítejme P(A ∩ ¯B) = P(A ∩ (Ω − B)) = P((A ∩ Ω) − (A ∩ B)) = P(A − (A ∩ B) ⊆A ) = P(A) − P(A ∩ B) = P(A) − P(A)P(B) = P(A)(1 − P(B)) = P(A)P( ¯B) Analogicky dokážeme i ostatní tvrzení. 24 M3121 Pravděpodobnost a statistika I Definice 3.3. (Skupinová (sdružená) nezávislost). Nechť (Ω, A, P) je pravděpodobnostní prostor a A1, . . . , An ∈ A. Řekneme, že náhodné jevy A1, . . . , An jsou skupinově (sdruženě) nezávislé, jestliže pro libovolné k ∈ {1, . . . , n} a libovolnou množinu indexů {i1, . . . , ik} ⊆ {1, . . . , n} platí P k j=1 Aij = k j=1 P(Aij ) Nechť M = {Ai ∈ A, i ∈ J }, kde J je daná indexová množina (i nekonečná). Řekneme, že náhodné jevy systému M jsou nezávislé, jestliže pro každou konečnou množinu indexů {i1, . . . , in}, kde ij ∈ J , j = 1, . . . , n platí P n j=1 Aij = n j=1 P(Aij ) Příklad 3.4. Dvakrát házíme kostkou. Uvažujme následující jevy A . . . v 1. hodu padne sudé číslo B . . . v 2. hodu padne liché číslo C . . . v obou hodech padne číslo stejné parity Protože platí P(A) = 3·6 36 = 1 2 P(A ∩ B) = 3·3 36 = 1 4 = P(A)P(B) P(B) = 6·3 36 = 1 2 P(A ∩ C) = 3·3 36 = 1 4 = P(A)P(C) P(C) = 3·3+3·3 36 = 1 2 P(A ∩ B ∩ C) = 0 36 = 0 = P(A)P(B)P(C) jsou jevy A, B a C po dvou nezávislé, ale ne skupinově nezávislé. Poznámka 3.5. Zřejmě platí: jsou-li jevy A1, . . . , An nezávislé, jsou i skupinově nezávislé. Věta 3.6. (a) Libovolná podmnožina skupinově nezávislých náhodných jevů je množinou nezávislých náhodných jevů. (b) Jestliže v dané množině nezávislých náhodných jevů nahradíme libovolný počet jevů jevy opačnými, opět dostaneme množinu nezávislých náhodných jevů. (c) Jestliže A1, . . . , An jsou nezávislé náhodné jevy, pak P n i=1 Ai = 1 − n i=1 (1 − P(Ai)) . Důkaz. (a) i (b) zřejmé. (c) P n i=1 Ai = P n i=1 ¯Ai = 1 − P n i=1 ¯Ai = 1 − n i=1 P( ¯Ai) = 1 − n i=1 (1 − P(Ai)) . Věta 3.7. ( Borelovo lemma). Nechť {An}∞ n=1 jsou nezávislé jevy. Pak P lim sup n→∞ An = 0 ∨ 1 podle toho, zda řada ∞ n=1 P(An) konverguje nebo diverguje. Důkaz. (a) Jestliže řada ∞ n=1 P(An) < ∞ konverguje, pak podle Cantelliho lemmatu (V.7.4), které dokonce nepožaduje ani nezávislost náhodných jevů, platí P lim sup n→∞ An = 0. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 25 (b) Nechť ∞ n=1 P(An) = ∞ diverguje. Protože P lim sup n→∞ An = P ∞ n=1 ∞ k=n Ak , označme nejprve Bn = ∞ k=n Ak ⊇ Bn+1 = ∞ k=n+1 Ak a upravujme P lim sup n→∞ An =P ∞ n=1 ∞ k=n Ak = P ∞ n=1 Bn V 7.2,(3) = lim n→∞ P(Bn) = lim n→∞ P ∞ k=n Ak = lim n→∞ lim N→∞ P N k=n Ak = lim n→∞ lim N→∞ P N k=n ¯Ak = 1− lim n→∞ lim N→∞ P N k=n ¯Ak =1−lim n→∞ lim N→∞ N k=n P( ¯Ak)=1−lim n→∞ lim N→∞ N k=n (1−P(Ak)) ≥1 − lim n→∞ lim N→∞ N k=n e−P(Ak) =1 − lim n→∞ lim N→∞ e − N k=n P(Ak) = 1 − 0 = 1. Pro x ∈ (0, 1) platí | ln(1 − x)| ≥ x, tj. ln(1 − x) ≤ −x 1 − x ≤ e−x 0 0.5 1 0 0.2 0.4 0.6 0.8 1 0.368 1−x e −x KAPITOLA 3 Náhodné veličiny a náhodné vektory 1. Náhodná veličina Pro popis náhodného pokusu bylo zavedeno jevové pole (Ω, A). Velmi často je výsledek pokusu ω ∈ Ω značně komplexní entita, zatímco nás mohou zajímat jen některé jeho numerické vlastnosti, běžně označované X1(ω), X2(ω), . . .. Definice 1.1. Nechť (Ω, A, P) je pravděpodobnostní prostor, X : Ω → R je takové zobrazení, že pro ∀ x ∈ R platí {ω ∈ Ω : X(ω) ≤ x} = X−1 ((−∞, x ) ∈ A Pak X nazýváme náhodnou veličinou (vzhledem k jevovému poli (Ω, A)). Poznámka 1.2. X je náhodná veličina ⇔ {ω ∈ Ω : X(ω) ≤ x} ∈ A pro ∀ x ∈ R ⇔ {ω ∈ Ω : X(ω) ∈ B} = X−1 (B) ∈ A pro ∀ borelovskou množinu B ∈ B. Poznámka 1.3. Jestliže pro každou borelovskou množinu B ∈ B platí X−1 (B) ∈ A, říkáme, že X je borelovsky měřitelná vzhledem k A. Tento fakt se značí X : (Ω, A) → (R, B). Příklad 1.4. Uvažujme experiment, při kterém házíme homogenní hrací kostkou. Experiment má 6 různých stejně pravděpodobných výsledků, takže Ω = {ω1, ω2, ω3, ω4, ω5, ω6}. Uvažujme jevové pole A = {∅, Ω, {ω1, ω2, ω3}, {ω4, ω5, ω6}}. Pro dále definované funkce X(ω) a Y (ω) zjistíme, zda jde o náhodné veličiny na daném jevovém poli (Ω, A). X = 1 padne číslo > 3, 0 padne číslo ≤ 3 Y = 1 padne sudé číslo, 0 padne liché číslo. {ω ∈ Ω : X(ω) ≤ x} =    ∅ ∈ A x < 0, {ω1, ω2, ω3} ∈ A 0 ≤ x < 1 Ω ∈ A x ≥ 1 {ω ∈ Ω : Y (ω) ≤ x} =    ∅ ∈ A x < 0, {ω1, ω3, ω5} /∈ A 0 ≤ x < 1 Ω ∈ A x ≥ 1 X je náhodná veličina na (Ω, A) Y není náhodná veličina na (Ω, A) Značení: {X ≤ x} = {ω ∈ Ω : X(ω) ≤ x} P(X ≤ x) = P ({ω ∈ Ω : X(ω) ≤ x}) P(X ∈ B) = P ({ω ∈ Ω : X(ω) ∈ B}) P(X ∈ B1 ∩ B2) = P ({ω ∈ Ω : X(ω) ∈ B1} ∩ {ω ∈ Ω : X(ω) ∈ B2}) 27 28 M3121 Pravděpodobnost a statistika I 2. Distribuční funkce Pravděpodobnostní chování náhodné veličiny lze popsat pomocí distribuční funkce. Definice 2.1. Nechť X je náhodná veličina definovaná na pravděpodobnostním prostoru (Ω, A, P). Pak funkci F(x) = FX(x) = P(X ≤ x), kde x ∈ R, nazýváme distribuční funkcí náhodné veličiny X. Příklad 2.2. 3 nezávislé hody mincí. Množina elementárních jevů má 23 = 8 prvků: Ω = {ω1 = (L, L, L), ω2 = (L, L, R), ω3 = (L, R, L), ω4 = (R, L, L), ω5 = (R, R, L), ω6 = (R, L, R), ω7 =(L, R, R), ω8 =(R, R, R)}. Jako σ-algebru zvolme nejpodrobnější A = 2Ω . Definujme náhodnou veličinu X je počet líců ve třech hodech. Pak X ∈ {0, 1, 2, 3}. Distribuční funkce pak má tvar ✲ ✻ s1 8 1 1 2 s 2 7 8 s 3 1 s F(x) F(x)=P(∅) = 0 x < 0 =P(X =0)= 1 8 0 ≤ x < 1 =P(X =0 ∨ 1) = 1 8 + 3 8 = 1 2 1 ≤ x < 2 =P(X =0 ∨ 1 ∨ 2) = 1 8 + 3 8 + 3 8 = +7 8 2 ≤ x < 3 =P(X =0 ∨ 1 ∨ 2 ∨ 3) = 1 8 + 3 8 + 3 8 + 1 8 = 1 x > 3 Věta 2.3. Nechť F(x) je distribuční funkce náhodné veličiny X definované na (Ω, A, P). Pak (1) F je neklesající. (2) F je zprava spojitá. (3) lim x→∞ F(x) = 1 a lim x→−∞ F(x) = 0. (4) 0 ≤ F(x) ≤ 1 pro x ∈ R. (5) P(X = x) = F(x) − lim y→x− F(y). (6) F má nejvýše spočetně mnoho bodů nespojitosti. (7) P(x1 < X ≤ x2) = F(x2) − F(x1) pro x1, x2 ∈ R, x1 < x2. Důkaz. (7) Mějme x1, x2 ∈ R, x1 < x2. S využitím vztahu {X ≤ x1} ⊆ {X ≤ x2} upravujme P(x1 < X ≤ x2) = P ({X ≤ x2} − {X ≤ x1}) V.7.1,(3) = P(X ≤ x2) − P(X ≤ x1) = F(x2) − F(x1) (1) Je-li x1, x2 ∈ R, x1 < x2, pak F(x2)−F(x1) (7) = P(x1 < X ≤ x2)≥ 0 ⇒ F je neklesající. (2) F je zprava spojitá ⇔ pro ∀ {xn}∞ n=1 takovou, že x1 ≥ x2 ≥ · · · ≥ xn ≥ · · · ≥ x0, (tj. lim n→∞ xn = x0) je {X ≤ x1}, . . . , {X ≤ xn}, . . . , {X ≤ x0} je klesající posloupnost jevů a {X ≤ x0} = ∞ n=1 {X ≤ xn}, takže s využitím spojitosti pravděpodobnosti shora lim n→∞ F(xn) = lim n→∞ P(X ≤ xn) V.7.2,(3) = P ∞ n=1 {X ≤ xn} = P ({X ≤ x0}) = F(x0). (3) Mějme rostoucí posl. reálných čísel x1 < x2 · · · < xn < xn+1 < · · · , tj. lim n→∞ xn =∞, RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 29 takže existuje limita lim n→∞ n k=1 {X ≤ xk} = ∞ n=1 {X ≤ xn} = Ω a platí lim n→∞ F(xn) = lim n→∞ P(X ≤ xn) = P ∞ n=1 {X ≤ xn} = P(Ω) = 1 ⇒ lim x→∞ F(x) = 1. Analogicky mějme klesající posl. reálných čísel x1 > x2 · · · > xn > xn+1 > · · · tj. lim n→∞ xn =−∞, takže existuje limita lim n→∞ n k=1 {X ≤ xk} = ∞ n=1 {X ≤ xn} = ∅ a platí lim n→∞ F(xn) = lim n→∞ P(X ≤ xn) = P ∞ n=1 {X ≤ xn} = P(∅) = 0 ⇒ lim x→−∞ F(x) = 0. (4) Důkaz nerovnosti 0 ≤ F(x) ≤ 1 pro x ∈ R je zřejmý, neboť distribuční funkce je definována pomocí pravděpodobnosti. (5) Pro libovolné, ale pevné x ∈ R mějme rostoucí posl. reálných čísel x1 < x2 · · · < xn < xn+1 < · · · takovou, že lim n→∞ xn =x, pak posloupnost náhodných jevů {xn < X ≤ x} je klesající posloupností a existuje limita lim n→∞ {xn < X ≤ x} = {X = x} a platí P(X = x) = lim n→∞ P(xn < X ≤ x) = lim n→∞ [F(x) − F(xn)] = F(x) − lim n→∞ F(xn) = F(x) − lim y→x− F(y). (6) Na závěr dokážeme, že F má nanejvýš spočetně mnoho bodů nespojitosti. Víme, že pro ∀ x ∈ R platí 0 ≤ F(x) ≤ 1. Označme symbolem Cn množinu bodů, ve kterých má F skok ≥ 1 n , tj. Cn = {x ∈ R : F(x) − lim y→x− F(y) = P(X = x) ≥ 1 n }. Protože pravděpodobnost jakéhokoliv jevu leží v intervalu 0, 1 , může mít množina Cn nanejvýš n prvků. Označme S množinu všech bodů, kde má funkce F skok, tj. S = {x ∈ R : F má v bodě x nějaký skok}. Pak S = ∞ n=1 Cn a jde o spočetné sjednocení konečných množin, takže S je nejvýše spo- četná. 30 M3121 Pravděpodobnost a statistika I Poznámka 2.4. Lebesgueova – Stieltjesova míra Mějme funkci F : R → R, která je (a) neklesající, (b) zprava spojitá. Označme R množinu všech konečných sjednocení po dvou disjunktních polouzavřených intervalů typu (a, b , kde a, b ∈ R a a < b. Jde o množinový okruh. Na tomto množinovém okruhu se definuje aditivní míra µF : R → R pro každé A ∈ R, kde A = n i=1 (ai, bi , ai < bi a (ai, bi ∩ (aj, bj = ∅ pro i = j předpisem µF (A) = µF n i=1 (ai, bi = n i=1 [F(bi) − F(ai)]. Dále můžeme aditivní míru µF definovanou na okruhu R konečných sjednocení disjunktních polouzavřených intervalů rozšířit na minimální množinový σ-okruh B = σ(R) generovaný okruhem R, kdy pro každý prvek A ∈ B takový, že A = ∞ i=1 (ai, bi , ai < bi a (ai, bi ∩ (aj, bj = ∅ pro i = j definujeme σ-aditivní míru µF : B → R předpisem µF (A) = µF ∞ i=1 (ai, bi = ∞ i=1 [F(bi) − F(ai)]. Takto získaná σ-aditivní míra µF na borelovském σ-okruhu B se nazývá Lebesgueova – Stieltjesova míra indukovaná funkcí F. Jestliže F(x) = x, jde o Lebesgueovu míru. Dá se ukázat, že pokud navíc platí lim x→∞ F(x) = 1 a lim x→−∞ F(x) = 0, pak µF je pravděpodobnost na (R, B). Definice 2.5. Rozdělení pravděpodobností. Nechť X je náhodná veličina na (Ω, A, P) a F je její distribuční funkce. Pak množinová funkce PX definovaná vztahem PX(A) = P(X ∈ A), kde A ∈ A, nazýváme rozdělení pravděpodobností náhodné veličiny X. Poznámka 2.6. (1) Mějme polouzavřený interval B = (a, b , kde a, b ∈ R, a < b. Pak PX(B) = P(X ∈ B) = P(a < X ≤ b) = F(b) − F(a) = µF ((a, b ). (2) Dále uvažujme borelovskou množinu A ∈ B = ∞ i=1 (ai, bi , tvořenou disjunktními polouzavřenými intervaly, pak PX(A) = P(X ∈ A) = ∞ i=1 [F(bi) − F(ai)] = µF (A). Tedy PX ↔ µF ↔ F, takže pomocí distribuční funkce lze jednoznačně popsat rozdělení pravděpodobností PX(B) = P(X ∈ B) pro každou B ∈ B. Z teorie integrálu pak pro každou B ∈ B lze psát PX(B) = µF (B)= B dµF · · · Lebesgueův – Stieltjesův integrál = B dF(x) · · · jiné značení RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 31 Věta 2.7. Nechť G : R → R je neklesající, zprava spojitá funkce, pro kterou platí lim x→∞ G(x) = 1 a lim x→−∞ G(x) = 0. Pak existuje pravděpodobnostní prostor a na něm náhodná veličina X taková, že G(x) je její distribuční funkce. Důkaz. Uvažujeme-li Ω = R, A = B, pak (Ω, A) = (R, B) je jevové pole. Položme X(ω) = ω pro každé ω ∈ Ω. V tom případě pro každé x ∈ R dostaneme, že množina {ω ∈ Ω : X(ω) ≤ x} = (−∞, x ∈ B je jevem, takže X je náhodná veličina. Dále pro každé B ∈ B položme P(B) = µG(B). Pak z vlastností Lebesgueovy – Stieltjesovy míry plyne, že jde o pravděpodobnost. Počítejme distribuční funkci nově vytvořené náhodné veličiny X: F(x) = P(X ≤ x) = P((−∞, x ) = µG(B) = µG((−∞, x ) = G(x) a tím jsme větu dokázali. 3. Náhodné veličiny diskrétního typu V praxi se často setkáváme s náhodnými veličinami, které nabývají například pouze celočíselných hodnot, nebo mohou nabýt pouze hodnot z nějaké nejvýše spočetné množiny. Definice 3.1. Řekneme, že náhodná veličina X je diskrétního typu, pokud existuje nejvýše spočetná množina M ⊂ R taková, že platí PX(M) = 1. Poznámka 3.2. Mějme nejvýše spočetnou množinu M ⊂ R takovou, že PX(M) = 1. Počítejme PX(M) = P(X ∈ M) = P x∈M {X = x} = x∈M P(X = x) = 1 Definice 3.3. Nechť X je diskrétní náhodná veličina. Pak funkci p(x) = P(X = x), x ∈ M, nazýváme pravděpodobnostní funkcí diskrétní náhodné veličiny X a množinu M oborem hodnot X. Značení: Fakt, že jde o diskrétní náhodnou veličinu budeme značit X ∼ (M, p). Poznámka 3.4. Pravděpodobnostní funkci lze definovat pro všechna reálná čísla, když položíme p(x) = 0 pro x /∈ M. Věta 3.5. (Vlastnosti pravděpodobnostní funkce). Nechť X ∼ (M, p). Pak (1) p(x) ≥ 0 pro ∀ x ∈ R a x∈M p(x) = 1. (2) P(X ∈ B) = x∈M∩B p(x) pro libovolné B ∈ B. (3) F(x) = t≤x p(t) pro ∀ x ∈ R. (4) p(x) = F(x) − lim y→x− F(y) pro ∀ x ∈ R. Důkaz. (1) p(x) = P(X = x)≥ 0; x∈M p(x) = x∈M P(X = x) = P x∈M {X = x} = PX(M) = 1 (2) Pro libovolné B ∈ B počítejme P(X ∈ B) = P {X ∈ M ∩ B} ∪ {X ∈ ¯M ∩ B} neslučitelné jevy = P ({X ∈ M ∩ B}) + P {X ∈ ¯M ∩ B} =0 = P x∈M∩B {X = x} = x∈M∩B P(X = x) = x∈M∩B p(x) (3) Je-li B =(−∞, x pro libovolné x ∈ R, pak F(x)=P(X ≤ x) = P(X ∈ B)= t∈B∩M p(t)= t∈(−∞,x ∩M p(t)= t≤x p(t). (4) p(x) = P(X = x) V.2.3,(5) = F(x) − lim y→x− F(y) pro ∀ x ∈ R. 32 M3121 Pravděpodobnost a statistika I 4. Příklady diskrétních rozdělení Příklad 4.1. Alternativní rozdělení. ✲ ✻ θ = 0.7 1 0.7 0.3 10 r r pravděpodobnostní funkce p(x) ✲ ✻ 1 0.7 0.3 10 r r distribuční funkce F(x) Uvažujme náhodný pokus, který může skončit s pravděpodobností θ ∈ (0, 1) „úspěchem a s pravděpodobností 1 − θ „neúspěchem . Prostor elementárních jevů má proto dva prvky Ω = {ω1, ω2}, σ-algebra náhodných jevů má tvar A = {∅, {ω1}, {ω2}, Ω} a pravděpodobnost P(∅) = 0, P(ω1) = 1 − θ, P(ω2) = θ a P(Ω) = 1. Náhodná veličina je definována takto: X(ω1) = 0 (neúspěch), X(ω2) = 1 (úspěch). Jde o diskrétní náhodnou veličinu s definičním oborem M = {0, 1} a pravděpodobnostní funkcí p(x) =    θ x = 1 1 − θ x = 0 0 jinak = θx(1 − θ)1−x x = 0, 1 0 jinak. Náhodnou veličinu značíme X ∼ A(θ) . Vidíme, že popis náhodného pokusu prostřednictvím náhodného prostoru (Ω, A, P) je nepraktický, mnohem názornější je popis pomocí náhodné veličiny a pravděpodobnostní funkce. Poznámka 4.2. Konečná, popř. nekonečná posloupnost nezávislých alternativních pokusů typu úspěch/neúspěch s pravděpodobností úspěchu θ ∈ (0, 1) pro všechny pokusy se nazývá (konečná, resp. nekonečná) bernoulliovská posloupnost pokusů. Příklad 4.3. Binomické rozdělení. Uvažujme konečnou bernoulliovskou posloupnost délky n s pravděpodobností úspěchu θ ∈ (0, 1). Nechť X je náhodná veličina udávající počet úspěchů v n pokusech. Abychom mohli odvodit pravděpodobnostní funkci této náhodné veličiny, označme Ai jev, že v i-tém pokusu nastal úspěch. Pak počítejme pro x ∈ M P(X = x) = P((A1 ∩ · · · ∩ Ax ∩ ¯Ax+1 ∩ · · · ∩ ¯An) ∪ · · · ∪ ( ¯A1 ∩ · · · ∩ ¯An−x ∩ An−x+1 ∩ · · · ∩ An) neslučitelné jevy ) = P(A1 ∩ · · · ∩ Ax ∩ ¯Ax+1 ∩ · · · ∩ ¯An nezávislé jevy ) + · · · + P( ¯A1 ∩ · · · ∩ ¯An−x ∩ An−x+1 ∩ · · · ∩ An nezávislé jevy ) = P(A1) · · · P(Ax) =θx P( ¯Ax+1) · · · P( ¯An) =(1−θ)n−x + · · · + P( ¯A1) · · · P( ¯An−x) =(1−θ)n−x P(An−x+1) · · · P(An) =θx (n x) členů = n x θx (1 − θ)n−x Takže obor hodnot náhodné veličiny X má tvar M ={0, 1, . . . , n} a pravděpodobnostní funkce p(x)= n x θx(1 − θ)n−x x = 0, 1, . . . , n, n ∈ N, θ ∈ (0, 1) 0 jinak. Náhodnou veličinu značíme X ∼ Bi(n, θ) . RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 33 Příklad 4.4. Hypergeometrické rozdělení. ✤ ✣ ✜ ✢ bílé černé K N − K x n−x vybráno bez vracení n koulí Mějme celkem N koulí, (N ≥ 2) z toho K bílých, (K < N) N − K černých. Náhodně vybereme bez vracení n koulí. Nechť náhodná veličina X značí počet bílých koulí mezi n vybranými. Označíme-li symbolem x konkrétní počet bílých koulí mezi n vybranými, pak musí platit pro bílé koule 0 ≤ x ≤ K ⇒ x ≥ 0 pro černé koule 0 ≤ n − x ≤ N − K ⇒ x ≥ n − N + K ⇒ x ≥ max(0, n − N + K), tím jsme získali dolní hranici oboru hodnot. Přitom mohou nastat dva případy: n ≤ K ⇒ x ≤ n n > K ⇒ x ≤ K ⇒ x ≤ min(n, K) což je horní hranice oboru hodnot. Takže M = {max(0, n − N + K), . . . , min(n, K)}. S využitím faktů, že • počet všech množných n-tic z celkového počtu N koulí . . . N n • počet všech možných x-tic bílých koulí mezi K bílými koulemi . . . K x • počet všech možných (n − x)-tic černých koulí mezi N − K černými koulemi . . . N−K n−x pravděpodobnostní funkce má tvar p(x)=    (K x )(N−K n−x ) (N n ) x ∈ {max(0, n − N + K), . . . , min(n, K)} 0 jinak a značíme X ∼ Hg(N, K, n) . Poznámka 4.5. Fakt, že při výběru n koulí tyto koule nevracíme, hraje podstatnou roli. Pokud bychom koule vraceli, lze snadno ukázat, že jde o náhodnou veličinu s binomickým rozdělením Bi n, K N , neboť jde o bernoulliovskou posloupnost n nezávislých pokusů, ve kterých s pravděpodobností θ = K N vytáhneme bílou kouli. Poznámka 4.6. Dále jestliže N, K → ∞ tak, že lim N,K→∞ K N = θ∈ (0, 1), pak X ∼ Hg(N, K, n) → Bi(n, θ), tj. hypergeometrické rozdělení konverguje k binomickému rozdělení, což dokážeme díky tomu, že K x = x členů K(K − 1)· · · (K − x + 1) x (x − 1) · · · 1 , N − K n − x = n−x členů (N − K)(N − K − 1)· · · (N − K − n + x + 1) (n − x) (n − x − 1) · · · 1 a N n = N! n!(N − n)! = N(N − 1)· · · (N − x + 1) n (n − 1) · · · (n − x + 1) x členů · (N − x)(N − x − 1)· · · (N − n + 1) (n − x) (n − x − 1) · · · 1 n−x členů , takže limita lim N,K→∞ (K x )(N−K n−x) (N n ) = lim N,K→∞ n! x!(n − x)! =(n x) x členů, tj. konverguje k θx K N →θ K − 1 N − 1 →θ · · · K − x + 1 N − x + 1 →θ · (n−x) členů, tj. konverguje k (1−θ)n−x N − K N − x →(1−θ) N − K − 1 N − x − 1 →(1−θ) · · · N − K − n + x + 1 N − n + 1 →(1−θ) = n x θx(1−θ)n−x, což je pravděpodobnostní funkce binomického rozdělení. Tento výsledek lze komentovat tak, že pokud taháme z obrovských souborů, příliš nezáleží na tom, zda po tahu vybranou věc vracíme či nevracíme. 34 M3121 Pravděpodobnost a statistika I Příklad 4.7. Poissonovo rozdělení. Jestliže M = {0, 1, 2, . . .} a pravděpodobnostní funkce je tvaru p(x) = e−λ λx x! x = 0, 1, 2, . . . , λ > 0 0 jinak , pak značíme X ∼ Po(λ) . Poissonovo rozdělení popisuje výskyt řídkých jevů za určitou jednotku času, prostoru apod. Jako příklad můžeme uvést • počet organismů v jednotce půdy • počet listí na stromech • počet havárií za časovou jednotku (den, týden, měsíc, rok, ...) • počet hovorů v telefonní síti za časovou jednotku Poznámka 4.8. Poissonovo rozdělení je limitním rozdělením pro binomické rozdělení. Jestliže Xn ∼ Bi(n, θn) a lim n→∞ nθn = λ> 0, pak nejprve označme nθn = λn, tedy θn = λn n a lim n→∞ λn = λ. Nyní počítejme limitu lim n→∞ P(Xn = x) = lim n→∞ n x θx(1 − θ)n−x = lim n→∞ n! x!(n−x)! λn n x 1 − λn n n−x = lim n→∞ λx n x! n n →1 n − 1 n →1 · · · n − x + 1 n →1 1 − λn n n →e−λ 1 − λn n −x →1 = e−λ λx x! . . . pravděpodobnostní funkce Poissonova rozdělení Příklad 4.9. Geometrické rozdělení. Uvažujme nekonečnou bernoulliovskou posloupnost s pravděpodobností úspěchu θ ∈ (0, 1). Nechť X je náhodná veličina udávající počet neúspěchů před prvním úspěchem. Definiční obor náhodné veličiny je roven M = {0, 1, 2, . . .}. Nejprve označme Ai jev, že v i-tém pokusu nastal úspěch a počítejme pro x ∈ M P(X = x) = P( ¯A1 ∩ · · · ∩ ¯Ax ∩ Ax+1) = (1 − θ)x θ. Pravděpodobnostní funkce je pak tvaru p(x) = (1 − θ)xθ x = 0, 1, 2, . . . , θ ∈ (0, 1) 0 jinak a značíme X ∼ Ge(θ) Příklad 4.10. Negativně binomické rozdělení. Uvažujme opět nekonečnou bernoulliovskou posloupnost s pravděpodobností úspěchu θ ∈ (0, 1). Nechť X je náhodná veličina udávající počet neúspěchů před k-tým úspěchem. Definiční obor náhodné veličiny je roven M = {0, 1, 2, . . .}. 1 k + x ✈ k-tý úspěch rozmístit (k−1) úspěchů do (k−1+x) pozic lze k−1+x k−1 způsoby, stejně jako rozmístit do daných pozic x neúspěchů, tj. k−1+x k−1 = k−1+x x p(x) =    k−1+x k−1 θk(1 − θ)x x = 0, 1, 2, . . . , = k−1+x x θk(1 − θ)x θ ∈ (0, 1) 0 jinak. Značíme X ∼ NeBi(k, θ) Vidíme, že pro k = 1 je geometrické rozdělení speciálním případem negativně binomického. V některých publikacích se negativně binomické rozdělení také označuje jako Pascalovo. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 35 5. Náhodné veličiny absolutně spojitého typu Než zavedeme pojem absolutně spojité náhodné veličiny, připomeneme některé pojmy a bez důkazů i vlastnosti z matematické analýzy, které se týkají absolutně spojitých funkcí. 5.1. Absolutní spojitost a její vlastnosti. Definice 5.1. Funkce F(x) je absolutně spojitá (na R), jestliže k libovolnému ε > 0 existuje také δ > 0 takové, že pro každou posloupnost reálných čísel a1 < b1 < a2 < b2 < · · · < an < bn takovou, že n i=1 (bi − ai) < δ platí n i=1 |F(bi) − F(ai)| < ε. Věta 5.2. Vlastnosti absolutně spojité funkce. (1) Jestliže F je absolutně spojitá, tak je i spojitá. (2) Jestliže F je absolutně spojitá, tak má skoro všude (s.v.) vzhledem k Lebesgueově míře vlastní derivaci. Tato derivace je integrovatelná v Lebesguově smyslu a platí F(x) = x a F′(t)dt + F(a) pro každé a ∈ R. (3) Jestliže F je absolutně spojitá a platí F′(x) = 0 skoro všude (vzhledem k Lebesgueově míře), potom je F konstantní skoro všude (vzhledem k Lebesgueově míře). (4) Je-li F neurčitým integrálem funkce f v Lebesgueově smyslu, tj. F(x) = f(x)dx, pak je F absolutně spojitá a platí F′(x) = f(x) skoro všude (vzhledem k Lebesgueově míře). (5) Jestliže F je absolutně spojitá, pak má na každém konečném intervalu a, b konečnou variaci, tj. b a (F) = sup Dn n i=1 |F(xi) − F(xi−1)|, přičemž suprémum se bere přes všechna n ∈ N a všechna možná dělení intervalu a, b Dn = {a = x0 < x1 < · · · < xn = b}. 5.2. Definice absolutně spojité náhodné veličiny. Definice 5.3. Řekneme, že náhodná veličina X definovaná na (Ω, A, P) je absolutně spojitého typu, jestliže existuje nezáporná integrovatelná funkce f taková, že rozdělení pravděpodob- ností PX(B) = B f(x)dx pro každé B ∈ B. Funkci f nazýváme hustotou rozdělení pravděpodobností náhodné veličiny X absolutně spojitého typu, stručněji f je hustotou X. Věta 5.4. Vlastnosti hustoty. Nechť X je náhodná veličina absolutně spojitého typu, f její hustota a F její distribuční funkce. Pak (1) ∞ −∞ f(x)dx = 1 (2) F(x) = x −∞ f(t)dt (3) F je absolutně spojitá funkce. (4) Hustota f je určena skoro všude jednoznačně vzhledem k Lebesgueově míře, tj. jsou-li f a g hustoty náhodné veličiny X, pak µ ({x : f(x) = g(x)}) = 0, kde µ je Lebesgueova míra. (5) Existuje F′ skoro všude vzhledem k Lebesgueově míře a funkce g(x) = F′(x) je hustotou náhodné veličiny X. 36 M3121 Pravděpodobnost a statistika I (6) Pro každé a < b platí F(b) − F(a) = b a f(x)dx a také P(a < X ≤ b) = P(a ≤ X < b) = P(≤ X ≤ b) = b a f(x)dx. (7) Existuje-li v bodě x derivace F′(x), pak P x − h 2 < X ≤ x + h 2 = hf(x) + o(h), kde funkce „malé o je taková, že lim h→0 o(h) h = 0 Důkaz. (1) Je-li f hustota náhodné veličiny X, pak podle definice PX(B) = B f(x)dx pro ∀B ∈ B. Položme B = R a počítejme PX(B) = PX(R) = 1 = R f(x)dx = ∞ −∞ f(x)dx. (2) Víme, že F(x) def = P(X ≤ x) = PX((−∞, x ) def = x −∞ f(t)dt. (3) Protože platí F(x) = x −∞ f(t)dt, kde f je integrovatelná funkce, pak protože F je integrálem integrovatelné funkce, je F absolutně spojitá (viz V.5.2 (4)). (4) Předpokládejme, že f a g jsou hustoty náhodné veličiny X, tj. pro ∀ B ∈ B platí PX(B) = B f(x)dx = B g(x)dx ⇒ B [f(x) − g(x)]dx = 0 ⇒ µ ({x : f(x) = g(x)}) = 0, kde µ je Lebesgueova míra. (5) viz vlastnost (2) absolutně spojité funkce – V.5.2. (6) P(a < X ≤ b) V.2.3,(7) = F(b) − F(a) (2) = b a f(x)dx. Dále víme, že platí (viz V.2.3,vl.(5)) P(X = x) = F(x) − lim y→x− F(y). Protože distribuční funkce je absolutně spojitá, tak je také spojitá v každém bodě, takže platí lim y→x− F(y) = F(x) ⇒ P(X = x) = 0 a odtud již plyne, že P(a < X ≤ b) = P(a ≤ X < b) = P(≤ X ≤ b) = b a f(x)dx. (7) Existuje-li v bodě x derivace F′(x), pak můžeme psát f(x) = F′(x) = lim h→0 F(x+ h 2 )−F(x− h 2 ) h = lim h→0 P(x− h 2 0 značíme X ∼ N(µ, σ2) . ϕ(u) = 1√ 2π e− 1 2 u2 u ∈ R značíme U ∼ N(0, 1) . Hustota ϕ(u) je hustotou tzv. standardizovaného normálního rozdělení. Bývá zvykem značit její distribuční funkci jako Φ(u) = u −∞ ϕ(t)dt. Distribuční funkci normálního rozdělení F(x) = x −∞ f(t)dt nelze vyjádřit pomocí elementárních funkcí, lze ji však zapsat pomocí mocninných řad. Hustoty −4 −3 −2 −1 0 1 2 3 4 5 6 7 8 9 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 µ=0; σ= 1 µ=0; σ= 0.5 µ=0; σ= 2 µ=3; σ=1.25 µ=5; σ= 1 Distribuční funkce −4 −3 −2 −1 0 1 2 3 4 5 6 7 8 9 0 0.2 0.4 0.6 0.8 1 µ=0; σ= 0.5→ µ=0; σ= 2→ µ=3; σ=1.25→ ←µ=0; σ= 1 ←µ=5; σ= 1 Nejběžnějším typem normálních (gaussovských) veličin jsou náhodné chyby (chyby měření, způsobené velkým počtem neznámých a vzájemně nezávislých příčin). Proto se normálnímu rozdělení někdy říká rozdělení chyb. Rovněž mnohé náhodné veličiny jako jsou například hmotnost balíčku s moukou plněného automatem, tělesná výška či délka končetin (homogenní populace) a celá řada dalších fyzikálních a technických veličin. Příklad 6.3. Exponenciální rozdělení. Nechť náhodný jev A se vyskytuje v náhodných okamžicích (např. přerušení výroby, vyhoření žárovky, porucha přístroje, atd.) a předpokládáme, že výskyty tohoto jevu v nepřekrývajících se intervalech jsou nezávislé. Označme Q(t) . . . pravděpodobnost, že jev A nenastane v průběhu časového intervalu délky t. Jestliže t1, t2 jsou délky dvou na sebe navazujících intervalů, pak tedy platí Q(t1 + t2) = Q(t1)Q(t2). (3.6.1) Nechť Q je diferencovatelná funkce času a pro t = 0 nabývá svého maxima, tj. Q(0) = 1. Pro t > 0, △t > 0 platí dle (3.6.1) ln Q(t + ∆t) = ln Q(t) + ln Q(∆t), 38 M3121 Pravděpodobnost a statistika I tj. pro t > 0 je (ln Q(t))′ = lim ∆t→0+ ln Q(t + ∆t) − ln Q(t) ∆t = lim ∆t→0+ ln Q(∆t) ∆t = lim ∆t→0+ ln Q(0 + ∆t) − ln Q(0) ∆t = [ln Q(t)]′ t=0 = −λ. Jde o derivaci zprava, kterou označíme λ, přičemž λ > 0. Řešíme tedy diferenciální rovnici s počáteční podmínkou d ln Q(t) dt = −λ, Q(0) = 1. Jejím řešením je Q(t) = e−λt. Označme X . . . náhodná veličina udávající čas, kdy poprvé nastane sledovaný jev A. Zřejmě F(t) = P(X ≤ t) = P(jev A nastane v čase (0, t ) = 1 − Q(t), tedy F(x) = 1 − e−λx, x > 0, 0, x ≤ 0. Hustotu f(x) získáme derivováním distribuční funkce f(x) = λe−λx, x > 0, 0, x ≤ 0. Řekneme, že X má exponenciální rozdělení s parametrem λ a značíme X ∼ Ex(λ) . Toto rozdělení je speciálním případem Gamma rozdělení, viz Příklad 6.4. Příklad 6.4. Gamma rozdělení. Jestliže náhodná veličina X má hustotu f(x) = 1 µaΓ(a)xa−1e − x µ a > 0, x ≥ 0, 0 x < 0. značíme X ∼ Gamma(µ, a) Speciální případy: a = 1 exponenciální rozdělení a = n ∈ N Erlangovo rozdělení Hustoty 0 2 4 6 8 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 ←µ=2, a=1 µ=2, a=3 µ=2, a=0.75 µ=2, a=1.5 Distribuční funkce 0 2 4 6 8 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Funkce Γ je pro a > 0 definována předpisem Γ(a) = ∞ 0 xa−1e−xdx . Její nejčastěji používané vlastnosti jsou Γ(a + 1) = aΓ(a), Γ (1/2) = π Γ(n) = (n − 1)! pro n ∈ N Gamma rozdělení se používá především v teorii spolehlivosti, kdy například exponenciální rozdělení modeluje dobu do poruchy u komponent, které nejsou trvale namáhány, Erlangovo rozdělení se využívá pro popis doby života do n-té poruchy apod. Příklad 6.5. Beta rozdělení. Jestliže náhodná veličina X má hustotu f(x) = 1 B(a,b)xa−1(1 − x)b−1 a, b > 0, x ∈ 0, 1 0 jinak značíme X ∼ Beta(a, b) Speciální případy: a = 1, b = 1 rovnoměrné rozdělení Ro(0, 1) RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 39 Hustoty 0 0.2 0.4 0.6 0.8 1 0 0.5 1 1.5 2 2.5 3 3.5 a=0.5, b=0.5 a=2, b=2 a=1, b=3 a=2, b=5 a=5, b=2 Distribuční funkce 0 0.2 0.4 0.6 0.8 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 a=0.5, b=0.5 a=2, b=2 a=1, b=3 a=2, b=5 a=5, b=2 Funkce B(a, b) je pro a, b > 0 definována předpisem B(a, b) = 1 0 xa−1(1 − x)b−1dx . Platí vztah mezi beta a gamma funkcí B(a, b) = Γ(a)Γ(b) Γ(a + b) . V souvislosti s předchozími rozděleními se dají ukázat také následující vztahy lim n→∞ nBeta(1, n) = Exp(1), lim n→∞ nBeta(k, n) = Gamma(k, 1). 40 M3121 Pravděpodobnost a statistika I 7. Singulární rozdělení 1 1 Cantor−Set F n (x), n=1 1 1 Cantor−Set F n (x), n=2 1 1 Cantor−Set Fn (x), n=3 1 1 Cantor−Set Fn (x), n=4 Definice 7.1. Distribuční funkci F, která má skoro všude derivaci rovnu 0 vzhledem k Lebesgueově míře, nazýváme singulární, když F je spojitá v R. Odpovídající náhodnou veličinu pak také nazveme singulární náhodnou veličinou. Poznámka 7.2. Je zřejmé, že singulární funkce nemůže být absolutně spojitá. Jestliže absolutně spojitá funkce má (na nějakém intervalu) nulovou derivaci, pak je také (na nějakém intervalu) konstantní. Příklad 7.3. Cantorova funkce. Jde o kanonický příklad singulární funkce, která je založena na Cantorově množině. Cantorovu množinu dostaneme tak, že například interval 0, 1 rozdělíme na 3 shodné části a prostřední část vypustíme. Obě okrajové části opět rozdělíme na 3 části a pravidlo o vypouštění středního intervalu aplikujeme do nekonečna, takže místo úvodních několika úseček dostaneme v limitě nekonečně mnoho bodů. Definujme F1(x) =    0 x < 0, x 0 ≤ x < 1 1 x ≥ 1 ... Fn+1(x) =    1 2Fn(3x) 0 ≤ x < 1 3, 1 2 1 3 ≤ x < 2 3, 1 2 + 1 2 Fn(3x − 2) 2 3 ≤ x < 1 a položíme F(x) = lim n→∞ Fn(x) tj. F(x) =    0 x < 0, 1 2 x ∈ 1 3 2 3 1 4 x ∈ 1 9 2 9 3 4 x ∈ 7 9 8 9 1 8 x ∈ 1 27 2 27 ... 1 x ≥ 1 1 1 Cantor−Set F n (x), n=5 1 1 Cantor−Set F n (x), n=6 1 1 Cantor−Set F n (x), n=7 1 1 Cantor−Set F n (x), n=8 Následující větu uvedeme bez důkazu. Věta 7.4. Nechť X je náhodná veličina s distribuční funkcí F(x). Pak F lze napsat ve tvaru F(x) = a1Fα(x) + a2Fa(x) + a3Fs(x) kde a1, a2, a3 ≥ 0 přitom a1 + a2 + a3 = 1 a Fα je distribuční funkce diskrétní náhodné veličiny Fa absolutně spojité Fs singulární RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 41 8. Náhodné vektory Definice 8.1. Nechť (Ω, A, P) je pravděpodobnostní prostor, X = (X1, . . . , Xn)′ : Ω → Rn je takové zobrazení, že pro ∀ x ∈ Rn platí {ω ∈ Ω : X(ω) ≤ x} ∈ A. Pak X nazýváme n-rozměrným náhodným vektorem. Poznámka 8.2. Uvědomme si nejprve, že díky definici n-rozměrného náhodného vektoru platí X1, . . . , Xn jsou náhodné veličiny na (Ω, A, P) ⇔ pro ∀ i = 1, . . . , n : Xi : (Ω, A) → (R, B) ⇔ X = (X1, . . . , Xn)′ : (Ω, A) → (Rn, Bn) ⇔ X je borelovsky měřitelné zobrazení vzhledem k A ⇔ pro ∀ B ∈ Bn je vzor X−1(B) ∈ A ⇔ pro ∀ x=(x1,. . ., xn)′ ∈ Rn je n i=1 {ω ∈ Ω : Xi(ω) ≤ xi} ∈ A. Značení: Analogicky jako v jednorozměrném případě zavedeme zjednodušené značení pro jevy [X1 ∈ B1, . . . , Xn ∈ Bn] = [X1 ∈ B1 ∧ . . . ∧ Xn ∈ Bn] = n i=1 {ω ∈ Ω : Xi(ω) ∈ Bi}, podobně zkráceně budeme označovat pravděpodobnosti těchto jevů P(X ∈ B) = P(X1 ∈ B1, . . . , Xn ∈ Bn) = P n i=1 {Xi ∈ Bi} = P n i=1 {ω ∈ Ω : Xi(ω) ∈ Bi} P(X ≤ x) = P(X1 ≤ x1, . . . , Xn ≤ xn) = P n i=1 {Xi ≤ xi} = P n i=1 {ω ∈ Ω : Xi(ω) ≤ xi} kde x = (x1, . . . , xn)′ ∈ Rn a B = B1 × · · · × Bn ∈ Bn. Poznámka 8.3. Všechny vlastnosti náhodných veličin, které jsou vlastně jednorozměrnými náhodnými vektory, lze velmi jednoduše modifikovat pro n-rozměrný náhodný vektor. Zvlášť si však všimneme vícerozměrné distribuční funkce. Definice 8.4. Nechť X = (X1, . . . , Xn)′ je n-rozměrný náhodný vektor definovaný na pravděpodobnostním prostoru (Ω, A, P). Potom reálnou funkci F(x1, . . . , xn) = P(X1 ≤ x1, . . . , Xn ≤ xn) = P(X ≤ x) definovanou pro každý vektor x = (x1, . . . , xn)′ ∈ Rn nazveme distribuční funkcí náhodného vektoru X. Značení: zavedeme pro diference funkce F v proměnné xi s krokem h ≥ 0 následující značení ∆ (i) h F(x1, . . . , xn) = F(x1, . . . , xi−1, xi + h, xi+1, . . . , xn) − F(x1, . . . , xn), a pokračujme rekurentně ∆ (j) hj ∆ (i) hi F(x1, . . . , xn) = ∆ (j) hj ∆ (i) hi F(x1, . . . , xn) = ∆ (j) hj [F(x1, . . . , xi−1, xi + hi, xi+1, . . . , xn) − F(x1, . . . , xn)] = F(x1, . . . , xi + hi, . . . , xj + hj, . . . , xn) − F(x1, . . . , xi + hi, . . . , xn) −F(x1, . . . , xj + hj, . . . , xn) + F(x1, . . . , xn) = ∆ (i) hi ∆ (j) hj F(x1, . . . , xn) 42 M3121 Pravděpodobnost a statistika I Věta 8.5. Vlastnosti vícerozměrné distribuční funkce. Pro distribuční funkci náhodného vektoru X platí (1) F(x1, . . . , xn) je neklesající v každé z proměnných x1, . . . , xn, při pevně daných hodnotách ostatních proměnných. (2) F(x1, . . . , xn) je zprava spojitá v každé z proměnných x1, . . . , xn, při pevně daných hodnotách ostatních proměnných. (3) Pro ∀ i = 1, . . . , n je lim xi→−∞ F(x1, . . . , xn) = 0, tj. vícerozměrná distribuční funkce je nulová, jestliže alespoň jedna z proměnných jde k −∞. (4) limx1→∞ ... xn→∞ F(x1, . . . , xn) = 1, tj. vícerozměrná distribuční funkce je rovna jedné, jestliže všechny proměnné jdou k ∞. (5) Pro ∀ x = (x1, . . . , xn)′ ∈ Rn a pro ∀ hi > 0, i = 1, . . . , n je ∆ (1) h1 ∆ (2) h2 . . . ∆ (n) hn F(x1, . . . , xn) ≥ 0. (6) Pro 1 ≤ k ≤ n a pro ∀ hi > 0, kde i ∈ {i1, . . . , ik} a {j1, . . . , jn−k} = {1, . . . , n} \ {i1, . . . , ik}, platí P(xi1 < Xi1 ≤ xi1 + hi1 , . . . , xik < Xik ≤ xik + hik , Xj1 ≤ xj1 , . . . , Xjn−k ≤ xjn−k ) = P ik s=i1 {xs < Xs ≤ xs + hs} ∩ jn−k t=j1 {Xt ≤ xt} = ∆ (i1) hi1 . . . ∆ (ik) hik F(x1, . . . , xn) ≥ 0 Důkaz. Vlastnosti (1) až (4) lze snadno dokázat jako analogii jednorozměrného případu. Vlastnost (5) plyne z (6), když položíme k = n. (6) Zbývá tedy dokázat poslední vlastnost, a to matematickou indukcí. (a) Položme k = 1 a bez újmy na obecnosti můžeme předpokládat, že i = 1. Pak pro h1 > 0 a každé x = (x1, . . . , xn)′ ∈ Rn je ∆ (1) h1 F(x1, . . . , xn) = F(x1 + h1, x2, . . . , xn) − F(x1, . . . , xn) = P(X1 ≤ x1+h1, X2 ≤ x2,. . ., Xn ≤ xn)−P(X1 ≤ x1, X2 ≤ x2,. . ., Xn ≤ xn) V 7.1(3) = P ([{X1 ≤ x1 + h1} − {X1 ≤ x1}] ∩ {X2 ≤ x2} ∩ · · · ∩ {Xn ≤ xn}) = P(x1 < X1 ≤ x1 + h1, X2 ≤ x2, . . . , Xn ≤ xn) (b) Předpokládejme, že tvrzení platí pro libovolných (k − 1) vybraných indexů {i1, . . . , ik−1}. Bez újmy na obecnosti předpokládejme, že {i1, . . . , ik−1} = {1, . . . , k − 1}. Pak snadno nahlédneme, že platí následující identity ∆ (1) h1 ∆ (2) h2 . . . ∆ (k−1) hk−1 ∆ (k) hk F(x1, . . . , xn) = ∆ (k) hk ∆ (1) h1 ∆ (2) h2 . . . ∆ (k−1) hk−1 F(x1, . . . , xn) = ∆ (k) hk P(x1 < X1 ≤ x1 + h1, . . . , xk−1 < Xk−1 ≤ xk−1 + hk−1, Xk ≤ xk, . . . , Xn ≤ xn) = P(x1 < X1 ≤ x1 + h1, . . . , xk−1 < Xk−1 ≤ xk−1 + hk−1, Xk ≤ xk + hk, Xk+1 ≤ xk+1, . . . , Xn ≤ xn) −P(x1 < X1 ≤ x1 + h1, . . . , xk−1 < Xk−1 ≤ xk−1 + hk−1, Xk ≤ xk, Xk+1 ≤ xk+1, . . . , Xn ≤ xn) V 7.1(3) = P k−1 i=1 {xi 0, pokud její hustota má tvar f(x) = (2π)− n 2 |Σ|− 1 2 e− 1 2 (X−µ)′Σ−1 (X−µ) . a budeme psát X ∼ Nn(µ, Σ) Jestliže píšeme Σ > 0, znamená to, že matice je pozitivně definitní a tedy i regulární. Symbolem |Σ| rozumíme determinant matice. Pro n = 2 má hustota tvar f(x1, x2) = 1 2πσ1σ2 √ 1−ρ2 e − 1 2(1−ρ2) x1−µ1 σ1 2 −2ρ x1−µ1 σ1 x2−µ2 σ2 + x2−µ2 σ2 2 . Budeme psát X = (X1, X2)′ ∼ N2(µ1, µ2, σ2 1, σ2 2, ρ) Ukázky hustot f(x1, x2) ∼ N2(µ1, µ2, σ2 1, σ2 2, ρ) 0 2 4 6 0 2 4 6 0.1 0.2 0.3 osa xosa y osaz µ1 = 3, µ2 = 3, σ2 1 = 1, σ2 2 = 1, ρ = 0 1 2 3 4 5 1 1.5 2 2.5 3 3.5 4 4.5 5 Vrstevnicový graf hustoty 0 2 4 6 1 2 3 4 5 0.2 0.4 0.6 0.8 osa xosa y osaz µ1 = 3, µ2 = 3, σ2 1 = 1, σ2 2 = 0.65, ρ = 0.75 1 2 3 4 5 1.5 2 2.5 3 3.5 4 4.5 Vrstevnicový graf hustoty 0 2 4 6 0 2 4 6 0.1 0.2 0.3 0.4 osa xosa y osaz µ1 = 3, µ2 = 3, σ2 1 = 1, σ2 2 = 1, ρ = −0.5 1 2 3 4 5 1 1.5 2 2.5 3 3.5 4 4.5 5 Vrstevnicový graf hustoty Jak vidíme z vrstevnicových grafů dvourozměrných normálních hustot, tak množina všech hodnot (x1, x2)′ ∈ R2, pro které je hustota f(x1, x2) konstantní, tvoří elipsu, popřípadě kružnici (pro ρ = 0). 46 M3121 Pravděpodobnost a statistika I 9. Marginální náhodné vektory Připomeňme, že X = (X1, . . . , Xn)′ je náhodným vektorem def ⇔ X1, . . . , Xn jsou náhodné veličiny definované na (Ω, A, P). Zvolme přirozené k < n a libovolnou k-tici indexů {i1, . . . , ik} ⊂ {1, . . . , n}, pak X∗ = (Xi1 , . . . , Xik )′ nazveme marginálním náhodným vektorem. Věta 9.1. Všechna marginální rozdělení náhodného vektoru X = (X1, . . . , Xn)′ jsou jednoznačně určena rozdělením náhodného vektoru X, přitom pro marginální distribuční funkci F∗(x∗) marginálního náhodného vektoru X∗ = (Xi1 , . . . , Xik )′ platí F∗ (x∗ ) = F∗ (xi1 , . . . , xik ) = limxj1 →∞ ... xjn−k →∞ F(x1, . . . , xn), kde {j1, . . . , jn−k} = {1, . . . , n} \ {i1, . . . , ik}. Důkaz. Pro libovolný index j ∈ {1, . . . , n} uvažujme posloupnost reálných čísel xN j ∞ N=1 → ∞, jdoucí k nekonečnu a označme náhodný jev AN = n i=1,i=j {Xi ≤ xi} ∩ {Xj ≤ xN j }. Protože jde o neklesající posloupnost náhodných jevů AN ⊆ AN+1, pak (viz věta 4.7, kap. 1) existuje limitní náhodný jev A = ∞ N=1 AN , tj. A = ∞ N=1 n i=1,i=j {Xi ≤ xi} ∩ {Xj ≤ xN j } = n i=1,i=j {Xi ≤ xi}. Pravděpodobnost tohoto limitního jevu je rovna P(A) = P n i=1,i=j {Xi ≤ xi} = P(X1 ≤ x1, . . . , Xj−1 ≤ xj−1, Xj+1 ≤ xj+1, . . . , Xn ≤ xn) = F∗(x1, . . . , xj−1, xj+1, . . . , xn) = F∗(x∗) a jde o distribuční funkci (n−1)-rozměrného náhodného vektoru X∗ = (X1, . . . , Xj−1, Xj+1, . . . , Xn)′. Navíc můžeme psát F∗ (x∗ ) = F∗ (x1, . . . , xj−1, xj+1, . . . , xn) = P(X1 ≤ x1, . . . , Xj−1 ≤ xj−1, Xj+1 ≤ xj+1, . . . , Xn ≤ xn) = P(A) = lim N→∞ P(AN ) = lim N→∞ P(X1 ≤ x1, . . . , Xj−1 ≤ xj−1, Xj ≤ xN j , Xj+1 ≤ xj+1, . . . , Xn ≤ xn) = lim xj→∞ P(X1 ≤ x1, . . . , Xj−1 ≤ xj−1, Xj ≤ xj, Xj+1 ≤ xj+1, . . . , Xn ≤ xn) = lim xj→∞ F(x1, . . . , xn). Předchozí úvahy lze zobecnit i na libovolnou k-tici indexů {i1, . . . , ik} ⊂ {1, . . . , n}. Označíme-li {j1, . . . , jn−k} = {1, . . . , n} \ {i1, . . . , ik}, pak platí F∗(x∗) = F∗(xi1 , . . . , xik ) = P(Xi1 ≤ xi1 , . . . , Xi1 ≤ xik ) = limxj1 →∞ ... xjn−k →∞ P(Xi1 ≤ xi1 , . . . , Xi1 ≤ xik , Xj1 ≤ xj1 , . . . , Xjn−k ≤ xjn−k ) = limxj1 →∞ ... xjn−k →∞ P(X1 ≤ x1, . . . , Xn ≤ xn) = limxj1 →∞ ... xjn−k →∞ F(x1, . . . , xn). Poznámka 9.2. Sdružená či simultánní rozdělení. Aby se zdůraznilo, že jde o celý náhodný vektor X = (X1, . . . , Xn)′, tak se jeho distribuční funkci říká sdružená (simultánní) distribuční funkce. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 47 Obdobně mluvíme i o sdruženém rozdělení, sdružené hustotě a sdružené pravděpodobnostní funkci náhodného vektoru X = (X1, . . . , Xn)′. Věta 9.3. Pro přirozené k < n mějme indexy {i1, . . . , ik} ⊂ {1, . . . , n} a {j1, . . . , jn−k} = {1, . . . , n} \ {i1, . . . , ik}. (a) Nechť X ∼ (M, p). Pak marginální náhodný vektor X∗ má marginální pravděpodobnostní funkci rovnu p∗ (x∗ ) = p∗ (xi1 , . . . , xik ) = P(X∗ = x∗ ) = xj1 ∈Mj1 · · · xjn−k ∈Mjn−k p(x1, . . . , xn), kde M = M1 × · · · × Mn, přičemž Mi je obor hodnot náhodné veličiny Xi, i = 1, . . . , n. (b) Nechť X je náhodný vektor absolutně spojitého typu s hustotou f(x). Pak marginální náhodný vektor X∗ má marginální hustotu tvaru f∗ (x∗ ) = f∗ (xi1 , . . . , xik ) = ∞ −∞ · · · ∞ −∞ f(x1, . . . , xn) dxj1 . . . dxjn−k . Důkaz. (a) Mějme X ∼ (M, p) a označme M je kartézský součin M = M1 × · · · × Mn, kde Mi je obor hodnot diskrétní náhodné veličiny Xi. Podle definice je pravděpodobnostní funkce náhodného vektoru X∗ = (Xi1 , . . . , Xik )′ rovna p∗ (x∗ ) = p∗ (xi1 , . . . , xik ) = P(Xi1 = xi1 , . . . , Xik = xik ) = P(Xi1 = xi1 , . . . , Xik = xik , Xj1 ∈ Mj1 , . . . , Xjn−k ∈ Mjn−k ) = P   xj1 ∈Mj1 ,...,xjn−k ∈Mjn−k Xi1 =xi1 , . . . , Xik =xik , Xj1 =xj1 , . . . , Xjn−k =xjn−k   = xj1 ∈Mj1 · · · xjn−k ∈Mjn−k P(X1 =x1, . . . , Xn =xn) = xj1 ∈Mj1 · · · xjn−k ∈Mjn−k p(x1, . . . , xn). (b) Je-li X∗ = (Xi1 , . . . , Xik )′ absolutně spojitého typu, pak díky předchozí větě 9.1 máme F∗ (x∗ ) = limxj1 →∞ ... xjn−k →∞ F(x1, . . . , xn) = limxj1 →∞ ... xjn−k →∞ x1 −∞ · · · xn −∞ f(t1, . . . , tn) dtn . . . dt1 = xi1 −∞ · · · xik −∞   ∞ −∞ · · · ∞ −∞ f(t1, . . . , tn) dtj1 . . . dtjn−k   =f∗(xi1 ,...,xik ) dtik . . . dti1 48 M3121 Pravděpodobnost a statistika I Příklad 9.4. Mějme dvourozměrný náhodný vektor, který tentokrát označíme (X, Y )′. Nechť jeho sdružená hustota má tvar (X, Y )′ ∼ f(x, y) = 1 6 x 2 + y 3 pro x ∈ 0, 2 , y ∈ 0, 3 , 0 jinak. Naším úkolem bude určit sdruženou distribuční funkci, marginální hustoty i distribuční funkce. Z definice hustoty vidíme, že definičním oborem náhodného vektoru je obdélník B = 0, 2 × 0, 3 . (1) Nejprve počítejme sdruženou distribuční funkci. Budeme muset rozlišit následující pří- pady (a) Pro (x, y)′ ∈ B je distribuční funkce rovna F(x, y)= y −∞ x −∞ f(u, v)dudv = y 0 x 0 1 6 u 2 + v 3 dudv = x 0 u 12 y 0 dv du + x 0 1 18 y 0 v dv du = y 12 x 0 u du + y2 36 x 0 du = 1 12 x2y 2 + xy2 3 pro (x, y)′ ∈ 0, 2 × 0, 3 . (b) Nyní uvažujme případ, kdy y > 3 a x ∈ 0, 2 . F(x, y)= y −∞ x −∞ f(u, v)dudv = 3 0 x 0 1 6 u 2 + v 3 dudv = x 0 u 12 3 0 dv du + x 0 1 18 3 0 v dv du = 3 12 x 0 u du + 9 36 x 0 du = 1 4 x2 2 + x pro x ∈ 0, 2 , y > 3. (c) Obdobně pro x > 2 a y ∈ 0, 3 . F(x, y)= y −∞ x −∞ f(u, v)dudv = y 0 2 0 1 6 u 2 + v 3 dudv = 2 0 u 12 y 0 dv du + 2 0 1 18 y 0 v dv du = y 12 2 0 u du + y2 36 2 0 du = 1 6 y2 3 + y pro x > 2, y ∈ 0, 3 . (d) Dále zřejmě F(x, y) = 0 pro x < 0 a y < 0 a F(x, y) = 1 pro x > 2 a y > 3. (2) Nyní odvodíme marginální distribuční funkce. (a) Nejprve počítejme FX(x) = P(X ≤ x) . Zřejmě FX(x) = 0 pro x < 0 a FX(x) = 1 pro x > 2. Pro x ∈ 0, 2 počítejme FX(x) = lim y→∞ F(x, y) = lim y→3 1 12 x2y 2 + xy2 3 = 1 4 x2 2 + x (b) Dále počítejme FY (y) = P(Y ≤ y) . Zřejmě FY (y) = 0 pro y < 0 a FY (y) = 1 pro y > 3. Nakonec pro y ∈ 0, 3 počítejme FY (y) = lim x→∞ F(x, y) = lim x→2 1 12 x2y 2 + xy2 3 = 1 6 y2 3 + y (3) Nyní odvodíme marginální hustoty. (a) Nejprve počítejme fX(x) . Zřejmě fX(x) = 0 pro x < 0 a pro x > 2. Pro x ∈ 0, 2 počítejme fX(x) = ∞ −∞ f(x, y)dy = 3 0 1 6 x 2 + y 3 dy = x 12 3 0 dy + 1 18 3 0 ydy = 1 4 (x + 1) (b) Dále odvodíme fY (y) . Zřejmě fY (y) = 0 pro y < 0 a pro y > 3. Pro y ∈ 0, 3 počítejme fY (y) = ∞ −∞ f(x, y)dx = 2 0 1 6 x 2 + y 3 dx = 1 12 2 0 xdx + y 18 2 0 dx = 1 6 2y 3 + 1 RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 49 Předchozí výpočty nyní shrneme a graficky znázorníme. Všimněme si nejdříve sdružené distribuční funkce F(x, y) =    0 x < 0 nebo y < 0 FX(x) = 1 4 x2 2 + x x ∈ 0, 2 , y > 3 FY (y) = 1 6 y2 3 + y x > 2, y ∈ 0, 3 1 12 x2y 2 + xy2 3 x ∈ 0, 2 , y ∈ 0, 3 1 x > 2, y > 3 F(x, y) ✲ ✻ 2 3 FX(x) FY (y) F (x,y)= 1 F(x,y)=0 F (x,y)= 0 F(x, y) = 0 Vidíme, že • pro x ∈ 0, 2 a y > 3, kdy marginální složka Y je mimo definiční obor, je sdružená distribuční funkce rovna marginální, tj. F(x, y) = FX(x) neboť hodnoty y nehrají žádnou roli; • a analogicky pro x > 2 a y ∈ 0, 3 , kdy nyní je to marginální složka X, která je mimo definiční obor, je opět sdružená distribuční funkce rovna marginální, tj. F(x, y) = FY (y) a v tomto případě hodnoty x nemají vliv na hodnotu sdružené distribuční funkce. Na následujících grafech shrneme výsledky o všech sdružených i marginálních funkcionálních charakteristikách daného rozdělení. −1 0 1 2 3 0 2 4 0 0.5 1 −1 0 1 2 3 0 0.2 0.4 0.6 0.8 1 −1 0 1 2 3 4 0 0.2 0.4 0.6 0.8 1 −1 0 1 2 3 0 2 4 0 0.1 0.2 0.3 −1 0 1 2 3 0 0.2 0.4 0.6 0.8 1 −1 0 1 2 3 4 0 0.2 0.4 0.6 0.8 1 Sdružená distribuční funkce Marginální distribuční funkce FX(x) =    0 x < 0 1 4 x2 2 + x x ∈ 0, 2 , 1 x > 2. FY (y) =    0 y < 0 1 6 y2 3 + y y ∈ 0, 3 , 1 y > 3. Sdružená hustota f(x, y) = 1 6 x 2 + y 3 x ∈ 0, 2 , y ∈ 0, 3 , 0 jinak. Marginální hustoty fX(x) = 1 4(x + 1) x ∈ 0, 2 , 0 jinak. fY (y) = 1 6 2y 3 + 1 y ∈ 0, 3 , 0 jinak. 50 M3121 Pravděpodobnost a statistika I 10. Nezávislé náhodné veličiny Pomocí nezávislých jevů můžeme definovat i nezávislé náhodné veličiny. Definice 10.1. Řekneme, že náhodné veličiny X1, . . . , Xn jsou (stochasticky) nezávislé, jestliže jsou nezávislé náhodné jevy {X1 ≤ x1}, . . . , {Xn ≤ xn} pro libovolné x = (x1, . . . , xn)′ ∈ Rn. Nejprve vyslovíme větu, která poskytuje ekvivalentní vyjádření nezávislých náhodných veličin pomocí distribučních funkcí. Věta 10.2. Nechť náhodný vektor X = (X1, . . . , Xn)′ má sdruženou distribuční funkci F(x) = F(x1, . . . , xn) a nechť pro i = 1, . . . , n je Fi(x) marginální distribuční funkce náhodné veličiny Xi. Pak náhodné veličiny X1, . . . , Xn jsou (stochasticky) nezávislé, právě když F(x) = F(x1, . . . , xn) = n i=1 Fi(xi) pro ∀ x = (x1, . . . , xn)′ ∈ Rn . Důkaz. „⇒ Nejprve předpokládejme, že X1, . . . , Xn jsou nezávislé. Pak podle definice 10.1 jsou náhohodné jevy {X1 ≤ x1}, . . . , {Xn ≤ xn} nezávislé pro ∀ x = (x1, . . . , xn)′ ∈ Rn, takže můžeme upravovat F(x1, . . . , xn) = P (X1 ≤ x1, . . . , Xn ≤ xn) = P n i=1 {Xi ≤ xi} = n i=1 P(Xi ≤ xi) = n i=1 Fi(xi). „⇐ Naopak nyní předpokládejme, že platí F(x1, . . . , xn) = n i=1 Fi(xi) pro ∀ x = (x1, . . . , xn)′ ∈ Rn. Zvolme libovolně 1 ≤k≤ n a vyberme {i1, . . . , ik} ⊆ {1, . . . , n}. Zbývající indexy označme {j1, . . . , jn−k} = {1, . . . , n} \ {i1, . . . , ik}. Pro vybranou k-tici indexů počítejme marginální distribuční funkci F∗(xi1 , . . . , xik ) = limxj1 →∞ ... xjn−k →∞ F(x1, . . . , xn) = limxj1 →∞ ... xjn−k →∞ n i=1 Fi(xi) = k h=1 Fih (xih ) n−k s=1 lim xjs →∞ Fjs (xjs ) =1 = k h=1 Fih (xih ) Vidíme, že pro libovolné {i1, . . . , ik} ⊆ {1, . . . , n} platí P k h=1 {Xi ≤ xih } = F∗(xi1 , . . . , xik ) = k h=1 Fih (xih ) = k h=1 P(Xih ≤ xih ), což je definice nezávislosti náhodných jevů {X1 ≤ x1}, . . . , {Xn ≤ xn}. Nyní vyslovíme větu, která nabízí ekvivalentní vyjádření nezávislých náhodných veličin pomocí pravděpodobnostních funkcí pro diskrétní náhodné veličiny a pomocí hustot pro náhodné veličiny absolutně spojitého typu. Věta 10.3. (a) Mějme diskrétní náhodný vektor X = (X1, . . . , Xn)′ ∼ (M, p). Pak X1, . . . , Xn jsou nezávislé, právě když p(x1, . . . , xn) = n i=1 pi(xi) pro ∀ x = (x1, . . . , xn)′ ∈ Rn, kde pro i = 1, . . . , n je pi(xi) marginální pravděpodobnostní funkce náhodné veličiny Xi. (b) Nechť X = (X1, . . . , Xn)′ je absolutně spojitý náhodný vektor se sdruženou hustotou f(x1, . . . , xn). Pak X1, . . . , Xn jsou nezávislé, právě když f(x1, . . . , xn) = n i=1 fi(xi) pro s.v. x = (x1, . . . , xn)′ ∈ Rn, kde pro i = 1, . . . , n je fi(xi) marginální hustota náhodné veličiny Xi. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 51 Důkaz. (a) Mějme diskrétní náhodný vektor X = (X1, . . . , Xn)′ ∼ (M, p). „⇒ Nejprve předpokládejme, že X1, . . . , Xn jsou nezávislé. Pak podle definice jsou náhodné veličiny nezávislé, právě když jsou nezávislé náhodné jevy {X1 ∈ B1}, . . . , {X1 ∈ Bn} pro ∀ Bi ∈ B. Pro libovolné x1, . . . , xn ∈ R položme Bi = {xi} a upravujme p(x1, . . . , xn) = P(X1 = x1, . . . , Xn = xn) = P n i=1 {Xi = xi} nez. = n i=1 P(Xi = xi) = n i=1 pi(xi). „⇐ Naopak nyní předpokládejme, že platí p(x1, . . . , xn) = n i=1 pi(xi) a upravujme sdruženou distribuční funkci F(y1, . . . , yn) = x1≤y1 · · · xn≤yn p(x1, . . . , xn) nez. = x1≤y1 · · · xn≤yn p1(x1) · · · pn(xn) = x1≤y1 p1(x1) =F1(y1) · · · xn≤yn pn(xn) =Fn(yn) = F1(y1) · · · Fn(yn), takže náhodné veličiny X1, . . . , Xn jsou podle předchozí věty 10.2 nezávislé. (b) Nechť X = (X1, . . . , Xn)′ je absolutně spojitý náhodný vektor se sdruženou hustotou f(x1, . . . , xn). „⇒ Nejprve předpokládejme, že X1, . . . , Xn jsou nezávislé. Pak podle podle předchozí věty 10.2 lze sdruženou distribuční funkci vyjádřit jako součin marginálních, tj. F(x1, . . . , xn) = n i=1 Fi(xi). Vzhledem k tomu, že sdruženou hustotu lze vypočítat z distribuční funkce, dostáváme f(x1, . . . , xn) = ∂n ∂x1···∂xn F(x1, . . . , xn) = ∂n ∂x1···∂xn n i=1 Fi(xi) = n i=1 ∂ ∂xi Fi(xi) = n i=1 fi(xi). „⇐ Naopak nyní předpokládejme, že platí f(x1, . . . , xn) = n i=1 fi(xi) a upravujme sdruženou distribuční funkci F(y1, . . . , yn) = y1 −∞ · · · yn −∞ f(x1, . . . , xn)dxn . . . dx1 = y1 −∞ · · · yn −∞ f1(x1) · · · f(xn)dxn . . . dx1 Fub.veta = y1 −∞ f1(x1)dx1 · · · yn −∞ f1(x1)dxn = F1(y1) · · · F1(yn) takže náhodné veličiny X1, . . . , Xn jsou podle předchozí věty 10.2 nezávislé. Příklad 10.4. Maximum a minimum stejných nezávislých náhodných veličin. Nechť X1, . . . , Xn jsou nezávislé náhodné veličiny se stejným rozdělením se sdruženou distribuční funkcí FX(x1, . . . , xn) = n i=1 F(xi), neboť všechny mají totéž rozdělení. Hledejme rozdělení náhodných veličin X(1) =min{X1, . . . , Xn} X(n) =max{X1, . . . , Xn} . S využitím faktu, že jde o nezávislé náhodné veličiny upravujme: F(1)(x)=P(X(1) ≤ x) = P (min{X1, . . . , Xn} ≤ x) = P n i=1 {Xi ≤ x} = 1−P n i=1 {Xi ≤ x} =1 − P n i=1 {Xi > x} nez. = 1 − n i=1 P(Xi > x) =1−F(x) = 1 − (1 − F(x))n F(n)(x)=P(X(n) ≤ x)=P (max{X1, . . . , Xn} ≤ x)=P n i=1 {Xi ≤ x} nez. = n i=1 P(Xi ≤ x) = Fn(x) 52 M3121 Pravděpodobnost a statistika I Příklad 10.5. Rovnoměrné rozdělení na různých oblastech G Nechť dvourozměrný náhodný vektor má rovnoměrné rozdělení na oblasti G. Zjistěte, zda náhodné veličiny X a Y jsou stochasticky nezávislé, jestliže (a) G = {(x, y)′ ∈ R : 0 ≤ x ≤ 1; 0 ≤ y ≤ 1}, (b) G = {(x, y)′ ∈ R : 0 ≤ x ≤ 1; 0 ≤ y ≤ 1; x + y ≤ 1}. Řešení: (a) Nechť (X, Y )′ ∼ Rs(G), kde G = {(x, y)′ ∈ R : 0 ≤ x ≤ 1; 0 ≤ y ≤ 1} ✲ ✻ 0 1 1 Ga Protože jde o náhodný vektor s rovnoměrným rozdělením na oblasti Ga (jednotkový čtverec), tak hustota musí být na Ga konstantní, tj. f(x, y)= c (x, y)′ ∈ Ga 0 jinak a 1= Ga f(x, y)dxdy= 1 0 1 0 c dxdy=c · 1 ⇒ c=1. Nyní spočítáme marginální hustoty: f1(x)= ∞ −∞ f(x, y)dy =    1 0 dy = 1 pro 0 ≤ x ≤ 1 0 jinak f2(y)= ∞ −∞ f(x, y)dx =    1 0 dx = 1 pro 0 ≤ y ≤ 1 0 jinak Protože pro každé (x, y)′ ∈ R2 platí f(x, y) = f1(x)f2(y), náhodné veličiny X a Y jsou nezá- vislé. (b) Nechť (X, Y )′ ∼ Rs(G), kde G = {(x, y)′ ∈ R : 0 ≤ x ≤ 1; 0 ≤ y ≤ 1; x + y ≤ 1} ✲ ✻ 0 1 1 Gb ❅ ❅ ❅ ❅ ❅❅ Obdobně f(x, y)= c (x, y)′ ∈ Gb 0 jinak 1= Gb f(x, y)dxdy=c 1 0 1−x 0 dy dx=c 1 0 (1−x) dx=c x− x2 2 1 0 = 1 2c ⇒ c=2. Marginální hustoty: f1(x)= ∞ −∞ f(x, y)dy =    2 1−x 0 dy = 2[y]1−x 0 = 2(1 − x) pro 0 ≤ x ≤ 1 0 jinak f2(y)= ∞ −∞ f(x, y)dx =    2 1−y 0 dx = 2[x]1−y 0 = 2(1 − y) pro 0 ≤ y ≤ 1 0 jinak Protože f(x, y) = f1(x)f2(y), náhodné veličiny X a Y nejsou nezávislé. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 53 11. Rozdělení transformovaných náhodných veličin Věta 11.1. Nechť X je náhodná veličina a h je borelovsky měřitelná funkce. Potom Y = h(X) je náhodná veličina. Důkaz. Nechť x ∈ R je libovolné. Označme h−1(Bx) = {t ∈ R : h(t) ≤ x}. Protože h je borelovsky měřitelná funkce, pak také h−1(Bx) ∈ B a tedy {ω ∈ Ω : Y (ω) ≤ x} = {ω ∈ Ω : h(X(ω)) ≤ x} = {ω ∈ Ω : X(ω) ∈ h−1 (Bx)} ∈ A a odtud Y je náhodná veličina. Věta 11.2. Nechť zobrazení h : Rn → Rm je borelovsky měřitelné, tj. pro ∀ B ∈ Bm je {(x1, . . . , xn)′ ∈ Rn : h(x1, . . . , xn) ∈ B} ∈ Bn. Nechť X = (X1, . . . , Xn)′ je n-rozměrný náhodný vektor definovaný na (Ω, A, P). Potom Y = (Y1, . . . , Ym)′ = h(X) je m-rozměrný náhodný vektor. Důkaz. Nechť B ∈ Bm je libovolná. Pak z měřitelnosti h plyne, že h−1(B) = {(t1, . . . , tn)′ ∈ Rn : h(t1, . . . , tn) ∈ B} ∈ Bn Proto {Y = (Y1, . . . , Ym)′ ∈ B} = {h(X) ∈ B} = {X ∈ h−1(B)} ∈ A je náhodným jevem, neboť X = (X1, . . . , Xn)′ je náhodný vektor. Poznámka 11.3. V následujících odstavcích nás bude zajímat rozdělení takto transformovaných náhodných veličin a vektorů. Poznámka 11.4. Při odvozování rozdělení transformovaných náhodných veličin budeme pracovat s Lebesgueovým integrálem z borelovsky měřitelné funkce ϕ vzhledem k Lebesgueově-Stieltjesově míře µF na borelovské množině A, tj. budeme pracovat s integrálem I = A ϕ(t)dµF (t) značíme = A ϕ(t)dF(t). Situace je obdobná, jako když pracujeme s Lebesgueovým integrálem z borelovsky měřitelné funkce ϕ vzhledem k Lebesgueově míře µ na borelovské množině A, tj. I = A ϕ(t)dµ(t) značíme = A ϕ(t)dt. Poznámka 11.5. Pokud distribuční funkce F je funkcí skoků, tj. je distribuční funkcí diskrétní náhodné veličiny s pravděpodobnostní funkcí p(x) a oborem hodnot M, tak I = A ϕ(t)dF(t) = t∈A∩M ϕ(t)p(t). Poznámka 11.6. Pokud je distribuční funkce F absolutně spojitá, tj. je distribuční funkcí spojité náhodné veličiny s hustotou f(x), tak I = A ϕ(t)dF(t) = A ϕ(t)f(t)dt, kde posledně uvedený integrál je Lebesgueovým integrálem s Lebesgueovou mírou. Věta 11.7. Nechť náhodná veličina X má distribuční funkci FX a h je borelovsky měřitelná funkce. Označme FY distribuční funkci náhodné veličiny Y = h(X). Potom distribuční funkce transformované náhodné veličiny Y je rovna FY (y) = h−1(By) dFX(x), kde h−1 (By) = {t ∈ R : h(t) ≤ y}. Důkaz. Pro libovolné y ∈ R položme h−1(By) = {t ∈ R : h(t) ≤ y} a postupně dostaneme FY (y) = P(Y ≤ y) = P(h(X) ≤ y) = P(X ∈ h−1 (By)) = PX(h−1 (By)) = h−1(By) dµF (x) = h−1(By) dFX(x). 54 M3121 Pravděpodobnost a statistika I Poznámka 11.8. Diskrétní náhodné veličiny. Nechť X ∼ (M, pX) a h je borelovsky měřitelná funkce. Opět označme h−1(By) = {t ∈ R : h(t) = y}, pak pravděpodobnostní funkce transformované náhodné veličiny je rovna pY (y) = P(Y = y) = P(h(X) = y) = P(X ∈ h−1(By)) = P x∈h−1(By)∩M {X = x} = x∈h−1(By)∩M pX(x). Poznámka 11.9. Spojité náhodné veličiny. Nechť X ∼ fX(x) a h je borelovsky měřitelná funkce. Označme h−1(By) = {x ∈ R : h(x) ≤ y}, pak distribuční funkce transformované náhodné veličiny je rovna FY (y) = P(Y ≤ y) = P(h(X) ≤ y) = P(X ∈ h−1(By)) = h−1(By) fX(x)dx, pro ∀y ∈ R. Jednoduše lze stanovit hustotu fY (y) transformované náhodné veličiny Y = h(X), pokud transformace y = h(x) je vzájemně jednoznačná (prostá a na), tj. když existuje derivace d dy h−1(y) a je spojitá. Potom z věty o substituci plyne FY (y) = h−1(By) fX(x)dx = y −∞ fX h−1 (t) dh−1(t) dt =fY (t) dt Takže transformovanou hustotu fY vyjádříme pomocí původní hustoty fX a inverzní transformace takto fY (y) = fX h−1 (y) dh−1(y) dy . (3.11.2) Příklad 11.10. Lineární transformace. Nechť náhodná veličina X je absolutně spojitá s hustotou fX(x). Nalezněme hustotu transformované náhodné veličiny Y = a + bX, kde a, b ∈ R, b = 0. Řešení: můžeme postupovat dvojím způsobem: (1) Dosazením do vzorce (3.11.2) K transformaci y = a + bx existuje inverzní transformace h−1(y) = y−a b , která má derivaci dh−1(y) dy = 1 b , takže hustota transformované náhodné veličiny je rovna fY (y) = fX h−1 (y) dh−1(y) dy = fX y − a b 1 |b| (2) Výpočtem přes distribuční funkci FY (y) = P(Y ≤ y) = P(a + bX ≤ y) = P X ≤ y−a b = FX y−a b pro b > 0 P X ≥ y−a b = 1 − FX y−a b pro b < 0 Hustotu pak dostaneme jako derivaci distribuční funkce fY (y) = dFY (y) dy =    F′ X y−a b 1 b = fX y−a b 1 b pro b > 0 −F′ X y−a b 1 b = −fX y−a b 1 b pro b < 0 = fX y − a b 1 |b| RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 55 Příklad 11.11. Transformace náhodné veličiny pomocí funkce, která není prostá. Nalezněte pravděpodobnostní funkci, resp. hustotu nové náhodné veličiny Y = X2, pokud náhodná veličina X je diskrétní, resp. spojitá. Řešení: (a) Diskrétní případ X ∼ (MX, pX) S využitím faktu, že transformovaná náhodná veličina Y nabývá nezáporných hodnot, odvozujme pravděpodobnostní funkci: pY (y) = P(Y = y) = P(X2 = y) = P {X = √ y} ∪ {X = − √ y} =    pX( √ y) pokud − √ y /∈ MX a √ y ∈ MX pX(− √ y) − √ y ∈ MX a √ y /∈ MX pX(− √ y) + pX( √ y) − √ y ∈ MX a √ y ∈ MX pX(0) pokud y = 0 0 jinak (b) Spojitý případ X ∼ fX(x) Transformovaná náhodná veličina Y nabývá nezáporných hodnot, proto pro y ≥ 0 označme nejprve h−1(By) = {x ∈ R : x2 ≤ y} a počítejme distribuční funkci transformované náhodné veli- činy: ✲ ✻ ✛ ✲ y . . . pevně dané − √ y √ y h−1(By) FY (y) = P(Y ≤ y) =    0 pro y ≤ 0 P(X ∈ h−1(By)) = P(− √ y ≤ X ≤ √ y) pro y > 0 = FX( √ y) − FX(− √ y) a derivací distribuční funkce dostaneme hustotu: fY (y) = dFY (y) dy =    0 pro y ≤ 0 F′ Y ( √ y) 1 2y− 1 2 − F′ Y (− √ y) 1 2 y− 1 2 (−1) pro y > 0 = 1 2 √ y fX( √ y) + fX(− √ y) 12. Transformace náhodných vektorů Vzorec fY (y) = fX h−1(y) dh−1(y) dy lze pomocí věty o substituci v mnohorozměrných integrálech jednoduše rozšířit i na vícerozměrný případ. Proto nejdříve připomeneme několik základních pojmů. Mějme zobrazení h : Rn → Rn, kde h(x) = (h1(x), . . . , hn(x)). To znamená, že h1, . . . , hn jsou funkce proměnných x1, . . . , xn. Předpokládejme, že existují parciální derivace ∂hi(x1,...,xn) ∂xj (i, j = 1, . . . , n). Matice těchto parciálních derivací se nazývá Jacobiho matice. Potom Jacobiho determinant (jakobián) je determinant Jacobiho matice Dh(x) = det ∂ h ∂ x′ = det    ∂h1 ∂x1 · · · ∂h1 ∂xn ... ... ∂hn ∂x1 · · · ∂hn ∂xn    = ∂h1 ∂x1 · · · ∂h1 ∂xn ... ... ∂hn ∂x1 · · · ∂hn ∂xn Označme nyní y = h(x), tj. y1 = h1(x), . . . , yn = hn(x) a připome ˇme definici regulárního zobrazení. 56 M3121 Pravděpodobnost a statistika I Definice 12.1. Říkáme, že zobrazení h : Rn → Rn je regulární v množině M ⊆ Rn, právě když (1) M je otevřená množina, (2) funkce h1, . . . , hn mají spojité první parciální derivace v M, (3) pro ∀ x ∈ M je jakobián nenulový, tj. Dh(x) = 0. Připomeňme, že zobrazení h je prosté na M, jestliže pro x1, x2 ∈ M takové, že x1 = x2, je h(x1) = h(x2). Věta 12.2. Věta o substituci. Nechť h je zobrazení otevřené množiny P ⊆ Rn na Q ⊆ Rn. Nechť h je regulární a prosté s jakobiánem Dh. Budiž M ⊂ Q borelovská množina a budiž H : Rn → R měřitelná reálná funkce. Potom platí M H(y)dy = h−1(M) H(h(x)) |Dh(x)| dx. (3.12.3) Důkaz. Jarník, V.: Integrální počet I,II, NČSAV, Praha, 1955. Bezprostředním důsledkem této věty je následující věta. Věta 12.3. Věta o hustotě transformovaného náhodného vektoru. Nechť náhodný vektor X = (X1, . . . , Xn)′ má hustotu fX(x), x ∈ Rn. Nechť h je zobrazení Rn do Rn, které je regulární a prosté na otevřené množině G, kterou zobrazuje na h(G) a pro niž platí G fX(x)dx = 1. Nechť h−1 je inverzní zobrazení k h. Potom náhodný vektor Y = h(X) má hustotu fY(y) tvaru fY(y) = fX h−1(y) |Dh−1 (y)| pro y ∈ h(G), 0 jinak. (3.12.4) Důkaz. Zřejmě platí 1 = G fX(x)dx = P(X ∈ G) = P(h(X) ∈ h(G)) ⇒ P(h(X) /∈ h(G)) = 0. Proto pro libovolnou borelovskou množinu B ∈ Bn počítejme rozdělení pravděpodobností transformovaného náhodného vektoru Y = h(X) PY(B) = P(Y ∈ B) = P({Y ∈ B} ∩ {Y ∈ h(G)}) + P({Y ∈ B} ∩ {Y /∈ h(G)}) =0 = P(Y ∈ B ∩ h(G)) = P(h(X) ∈ B ∩ h(G)) = P X ∈ h−1 (B ∩ h(G)) = h−1(B∩h(G)) fX(x)dx věta o subst. = B∩h(G) f h−1 (y) |Dh−1 (y)|dy + B∩(Rn−h(G)) 0dy. Pokud položíme B = (−∞, y1 × · · · × (−∞, yn , a PY(B) = P(Y ∈ B) = P(Y ≤ y) = FY(y) a protože fY(y) = dFY(y) dy odtud ihned dostáváme tvrzení věty, že fY(y) = fX h−1(y) |Dh−1 (y)| pro y ∈ h(G), 0 jinak. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 57 Věta 12.4. Zobecněná věta o hustotě transformovaného náhodného vektoru. Nechť náhodný vektor X = (X1, . . . , Xn)′ má hustotu fX(x), x ∈ Rn. Nechť h je zobrazení Rn do Rn, které je regulární a prosté na disjunktních otevřených množinách G1, G2, . . ., které zobrazuje na množiny h(G1), h(G2), . . . a nechť platí G fX(x)dx = 1, kde G = ∞ j=1 Gj. Označme h−1 j inverzní zobrazení k h : Gj → h(Gj), j = 1, 2, . . .. Potom náhodný vektor Y = h(X) má hustotu fY(y) tvaru fY(y) = ∞ j=1 fj(y) kde fj(y) = f h−1(y) |Dh−1 (y)| pro y ∈ h(Gj), 0 jinak. (3.12.5) Důkaz. Provede se analogicky jako v předchozí větě. Příklad 12.5. Nechť náhodný vektor X = (X1, . . . , Xn)′ má hustotu fX(x), x ∈ Rn. Nechť A je regulární matice typu n × n. Nalezněte hustotu náhodného vektoru Y = AX. Řešení: Protože A je regulární matice, je také zobrazení y = h(x) = Ax regulární na otevřené množině G = Rn. Inverzní zobrazení je x = h−1 (y) = A−1 y. Označme A = (aij)n i,j=1 a A−1 = aij n i,j=1 , tedy inverzní zobrazení h−1(y) můžeme explicitně rozepsat takto x1= a11y1 + · · · + an1yn ... xn= a1ny1 + · · · + annyn a odtud Dh−1 (y) = ∂x1 ∂y1 · · · ∂x1 ∂yn ... ... ∂xn ∂y1 · · · ∂xn ∂yn = a11 · · · an1 ... ... a1n · · · ann a protože platí det A−1 = 1 det A, pak hustota náhodného vektoru Y = AX je rovna fY(y) = 1 | det A| f A−1 y pro y ∈ Rn . Poznámka 12.6. Výpočet hustoty náhodné veličiny, která je transformací náhodného vektoru. Často potřebujeme počítat hustotu náhodné veličiny Y , která vznikne borelovskou transformací náhodného vektoru X = (X1, . . . , Xn)′, tedy Y = h(X) . Označme FX(x) = P(X ≤ x) distribuční funkci náhodného vektoru X. Pak zřejmě pro distribuční funkci náhodné veličiny Y platí FY (y) = P(Y ≤ y) = P(h(X) ≤ y) = h−1(By) dFX(x1, . . . , xn) kde h−1 (By) = {x ∈ Rn : h(x1, . . . , xn) ≤ y}. (1) Diskrétní případ X ∼ (MX, pX) py(y) = P(Y = y) = P(h(X) = y) = P X ∈ h−1 (Ky) = {x ∈ Rn ∩ MX : h(x) = y} = h−1(Ky) dFX(x) = x∈h−1(Ky) pX(x). 58 M3121 Pravděpodobnost a statistika I (2) Spojitý případ X ∼ fX(x): v tomto případě můžeme postupovat dvojím způsobem: (a) 1. způsob: přes distribuční funkci FY (y) = P(Y ≤ y) = P(h(X) ≤ y) = P X ∈ h−1 (By) = {x ∈ Rn : h(x) ≤ y} = h−1(By) dFX(x) = h−1(By) fX(x)dx Hustotu pak dopočítáme jako derivaci distribuční funkce, tj. fy(y) = dFY (y) dy . (b) 2. způsob: rozšířením transformace h(X) na regulární transformaci, tj. položíme Y = (Y, Y2, . . . , Yn)′ : Y = h(X) Y2 = X2 ... Yn = Xn . Pak z této regulární transformace vypočteme inverzní transformaci, její jakobián a dosadíme do vzorce fY(y) = f h−1 (y) |Dh−1 (y)|, čímž získáme sdruženou hustotu celého vektoru Y = (Y, Y2, . . . , Yn)′. Na závěr zbývá dopočítat marginální hustotu fY (y) = Rn−1 fY(y, y2, . . . , yn)dy2 . . . dyn. Příklad 12.7. Součet dvou náhodných veličin s Poissonovým rozdělením. Mějme dvě nezávislé náhodné veličiny X1 ∼ Po(λ1) a X2 ∼ Po(λ2) s pravděpodobnostními funkcemi Xi ∼ pi(xi) =    e−λi λ xi i xi! xi = 0, 1, . . . , 0 jinak. a s definičními obory Mi = {0, 1, 2, · · · } (i = 1, 2). Vypočítejme pravděpodobnostní funkci náhodné veličiny Y = X1 + X2. Nejprve určíme definiční obor transformované náhodné veličiny Y ∈ {0, 1, 2, · · · }. Dále označme h−1(Gy) = {(x1, x2)′ ∈ M1 × M2 : x1 + x2 = y}. Pak počítejme pravděpodobnostní funkci transformované náhodné veličiny Y = X1 + X2 py(y) = P(Y = y) = P(X1 + X2 = y) = P((X1, X2)′ ∈ h−1 (Gy)) = (x1,x2)′∈h−1(Gy) p(X1,X2)(x1, x2) Vidíme, že potřebujeme znát sdruženou pravděpodobnostní funkci p(X1,X2)(x1, x2), kterou díky faktu, že jde o nezávislé náhodné veličiny získáme jako součin jejich marginálních pravděpodobnostních funkcí. A můžeme pokračovat ve výpočtu py(y) = (x1,x2)′∈h−1(Gy) p(X1,X2)(x1, x2) = (x1,x2)′∈h−1(Gy) pX1 (x1)pX2 (x2) = y x1=0 x2=y−x1 e−λ1 λx1 1 x1! e−λ2 λx2 2 x2! = e−(λ1+λ2) y x1=0 λx1 1 λy−x1 2 x1!(y − x1)! = e−(λ1+λ2) y! y x1=0 y! x1!(y − x1)! λx1 1 λy−x1 2 = e−(λ1+λ2) y! y x1=0 y x1 λx1 1 λy−x1 2 =(λ1+λ2)y = e−(λ1+λ2) y! (λ1 + λ2)y ∼ Po(λ1 + λ2) RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 59 Na základě výsledku, můžeme konstatovat, že sečteme-li dvě nezávislé náhodné veličiny s Poissonovým rozdělením, dostaneme náhodnou veličinu, která má opět Poissonovo rozdělení. Věta 12.8. Součet dvou spojitých náhodných veličin. Nechť náhodný vektor (X1, X2)′ je absolutně spojitého typu s hustotou f(X1,X2)(x1, x2). Potom náhodná veličina Y = X1 + X2 je absolutně spojitého typu a má hustotu fY (y) = ∞ −∞ f(X1,X2)(y − x2, x2)dx2 = ∞ −∞ f(X1,X2)(x1, y − x1)dx1 (3.12.6) Důkaz. Postupně dokážeme obě varianty, kdy transformaci y = h(x1, x2) rozšíříme dvojím způsobem tak, aby byla regulární. (a) y = x1 + x2 y2 = x2 ⇒ x1 = y − y2 x2 = y2 ⇒ Dh−1 (y, y2) = 1 −1 0 1 = 1 Nyní dosadíme do vzorce (3.12.5) a vypočítáme sdruženou hustotu f(Y,Y2)(y, y2) = f(X1,X2) h−1 (y, y2) |Dh−1 (y, y2)| = f(X1,X2)(y − y2, y2) a z této sdružené hustoty dostaneme hustotu marginální fY (y) = ∞ −∞ f(X1,X2)(y − y2, y2)dy2. (b) y1 = x1 y = x1 + x2 ⇒ x1 = y1 x2 = y − y1 ⇒ Dh−1 (y1, y) = 1 0 −1 1 = 1 Nyní dosadíme do vzorce (3.12.5) a vypočítáme sdruženou hustotu f(Y1,Y )(y1, y) = f(X1,X2) h−1 (y1, y) |Dh−1 (y1, y)| = f(X1,X2)(y1, y − y1) a z této sdružené hustoty dostaneme hustotu marginální fY (y) = ∞ −∞ f(X1,X2)(y1, y − y1)dy1. Důsledek 12.9. Jestliže jsou náhodné veličiny v předcházející větě 12.8 nezávislé, pak náhodná veličina Y = X1 + X2 má hustotu fY (y) = ∞ −∞ fX1 (y − x2)fX2 (x2)dx2 = ∞ −∞ fX1 (x1)fX2 (y − x1)dx1 (3.12.7) Hustotu fY (y) potom nazýváme konvolucí hustot fX1 a fX2 a značíme fY (y) = fX1 ∗ fX2 . Podobně jako předchozí věta se dokáže i následující věta. 60 M3121 Pravděpodobnost a statistika I Věta 12.10. Nechť X1, X2 jsou nezávislé náhodné veličiny absolutně spojitého typu s hustotami fX1 , fX2 . Pak (1) náhodná veličina Y = X1X2 má hustotu fY (y) = ∞ −∞ fX1 y x2 fX2 (x2) 1 |x2| dx2, (3.12.8) (2) jestliže platí fX2 (x2) = 0 pro x2 ≤ 0 a c > 0 je daná konstanta, pak náhodná veličina Y = cX1 X2 má hustotu fY (y) = 1 c ∞ 0 fX1 yx2 c fX2 (x2)x2dx2. (3.12.9) Důkaz. (1) Transformaci y = x1x2 rozšíříme tak, aby byla regulární. y = x1x2 y2 = x2 ⇒ x1 = y y2 x2 = y2 ⇒ Dh−1 (y, y2) = 1 y2 − y y2 2 0 1 = 1 y2 . Nyní dosadíme do vzorce (3.12.5) a vypočítáme sdruženou hustotu f(Y,Y2)(y, y2) = f(X1,X2) h−1 (y, y2) |Dh−1 (y, y2)| = fX1 y y2 fX2 (y2) 1 |y2| a z této sdružené hustoty dostaneme hustotu marginální fY (y) = ∞ −∞ fX1 y y2 fX2 (y2) 1 |y2| dy2. (2) Transformaci y = cx1 x2 opět rozšíříme tak, aby byla regulární. y = cx1 x2 y2 = x2 ⇒ x1 = yy2 c x2 = y2 ⇒ Dh−1 (y, y2) = y2 c y c 0 1 = y2 c . Nyní dosadíme do vzorce (3.12.5) a vypočítáme sdruženou hustotu f(Y,Y2)(y, y2) = f(X1,X2) h−1 (y, y2) |Dh−1 (y, y2)| = fX1 yy2 c fX2 (y2) |y2| c a z této sdružené hustoty dostaneme hustotu marginální fY (y) = 1 c ∞ 0 fX1 yy2 c fX2 (y2)y2dy2. 13. Základní vlastnosti normálního a odvozených rozdělení Připome ˇme, že náhodná veličina X má normální (Gaussovo) rozdělení s parametry µ ∈ R a σ2 > 0, pokud její hustota má pro x ∈ R tvar fX(x) = 1√ 2πσ e− 1 2 (x−µ σ ) 2 a píšeme X ∼ N(µ, σ2 ). Jestliže µ = 0 a σ2 = 1, říkáme, že náhodná veličina má standardizované (též normované) normální rozdělení a píšeme X ∼ N(0, 1). RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 61 Věta 13.1. Mějme náhodnou veličinu s normálním rozdělením X ∼ N(µ, σ2). Dále nechť a, b ∈ R, b = 0 jsou reálné konstanty. Potom náhodná veličina, která je lineární transformací původní, má opět normální rozdělení, a to Y = a + bX ∼ N(a + bµ, b2 σ2 ). Speciálně náhodná veličina U = X − µ σ ∼ N(0, 1) má standardizované normální rozdělení. Důkaz. K transformaci y = a + bx existuje inverzní transformace h−1(y) = y−a b , která má derivaci dh−1(y) dy = 1 b , takže hustota transformované náhodné veličiny je rovna fY (y) = fX h−1 (y) dh−1(y) dy = fX y − a b 1 |b| = 1 √ 2π|b|σ e− 1 2 [y−(a+bµ)]2 b2σ2 ∼ N(a + bµ, b2 σ2 ) Pokud položíme a = −µ σ a b = 1 σ , dostaneme: U = X−µ σ ∼ N(0, 1). Připomeňme definici vícerozměrného normálního rozdělení: náhodný vektor X = (X1, . . . , Xn)′ má n rozměrné normální (Gaussovo) rozdělení s parametry µ ∈ Rn a Σ > 0, pokud jeho hustota má tvar fX(x) = (2π)− n 2 |Σ|− 1 2 exp − 1 2 (X − µ)′ Σ−1 (X − µ) . a píšeme X = (X1, . . . , Xn)′ ∼ Nn(µ, Σ). Pro n = 2 má hustota tvar f(X1,X2)(x1, x2) = 1 2πσ1σ2 1 − ρ2 exp − 1 2(1−ρ2) x1−µ1 σ1 2 − 2ρx1−µ1 σ1 x2−µ2 σ2 + x2−µ2 σ2 2 a značíme (X1, X2)′ ∼ N2(µ1, µ2, σ2 1, σ2 2, ρ). Věta 13.2. Součet dvou normálních náhodných veličin. Nechť náhodný vektor X = (X1, X2)′ ∼ N2(µ, Σ) má dvourozměrné normální rozdělení s parametry µ = µ1 µ2 a Σ = σ2 1 ρσ1σ2 ρσ1σ2 σ2 2 , tj. má hustotu tvaru f(X1,X2)(x1, x2) = 1 2πσ1σ2 √ 1−ρ2 e − 1 2(1−ρ2) x1−µ1 σ1 2 −2ρ x1−µ1 σ1 x2−µ2 σ2 + x2−µ2 σ2 2 . Pak náhodná veličina Y = X1 + X2 má také normální rozdělení a platí Y = X1 + X2 ∼ N(µ1 + µ2, σ2 1 + 2ρσ1σ2 + σ2 2). Důkaz. Mějme náhodný vektor Y = (Y1, Y2)′, který je definován takto Y1 = X1 + X2 = h1(X1, X2) Y2 = X2 = h2(X1, X2) . Vypočtěme inverzní zobrazení x1 = y1 − y2 = h−1 1 (y1, y2) x2 = y2 = h−1 2 (y1, y2) a jakobián Dh−1 (y1, y2) = 1 −1 0 1 = 1. Sdružená hustota náhodného vektoru Y = (Y1, Y2)′ je pak tvaru f(Y1,Y2)(y1, y2) = f(X1,X2)(y1 − y2, y2) · 1 62 M3121 Pravděpodobnost a statistika I a odtud pak marginální hustota fY1 (y1) = ∞ −∞ f(X1,X2)(y1 − y2, y2)dy2 = 1 2πσ1σ2 √ 1−ρ2 ∞ −∞ e − 1 2(1−ρ2) y1−y2−µ1 σ1 2 −2ρ y1−y2−µ1 σ1 y2−µ2 σ2 + y2−µ2 σ2 2 dy2 Mějme substituce v = y2 − µ2 u = y1 − µ1 − µ2 . Pak u − v = y1 − µ1 − µ2 − y2 + µ2 = y1 − y2 − µ1 a fY1 (u) = 1 2πσ1σ2 √ 1−ρ2 ∞ −∞ exp − 1 2σ2 1σ2 2(1−ρ2) σ2 2(u − v)2 − 2ρσ1σ2(u − v)v + σ2 1v2 dv. Položme σ1σ2 1 − ρ2 = a. Pak fY1 (u) = 1 2πa ∞ −∞ exp − 1 2a2 (σ2 2u2 − 2σ2 2uv + σ2 2v2 − 2ρσ1σ2uv + 2ρσ1σ2v2 + σ2 1v2) dv = 1 2πa ∞ −∞ exp − 1 2a2 σ2 1 + 2ρσ1σ2 + σ2 2 v2 + 2σ2 (σ2 + ρσ1) uv + σ2 2u2 dv Dále položme σ2 1 + 2ρσ1σ2 + σ2 2 = b2 a σ2 (σ2 + ρσ1) u = c. Potom fY1 (u) = 1 2πa ∞ −∞ exp − 1 2a2 bv − c b 2 − c b 2 + σ2 2u2 dv = 1 2πa exp − 1 2a2 σ2 2u2 − c2 b2 ∞ −∞ exp −1 2 bv−c/b a 2 dv. Uvažujme substituci w = bv−c/b a , pak dv = a b dw a fY1 (u) = a b 1√ 2πa exp − 1 2a2 σ2 2u2 − c2 b2 1√ 2π ∞ −∞ exp −1 2w2 dw =1 = 1√ 2πb exp − 1 2a2 σ2 2u2 − c2 b2 . Protože σ2 2u2 − c2 b2 = σ2 2u2 − [σ2 (σ2 + ρσ1) u]2 σ2 1 + 2ρσ1σ2 + σ2 2 = σ2 2u2 − σ2 2u2(σ2 2 + 2ρσ1σ2 + ρ2σ2 1) σ2 1 + 2ρσ1σ2 + σ2 2 = σ2 2u2(σ2 1 + 2ρσ1σ2 + σ2 2 − 2ρσ1σ2 − ρ2σ2 1) σ2 1 + 2ρσ1σ2 + σ2 2 = σ2 1σ2 2(1 − ρ2)u2 σ2 1 + 2ρσ1σ2 + σ2 2 = a2 b2 u2 , pak náhodná veličina Y = Y1 má hustotu fY1 (u) = 1√ 2πb exp − 1 2a2 σ2 2u2 − c2 b2 = 1√ 2πb exp −1 2 u b 2 a po zpětném dosazení u = y1 − µ1 − µ2 b2 = σ2 1 + 2ρσ1σ2 + σ2 2 máme fY1 (y1) = 1 √ 2π σ2 1 + 2ρσ1σ2 + σ2 2 exp − 1 2 (y1 − µ1 − µ2)2 σ2 1 + 2ρσ1σ2 + σ2 2 t.j. Y ∼ N µY = µ1 + µ2, σ2 Y = σ2 1 + 2ρσ1σ2 + σ2 2 RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 63 Věta 13.3. Lineární kombinace normálních náhodných veličin. Nechť X1, . . . , Xn jsou nezávislé náhodné veličiny takové, že Xi ∼ N(µi, σ2 i ), i = 1, . . . , n. Nechť a0, a1, . . . , an ∈ R a n i=1 a2 i > 0. Potom náhodná veličina, která je lineární transformací normálních náhodných veličin má opět normální rozdělení, t.j. Y = a0 + n i=1 aiXi ∼ N a0 + n i=1 aiµi, n i=1 a2 i σ2 i . Důkaz. Provedeme matematickou indukcí. (1) Nechť n = 1. Pak z předpokladů věty je a1 = 0 a z věty 13.1 plyne, že Y = a0 + a1X ∼ N(a0 + a1µ1, a2 1σ2 1). (2) Nechť tvrzení věty platí pro libovolné přirozené n ≥ 1 a X1, . . . , Xn+1 jsou nezávislé náhodné veličiny takové, že Xi ∼ N(µi, σ2 i ), i = 1, . . . , n + 1. Je-li an+1 = 0, pak zřejmě Y = a0 + n+1 i=1 aiXi ∼ N(a0 + n+1 i=1 aiµi, n+1 i=1 a2 i σ2 i ). Je-li an+1 = 0, pak Y = a0 + n i=1 aiXi Y1 + an+1Xn+1 Y2 = Y1 + Y2 je součtem dvou nezávislých náhodných veličin. První náhodná veličina Y1 má podle indukčního předpokladu normální rozdělení Y1 ∼ N(a0 + n i=1 aiµi, n i=1 a2 i σ2 i ) je-li alespoň jedno z čísel a1, . . . , an různé od nuly, v opačném případě je tvrzení zřejmé. Druhá náhodná veličina Y2 má podle věty 13.1 normální rozdělení Y2 ∼ N(an+1µn+1, a2 n+1σ2 n+1). Náhodný vektor (Y1, Y2)′ vytvořený ze dvou nezávislých normálních náhodných veličin má normální rozdělení (Y1, Y2)′ ∼ N2(µ, Σ), kde µ = a0 + n i=1 aiµi, an+1µn+1 ′ a Σ =   n i=1 a2 i σ2 i 0 0 a2 n+1σ2 n+1   tedy ρ = 0. Pak podle věty 13.2 dostaneme Y = Y1 + Y2 ∼ N a0 + n+1 i=1 aiµi, n+1 i=1 a2 i σ2 i . 64 M3121 Pravděpodobnost a statistika I Následující definice zavádí další typ rozdělení, které budeme při transformaci normálních náhodných veličin dále potřebovat. Definice 13.4. χ2 rozdělení. Řekneme, že náhodná veličina X má χ2 rozdělení s ν > 0 stupni volnosti, pokud její hustota má tvar fX(x) = 1 2 ν 2 Γ(ν 2 ) x ν 2 −1 e− 1 2 x x ≥ 0 0 x < 0 a budeme psát X ∼ χ2 (ν). Grafy hustot χ2 rozdělení 0 10 20 30 40 50 60 70 80 0 0.05 0.1 0.15 0.2 0.25 ν= 1 ν= 2 ν= 3 ν= 5 ν=10 ν=20 ν=30 ν=40 ν=50 Grafy distribučních funkcí χ2 rozdělení 0 10 20 30 40 50 60 70 80 0 0.2 0.4 0.6 0.8 1 ν= 1 ν= 2 ν= 3→ ν= 5 ν=10 ν=20 ν=30 ν=40 ν=50 Věta 13.5. Součet n nezávislých χ2 veličin. Nechť U1, . . . , Un jsou nezávislé náhodné veličiny se standardizovaným normálním rozdělením, t.j. Ui ∼ N(0, 1) pro i = 1, . . . , n. Pak náhodná veličina K = n i=1 U2 i ∼ χ2 (n) má χ2 rozdělení o n stupních volnosti. Důkaz. Větu dokážeme indukcí. (1) Nejprve dokážeme tvrzení pro n = 1. Pro u ≥ 0 počítejme distribuční funkci FU2 1 (u) (pro u < 0 je zřejmě nulová) FU2 1 (u) = P(U2 1 ≤ u) = P(|U1| ≤ √ u) = FU1 ( √ u) − FU1 (− √ u). Odtud pak derivací získáme hustotu fU2 1 (u) = F′ U2 1 (u), tj. fU2 1 (u) = 1 2 √ u fU1 ( √ u) + fU1 (− √ u) = 1 √ 2π √ u e− 1 2 u = 1 2 1 2 Γ 1 2 u 1 2 −1 e− 1 2 u (neboť Γ(1 2) = √ π), a tedy fU2 1 (u) odpovídá hustotě rozdělení χ2(1). RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 65 (2) Předpokládejme, že tvrzení platí pro n ≥ 1 a dokážeme je pro n + 1. Podle Důsledku 12.9 je fU2 1 +···+U2 n+1 (u) = ∞ −∞ fU2 1 +···+U2 n (u − x)fU2 n+1 (x)dx = u 0 1 2 n 2 Γ n 2 (u − x) n 2 −1 e− 1 2 (u−x) 1 2 1 2 Γ 1 2 x 1 2 −1 e− 1 2 x dx = e− u 2 2 n+1 2 Γ n 2 Γ 1 2 u 0 (u − x) n 2 −1 x− 1 2 dx. Připomeňme si nyní beta funkci z příkladu 6.5. Ta je definovaná předpisem B(a, b) = 1 0 xa−1(1− x)b−1dx a platí vztah mezi beta a gamma funkcí B(a, b) = Γ(a)Γ(b) Γ(a+b) . Substitucí t = x u , udt = dx dostáváme fU2 1 +···+U2 n+1 (u) = e− u 2 2 n+1 2 Γ n 2 Γ 1 2 u 0 (u − x) n 2 −1 x− 1 2 dx = e− u 2 u n+1 2 −1 2 n+1 2 Γ n 2 Γ 1 2 1 0 (1 − t) n 2 −1 t− 1 2 dt = e− u 2 u n+1 2 −1 2 n+1 2 Γ n 2 Γ 1 2 B 1 2 , n 2 = e− u 2 u n+1 2 −1 2 n+1 2 Γ n 2 Γ 1 2 Γ 1 2 Γ n 2 Γ n+1 2 , což odpovídá hustotě rozdělení χ2(n + 1). Nyní zavedeme další rozdělení, které souvisí s transformací normálních náhodných veličin. Definice 13.6. Studentovo rozdělení. Řekneme, že náhodná veličina X má Studentovo t rozdělení o ν > 0 stupních volnosti, pokud její hustota je tvaru fX(x) = Γ ν+1 2 Γ 1 2 Γ ν 2 ν− 1 2 x2 ν + 1 − ν+1 2 pro x ∈ R Pak píšeme X ∼ t(ν). Grafy hustot Studentova t rozdělení −4 −3 −2 −1 0 1 2 3 4 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 ← ν= 1 ← ν= 4 ← ν=30 Grafy distribučních funkcí Studentova t rozdělení −4 −3 −2 −1 0 1 2 3 4 0 0.2 0.4 0.6 0.8 1 ← ν= 1 ν= 4→ ν=30→ 66 M3121 Pravděpodobnost a statistika I Věta 13.7. Nechť náhodné veličiny U ∼ N(0, 1) a K ∼ χ2(ν) jsou nezávislé. Pak náhodná veličina T = U K/ν ∼ t(ν) má Studentovo t rozdělení o ν stupních volnosti. Důkaz. Náhodnou veličinu T zapíšeme ve tvaru T = √ νU√ K a využijeme tvrzení (2) Věty 13.1 o hustotě podílu dvou náhodných veličin. Odtud je fT (u) = 1 √ ν ∞ 0 fU ux √ ν f√ K(x)xdx. (3.13.10) Nejprve vyjádříme hustotu f√ K(x) z distribuční funkce F√ K(x). Připomeňme, že hustota náhodné veličiny K je tvaru fK(x) = 1 2 ν 2 Γ(ν 2 ) x ν 2 −1 e− 1 2 x x ≥ 0, 0 x < 0. Pro y ≥ 0 počítejme distribuční funkci F√ K(y) F√ K(y) = P( √ K ≤ y) = P(K ≤ y2 ) = y2 0 1 2 ν 2 Γ ν 2 x ν 2 −1 e− 1 2 x dx. Substitucí x = t2 dostáváme F√ K(y) = y 0 1 2 ν 2 −1 Γ ν 2 tν−1 e− 1 2 t2 dt ⇒ f√ K(x) = 1 2 ν 2 −1 Γ ν 2 xν−1 e− 1 2 x2 . Dosazením do vztahu (3.13.10) dostáváme fT (u) = 1 √ ν ∞ 0 1 √ 2π e− u2x2 2ν 1 2 ν 2 −1 Γ ν 2 xν−1 e− 1 2 x2 xdx = 1 2 ν−1 2 Γ ν 2 √ πν ∞ 0 e − x2 2 u2 ν +1 xν−1 xdx. Provedením substituce t = x2 2 u2 ν + 1 upravíme na tvar fT (u) = 2 ν−1 2 2 ν−1 2 Γ ν 2 Γ 1 2 √ ν u2 ν + 1 ν+1 2 ∞ 0 e−t t ν+1 2 −1 dt Γ(ν+1 2 ) = Γ ν+1 2 Γ ν 2 Γ 1 2 ν− 1 2 u2 ν + 1 − ν+1 2 . A nakonec zavedeme poslední rozdělení související s trasformacemi normálního rozdělení. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 67 Definice 13.8. Fisherovo–Snedecorovo F rozdělení. Řekneme, že náhodná veličina X má Fisherovo–Snedecorovo F rozdělení o ν1 > 0 a ν2 > 0 stupních volnosti, pokud její hustota je tvaru fX(x) =    Γ ν1+ν2 2 Γ(ν1 2 )Γ(ν2 2 ) ν1 ν2 ν1 2 y ν1 2 −1 ν1 ν2 y + 1 − ν1+ν2 2 y ≥ 0, 0 y < 0. Pak píšeme X ∼ F(ν1, ν2). Grafy hustot Fisherova–Snedecorova F rozdělení −1 −0.5 0 0.5 1 1.5 2 2.5 3 0 0.5 1 1.5 ν1 =3; ν2 =3→ ν1 =5; ν2 =10→ ν 1 =40; ν 2 =50→ ν 1 =50; ν 2 =3→ Grafy distribučních funkcí Fisherova–Snedecorova F rozdělení −1 −0.5 0 0.5 1 1.5 2 2.5 3 0 0.2 0.4 0.6 0.8 1 ←ν 1 =50; ν 2 =3 ν 1 =3; ν 2 =3→ ν 1 =5; ν 2 =10→ ν 1 =40; ν 2 =50→ Věta 13.9. Nechť K1 a K1 jsou nezávislé náhodné veličiny a Ki ∼ χ2 (νi), i = 1, 2. Pak náhodná veličina F = K1/ν1 K2/ν2 ∼ F(ν1, ν2) má Fisherovo–Snedecorovo F rozdělení o ν1 a ν2 stupních volnosti. Důkaz. Hustota pravděpodobnosti náhodné veličiny Ki je rovna fKi (xi) =    1 2 νi 2 Γ(νi 2 ) x νi 2 −1 i e− 1 2 xi xi ≥ 0 0 xi < 0 Opět využijeme tvrzení (2) Věty 13.1 o hustotě podílu dvou náhodných veličin. Odtud je fF (u) = ν1 ν2 ∞ 0 fK1 uxν1 ν2 fK2 (x)xdx. Dosazením dostáváme fF (u) = ν1 ν2 ∞ 0 1 2 ν1 2 Γ ν1 2 uxν1 ν2 ν1 2 −1 e − 1 2 uxν1 ν2 1 2 ν2 2 Γ ν2 2 x ν2 2 −1 e− 1 2 x xdx = ν1 ν2 ν1 ν2 u ν1 2 −1 2 ν1+ν2 2 Γ ν1 2 Γ ν2 2 ∞ 0 x ν1+ν2 2 −1 e − 1 2 x uν1 ν2 +1 dx. 68 M3121 Pravděpodobnost a statistika I Provedením substituce t = x 2 uν1 ν2 + 1 upravíme na tvar fF (u) = ν1 ν2 ν1 ν2 u ν1 2 −1 2 ν1+ν2 2 uν1 ν2 + 1 − ν1+ν2 2 2 ν1+ν2 2 Γ ν1 2 Γ ν2 2 ∞ 0 t ν1+ν2 2 −1 e−t dt Γ ν1+ν2 2 = Γ ν1+ν2 2 Γ ν1 2 Γ ν2 2 ν1 ν2 ν1 2 u ν1 2 −1 ν1 ν2 u + 1 − ν1+ν2 2 . Věta 13.10. Lineární transformace normálních náhodných vektorů. Nechť náhodný vektor X = (X1, . . . , Xn)′ ∼ Nn(µ, Σ) má n−rozměrné normální rozdělení a B je regulární matice reálných čísel typu n×n, dále nechť a ∈ Rn je vektor reálných čísel. Potom náhodný vektor Y = a + BX ∼ Nn(a + Bµ, B′ ΣB). Důkaz. Hustota pravděpodobnosti náhodného vektoru X je tvaru fX(x) = (2π)− n 2 |Σ|− 1 2 exp −1 2(X − µ)′ Σ−1 (X − µ) . Inverzní transformace k transformaci y = a + Bx je rovna x = B−1 (y − a), přičemž jakobián této inverzní transformace je roven Dh−1 (y) = B−1 = |B|−1 . Pak hustotu transformované náhodného vektoru Y = a + BX lze vyjádřit takto fY(y) = fX(B−1 (y − a))|B|−1 = (2π)− n 2 |Σ|− 1 2 |B|−1 exp −1 2[B−1 (y − a) − µ]′ Σ−1 [B−1 (y − a) − µ] = (2π)− n 2 |B′ ΣB|− 1 2 exp −1 2(y − a − Bµ)′ |B′ ΣB|−1 (y − a − Bµ) . Tím je věta dokázána. Věta 13.11. Speciální transformace nezávislých normálních náhodných veličin. Nechť X1, . . . , Xn jsou nezávislé náhodné veličiny takové, že Xi ∼ N(µi, σ2 ), i = 1, . . . , n a B je ortonormální matice typu n × n. Položme X = (X1, . . . , Xn)′ a Y = (Y1, . . . , Yn)′ = B′ (X − µ) kde µ = (µ1, . . . , µn)′. Potom Yj jsou nezávislé náhodné veličiny a Yj ∼ N(0, σ2 ). Důkaz. Protože X1, . . . , Xn jsou nezávislé náhodné veličiny s rozdělením Xi ∼ N(µi, σ2), má náhodný vektor X hustotu fX(x) = n i=1 1√ 2πσ exp −1 2 xi−µi σ 2 = (2π)− n 2 exp − 1 2 n i=1 xi−µi σ 2 ∼ Nn(µ, Σ), kde Σ = σ2In. Je-li B ortonormální matice, tj. B−1 = B′ , RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 69 pak z věty 13.10 plyne, že náhodný vektor Y = B′ (X − µ) ∼ Nn(O, B′ ΣB), přičemž B′ ΣB = σ2 B′ B = σ2 In s hustotou tvaru fY(Y) = n j=1 1 √ 2πσ exp −1 2 yj σ 2 = n j=1 fYj (yj). Odtud plyne tvrzení věty. KAPITOLA 4 Číselné charakteristiky rozdělení pravděpodobností 1. Střední hodnota, její vlastnosti a výpočet Definice 1.1. Nechť X je náhodná veličina definovaná na (Ω, A, P) a nechť existuje integrál Ω X(ω) dP(ω) < ∞. Potom číslo EX = Ω X(ω) dP(ω) nazýváme střední hodnotou náhodné veličiny X. Pokud uvedený integrál není konečný nebo neexistuje, říkáme, že střední hodnota náhodné veličiny X neexistuje. Poznámka 1.2. Z definice střední hodnoty náhodné veličiny plyne, že EX existuje, právě když náhodná veličina X (což je borelovsky měřitelná funkce X(ω)) je integrovatelná na Ω vzhledem k pravděpodobnostní míře P. Často se symbolem L1 = L1(Ω, A, P) značí množina všech náhodných veličin definovaných na (Ω, A, P), které mají konečné střední hodnoty. Z vlastností integrovatelných funkcí ihned plynou následující základní vlastnosti střední hod- noty. Věta 1.3. Nechť X, X1, X2 jsou náhodné veličiny definované na pravděpodobnostním prostoru (Ω, A, P), a, a1, a2 ∈ R. Potom (1) EX existuje ⇔ E|X| existuje. (2) Jestliže P(X = a) = 1 ⇒ EX = a. (3) Existují-li EX1, EX2 ⇒ E(a1X1 + a2X2) = a1EX1 + a2EX2. (4) Nechť existují EX1, EX2 a platí X1 ≤ X2 ⇒ EX1 ≤ EX2. (5) Nechť |X1| ≤ X2 a EX2 existuje ⇒ EX1 existuje. (6) Nechť P(X ≥ 0) = 1 ⇒ EX ≥ 0. Další vlastnosti střední hodnoty, zejména vzorce vhodné pro její výpočet, plynou ze známé věty o přenosu integrace z měřitelného prostoru (Ω, A) na měřitelný prostor (Λ, D) pomocí měřitelné funkce h. Tuto větu budeme citovat pro případ, kdy (Λ, D) = (Rn, Bn). Věta 1.4. Věta o přenosu integrace. Nechť X = (X1, . . . , Xn)′ je n-rozměrný náhodný vektor definovaný na pravděpodobnostním prostoru (Ω, A, P), g je borelovsky měřitelná funkce na (Rn, Bn), PX je rozdělení pravděpodobností náhodného vektoru X. Potom Ω g(X(ω))dP(ω) = Rn g(x)dPX(x) Poznámka 1.5. Má-li náhodný vektor X = (X1, . . . , Xn)′ distribuční funkci F(x), potom rozdělení pravděpodobností PX = µF , kde µF je Lebesgueova-Stieltjesova míra indukovaná distribuční funkcí F a můžeme psát Ω g(X(ω))dP(ω) = Rn g(x)dPX(x) = Rn g(x)dµF značíme = Rn g(x)dF(x). 71 72 M3121 Pravděpodobnost a statistika I Důsledek 1.6. Nechť X je náhodná veličina, resp. X = (X1, . . . , Xn)′ je náhodný vektor definovaný na (Ω, A, P). Potom platí (1) Existuje-li střední hodnota EX, potom existuje konečný integrál ∞ −∞ xdF(x) a naopak. V tomto případě platí EX = ∞ −∞ xdF(x) , tj. X ∈ L1(Ω, A, P) ⇔ ∞ −∞ xdF(x) < ∞. (a) Nechť X ∼ (M, p) je diskrétního typu, pak platí X ∈ L1(Ω, A, P) ⇔ x∈M xp(x) absolutně konverguje. V tomto případě EX = x∈M xp(x) . (b) Nechť X ∼ f(x) je absolutně spojitého typu. Potom z existence střední hodnoty EX plyne integrovatelnost funkce xf(x) vzhledem k Lebesgueově míře a naopak. V tomto případě platí EX = ∞ −∞ xf(x)dx , tj. X ∈ L1(Ω, A, P) ⇔ xf(x) je integrovatelná vzhledem k Lebesgueově míře. (2) Nechť g(x) je borelovská funkce. Potom střední hodnota transformované náhodné veličiny Y = g(X) existuje právě když existuje a je konečný integrál ∞ −∞ g(x)dF(x) < ∞. V tomto případě platí EY = Eg(X) = ∞ −∞ g(x)dF(x) . (a) Nechť X ∼ (M, p) je diskrétního typu, pak platí Y ∈ L1(Ω, A, P) ⇔ x∈M g(x)p(x) absolutně konverguje. V tomto případě EY = Eg(X) = x∈M g(x)p(x) . (b) Nechť X ∼ f(x) je absolutně spojitého typu. Potom EY existuje právě když je funkce g(x)f(x) integrovatelná vzhledem k Lebesgueově míře a přitom platí EY = Eg(X) = ∞ −∞ g(x)f(x)dx , tj. EY = Eg(X) ∈ L1(Ω, A, P) ⇔ g(x)f(x) je integrovatelná vzhledem k Lebesgueově míře. (3) Nechť g(x1, . . . , xn) borelovská funkce. Potom střední hodnota náhodné veličiny Y = g(X) existuje, právě když existuje integrál Rn g(x)dF(x) < ∞. V tomto případě EY = Rn g(x)dF(x). Dále (a) Nechť X ∼ (M, p) je diskrétního typu, pak platí Y ∈ L1(Ω, A, P) ⇔ x∈M g(x)p(x) absolutně konverguje. V tomto případě EY = Eg(X) = x∈M g(x)p(x) . (b) Nechť X ∼ f(x) je absolutně spojitého typu. Potom EY existuje právě když je funkce g(x)f(x) integrovatelná vzhledem k Lebesgueově míře a přitom platí EY = Eg(X) = Rn g(x)f(x)dx , tj. EY = Eg(X) ∈ L1(Ω, A, P) ⇔ g(x)f(x) je integrovatelná vzhledem k Lebesgueově míře. Příklad 1.7. Motivační příklad Jak bylo uvedeno v definici, střední hodnotu náhodné veličiny označujeme písmenem E. Toto označení pochází z anglického „expected value (očekávaná hodnota). V tomto příkladu bychom chtěli demonstrovat význam slova „očekávaný . Uvažujme hru „kolo štěstí , kde účastník hry roztočí kolo znázorněné na obr. 1. Každé pole tohoto RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 73 4 20 0 2 0 1 0 Obrázek 1. „Kolo štěstí kola definuje výhru (v Kč), která bude vyplacena hráči v případě, že na toto pole ukazuje šipka po zastavení kola. Za každou hru zaplatí hráč provozovateli 1 Kč. Zajímá nás, z pohledu hráče, jestli se nám vyplatí takovou hru hrát, tj. jaká je „očekávaná hodnota našeho zisku. Řešení: Označme Y náhodnou veličinu, která udává náš zisk z jedné hry a dále označme X náhodnou veličinu udávající částku, kterou si vytočíme na kole v jedné hře. Zřejmě platí Y = X −1. Hodnoty náhodné veličiny X a její pravděpodobnostní funkce jsou uvedeny v následující tabulce: X 0 1 2 4 p(x) 1 2 1 8 1 4 1 8 Střední hodnota (tj. očekávaná hodnota) našeho zisku z jedné hry je tedy EY = EX − 1 = 0 · 1 2 + 1 · 1 8 + 2 · 1 4 + 4 · 1 8 − 1 = 1 8 = 0, 125. To znamená, že se nám hru vyplatí hrát, neboť např. při 1 000 opakováních je očekávaný zisk 125 Kč. Příklad 1.8. Střední hodnota Poissonova rozdělení. Mějme náhodnou veličinu X ∼ Po(λ) s pravděpodobnostní funkcí p(x) = e−λ λx x! x ∈ M = {0, 1, . . . , } 0 jinak. 74 M3121 Pravděpodobnost a statistika I Počítejme střední hodnotu EX = ∞ x=0 xp(x) = ∞ x=0 xe−λ λx x! = e−λ ∞ x=1 λx (x − 1)! = λe−λ ∞ x=1 λx−1 (x − 1)! = subst. y = x − 1 = λ e−λ ∞ y=0 λy y! 1= y∈M p(y) = λ. Příklad 1.9. Střední hodnota normálního (Gaussova) rozdělení. Mějme náhodnou veličinu s normálním rozdělením X ∼ N(µ, σ2) s hustotou f(x) = 1 √ 2πσ exp − 1 2 x − µ σ 2 . Počítejme EX = ∞ −∞ xf(x)dx = ∞ −∞ 1√ 2πσ xe− 1 2 (x−µ σ ) 2 dx. Položíme-li y = x−µ σ , tj. x = σy + µ a dx = σdy, pak EX = ∞ −∞ 1√ 2πσ xe − 1 2 x−µ σ 2 dx = 1√ 2π ∞ −∞ (σy + µ)e− 1 2 y2 dy = σ√ 2π ∞ −∞ ye− 1 2 y2 dy =0 (lichá funkce) +µ ∞ −∞ 1√ 2π e− 1 2 y2 dy =1 (hustota Y ∼N(0,1)) = µ. Věta 1.10. Střední hodnota součinu nezávislých náhodných veličin. Nechť X1, . . . , Xn jsou nezávislé náhodné veličiny definované na (Ω, A, P) a nechť existují střední hodnoty EX1, . . . , EXn. Pak platí E n i=1 Xi = n i=1 EXi. (4.1.11) Důkaz. Položme Yi = n i=1 Xi, tj. g(x1, . . . , xn) = x1 · · · · · xn. S využitím faktu, že X1, . . . , Xn jsou nezávislé náhodné veličiny, pro které musí platit F(x1, . . . , xn) = F1(x1) · · · · · Fn(xn), počítejme střední hodnotu transformované náhodné veličiny EY = Rn g(x)dF(x) = ∞ −∞ · · · ∞ −∞ x1 · · · · · xndF(x1, . . . , xn) nez. = ∞ −∞ · · · ∞ −∞ x1 · · · · · xn [dF1(x1) · · · · · dFn(xn)] = ∞ −∞ x1dF1(x1) =EX1<∞ · · · · · ∞ −∞ xndFn(xn) =EXn<∞ = EX1 · · · · · EXn. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 75 2. Obecné a centrální momenty Definice 2.1. Nechť X je náhodná veličina definovaná na (Ω, A, P). Potom čísla µ′ k = EXk obecným µk = E(X − EX)k nazýváme k-tým centrálním momentem náhodné veličiny X ¯µk = E|X|k absolutním za předpokladu, že uvedené střední hodnoty pro k = 1, 2, . . . existují. Poznámka 2.2. Je-li k-tý moment konečný, tj. EXk < ∞, píšeme X ∈ Lk(Ω, A, P) nebo zkráceně X ∈ Lk. Věta 2.3. Vlastnosti momentů. Nechť pro n ∈ N existuje µ′ n = EXn < ∞. Potom platí (1) Existují µ′ k = EXk < ∞ µk = E(X − EX)k < ∞ ¯µk = E|X|k < ∞ pro libovolná k ≤ n (2) Dále platí (¯µk) 1 k = E|X|k 1 k ≤ (¯µn) 1 n = (E|X|n ) 1 n pro libovolná k ≤ n (4.2.12) Důkaz. Tvrzení (1) vyplývá z vlastností Lebesgueových integrálů; v tvrzení (2) jde o speciální případ tzv. Hölderovy nerovnosti. Definice 2.4. (1) Řekneme, že náhodná veličina X má konečný druhý moment, jestliže µ′ 2 = EX2 < ∞ . (2) Druhý centrální moment nazýváme rozptyl a značíme DX = E(X − EX)2 = µ2 . (3) Číslo σX = √ DX nazýváme směrodatnou odchylkou náhodné veličiny X. Věta 2.5. Vlastnosti rozptylu. Nechť X, X1, X2 jsou náhodné veličiny definované na (Ω, A, P) s konečnými druhými momenty, a, a1, a2 ∈ R. Pak (1) DX ≥ 0 (2) DX = EX2 − (EX)2 (3) Jestliže P(X = a) = 1, pak DX = 0. (4) D(a1 + a2X) = a2 2DX (5) Nechť X1, X2 jsou nezávislé náhodné veličiny, pak D(X1 + X2) = DX1 + DX2. Důkaz. (1) Protože pro transformovanou náhodnou veličinu Y = (X − EX)2 platí , že P(Y ≥ 0) = 1, pak EY ≥ 0, přičemž EY = DX. (2) DX = E(X−EX)2 = E X2 − 2(EX) · X + (EX)2 = EX2−2EX·EX+EX2 = EX2 − (EX)2 (3) Jestliže P(X = a) = 1, pak X je diskrétní náhodná veličina, tj. X ∼ (M, pX), kde M = {a} a pX(x) = 1 x = a, 0 jinak. takže EX = x∈M xpX(x) = apX(a) = a a DX = x∈M (x − a)2pX(x) = (a − a)2 · 1 = 0 (4) D(a1 + a2X) = E [a1 + a2X − E(a1 + a2X)]2 = E [a1 + a2X − a1 − a2EX]2 = E [a2(X − EX)]2 = a2 2E(X − EX)2 = a2 2DX (5) D(X1+X2) = E [X1+X2−E(X1+X2)]2 =E [X1+X2−EX1−EX2]2 = E [(X1−EX1)+(X2−EX2)]2 = E (X1−EX1)2+2(X1−EX1)(X2−EX2) + (X2−EX2)2 = E(X1−EX1)2 =DX1 +2 E[(X1−EX1)(X2−EX2)] nez. = E(X1−EX1)·E(X2−EX2)=0·0 +E(X2−EX2)2 =DX2 =DX1+DX2 76 M3121 Pravděpodobnost a statistika I Příklad 2.6. Rozptyl Poissonova rozdělení. Mějme náhodnou veličinu X ∼ Po(λ) s pravděpodobnostní funkcí p(x) = e−λ λx x! x ∈ M = {0, 1, . . . , } 0 jinak. Abychom mohli vypočítat rozptyl DX = EX2 − (EX)2 potřebujeme znát střední hodnotu, a ta je rovna EX = λ (viz příklad 1.8). Dále počítejme EX2 = ∞ x=0 x2 p(x) = ∞ x=0 x2 e−λ λx x! = e−λ ∞ x=0 [x(x − 1) + x] λx x! = e−λ ∞ x=0 x(x − 1) λx x(x − 1)(x − 2)! + e−λ ∞ x=0 x λx x! =EX=λ = e−λ ∞ x=2 λx (x − 2)! + λ = e−λ λ2 ∞ x=2 λx−2 (x − 2)! + λ = λ2 ∞ y=0 e−λ λy (y)! =1= y∈M p(y) +λ = λ2 + λ, takže DX = λ2 + λ − λ2 = λ. Příklad 2.7. Rozptyl normálního (Gaussova) rozdělení. Mějme náhodnou veličinu s normálním rozdělením X ∼ N(µ, σ2) s hustotou f(x) = 1 √ 2πσ exp − 1 2 x − µ σ 2 . Počítejme rozptyl přímo podle definice DX = E(X − EX)2 = ∞ −∞ (x − EX)2 f(x)dx = ∞ −∞ 1√ 2πσ (x − µ)2 e− 1 2(x−µ σ ) 2 dx. Položíme-li y = x−µ σ , tj. x − µ = σy a dx = σdy, potom DX = ∞ −∞ 1√ 2πσ (x − µ)2 e − 1 2 x−µ σ 2 dx = σ2 √ 2π ∞ −∞ y2 e− 1 2 y2 sudá funkce dy = 2 ∞ 0 σ2 √ 2π y2 e− 1 2 y2 dy. Položme 1 2y2 = t, tj. y = √ 2t a ydy = dt. Potom dostaneme DX = σ2 ∞ 0 2√ 2π √ 2te−t dt = σ2 2√ π ∞ 0 t 3 2 −1 e−t dt = σ2 , protože ∞ 0 t 3 2−1 e−t = Γ 3 2 = Γ 1 + 1 2 = 1 2Γ 1 2 = 1 2 √ π. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 77 Věta 2.8. Čebyševova nerovnost. Nechť X je náhodná veličina s konečným druhým momentem. Potom pro libovolné ε > 0 platí P(|X − EX| ≥ ε) ≤ DX ε2 . (4.2.13) Důkaz. Zvolme ε > 0 a označme Mε = {x ∈ R : |x − EX| ≥ ε}. Potom DX = E(X − EX)2 = ∞ −∞ (x − EX)2dF(x) ≥ Mε (x − EX)2 ≥ε2 dF(x) ≥ ε2 Mε dF(x) = ε2P(X ∈ Mε) = ε2P(|X − EX| ≥ ε) a odtud již plyne tvrzení věty. Poznámka 2.9. Položíme–li ε = k √ DX = kσX , kde k ∈ N a DX > 0, pak máme P(EX − kσX < X < EX + kσX) = P(|X − EX| < kσX) = 1 − P(|X − EX| ≥ kσX) Čeb.ner. ≥ 1 − DX k2DX = 1 − 1 k2 Tedy platí P(|X − EX| < kσX) ≥ 1 − 1 k2 (4.2.14) Zvolíme–li například k = 3 , pak P(|X − EX| < 3σX) ≥ 1 − 1 9 = 8 9 . = 0.89, což lze slovně charakterizovat takto: náhodná veličina X se při své realizaci neodchýlí od své střední hodnoty o více než trojnásobek své směrodatné odchylky s pravděpodobností aspoň 0.89. 3. Kovariance a korelační koeficient V celém odstavci budeme předpokládat, že náhodné veličiny mají konečné druhé momenty. Je třeba si uvědomit, že z existence konečných druhým momentů plyne i existence prvních momentů a rozptylu, neboť ze Schwarzovy nerovnosti plyne, že |E(X · Y )|≤ √ EX2EY 2 . Položíme–li Y = 1, dostaneme nerovnost |E(X)|≤ √ EX2 < ∞ a můžeme vyjádřit i rozptyl DX =EX2−(EX)2 <∞ . Dále budeme předpokládat, že náhodné veličiny mají nenulový rozptyl, tj. že nejsou degenero- vané. Definice 3.1. Kovariancí dvou náhodných veličin X a Y nazýváme číslo C(X, Y ) = E(X − EX)(Y − EY ) a číslo R(X, Y ) = C(X,Y ) √ DXDY nazýváme korelační ko- eficient. Věta 3.2. Nechť náhodné veličiny X a Y mají sdruženou distribuční funkci F(x, y). Pak C(X, Y ) = ∞ −∞ ∞ −∞ (x − EX)(y − EY )dF(x, y) (4.3.15) (a) Nechť náhodné veličiny jsou diskrétního typu, tj. (X, Y )′ ∼ (M, p(x, y)), pak platí C(X, Y ) = (x,y)∈M (x − EX)(y − EY )p(x, y) (4.3.16) (b) Nechť náhodné veličiny jsou absolutně spojitého typu, tj. (X, Y )′ ∼ f(x, y), pak platí C(X, Y ) = ∞ −∞ ∞ −∞ (x − EX)(y − EY )dF(x, y) (4.3.17) Důkaz. Věta je důsledkem věty o střední hodnotě transformovaného náhodného vektoru, kdy g(X, Y ) = (X − EX)(Y − EY ). 78 M3121 Pravděpodobnost a statistika I Příklad 3.3. Kovariance a korelace normálního (Gaussova) rozdělení. Nechť náhodný vektor X = (X, Y )′ ∼ N2(µ, Σ) má dvourozměrné normální rozdělení s parametry µ = µ1 µ2 a Σ = σ2 1 ρσ1σ2 ρσ1σ2 σ2 2 , tj. má hustotu tvaru f(X,Y )(x, y) = 1 2πσ1σ2 √ 1−ρ2 exp − 1 2(1−ρ2) x−µ1 σ1 2 − 2ρx−µ1 σ1 y−µ2 σ2 + y−µ2 σ2 2 . Naším úkolem bude vypočítat korelační koeficient. Z příkladů 1.9 a 2.7 víme, že pro marginální náhodné veličiny platí EX = µ1 EY = µ2 DX = σ2 1 DY = σ2 2 Dále víme, že standardizovaná náhodná veličina U = X−µ σ ∼ N(0, 1) má nulovou střední hodnotu a jednotkový rozptyl, tj. EU = 1√ 2π ∞ −∞ ue− 1 2 u2 dy = 0 a DU = 1√ 2π ∞ −∞ u2 e− 1 2 u2 dy = 1. Protože R(X, Y ) = C(X,Y ) √ DX √ DY , počítejme nejprve kovarianci C(X, Y ) = E(X − EX)(Y − EY ) = ∞ −∞ ∞ −∞ (x − EX)(y − EY )f(X,Y )(x, y)dxdy = 1 2πσ1σ2 √ 1−ρ2 ∞ −∞ ∞ −∞ (x − µ1)(y − µ2)e − 1 2(1−ρ2) x−µ1 σ1 2 −2ρ x−µ1 σ1 y−µ2 σ2 + y−µ2 σ2 2 dxdy. Položíme-li nejprve u = x−µ1 σ1 , v = y−µ2 σ2 , (tj. x − µ1 = σ1u, y − µ2 = σ2v a dx = σ1du, dy = σ2dv), dostaneme C(X, Y ) = σ1σ2 2π √ 1−ρ2 ∞ −∞ ∞ −∞ uv e − 1 2(1−ρ2) [u2−2ρuv+v2] dudv = σ1σ2 2π √ 1−ρ2 ∞ −∞ u e − 1 2(1−ρ2) u2 ∞ −∞ v e − 1 2(1−ρ2) (v2−2ρuv) dv du. Protože platí v2 − 2ρuv = (v − ρu)2 − ρ2u2, pokračujme C(X, Y ) = σ1σ2√ 2π ∞ −∞ ue − u2(1−ρ2) 2(1−ρ2) 1√ 2π(1−ρ2) ∞ −∞ v e − (v−ρv)2 2(1−ρ2) dv označme I1 du. Zavedeme-li substituci v−ρu√ 1−ρ2 = t, pak v = 1 − ρ2 t + ρu a dv = 1 − ρ2 dt, takže I1 = 1√ 2π(1−ρ2) ∞ −∞ ( 1 − ρ2 t + ρu)e− 1 2 t2 1 − ρ2 dt = 1 − ρ2 1√ 2π ∞ −∞ te− 1 2 t2 dt =0=EU, kde U∼N(0,1) +ρu 1√ 2π ∞ −∞ e− 1 2 t2 dt =1 (hustota U∼N(0,1)) = ρu Pokračujme C(X, Y ) = σ1σ2√ 2π ∞ −∞ ρu2 e− u2 2 du = ρσ1σ2 1√ 2π ∞ −∞ u2 e− u2 2 du =1=DU, kde U∼N(0,1) = ρσ1σ2 a korelační koeficient je tedy roven R(X, Y ) = C(X, Y ) √ DX √ DY = ρσ1σ2 σ1σ2 = ρ . RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 79 Věta 3.4. Vlastnosti kovariance a korelace. Nechť X a Y jsou náhodné veličiny, a1, a2, b1, b2 ∈ R. Potom (1) C(X, X) = DX a R(X, X) = 1. (2) C(X, Y ) = C(Y, X) a R(X, Y ) = R(Y, X). (3) C(X, Y ) = E(XY ) − (EX)(EY ). (4) Jsou–li náhodné veličiny X a Y nezávislé, pak C(X, Y ) = R(X, Y ) = 0. (5) |C(X, Y )| ≤ √ DXDY a |R(X, Y )| ≤ 1. (6) C(a1 + a2X, b1 + b2Y ) = a2b2C(X, Y ) R(a1 + a2X, b1 + b2Y ) = R(X, Y )sign(a2b2), je–li a2 = 0 a b2 = 0. (7) D(X + Y ) = DX + DY + 2C(X, Y ). (8) R(X, Y )= 1 ⇔ existují konstanty a a b > 0 takové, že P(Y = a + bX) = 1 R(X, Y )=−1 ⇔ existují konstanty a a b < 0 takové, že P(Y = a + bX) = 1 Důkaz. (1) C(X, X) = E(X − EX)2 = DX a R(X, X) = C(X,Y ) √ DXDY = DX DX = 1. (2) C(X, Y ) = E[(X −EX)(Y −EY )] = E[(Y −EY )(X −EX)] = C(Y, X) ⇔ R(X, Y ) = R(Y, X). (3) C(X, Y ) = E[(X − EX)(Y − EY )] = E[XY − X · EY − EX · Y + EX · EY ] = E(XY ) − EX · EY − EX · EY + EX · EY = E(XY ) − (EX)(EY ) (4) Jestliže X a Y jsou nezávislé ⇒ E(XY ) = (EX)(EY ), takže C(X, Y ) (3) = E(XY ) − (EX)(EY ) = (EX)(EY ) − (EX)(EY ) = 0 ⇒ R(X, Y ) = 0 (5) Podle Schwarzovy nerovnosti pro střední hodnoty náhodných veličin W a Z platí vztah |E(WZ)| ≤ √ EW2 √ EZ2, přičemž rovnost nastává ⇔ P(Z = cW) = 1, c = 0, tj. s pravděpodobností 1 jsou náhodné veličiny W a Z proporcionální. Položíme–li W = X − EX a Z = Y − EY , dostaneme ∞ −∞ ∞ −∞ (x−EX)(y−EY )dF(x, y) 2 ≤ ∞ −∞ ∞ −∞ (x−EX)2 dF(x, y) =DX ∞ −∞ ∞ −∞ (y−EY )2 dF(x, y) =DY Odtud plyne tvrzení |C(X, Y )| ≤ √ DXDY a |R(X, Y )| = C(X,Y ) √ DXDY ≤ 1. (6) C(a1 + a2X, b1 + b2Y ) = E[(a1 + a2X − E(a1 + a2X))(b1 + b2Y − E(b1 + b2Y ))] = E[a2(X − EX)][b2(Y − EY )] = a2b2E[(X − EX)(Y − EY )] = a2b2C(X, Y ) R(a1 + a2X, b1 + b2Y ) = C(a1+a2X,b1+b2Y ) D(a1+a2X) √ D(b1+b2Y ) = a2b2C(X,Y ) √ a2 2DX √ b2 2DY = a2b2 |a2||b2| =sign(a2b2) R(X, Y ) (7) D(X + Y ) = E[X + Y − E(X + Y )]2 = E[(X − EX) + (Y − EY )]2 = E[(X − EX)2 + 2(X − EX)(Y − EY ) + (Y − EY )2] = E(X − EX)2E(X − EX)(Y − EY ) + E(Y − EY )2 = DX + 2C(X, Y ) + DY (8) Protože 1 = |R(X, Y )|= |C(X,Y )| √ DX √ DY ⇔ C(X, Y ) = =1 |R(X, Y )| √ DX √ DY , takže nastala rovnost ve Schwarzově nerovnosti. V tom případě jsou s pravděpodobností 1 náhodné veličiny X−EX a Y −EY proporcionální, tj. ∃ c=0 a platí 1=P(Y −EY =c(X−EX))=P(Y =EY −cEX+cX). Položme a = EY − cEX a b = c, pak P(Y = a + bX) = 1. Vrátíme–li se ke korelačnímu koeficientu, dostaneme R(X, Y ) = R(X, a + bX) (6) = sign(b) R(X, X) =1 = 1 b > 0, −1 b < 0. 80 M3121 Pravděpodobnost a statistika I Poznámka 3.5. Jestliže je kovariance a korelace nulová, tj. C(X, Y ) = R(X, Y ) = 0, pak říkáme, že náhodné veličiny X a Y jsou nekorelované. Poznámka 3.6. V případě dvourozměrného normálního rozdělení X = (X, Y )′ ∼ N2(µ, Σ) s parametry µ = µ1 µ2 a Σ = σ2 1 ρσ1σ2 ρσ1σ2 σ2 2 a s hustotou f(X,Y )(x, y) = 1 2πσ1σ2 √ 1−ρ2 exp − 1 2(1−ρ2) x−µ1 σ1 2 − 2ρx−µ1 σ1 y−µ2 σ2 + y−µ2 σ2 2 . víme, že R(X, Y ) = ρ (viz příklad 3.3). Jsou–li obě náhodné veličiny nekorelované, tj. ρ = 0, tak ze tvaru hustoty vyplývá, že obě náhodné veličiny jsou i nezávislé, neboť platí f(X,Y )(x, y) = fX(x)fY (y). Toto tvrzení lze snadno zobecnit i na n–rozměrné normální rozdělení X = (X1, . . . , Xn)′ ∼ Nn(µ, Σ) s hustotou fX(x) = (2π)− n 2 |Σ|− 1 2 e− 1 2 (X−µ)′Σ−1 (X−µ) , kdy nekorelovanost a nezávislost jsou ekvivalentní vlastnosti, právě když matice Σ = diag(σ2 1, . . . , σ2 n). Toto tvrzení však neplatí obecně pro jiná rozdělení, jak nám ukáže následující příklad. Příklad 3.7. Mějme dvourozměrný diskrétní náhodný vektor (X, Y )′ ∼ (M, p) , kde M = MX × MY = {0, 1} × {−1, 0, 1} a p(x, y) = 1 3 (x, y) ∈ {(0, 0), (1, −1), (1, 1)}, 0 jinak. Vypočítáme korelační koeficient a marginální pravděpodobnostní funkce. Na základě toho pak určíme, zda případná nekorelovanost implikuje i nezávislost. X/Y −1 0 1 pX(x) 0 0 1 3 0 1 3 1 1 3 0 1 3 2 3 pY (y) 1 3 1 3 1 3 1 EX = x∈MX x pX(x) = 0 · 1 3 + 1 · 2 3 = 2 3 EY = y∈MY y pY (y) = (−1) · 1 3 + 0 · 1 3 + 1 · 1 3 = 0 E(XY ) = (x,y)∈M xy p(x, y) = 0 · 0 · 1 3 + 1 · (−1) · 1 3 + 1 · 1 · 1 3 = −1 3 + 1 3 = 0 Nyní dopočítáme kovarianci C(X, Y ) = E(XY ) − (EX)(EY ) = 0 − 0 = 0 ⇒ X a Y jsou nekorelované. Avšak nejsou nezávislé, neboť například p(0, 0) = 1 3 = pX(0) · pY (0) = 1 3 · 1 3 = 1 9. Pokud bychom si ihned všimli, že platí s pravděpodobností 1 vztah X = Y 2 , lze ihned počítat C(X, Y ) = E(XY ) − (EX) (EY ) =0 = EY 3 = y∈MY y3 pY (y) = (−1)3 · 1 3 + 03 · 1 3 + 13 · 1 3 = 0 takže vidíme, i přes funkční vztah X = Y 2 dostáváme, že X a Y jsou nekorelované. Je třeba si neustále uvědomovat, že • korelace je mírou lineárního vztahu; • nulová korelace neimplikuje nezávislost, ale značí pouze, že mezi náhodnými veličinami neexistuje lineární vztah, což nevylučuje možnost jiného funkčního vztahu. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 81 4. Kvantily a další číselné charakteristiky K popisu rozdělení náhodné veličiny X slouží mnoho číselných charakteristik. Zatím jsme v první kapitole poznali střední hodnotu náhodné veličiny X jako charakteristiku její polohy. Ve druhé kapitole jsem se zabývali rozptylem náhodné veličiny X, který charakterizuje její variabilitu. Ve třetí kapitole byla pak popsána kovariance náhodných veličin X a Y , která charakterizuje jejich vzájemnou závislost. Zabývejme se nyní dalšími charakteristikami polohy. Definujme nejprve kvantilovou funkci a kvantil. Definice 4.1. Nechť F je distribuční funkcí a α ∈ (0, 1). Potom funkce F−1 (α) = Q(α) = inf{x ∈ R : F(x) ≥ α} se nazývá kvantilová funkce a číslo xα = Q(α) se nazývá α-kvantilem rozdělení s distribuční funkcí F(x). Poznámka 4.2. Pokud je distribuční funkce F spojitá a rostoucí, pak kvantilová funkce F−1 je inverzní funkcí k distribuční funkci F. Za těchto předpokladů také platí vztah P(xα/2 < X ≤ x1−α/2) = 1 − α. Mezi často používané kvantily patří x0.25 = Q(0.25) se nazývá dolní kvartil x0.5 = Q(0.5) medián x0.75 = Q(0.75) horní kvartil V souvislosti s kvantily se také často uvádí interkvartilové rozpětí IQR = x0.75 − x0.25 jako charakteristika variability náhodné veličiny X. Nejznámějším kvantilem je medián ˜x = x0.5, který udává polohu poloviny rozdělení. Další charakteristikou míry polohy je modus ˆx. Definice 4.3. (a) Nechť X ∼ (M, p) je diskrétního typu, pak ˆx značí libovolné xj ∈ M, pro které platí P(X = ˆx) ≥ P(X = xi), i = 1, 2, . . . (b) Nechť X ∼ f(x) je absolutně spojitého typu, pak ˆx značí libovolné x ∈ R, pro které platí f(ˆx) ≥ f(x), x ∈ R. Je dobré si uvědomit, že ani medián ani modus obecně nemusí být definovány jednoznačně. Dalšími číselnými charakteristikami náhodné veličiny X jsou míry šikmosti a špičatosti, které charakterizují tvar křivky rozdělení náhodné veličiny. Definice 4.4. Koeficient šikmosti je definován jako γ1 = µ3 (DX)3/2 = E(X − EX)3 (DX)3/2 . Nulová šikmost značí, že hodnoty náhodné veličiny jsou rovnoměrně rozděleny vlevo a vpravo od střední hodnoty. Tj. symetrická rozdělení včetně normálního rozdělení mají šikmost nula. Kladná šikmost poukazuje na častější výskyt odlehlejších hodnot vpravo od střední hodnoty a na větší kumulaci hodnot v levém okolí střední hodnoty. Pro rozdělení s kladnou šikmostí obvykle platí, že jeho modus je menší než medián a ten je menší než střední hodnota. Pro zápornou šikmost je tomu naopak. Situace je znázorněna na Obr. 2. Definice 4.5. Koeficient špičatosti je definován jako γ2 = µ4 (DX)2 = E(X − EX)4 (DX)2 . 82 M3121 Pravděpodobnost a statistika I 0 0.2 0.4 0.6 0.8 1 0 0.5 1 1.5 2 2.5 3 modus median str. hodnota str. hodnota median modus γ 1 >0 γ1 <0 Obrázek 2. Koeficient šikmosti −3 −2 −1 0 1 2 3 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 γ2 =0 X~N(0,1) γ 2 >0 γ2 <0 Obrázek 3. Koeficient špičatosti Kladná špičatost značí, že většina hodnot náhodné veličiny leží blízko její střední hodnoty a hlavní vliv na rozptyl mají málo pravděpodobné odlehlé hodnoty. Křivka rozdělení je špičatější. Záporná špičatost značí, že rozdělení je rovnoměrnější a jeho křivka je plošší. Situace je znázorněna na Obr. 3. KAPITOLA 5 Charakteristická funkce 1. Komplexní náhodná veličina Pravděpodobnostní chování náhodných veličin a náhodných vektorů je plně popsáno jejich rozdělením pravděpodobností PX nebo distribuční funkcí F. Ovšem dokazování celé řady vlastností náhodných veličin či náhodných vektorů pomocí distribuční funkce je těžkopádné a zdlouhavé. Proto pracujeme s jiným analytickým vyjádřením rozdělení než je distribuční funkce, a to s Fourierovou–Stieltjesovou transformací, která se v teorii pravděpodobnosti nazývá charakteristickou funkcí. Při zavedení charakteristické funkce nevystačíme pouze s reálnou náhodnou veličinou, ale budeme pracovat s komplexní náhodnou veličinou. • Komplexní náhodnou veličinou rozumíme veličinu Z = X + iY kde X a Y jsou reálné náhodné veličiny definované na pravděpodobnostním prostoru (Ω, A, P). • Distribuční funkcí komplexní náhodné veličiny Z = X +iY budeme rozumět dvourozměrnou sdruženou distribuční funkci náhodných veličin X a Y , tj. FZ(z) = F(X,Y )(x, y). • Existují-li střední hodnoty EX a EY , definuje se střední hodnota komplexní náhodné veličiny Z = X + iY vztahem EZ = EX + iEY . • Důležitý příklad komplexní náhodné veličiny dostaneme následujícím způsobem: mějme dvě borelovsky měřitelné funkce g : R → R a h : R → R, X je náhodná veličina definovaná na (Ω, A, P) a F je její distribuční funkce. Položme Z = g(X) + ih(X). Pak Z je komplexní náhodná veličina a pro její střední hodnotu platí EZ = E[g(X) + ih(X)] = ∞ −∞ g(x)dF(x) + i ∞ −∞ h(x)dF(x), pokud integrály existují a jsou konečné. • Náhodné veličiny Z1 = X1 + iY1, . . . , Zn = Xn + iYn jsou nezávislé def ⇔ (X1, Y1)′, . . . , (Xn, Yn)′ jsou nezávislé. Věta 1.1. Nechť Z1, . . . , Zn jsou nezávislé komplexní náhodné veličiny a existují EZ1, . . . , EZn. Pak platí E n i=1 Zi = n i=1 EZi . Důkaz. Předpokládejme nejprve, že n = 2. Fakt, že náhodné veličiny Z1 a Z2 jsou nezávislé budeme značit Z1 ⊥ Z2. Počítejme EZ1Z2 = E(X1 + iY1)(X2 + iY2) = E [X1X2 + iX1Y2 + iY1X2 − iY1Y2] = EX1X2 + iEX1Y2 + iEY1X2 − iEY1Y2 Protože Z1 ⊥ Z2 def ⇔ (X1, Y1)′ ⊥ (X2, Y2)′ ⇒ X1 ⊥ X2, X1 ⊥ Y2, Y1 ⊥ X2, Y1 ⊥ Y2 takže můžeme pokračovat EZ1Z2 = EX1X2 + iEX1Y2 + iEY1X2 − EY1Y2 = EX1EX2 + iEX1EY2 + iEY1EX2 − EY1EY2 = E(X1 + iY1) E(X2 + iY2) = EZ1 EZ2 a zbytek se dokáže úplnou matematickou indukcí. 83 84 M3121 Pravděpodobnost a statistika I 2. Definice a vlastnosti charakteristická funkce Definice 2.1. Nechť X je náhodná veličina definovaná na (Ω, A, P). Pak funkce ψ : R → C daná vztahem ψ(t) = EeitX , t ∈ R, se nazývá charakteristickou funkcí náhodné veličiny X. Poznámka 2.2. Uvedenou definicí je charakteristická funkce zavedená pouze pro reálné náhodné veličiny. Charakteristickou funkci pro komplexní náhodné veličiny zavádět nebudeme. Poznámka 2.3. Je zřejmé, že pro ∀ t ∈ R a pro každou náhodnou veličinu X existuje konečná střední hodnota EeitX, neboť můžeme psát eitX = cos (tX) + i sin (tX) a | cos (tX) | ≤ 1, | sin (tX) | ≤ 1 s pravděpodobností 1. Poznámka 2.4. Označíme–li distribuční funkci náhodné veličiny X symbolem F, pak přímo z definice ψ(t) = EeitX = R eitxdF(x) vidíme, že charakteristická funkce závisí pouze na distribuční funkci. Proto lze také mluvit o charakteristické funkci distribuční funkce. Poznámka 2.5. Výpočet charakteristické funkce. Diskrétní případ X ∼ (M, p) : ψ(t) = R eitxdF(x) = R cos(tx) dF(x) + i R sin(tx) dF(x) = x∈M cos(tx) p(x) + i x∈M sin(tx) p(x) = x∈M eitx p(x) Spojitý případ X ∼ f(x) : ψ(t) = R eitxdF(x) = R cos tx dF(x) + i R sin tx dF(x) = R cos(tx) f(x) dx + i R sin(tx) f(x) dx = R eitxf(x) dx Příklad 2.6. Nechť náhodná veličina X má alternativní rozdělení X ∼ A(θ) s parametrem θ∈ (0, 1), což je pravděpodobnost zdaru či úspěchu. Pak pravděpodobnostní funkce je tvaru p(x) =    θ x = 1 1 − θ x = 0 0 jinak = θx(1 − θ)1−x x = 0, 1 0 jinak a definiční obor M = {0, 1}. Počítejme její charakteristickou funkci ψ(t) = EeitX = x∈M eitx p(x) = x=0,1 eitxθx(1 − θ)1−x = (1 − θ) + eitθ = 1 − θ(1 − eit). Charakteristická funkce alternativního rozdělení má tedy tvar ψ(t) = 1 − θ(1 − eit ) pro t ∈ R . Příklad 2.7. Nechť náhodná veličina X má rovnoměrné rozdělení na intervalu (−a, a), a = 0. Značíme X ∼ Ro(−a, a) . Pak hustota má tvar f(x) = 1 2a x ∈ (−a, a), a=0, 0 jinak. a −a c dx = 1 ⇒ c = 1 2a ✲ ✻ −a a f(x) Nejprve vyjádříme charakteristickou funkci pro t = 0 ψ(0) = EeiX·0 = R f(x) dx = 1 Pro t = 0 je pak charakteristická funkce rovna ψ(t) = EeitX = R eitxf(x) dx = a −a 1 2a eitxdx = 1 2a eitx it a −a = 1 at eita−e−ita 2i = sin(at) at Shrneme–li předchozí dva výsledky, dostaneme konečný tvar charakteristické funkce ψ(t) = sin(at) at pro t = 0, 1 pro t = 0. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 85 Věta 2.8. Vlastnosti charakteristické funkce. Nechť ψ(t) je charakteristická funkce nějaké náhodné veličiny. Pak (1) |ψ(t)| ≤ 1 (2) ψ(0) = 1 (3) ψ(t) = ψ(−t) pro ∀ t ∈ R (4) ψ je rovnoměrně spojitá na R. Důkaz. Nechť ψ(t) je charakteristická funkce náhodné veličiny X definované na (Ω, A, P) s distribuční funkcí F(x) = P(X ≤ x) pro x ∈ R. (1) |ψ(t)| = EeitX = R eitxdF(x) ≤ R eitx =1 dF(x) = R dF(x) = PX(R) = P(X ∈ R) =1. (2) ψ(0) = EeiX·0 = E(1) =1. (3) ψ(−t) = Ee−itX = E [cos (−tX) + i sin (−tX)] = E [cos (tX) − i sin (tX)] = E [cos (tX) + i sin (tX)] = EeitX = ψ(t). (4) Důkaz posledního tvrzení nebudeme provádět, lze ho najít například v knize Rényi, A., Teorie pravděpodobnosti, ACADEMIA, Praha 1972. Věta 2.9. Nechť X je náhodná veličina, ψX(t) její charakteristická funkce, a, b ∈ R. Pak charakteristická funkce transformované náhodné veličiny Y = a + bX je rovna ψY (t) = eitaψX(tb) . Důkaz. ψY (t) = EeitY = Eeit(a+bX) = E eitaeitbX = eitaEeitbX =eitaψX(tb). Příklad 2.10. Charakteristická funkce normálního rozdělení. Právě dokázané tvrzení využijeme pro výpočet charakteristické funkce normálního rozdělení. Označme U ∼ N(0 , 1) s hustotou ϕ(u) = 1√ 2π e− 1 2 u2 u ∈ R X ∼ N(µ, σ2) f(x) = 1√ 2πσ e− 1 2 (x−µ σ ) 2 x ∈ R, ; µ ∈ R, σ > 0 Vzájemný vztah mezi oběma náhodnými veličinami lze vyjádřit takto (viz věta 13.1) X = µ + σU a U = X−µ σ (tzv. standardizace) Protože je mnohem snazší vypočítat charakteristickou funkci standardizovaného normálního rozdělení, začneme s náhodnou veličinu U. ψU (t) = EeitU = ∞ −∞ eituϕ(u)du = ∞ −∞ eitu 1√ 2π e− 1 2 u2 = 1√ 2π ∞ −∞ e− 1 2 (u2−2itu) du Upravujme u2 − 2itu = [u2 − 2u(it) + (it)2] − (it)2 = (u − it)2 + t2, pak ψU (t) = e− 1 2 t2 1√ 2π ∞ −∞ e− 1 2 (u−it)2 du = subst. y =u − it dy=du = e− 1 2 t2 1 √ 2π ∞ −∞ e− 1 2 y2 dy =1 (hustota N(0,1)) = e− 1 2 t2 Nyní, když známe charakteristickou funkci standardizované náhodné veličiny U ∼ N(0, 1), můžeme pomocí věty 2.9 (když položíme a = µ a b = σ) spočítat také charakteristickou funkci náhodné veličiny X = µ + σU ψX(t) = ψµ+σU (t) = eitµψU (tσ) = eitµe− 1 2 σ2t2 Shrneme–li předchozí, dostaneme náhodná veličina U ∼ N(0, 1) má charakteristickou funkci ψU (t) = e− 1 2 t2 = √ 2πϕ(t) X ∼ N(µ, σ2) ψX(t) = eitµe− 1 2 σ2t2 86 M3121 Pravděpodobnost a statistika I Věta 2.11. Nechť X1 a X2 jsou nezávislé náhodné veličiny s charakteristickými funkcemi ψX1 (t) a ψX2 (t). Pak ψX1+X2 (t) = ψX1 (t) ψX2 (t) . Důkaz. ψX1+X2 (t) = Eeit(X1+X2) = E(eitX1 · eitX2 ) nez. = EeitX1 EeitX2 =ψX1 (t) ψX2 (t). Poznámka 2.12. Z předchozí věty právě vycházejí nejdůležitější aplikace charakteristické funkce v teorii pravděpodobnosti, neboť velmi často potřebujeme znát rozdělení součtu několika nezávislých náhodných veličin. V mnoha případech je výpočet těchto konvolucí pomocí distribuční funkce, popř. hustoty nebo pravděpodobnostní funkce velmi obtížné. Naproti tomu charakteristickou funkci součtu nezávislých náhodných veličin lze stanovit velmi snadno, a to jako součin jednotlivých charakteristických funkcí. Příklad 2.13. Charakteristická funkce binomického rozdělení Uvažujme konečnou bernoulliovskou posloupnost délky n (tj. konečnou posloupnost nezávislých alternativních pokusů typu zdar/nezdar) s pravděpodobností zdaru θ ∈ (0, 1). Nechť Y je náhodná veličina udávající počet zdarů v n pokusech. Chceme–li odvodit charakteristickou funkci binomického rozdělení, využijeme faktu, že náhodnou veličinu Y s binomickým rozdělením lze vyjádřit jako součet n nezávislých alternativních náhodných veličin, tj. Y = n i=1 Xi ∼ Bi(n, θ), kde Xi ∼ A(θ), θ ∈ (0, 1). V příkladu 2.6 jsme spočítali charakteristickou funkci alternativního rozdělení ψXi (t) = 1 − θ(1 − eit) Využijeme–li předchozí větu, dostaneme charakteristickou funkci binomického rozdělení ψY (t) = n i=1 ψXi (t) = 1 − θ(1 − eit) n . Shrneme–li předchozí, můžeme říci, že náhodná veličina X ∼ A(θ) má charakteristickou funkci ψX(t) = 1 − θ(1 − eit) Y ∼ Bi(n, θ) ψY (t) = 1 − θ(1 − eit) n Věta 2.14. Za předpokladu, že existují příslušné momenty náhodné veličiny X, tak existují i příslušné derivace charakteristické funkce a platí (1) ψ(k)(0) = ikEXk (2) ψ(t) = n k=0 (it)k k! EXk + o(tn), kde o(tn) je taková funkce, že lim t→0 o(tn) tn = 0. Důkaz. Nechť existují momenty až do řádu n. (1) Nejprve předpokládejme, že n = 1. Z existence EX plyne, že ∞ −∞ |x| dF(x) < ∞ a ∞ −∞ xeitx dF(x) je stejnoměrně konvergentní vzhledem k t, takže lze provést záměnu derivace a integrálu a můžeme počítat ψ′(t)= d dt R eitxdF(x) = R ix eitxdF(x) Po dosazení t = 0 dostaneme ψ′(0)= R ix dF(x) = i EX. Zbytek dokážeme matematickou indukcí. (2) Rozvineme–li ψ(t) pomocí Taylorova vzorce a užijeme Peanův tvar zbytku, dostaneme ψ′(t)= n k=0 tk k! ψ(k)(0) + o(tn) = n k=0 (it)k k! EXk + o(tn) RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 87 Příklad 2.15. Poissonovo rozdělení - výpočet střední hodnoty a rozptylu pomocí charakteristické funkce. Mějme náhodnou veličinu X ∼ Po(λ) s pravděpodobnostní funkcí p(x) = e−λ λx x! x = 0, 1, 2, . . . , λ > 0 0 jinak . Pak ψ(t) = EeitX = ∞ x=0 eitxe−λ λx x! = e−λ ∞ x=0 (λeit)x x! =eλeit = eλ(eit−1) ψ′(t) = eλ(eit−1)λeiti = iλeλ(eit−1)+it ψ′(0) = iEX = iλ ⇒ EX = λ ψ′′(t) = iλeλ(eit−1)+it(λeiti + i) = i2λeλ(eit−1)+it(λeit + 1) ψ′′(0) = i2EX2 = i2λ(λ + 1) ⇒ DX = EX2 − (EX)2 = λ2 + λ − λ2 = λ Shrneme–li předchozí výsledky, dostaneme X ∼ Po(λ) má tyto vlastnosti: ψ(t) = eλ(eit−1) EX = λ DX = λ Následující tři věty ukazují, že rozdělení pravděpodobností lze jednoznačně popsat její charakteristickou funkcí. Důkazy lze najít v knize Rényi, A., Teorie pravděpodobnosti, ACADEMIA, Praha 1972. Věta 2.16. Inverzní vzorec. Nechť ψ(t) je charakteristická funkce náhodné veličiny X s distribuční funkcí F, a, b ∈ R, a < b jsou body spojitosti distribuční funkce F. Pak platí F(b) − F(a) = 1 2π ∞ −∞ ψ(t) e−ita − e−itb 2it − ψ(−t) eita − eitb 2it dt nebo ekvivalentně F(b) − F(a) = lim T→∞ 1 2π T −T ψ(t) e−ita − e−itb 2it dt a každá distribuční funkce je svou charakteristickou funkcí určena jednoznačně. Poznámka 2.17. Je třeba upozornit, že nelze psát F(b) − F(a) = 1 2π ∞ −∞ ψ(t) e−ita − e−itb 2it dt neboť tento nevlastní integrál nemusí existovat, avšak existuje–li, rovná se hodnotě F(b) − F(a). Věta 2.18. Nechť náhodná veličina X má je charakteristickou funkci ψ(t), pro kterou platí ∞ −∞ |ψ(t)|dt < ∞. Potom náhodná veličina X je (absolutně) spojitá a má spojitou hustotu f(x) = 1 2π ∞ −∞ e−itx ψ(t)dt. 88 M3121 Pravděpodobnost a statistika I Věta 2.19. Nechť ψ(t), resp. {ψn(t)}∞ n=1 jsou charakteristické funkce náhodných veličin X, resp. {Xn}∞ n=1 a F, resp. {Fn(x)}∞ n=1 jsou odpovídající distribuční funkce. Nechť pro každé t ∈ R platí ψ(t) = lim n→∞ ψn(t). Pak v každém bodě spojitosti platí F(x) = lim n→∞ Fn(x). Definice 2.20. Charakteristická funkce náhodného vektoru. Nechť X = (X1, . . . , Xn)′ je n–rozměrný náhodný vektor. Funkci ψ : Rn → C definovanou předpisem ψ(t) = ψ(t1, . . . , tn) = Eeit′X = Ee i n j=1 tjXj pro t = (t1, . . . , tn)′ ∈ Rn budeme nazývat charakteristickou funkcí náhodného vektoru X. Analogickým způsobem jako v jednorozměrném případě lze odvodit následující vlastnosti charakteristické funkce náhodného vektoru. Věta 2.21. Nechť ψ(t) je charakteristická funkce náhodného vektoru X = (X1, . . . , Xn)′. Pak platí (1) |ψ(t)| ≤ ψ(0, . . . , 0) = 1 pro ∀t ∈ Rn. (2) ψ(−t1, . . . , −tn) = ψ(t1, . . . , tn) pro ∀t ∈ Rn. (3) ψ je stejnoměrně spojitá. (4) Je–li vektor b ∈ Rm a matice A ∈ Rm×n je typu m × n, pak ψb+AX(t) = eit′bψ(A′t). (5) Pokud existují příslušné střední hodnoty, pak ∂ψ(t) ∂tj t=(0,...,0)′ = iEXj. (6) Existují–li střední hodnoty E(XjXk), pak ∂2ψ(t) ∂tj∂tk t=(0,...,0)′ = −iE(XjXk). (7) Je–li ψj charakteristická funkce náhodné veličiny Xj, pak ψj(t) = ψ(0, . . . , 0, t j−tá pozice , 0, . . . , 0). (8) Nechť Y = n j=1 Xj má charakteristickou funkci ψY . Jsou-li X1, . . . , Xn nezávislé náhodné veličiny, pak ψY (t1, . . . , tn) = n j=1 ψj(tj), kde ψj je charakteristická funkce náhodné veličiny Xj. KAPITOLA 6 Konvergence náhodných veličin a centrální limitní věta 1. Konvergence podle pravděpodobnosti a slabý zákon velkých čísel Poznámka 1.1. V matematické statistice se často pracuje s aritmetickými průměry, které se počítají z pozorování náhodných veličin X1, . . . , Xn, takže jde vlastně o lineární kombinaci původních náhodných veličin ¯Xn = 1 n n i=1 Xi. V dalším nás budou zajímat vlastnosti této transformované náhodné veličiny při n → ∞. Definice 1.2. Konvergence podle pravděpodobnosti. Řekneme, že posloupnost náhodných veličin {Xn}∞ n=1konverguje podle pravděpodobnosti k číslu θ ∈ R, jestliže pro libovolné ε > 0 platí lim n→∞ P(|Xn − θ| > ε) = 0 a píšeme Xn P −−−→ n→∞ θ. Poznámka 1.3. V teorii míry se uvedené konvergenci říká slabá konvergence nebo též konvergence podle míry, a to pravděpodobnostní míry P. Pokud Xn −X P −−−→ n→∞ 0, řekneme, že posloupnost náhodných veličin konverguje podle pravděpodobnosti k náhodné veličině X. Definice 1.4. Slabý zákon velkých čísel. Řekneme, že posloupnost náhodných veličin {Xn}∞ n=1splňuje slabý zákon velkých čísel, jestliže posloupnost náhodných veličin Yn = 1 n n i=1 (Xi − EXi) P −−−→ n→∞ 0. Věta 1.5. Čebyševova věta. Nechť {Xn}∞ n=1je posloupnost po dvou nezávislých náhodných veličin, které mají konečné druhé momenty a platí lim n→∞ 1 n2 n i=1 DXi = 0. Pak posloupnost {Xn}∞ n=1 splňuje slabý zákon velkých čísel. Důkaz. Položme Yn = 1 n n i=1 (Xi − EXi). Podle Čebyševovy nerovnosti pro libovolné ε > 0 platí P(|Yn − EYn| > ε) ≤ DYn ε2 . Proto počítejme EYn = E 1 n n i=1 (Xi − EXi) = 1 n n i=1 E(Xi − EXi) =0 = 0 DYn = D 1 n n i=1 (Xi − EXi) = 1 n2 D n i=1 (Xi − EXi) nez. = 1 n2 n i=1 D(Xi − EXi) = 1 n2 n i=1 DXi a dosadíme–li do Čebyševovy nerovnosti, dostaneme P 1 n n i=1 (Xi − EXi) − 0 > ε ≤ DYn ε2 = 1 ε2 1 n2 n i=1 DXi podle předp. −−−−−−−→ n→∞ 0, takže {Xn}∞ n=1 splňuje slabý zákon velkých čísel. 89 90 M3121 Pravděpodobnost a statistika I Důsledek 1.6. Nechť {Xn}∞ n=1je posloupnost po dvou nezávislých náhodných veličin. Jestliže pro ∀ n platí DXn ≤ c, kde c ∈ R, c > 0, pak {Xn}∞ n=1 splňuje slabý zákon velkých čísel. Důkaz. Protože platí 0 ≤ 1 n2 n i=1 DXi ≤c ≤ 1 n2 nc = c n −−−→ n→∞ 0, jsou splněny předpoklady předchozí věty a {Xn}∞ n=1 splňuje slabý zákon velkých čísel. Důsledek 1.7. Bernoulliova věta. Nechť náhodná veličina Yn je rovna počtu úspěchů v posloupnosti nezávislých alternativních pokusů délky n, ve které je pravděpodobnost úspěchu rovna číslu θ ∈ (0, 1). Potom posloupnost Zn = 1 n Yn relativních četností úspěchů konverguje podle pravděpodobnosti k θ, tj. Zn = 1 nYn P −−−→ n→∞ θ. Důkaz. Označme náhodnou veličinu Xi = 0 úspěch 1 neúspěch s pravděpodobností úspěchu θ. Dostáváme posloupnost nezávislých alternativních náhodných veličin {Xi ∼ A(θ)}∞ i=1, ve které platí EXi = θ a DXi = θ(1 − θ) ≤ 1 4, tedy podle předchozího důsledku posloupnost {Xn}∞ n=1 splňuje slabý zákon velkých čísel, což značí, že 1 n n i=1 (Xi − EXi) P −−−→ n→∞ 0 ⇔ =Zn 1 n n i=1 Xi =Yn −θ P −−−→ n→∞ 0 ⇔ Zn P −−−→ n→∞ θ. Důsledek 1.8. Nechť {Xn}∞ n=1 je posloupnost nezávislých náhodných veličin, které mají všechny stejné rozdělení pravděpodobností se střední hodnotou µ a rozptylem σ2. Potom {Xn}∞ n=1 splňuje slabý zákon velkých čísel a posloupnost průměrů konverguje podle pravděpodobnosti k µ, tj. 1 n n i=1 Xi P −−−→ n→∞ µ. Důkaz. Je zřejmý, neboť DXn ≤ c = σ2. Věta 1.9. Markovova věta. Nechť posloupnost náhodných veličin {Xn}∞ n=1 splňuje podmínku lim n→∞ 1 n2 D n i=1 Xi = 0. Pak {Xn}∞ n=1splňuje slabý zákon velkých čísel. Důkaz. Protože postup důkazu je analogický důkazu věty 1.5, nebudeme jej zde uvádět. Věta 1.10. Chinčinova věta. Nechť {Xn}∞ n=1 je posloupnost nezávislých náhodných veličin, které mají stejné rozdělení pravděpodobností s konečnou střední hodnotou EXi = µ. Potom {Xn}∞ n=1splňuje slabý zákon velkých čísel, tj. posloupnost průměrů 1 n n i=1 Xi = Yn P −−−→ n→∞ µ . Důkaz. Nebudeme provádět, lze ho najít například v knize Rényi, A., Teorie pravděpodobnosti, ACADEMIA, Praha 1972, str. 322. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 91 2. Konvergence skoro jistě a silný zákon velkých čísel Definice 2.1. Konvergence skoro jistě. Řekneme, že posloupnost náhodných veličin {Xn}∞ n=1 konverguje skoro jistě k náhodné veličině X (vzhledem k pravděpdobnosti), jestliže P lim n→∞ Xn = X = 1 a píšeme Xn s.v. −−−→ n→∞ X. Poznámka 2.2. Konvergenci skoro jistě se v teorii míry říká silná konvergence nebo také konvergence skoro všude vzhledem k míře P. Definice 2.3. Silný zákon velkých čísel. Řekneme, že posloupnost náhodných veličin {Xn}∞ n=1 splňuje silný zákon velkých čísel, jestliže posloupnost náhodných veličin Yn = 1 n n i=1 (Xi − EXi) konverguje skoro jistě k nule, tj. P lim n→∞ 1 n n i=1 (Xi − EXi) = 0 = 1. Poznámka 2.4. K tomu, aby posloupnost náhodných veličin {Xn}∞ n=1 splňovala silný zákon velkých čísel stačí splnění podmínek Chinčinovy větu. Toto tvrzení se nazývá II. Kolmogorova věta a její důkaz lze najít například v knize Dupač, V., Hušková, M. Pravděpodobnost a matematická statistika. Karolinum. Praha 1999. 3. Konvergence posloupnosti distribučních funkcí Označme {Fn}∞ n=1 posloupnost distribučních funkcí náhodných veličin {Xn}∞ n=1. Definujme další typ konvergence náhodných veličin. Definice 3.1. Řekneme, že posloupnost náhodných veličin {Xn}∞ n=1 konverguje v distribuci (nebo podle zákona rozdělení) k náhodné veličině X s distribuční funkcí F, jestliže platí lim n→∞ Fn(x) = F(x) ve všech bodech spojitosti F(x). Tuto skutečnost značíme Xn L −−−→ n→∞ X. Distribuční funkce F se nazývá limitní nebo asymptotická distribuční funkce. 4. Centrální limitní věty Mějme posloupnost náhodných veličin {Xn}∞ n=1, které jsou − definované na (Ω, A, P), − nezávislé, − EXi = µi, − DXi = σ2 i . Řekneme, že náhodná veličina Ci=Xi − µi je centrovaná ⇒ ECi = 0 a DCi = σ2 i Ui= Ci σi =Xi−µi σi je standardizovaná ⇒ EUi = 0 a DUi = 1 Označme náhodnou veličinu Xn = 1 n n i=1 Xi ⇒ EXn= 1 n n i=1 EXi = 1 n (µ1 + · · · + µn) DXn nez. = 1 n2 n i=1 DXi = 1 n2 (σ2 1 + · · · + σ2 n) Standardizujme průměr Xn: UXn = Xn−EXn√ DXn = 1 n n i=1 Xi− 1 n n i=1 µi σ2 1+···+σ2 n n2 = n i=1 (Xi−µi) √ σ2 1+···+σ2 n Pokud EXi = µ a DXi = σ2 UXn = n i=1 (Xi−µi) √ nσ2 = n i=1 (Xi−µi) σ √ n . 92 M3121 Pravděpodobnost a statistika I Nyní vyslovíme několik modifikací centrálních limitních vět (CLV). Jejich význam spočívá v tom, že za velmi všeobecných podmínek ukazují, že standardizované průměry UXn z nezávislých náhodných veličin konvergují k normálnímu roz- dělení. Věta 4.1. Lindebergova–Lévyho CLV. Nechť {Xn}∞ n=1 je posloupnost nezávislých náhodných veličin se stejným rozdělením se střední hodnotou µ a nenulovým rozptylem σ2. Potom náhodné veličiny UXn = n i=1 (Xi−µi) σ √ n mají asymptoticky standardizované normální rozdělení N(0, 1), což budeme značit UXn A ∼ N(0, 1). Důkaz. Označme pro k = 1, 2, . . . Ck = Xk − µ a ψCk (t) = EeitCk . V tomto případě platí ECk = 0 a DCk = EC2 k = σ2. Rozviňme charakteristickou funkci ψCk (t) pomocí Taylorova rozvoje ψCk (t) = n j=0 (it)jECj k j! + Rn(t), kde Rn(t) = o(tn), tj. lim t→0 Rn(t) tn = 0. Protože máme zaručenu existenci prvních dvou momentů, pak pro n = 2 ψCk (t) = 1 + itECk 1! + (it)2EC2 k 2! + R2(t) = 1 − σ2t2 2 + R2(t), kde lim t→0 R2(t) t2 = 0. Položme Zk = Ck σ √ n = Xk−µ σ √ n . Protože ψa+bX(t) = eitaψX(tb), pak položíme–li a = 0 a b = 1 σ √ n , můžeme psát: ψZk (t) = ψCk t σ √ n = 1 − σ2t2 2σ2n + R2 t σ √ n = 1 − t2 2n + R2 t σ √ n a přitom lim t→0 R2 t σ √ n t2 σ2n = 0 ⇔ pro pevné t ∈ R σ2 t2 lim n→∞ nR2 t σ √ n = 0. Nakonec položme UXn = Z1 + · · · + Zn = C1 σ √ n + · · · + Cn σ √ n . Protože jde o součet nezávislých náhodných veličin, pak pro jejich charakteristické funkce platí ψUXn (t) = ψZ1+···+Zn (t) nez. = n k=1 ψZk (t) = n k=1 ψCk t σ √ n = ψCk t σ √ n n = 1 − t2 2n + R2 t σ √ n n Počítejme limitu lim n→∞ ψUXn (t) = lim n→∞ 1 − t2 2n + R2 t σ √ n n = lim n→∞  1 − t2 2 +nR2 t σ √ n n   n = lim n→∞ 1 − t2 2 n n = e− t2 2 což je charakteristická funkce N(0, 1) a platí tvrzení věty. RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 93 Příklad 4.2. Zaměstnanec pravidelně cestuje do zaměstnání i ze zaměstnání tramvají, která jezdí každých pět minut. Jeho příchod na zastávku vzhledem k odjezdu tramvaje je zcela náhodný. S jakou pravděpodobností pročeká na cestě tam i zpět během 20 pracovních dnů méně než 120 minut? Řešení: Označme Xi . . . doba čekání na i-té cestě (i=1,. . . ,40) B . . . náhodný jev, že během 20 pracovních dnů, tj. během 40 cest pročeká zaměstnanec méně než 120 minut Naším úkolem bude spočítat přibližnou pravděpodobnost P(X1 + · · · + X40 ∈ B) = P(nXn ≤ 120), kde n = 40. s využitím Lindebergovy–Lévyho CLV věty, která tvrdí, že při velkém počtu nezávislých pokusů konverguje standardizovaný průměr k rozdělení normálnímu. Náhodná veličina Xi ∼ Ro (0, 5) s hustotou f(x) = 1 5 x ∈ 0, 5 , 0 jinak. Nejprve spočítejme střední hodnotu a rozptyl: EXi = 5 0 1 5 xdx = 1 5 x2 2 5 0 = 25 10 = 5 2 = 2.5 EX2 i = 5 0 1 5 x2dx = 1 5 x3 3 5 0 = 125 15 = 25 3 DXi = EX2 − (EX)2 = 25 3 − 25 4 = 25 12 Nyní můžeme již po několika úpravách vypočítat žádanou pravděpodobnost: P(X1 + · · · + X40 ∈ B) = P(40Xn ≤ 120) = P(Xn ≤ 3) = P Xn−EXn√ DXn ≤ 3−EXn√ DXn = P UXn ≤ 1 2 5 96 = P(UXn ≤ 2.1909) ≈ Φ(2.1909) = 0.9858 . Tedy náhodný jev, že během 20 pracovních dnů, tj. během 40 cest, pročeká méně než 120 minut nastane přibližně s pravděpodobností 0.9858. Další verze centrální limitní věty, tzv. věta Ljapunovova, je nejobecnějším vyjádřením této věty pro součet nezávislých náhodných veličin a říká, že rozdělení součtu vzájemně nezávislých veličin konverguje k normálnímu rozdělení i v případě, že veličiny nemají stejné rozdělení pravděpodob- nosti. Věta 4.3. Ljapunovova CLV. Mějme posloupnost nezávislých náhodných veličin {Xn}∞ n=1, pro které existují pro i = 1, 2, . . . následující momenty EXi = µi DXi = E(Xi − µi)2 = σ2 i > 0 . H3 i = E|Xi − µi|3 Položme Sn = σ2 1 + · · · + σ2 n Kn = 3 H3 1 + · · · + H3 n . Potom Ljapunovova podmínka lim n→∞ Kn Sn = 0 je postačující k tomu, aby UXn A ∼ N(0, 1). Důkaz. Nebudeme provádět, lze ho najít například v knize Rényi, A., Teorie pravděpodobnosti, ACADEMIA, Praha 1972. 94 M3121 Pravděpodobnost a statistika I Věta 4.4. Integrální věta Moivre–Laplaceova. Nechť náhodná veličina Yn udává počet úspěchů v posloupnosti délky n nezávislých alternativních pokusů s pravděpodobností úspěchu θ. Pak náhodné veličiny Yn−nθ√ nθ(1−θ) A ∼ N(0, 1). Důkaz. Označme Xn ∼ A(θ). Pak posloupnost náhodných veličin {Xn}∞ n=1s konečnou střední hodnotou EXn = θ a konečným rozptylem DXn = θ(1 − θ) splňuje Lindebergovu–Lévyho CLV, takže UXn A ∼ N(0, 1). Protože binomická náhodná veličina je součtem nezávislých alternativních náhodných veličin Yn = n k=1 Xk = nXn ∼ Bi(n, θ) se střední hodnotou EXn = nθ a rozptylem DXn = nθ(1 − θ), nejprve vyjádřeme EXn = E 1 n n i=1 Xi = 1 n n i=1 EXi = 1 n nθ = θ DXn = D 1 n n i=1 Xi nez. = 1 n2 n i=1 DXi = 1 n2 nθ(1 − θ) = θ(1−θ) n a pak upravujme UXn = Xn−EXn√ DXn = nXn−nEXn√ n2DXn = Yn−nθ n2 θ(1−θ) n = Yn−nθ√ nθ(1−θ) A ∼ N(0, 1). Tím je věta dokázána. Příklad 4.5. Nalezněte přibližnou hodnotu pravděpodobnosti toho, že počet šestek, které padnou ve 12 000 hodech homogenní hrací kostkou, bude mezi 1 900 a 2 100. Řešení: Označme Yn . . . počet šestek, které padnou v n = 12 000 hodech B . . . náhodný jev, že ve 12 000 hodech homogenní hrací kostkou bude počet padnutých šestek mezi 1 900 a 2 100 Náhodná veličina Yn ∼ Bi n, 1 6 , přičemž n = 12 000. Naším úkolem bude spočítat přibližnou pravděpodobnost P(Yn ∈ B) = P(1 900 < Yn ≤ 2 100) s využitím Moivreovy-Laplaceovy (čti: moávr laplasovy) věty, která tvrdí, že při velkém počtu nezávislých pokusů konverguje binomické rozdělení k rozdělení normálnímu. Nejprve spočítejme střední hodnotu a rozptyl: EYn = nθ = 12 0001 6 = 2 000 DYn = nθ(1 − θ) = 12 0001 6 5 6 = 2 0005 6 = 10 000 6 . Nyní můžeme již upravovat: ✲ ✻ 0Φ(−u) Φ(u)=1−Φ(−u) Distribuční funkce standardizovaného normálního rozdělení P(1 900 < Yn ≤ 2 150) = P(1 900−EYn