Pravděpodobnost a statistika II
Marie Forbelská
Jan Koláček
β
α
µ0
µ1
p
0
(x) p
1
(x)
W0
Obsah
Úvod I
1. Anotace I
2. Literatura I
Kapitola 1. Úvod do matematické statistiky 1
1. Náhodný výběr a výběrové charakteristiky 1
Kapitola 2. Odhady parametrů 5
1. Nestrannost, vychýlení, konzistence odhadů 5
2. Postačující statistiky 14
3. Podmíněné střední hodnoty 16
4. Regulární systém hustot a dolní mez rozptylu regulárních odhadů 28
Kapitola 3. Konstrukce bodových odhadů 39
1. Metoda momentů 39
2. Metoda maximální věrohodnosti 41
3. Metoda minimálního χ2
44
Kapitola 4. Intervalové odhady 47
1. Deﬁnice intervalového odhadu 47
2. Kvantily 48
3. Konstrukce intervalových odhadů 51
4. Bodové a intervalové odhady parametrů normálního rozdělení 52
5. Bodové a intervalové odhady založené na centrální limitní větě 63
Kapitola 5. Testování statistických hypotéz 65
1. Úvod 65
2. Jednoduchá hypotéza a jednoduchá alternativa 66
3. Jednoduchá hypotéza a složená alternativa 70
4. Testy podílem věrohodností a testy založené na intervalových odhadech 72
5. Testy o parametrech normálního rozdělení, testy založené na centrální limitní větě 75
6. Vztah mezi pravděpodobností chyby prvního, druhého druhu a počtem pozorování 76
Kapitola 6. Regresní analýza 83
1. Pojem regrese 83
2. Deﬁnice modelu 83
3. Odhady neznámých parametrů pomocí metody nejmenších čtverců 84
4. Intervalové odhady a testy hypotéz v regresním modelu 92
5. Některé speciální případy regresních modelů 94
3
Úvod
1. Anotace
Tento text je určen zejména pro studenty předmětu „M4122 Pravděpodobnost a statistika
II . Jde o pokračování základního kurzu pravděpodobnosti a matematické statistiky
(M3121), který je výchozím pro další teoretické i aplikačně zaměřené stochastické předměty.
Kurz popisuje náhodný výběr a základní výběrové charakteristiky, dále obsahuje stručný
přehled z teorie odhadu. Zabývá se vlastnostmi bodových odhadů, zejména nestranností a
konzistencí, zmínka je též o postačujících statistikách a regulárních odhadech a také jsou
popsány některé metody bodových odhadů. Dále jsou studovány intervalové odhady parametrů,
zejména normálního rozdělení a také odhady založené na centrální limitní větě. V
návaznosti na tuto problematiku kurz pokračuje testováním hypotéz. Závěr kurzu je věnován
regresní analýze. Většina tvrzení je přímo dokázána, některé složitější pasáže se odkazují na
literaturu. Zkoumaná problematika je demonstrována na příkladech se snahou o lepší srozumitelnost
textu. Pro více příkladů odkazujeme studenty na cvičení k tomuto kurzu.
2. Literatura
ANDĚL, J. Matematická statistika. SNTL, Praha 1985.
DUPAČ, V., HUŠKOVÁ, M. Pravděpodobnost a matematická statistika. Karolinum. Praha
1999.
MICHÁLEK, J. Úvod do teorie pravděpodobnosti a matematické statistiky. Státní pedagogické
nakladatelství. Praha 1984.
RAO, R. C. Lineární metody statistické indukce a jejich aplikace. Academia Praha, 1978.
ZVÁRA, K., ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress. Praha
2001.
I
KAPITOLA 1
Úvod do matematické statistiky
1. Náhodný výběr a výběrové charakteristiky
V teorii pravděpodobnosti se předpokládá, že
• je známý pravděpodobnostní prostor (Ω, A, P)
• a že také známe rozdělení pravděpodobnosti náhodných veličin (resp. náhodných
vektorů), které na tomto pravděpodobnostním prostoru uvažujeme.
V matematické statistice však
• máme k dispozici výsledky n nezávislých pozorování hodnot sledované náhodné
veličiny X, které se ve statistice říká statistický znak, tj. máme
x1 = X(ω1), . . . , xn = X(ωn), ω1, . . . , ωn ∈ Ω
• a na základě těchto pozorování chceme učinit výpověď o rozdělení zkoumané náhodné
veličiny.
Deﬁnujme nejprve základní pojmy matematické statistiky. Základním pojmem matematické
statistiky je pojem náhodného výběru.
Definice 1.1. Náhodný vektor Xn = (X1, . . . , Xn)′
nazýváme náhodným výběrem
z rozdělení pravděpodobnosti P, pokud
(i) X1, . . . , Xn jsou nezávislé náhodné veličiny,
(ii) X1, . . . , Xn mají stejné rozdělení pravděpodobnosti P.
Číslo n nazýváme rozsah náhodného výběru. Libovolný bod xn = (x1, . . . , xn)′
, kde
xi je realizace náhodné veličiny Xi (i = 1, . . . , n), budeme nazývat realizací náhodného
výběru Xn = (X1, . . . , Xn)′
. Množinu všech hodnot, kterých může náhodný výběr nabýt,
nazýváme výběrový prostor a budeme jej značit X.
Základní dělení matematické statistiky je dané strukturou množiny všech možných rozdělení
(označme ji P) náhodného výběru X. Velmi často vybíráme do množiny P jen rozdělení,
která jsou stejného typu a která závisí pouze na nějakém (skalárním či vícerozměrném) parametru.
Tento parametr se většinou značí θ a pravděpodobnostní míry z množiny P symbolem
Pθ. Přitom předpokládáme, že parametr θ nabývá hodnot z nějaké množiny Θ.
Definice 1.2. Množinu P pravděpodobnostních měr tvaru
P = {Pθ; θ ∈ Θ}
nazýváme parametrickou třídou rozdělení. Vektor θ nazýváme parametrem rozdělení
pravděpodobnosti Pθ a množinu Θ možných hodnot parametru θ parametrický
prostor.
Nechť náhodný výběr Xn = (X1, . . . , Xn)′
je z rozdělení, které je dáno distribuční funkcí
F(x, θ), θ ∈ Θ. Zkráceně budeme značit:
{X1, . . . , Xn} ≃ F(x; θ).
Nyní se zmiňme o tzv. rodinách rozdělení.
1
2 M4122 Pravděpodobnost a statistika II
Definice 1.3. Nechť g(x) je nějaká hustota. Deﬁnujme rodiny rozdělení
F1 = {f(x; θ) = g(x − θ); θ ∈ R}
F2 = f(x; δ) = 1
δ
g x
δ
; δ > 0
F3 = f(x; θ, δ) = 1
δ
g x−θ
δ
; θ ∈ R, δ > 0
Pak říkáme, že F1 je rodina s parametrem polohy (location family), F2 je rodina
s parametrem měřítka (scale family) a F3 je rodina s parametrem polohy a měřítka
(location-scale family).
Cílem teorie odhadu je na základě náhodného výběru odhadnout
• rozdělení pravděpodobnosti,
• popřípadě některé parametry tohoto rozdělení,
• anebo nalézt odhad nějaké funkce parametrů θ, tj. γ(θ).
Funkci γ(θ) nazýváme parametrickou funkcí. V matematické statistice se pro funkce,
pomocí kterých budeme odhady provádět, nazývají statistikou. (Tyto funkce jsou navíc
měřitelné).
Definice 1.4. Libovolnou náhodnou veličinu Tn, která vznikne jako funkce náhodného
výběru Xn = (X1, . . . , Xn)′
, budeme nazývat statistikou, tj. Tn = T(X1, . . . , Xn)′
.
Příklad 1.5. Výběrová (empirická) distribuční funkce.
Ukážeme, jakým způsobem lze například informaci obsaženou v náhodném výběru zužitkovat
k popisu distribuční funkce. Mějme {X1, . . . , Xn} ≃ F(x; θ).
Zaveďme tzv. indikátor množiny předpisem: IB(x) =
1 x ∈ B,
0 x /∈ B
a pro x ∈ R indikátor jevu: Ii(x) = I(−∞,x>(Xi) =
1 Xi ≤ x,
0 Xi > x.
pro i = 1, . . . , n.
Potom I1(x), . . . , In(x) jsou nezávislé náhodné veličiny se stejným alternativním rozdělením
pravděpodobností s parametrem π ∈ (0, 1), tj. {I1, . . . , In} ≃ A(π). Parametr π je roven
pravděpodobnosti úspěchu, tj.
P(Ii(x) = 1) = P(Xi ≤ x) = F(x; θ) ⇒ {I1, . . . , In} ≃ A(π = F(x; θ)).
Položme
Y (x) = n
i=1 Ii(x)
Fn(x) = Y (x)
n
a postupně počítejme
EFn(x) = E Y (x)
n
= 1
n
Yn = 1
n
n
i=1
Ii(x) = 1
n
· n F(x; θ) = F(x; θ).
Protože posloupnost {Fn(x)}∞
n=1 splňuje jak slabý, tak silný zákon velkých čísel, tak platí
limn→∞ P(|Fn(x) − F(x; θ)| ≥ ε) = 0
P(limn→∞ Fn(x) = F(x; θ)) = 1
.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 3
✲
✻
q
q
q
q
q
q
q
q
q
q1 1
n
Fn(x)
x
y
Z uvedených vztahů je vidět, že pokud rozsah výběru
bude dostatečně velký, lze distribuční funkci rozdělení,
z něhož výběr pochází, dostatečně přesně
aproximovat pomocí výběrové (empirické) distribuční
funkce.
Předpokládejme, že rozdělení, z něhož výběr pochází,
má konečné druhé momenty se střední hodnotou µ a
rozptylem σ2
, což budeme dále značit
{X1, . . . , Xn} ≃ L(µ, σ2
).
Tedy pro každé i = 1, . . . , n platí
EXi = µ
DXi = σ2 .
Potom tyto charakteristiky zřejmě závisí na parametru θ, neboť
µ =
∞
−∞
xdF(x; θ)
σ2
=
∞
−∞
(x − µ)2
dF(x; θ)
,
proto bude lépe značit je µ(θ) a σ2
(θ) místo µ a σ2
.
Všimněme si dále, že pro každé x ∈ R je Fn(x) = Fn(X1, . . . , Xn) statistikou, tím také náhodnou
veličinou (která nabývá hodnot mezi nulou a jedničkou) a tím i funkcí elementárního
jevu ω ∈ Ω.
Zvolíme-li ω libovolně, ale pevně a uvažujeme-li Fn(x) jako funkci proměnné x, pak lze
snadno odvodit, že je tato funkce distribuční funkcí nějaké náhodné veličiny a lze zavést
její střední hodnotu a rozptyl
µn =
∞
−∞
xdFn(x; θ) = 1
n
n
i=1 Xi
σ2
n =
∞
−∞
(x − µ)2
dF(x; θ) = 1
n
n
i=1(Xi − µn)2
.
Zřejmě µn a σ2
n jsou borelovské funkce náhodného výběru a tedy statistiky a lze je
považovat za odhady parametrických funkcí µ(θ) a σ2
(θ). Lze očekávat, že čím bude rozsah
náhodného výběru větší, tím bude odhad uvedených parametrických funkcí kvalitnější.
Poznámka 1.6.
Odhadem parametrické funkce γ(θ) budeme rozumět nějakou statistiku
Tn = T(X1, . . . , Xn)′
, která bude pro různé náhodné výběry kolísat kolem γ(θ).
Statistika Tn = T(X1, . . . , Xn)′
závisí na parametru θ prostřednictvím distribuční funkce
rozdělení, z něhož výběr pochází.
Také rozdělení této statistiky, tj. náhodné veličiny, závisí na parametru θ.
Proto střední hodnotu a rozptyl této statistiky budeme značit EθTn a DθTn.
4 M4122 Pravděpodobnost a statistika II
Definice 1.7. Výběrové charakteristiky. Nechť Xn = (X1, . . . , Xn)′
je náhodný výběr
rozsahu n z rozdělení s distribuční funkcí F(x; θ), θ ∈ Θ. Potom statistika
¯Xn = ¯X = 1
n
n
i=1 Xi se nazývá výběrový průměr
S2
= 1
n−1
n
i=1(Xi − ¯X)2
výběrový rozptyl
S =
√
S2 výběrová směrodatná odchylka
Fn(x) = 1
n
n
i=1
I(−∞,x>(Xi) výběrová (empirická) distribuční funkce
KAPITOLA 2
Odhady parametrů
1. Nestrannost, vychýlení, konzistence odhadů
Za lepší odhad se považuje ten, jehož rozdělení je více koncentrované okolo neznámé
hodnoty parametru. Tento přirozený požadavek koncentrace rozdělení Tn okolo skutečné
hodnoty parametru vyjadřujeme pomocí střední hodnoty a rozptylu.
Definice 1.1. Nechť Xn = (X1, . . . , Xn)′
je náhodný výběr z rozdělení pravděpodobnosti
Pθ, kde θ je vektor neznámých parametrů. Nechť γ(θ) je daná parametrická funkce.
Řekneme, že statistika Tn = T(X1, . . . , Xn)′
je
nestranným (nevychýleným) odhadem parametrické pokud pro ∀θ ∈ Θ platí
funkce γ(θ) EθTn = γ(θ).
kladně vychýleným EθTn > γ(θ).
záporně vychýleným EθTn < γ(θ).
asymptoticky nestranným lim
n→∞
EθTn = γ(θ).
slabě konzistentním pokud pro ∀ε > 0 platí
lim
n→∞
Pθ(|Tn − γ(θ)| > ε) = 0
tj. Tn
Pθ
−→ γ(θ)
silně konzistentním Pθ( lim
n→∞
Tn = γ(θ)) = 1
tj. Tn
s.j.
−→ γ(θ)
Poznámka 1.2.
Vlastnost nestrannosti (tj. nevychýlenosti) ještě neposkytuje záruku dobrého odhadu,
pouze vylučuje systematickou chybu.
Poznámka 1.3.
Používání konzistentních odhadů zaručuje
- malou pravděpodobnost velké chyby v odhadu parametru, pokud rozsah výběru
dostatečně roste;
- volbou dostatečně velkého počtu pozorování lze učinit chybu odhadu libovolně
malou.
Příklad 1.4. Geometrické rozdělení.
Nechť náhodná veličina X má geometrické rozdělení,
fX(x) = P(X = x) = (1 − θ)x
θ 0 < θ < 1 x = 0, 1, . . .
5
6 M4122 Pravděpodobnost a statistika II
Veličina X udává počet neúspěchů při výběru z alternativního rozdělení před výskytem
prvního úspěchu. Hledejme nestranný odhad pro θ.
Je-li T(X) takový nestranný odhad, musí pro něj platit
EθT(X) =
∞
x=0
T(x)(1 − θ)x
θ = θ 0 < θ < 1,
Odtud dostáváme
∞
x=0
T(x)(1 − θ)x
= 1 0 < θ < 1,
takže musí platit
T(0) = 1
T(x) = 0 pro x ≥ 1.
Tento odhad však není pokládán za vhodný, protože jen minimálně přihlíží k počtu neúspěchů
před prvním úspěchem. Závisí jen na tom, zda úspěch nastal hned v prvním pokusu či nikoli.
Může se také stát, že nestranný odhad neexistuje.
Příklad 1.5. Parametrická funkce 1
θ
v případě binomického rozdělení.
Nechť náhodná veličina X má binomické rozdělení, tj. X ∼ Bi(n, θ) a
fX(x) = P(X = x) =
n
x
θx
(1 − θ)n−x
n ≥ 1, 0 < θ < 1 x = 0, 1, . . . , n.
Sporem ukážeme, že neexistuje nestranný odhad pro parametrickou funkci
γ(θ) = 1
θ
.
Nechť existuje taková funkce T, že pro každé θ ∈ (0, 1) platí
EθT(X) =
n
x=0
T(x)
n
x
θx
(1 − θ)n−x
= 1
θ
0 < θ < 1.
Na levé straně je však polynom proměnné θ nejvýše stupně n, který samozřejmě nemůže být
identicky roven 1
θ
na intervalu (0, 1).
Nyní vyšetříme případ, kdy odhadovanými parametry jsou střední hodnota a rozptyl
rozdělení, ze kterého náhodný výběr pochází.
Věta 1.6. Nechť Xn = (X1, . . . , Xn)′
je náhodný výběr z rozdělení, které má střední hodnotu
µ(θ) pro ∀θ ∈ Θ. Pak výběrový průměr je nestranným odhadem střední hodnoty, tj.
Eθ
¯X = µ(θ).
Důkaz. Počítejme
Eθ
¯X = Eθ
1
n
n
i=1
Xi = 1
n
n
i=1
EθXi = 1
n
n
i=1
µ(θ) = µ(θ).
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 7
Věta 1.7. Nechť Xn = (X1, . . . , Xn)′
je náhodný výběr z rozdělení, které má rozptyl σ2
(θ)
pro ∀θ ∈ Θ. Pak výběrový rozptyl je nestranným odhadem rozptylu, tj.
EθS2
= σ2
(θ).
Důkaz. Nejprve upravujme
n
i=1
(Xi − ¯X)2
=
n
i=1
(Xi − µ(θ)) − ( ¯X − µ(θ))
2
=
n
i=1
(Xi − µ(θ))2
− 2(Xi − µ(θ))( ¯X − µ(θ)) + ( ¯X − µ(θ))2
=
n
i=1
(Xi − µ(θ))2
− 2( ¯X − µ(θ))
n
i=1
(Xi − µ(θ))
=n( ¯X−µ(θ))
+n( ¯X − µ(θ))2
=
n
i=1
(Xi − µ(θ))2
− n( ¯X − µ(θ))2
.
Pak počítejme
EθS2
= Eθ
1
n−1
n
i=1
(Xi − ¯X)2
= 1
n−1
Eθ
n
i=1
(Xi − µ(θ))2
+ n( ¯X − µ(θ))2
= 1
n−1
n
i=1


Eθ(Xi − µ(θ))2
=DXi=σ2(θ)
−n Eθ( ¯X − µ(θ))2
=Dθ
¯X



Proto vypočtěme
Dθ
¯X = Dθ
1
n
n
i=1
Xi
nez.
= 1
n2
n
i=1
DθXi =
σ2
(θ)
n
a celkově dostaneme
EθS2
= 1
n−1
nσ2
(θ) − σ2
(θ) = σ2
(θ).
Následující věta udává postačující podmínku pro konzistentní odhad.
Věta 1.8. Nechť statistika Tn = T(X1, . . . , Xn)′
je nestranný nebo asymptoticky nestranný
odhad parametrické funkce γ(θ) a platí
lim
n→∞
DθTn = 0.
Pak je statistika Tn = T(X1, . . . , Xn) konzistentním odhadem parametrické funkce γ(θ).
Důkaz. Nechť ε > 0. Z Čebyševovy nerovnosti plyne:
Pθ(|Tn − EθTn| ≥ ε
2
) ≤ 4DθTn
ε2 .
Protože buď EθTn = γ(θ) nebo limn→∞ EθTn = γ(θ), pak existuje přirozené číslo n0 tak, že
pro ∀n > n0 platí:
−ε
2
< γ(θ) − EθTn < ε
2
.
8 M4122 Pravděpodobnost a statistika II
Dále platí
Pθ(|Tn − γ(θ)| ≥ ε) = 1 − Pθ(|Tn − γ(θ)| < ε) = 1 − Pθ(|Tn − EθTn + ETn − γ(θ)| < ε)
≤ 1 − Pθ(|Tn − EθTn| + |ETn − γ(θ)| < ε)
≤ 1 − Pθ({|Tn − EθTn| < ε
2
} ∩ {|ETn − γ(θ)| < ε
2
}
jev jistý
)
≤ 1 − Pθ(|Tn − EθTn| < ε
2
) = Pθ(|Tn − EθTn| ≥ ε
2
) ≤ 4DθTn
ε2
a tedy
lim
n→∞
Pθ(|Tn − γ(θ)| ≥ ε) ≤ 4
ε2 lim
n→∞
DθTn = 0.
Tedy Tn je slabě konzistentním odhadem γ(θ).
Důsledek 1.9. Nechť Xn = (X1, . . . , Xn)′
je náhodný výběr z rozdělení, které má
pro ∀θ ∈ Θ střední hodnotu µ(θ) a rozptyl σ2
(θ), tj.
{X1, . . . , Xn} ≃ L(µ(θ), σ2
(θ)).
Potom je-li µ(θ) < ∞, pak výběrový průměr ¯X je slabě konzistentním odhadem
µ(θ).
Důkaz. Vzhledem k tomu, že ¯X je nestranným odhadem µ(θ) a platí
lim
n→∞
Dθ
¯X = lim
n→∞
Dθ
1
n
n
i=1
Xi
nez.
= lim
n→∞
1
n2
n
i=1
DθXi = lim
n→∞
σ2
(θ)
n
= 0
tj. rozptyl konverguje k nule, jsou splněny předpoklady předchozí věty a platí tak tvrzení.
Důsledek 1.10. Nechť Xn = (X1, . . . , Xn)′
je náhodný výběr z rozdělení, které má
pro ∀θ ∈ Θ střední hodnotu µ(θ) a rozptyl σ2
(θ), tj.
{X1, . . . , Xn} ≃ L(µ(θ), σ2
(θ)).
Potom je-li σ2
(θ) < ∞, pak výběrový rozptyl S2
je slabě konzistentním odhadem
σ2
(θ).
Důkaz. Víme již, že statistika S2
je nestranným odhadem σ2
(θ). Nyní budeme muset vypočítat
rozptyl statistiky S2
, což není zdaleka tak triviální jako v případě výběrového průměru.
Pro lepší přehlednost budeme psát místo µ(θ) a σ2
(θ) pouze µ a σ2
, u středních hodnot Eθ
a rozptylu Dθ také vynecháme parametr θ.
Položme
Yi = (Xi − µ)2
S2
0 = 1
n
n
i=1
(Xi − µ)2
a počítejme
S2
0 = 1
n
n
i=1
(Xi − µ)2
= 1
n
n
i=1
Yi = ¯Y .
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 9
Pak
EYi = E(Xi − µ)2
= DXi = σ2
DYi = EY 2
i − (EYi)2
= E(Xi − µ)4
− σ4
= µ4 − σ4
ES2
0 = E ¯Y = 1
n
n
i=1
EYi = σ2
(1)
DS2
0 = D 1
n
n
i=1
Yi
nez.
= 1
n2
n
i=1
DYi =
µ4 − σ4
n
(2)
Označme
S2
⋆ = 1
n
n
i=1
(Xi − ¯X)2
= n−1
n
S2
,
takže
S2
= n
n−1
S2
⋆. (3)
Pak
S2
⋆ = 1
n
n
i=1
(Xi − µ) − ( ¯X − µ)
2
= 1
n
n
i=1
(Xi − µ)2
− 2(Xi − µ)( ¯X − µ) + ( ¯X − µ)2
= 1
n
n
i=1
(Xi − µ)2
S2
0
−2
n
( ¯X − µ)
n
i=1
(Xi − µ)
n ¯X−nµ
+1
n
n( ¯X − µ)2
= S2
0 − ( ¯X − µ)2
(4)
Počítejme nejprve
ES2
⋆
viz(4)
= E S2
0 − ( ¯X − µ)2
= ES2
0 − E( ¯X − µ)2
D ¯X
= σ2
− σ2
n
= n−1
n
σ2
ES2 viz(3)
= E n
n−1
S2
⋆ = n
n−1
n−1
n
σ2
= σ2
.
Připomeňme, že rozptyl lze počítat pomocí vzorce
DS2
⋆ = ES4
⋆ − ES2
⋆
2
,
a protože ES2
⋆ již známe, počítejme nyní
ES4
⋆
viz(4)
= E[S2
0 − ( ¯X − µ)2
]2
= E[S4
0 − 2S2
0 ( ¯X − µ)2
+ ( ¯X − µ)4
]
= ES4
0
(a)
−2 ES2
0 ( ¯X − µ)2
(b)
+ E( ¯X − µ)4
(c)
. (5)
Při výpočtu výrazu (a) ve vzorci (5) vyjdeme opět ze vztahu
DS2
0 = ES4
0 − ES2
0
2
,
takže
ES4
0 = DS2
0 + ES2
0
2
= µ4−σ4
n
+ σ4
= µ4
n
+ n−1
n
σ4
.
10 M4122 Pravděpodobnost a statistika II
Dále počítejme výraz (b) ve vzorci (5)
E[S2
0( ¯X − µ)2
] = 1
n3 E



n
i=1
(Xi − µ)2
n
i=1
(Xi − µ)
2



=
1
n3
n
i=1
n
j=1
n
k=1
E[(Xi − µ)2
(Xj − µ)(Xk − µ)]
= 1
n3
n
i=1
E[(Xi − µ)4
]
=µ4
+ 1
n3
n
i=1
n
j=1,j=i
n
k=1,k=i,j
E[(Xi − µ)2
(Xj − µ)(Xk − µ)]
=0 viz1
+ 1
n3
n
i=1
n
j=1,i=j
E[(Xi − µ)2
(Xj − µ)2
]
=n(n−1)σ4 viz2
= nµ4
n3 + n(n−1)σ4
n3
= 1
n2 µ4 + (n − 1)σ4
.
Ještě zbývá vypočítat poslední výraz (c) ve vzorci (5)
E[( ¯X − µ)4
] = E
1
n
n
i=1
(Xi − µ)
4
= 1
n4
n
i=1
n
j=1
n
k=1
n
h=1
E[(Xi − µ)(Xj − µ)(Xk − µ)(Xh − µ)]
= 1
n4
n
i=1
E[(Xi−µ)4
]
=µ4
+ 1
n4 3
n
s=1
n
t=1,t=s
E[(Xs − µ)2
(Xt − µ)2
]
=3n(n−1)σ4 viz3
= 1
n3 µ4+3(n−1)σ4
Nyní předchozí tří výpočty můžeme shrnout a dostaneme
ES4
⋆ = µ4
n
+ n−1
n
σ4
− 2 µ4
n2 + n−1
n2 σ4
+ µ4
n3 + 3n−1
n3 σ4
= (n−1)2
n3 µ4 + (n−1)(n2−2n+3)
n3 σ4
1Díky nezávislosti náhodných veličin Xi, Xj a Xk máme: E[(Xi − µ)2
(Xj − µ)(Xk − µ)] =
E(Xi − µ)2
E(Xj − µ)E(Xk − µ) = 0, protože E(Xi − µ)2k+1
= 0.
2
Opět z nezávislosti náhodných veličin Xi a Xj plyne: E[(Xi −µ)2
(Xj −µ)2
] = E(Xi −µ)2
E(Xj −µ)2
=
σ4
.
3Pouze v případech, kdy (1.) s = i = j ∧ t = k = h ∧ s = t, (2.) s = i = k ∧ t = j = h ∧ s = t a
(3.) s = i = h ∧ t = j = k ∧ s = t dostaneme: E[(Xs − µ)2
(Xt − µ)2
] = E(Xs − µ)2
E(Xt − µ)2
= σ4
, a to
zase díky nezávislosti náhodných veličin Xt a Xs.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 11
Nyní ještě spočtěme
DS2
⋆ = (n−1)2
n3 µ4 + (n−1)(n2−2n+3)
n3 σ4
− n−1
n
σ2 2
= (n−1)2
n3 µ4 − (n−1)(n−3)
n3 σ4
a konečně
DS2
= ( n
n−1
)2
DS2
⋆ = µ4
n
− n−3
n(n−1)
σ4
.
Odtud snadno ukážeme, že rozptyl statistiky S2
konverguje k nule, čímž je tvrzení dokázáno
lim
n→∞
DS2
= lim
n→∞
µ4
n
− n−3
n(n−1)
σ4
= 0.
Věta 1.11. Nechť Xn = (X1, . . . , Xn)′
je náhodný výběr z rozdělení, které má
pro ∀θ ∈ Θ střední hodnotu µ(θ) a rozptyl σ2
(θ), tj.
{X1, . . . , Xn} ≃ L(µ(θ), σ2
(θ)).
Potom
(i) je-li µ(θ) < ∞, pak výběrový průměr ¯X je silně konzistentním odhadem µ(θ).
(ii) je-li σ2
(θ) < ∞, pak výběrový rozptyl S2
je silně konzistentním odhadem
σ2
(θ).
Důkaz. Připomeňme nejprve, že náhodný výběr {X1, . . . , Xn} ≃ L(µ(θ), σ2
(θ)) představuje
nezávislé stejně rozdělené náhodné veličiny s konečnou střední hodnotou a rozptylem.
(i) Vzhledem k tomu, že ¯X = ¯Xn je nestranným odhadem µ(θ), tj. Eθ
¯X = µ(θ), pak
posloupnost { ¯Xn = 1
n
∞
n=1 Xi}∞
n=1 splňuje silný zákon velkých čísel, tj. platí
Pθ( lim
n→∞
¯Xn = µ(θ)) = 1, pro ∀θ ∈ Θ,
takže výběrový průměr ¯X je silně konzistentním odhadem µ(θ).
(ii) Připomeňme, že platí
S2
= 1
n−1
n
i=1
(Xi− ¯X)2
= 1
n−1
n
i=1
(Xi − µ(θ)) − ( ¯X − µ(θ))
2
= 1
n−1
n
i=1
(Xi − µ(θ))2
− 2(Xi − µ(θ))( ¯X − µ(θ)) + ( ¯X − µ(θ))2
= 1
n−1
n
i=1
(Xi−µ(θ))2
− 2( ¯X−µ(θ)) 1
n−1
n
i=1
(Xi−µ(θ))
=n( ¯X−µ(θ))
+ 1
n−1
n( ¯X−µ(θ))2
= n
n−1
1
n
n
i=1
(Xi − µ(θ))2
− ( ¯X − µ(θ))2
. (6)
Náhodné veličiny
Yi = (Xi − µ(θ))2
jsou nezávislé stejně rozdělené se střední hodnotou EθYi = Eθ(Xi − µ(θ))2
= σ2
(θ),
takže posloupnost
1
n
n
i=1
Yi = 1
n
n
i=1
(Xi − µ(θ))2
n
i=1
12 M4122 Pravděpodobnost a statistika II
splňuje silný zákon velkých čísel, tj. platí
Pθ( lim
n→∞
1
n
n
i=1
(Xi − µ(θ))2
= σ2
(θ)) = 1.
Protože také platí
Pθ( lim
n→∞
¯Xn = µ(θ)) = Pθ( lim
n→∞
¯Xn − µ(θ)) = 0) = 1,
takže celkově, využijeme-li vztah (6), dostáváme
Pθ( lim
n→∞
S2
= σ2
(θ)) = 1, pro ∀θ ∈ Θ
takže výběrový rozptyl S2
je silně konzistentním odhadem σ2
(θ).
Poznámka 1.12. Více nestranných odhadů.
Obecně může existovat více nestranných odhadů. Například nejen výběrový průměr ¯X je
nestranným odhadem střední hodnoty µ(θ), ale i každé jednotlivé pozorování Xi nebo každá
jeho lineární kombinace n
i=1 ciXi, pro kterou platí n
i=1 ci = 1.
Pokud tedy existuje více nestranných odhadů je přirozenou otázkou, který z nich je
nejlepší.
Za nejlepší můžeme považovat ten, který má nejmenší rozptyl mezi všemi nestrannými
odhady.
Rozdělení každé statistiky však závisí na parametru θ, z čehož vyplývá, že i rozptyl
nestranné statistiky Tn závisí na parametru θ.
Může se stát, že odhad minimalizující rozptyl při určité hodnotě parametru není vhodný
pro jinou hodnotu parametru - existuje jiný nestranný (nevychýlený) odhad, který má při této
hodnotě parametru menší rozptyl.
Pokud taková situace nenastane, mluvíme o rovnoměrně nejlepším nestranném odhadu.
Definice 1.13. Nechť Tn je nestranný odhad parametrické funkce γ(θ) a pro všechna
θ ∈ Θ platí
DθTn ≤ DθT∗
n ,
kde T∗
n je libovolný nestranný odhad parametru γ(θ). Potom odhad Tn nazveme
(rovnoměrně) nejlepším nestranným odhadem parametrické funkce γ(θ).
Příklad 1.14. Nejlepší nestranný lineární odhad střední hodnoty µ(θ).
Jak jsme již dříve spočítali, pro náhodný výběr {X1, . . . , Xn} ≃ L(µ(θ), σ2
(θ)) platí, že
střední hodnota výběrového průměru ¯X je rovna
Eθ
¯X = µ(θ)
a rozptyl výběrového průměru ¯X je roven
Dθ
¯X =
σ2
(θ)
n
.
Tedy variabilita této statistiky je n krát menší než variabilita jednotlivých pozorování
X1, . . . , Xn a tedy hodnoty statistiky ¯X jsou více koncentrovány kolem odhadované střední
hodnoty µ(θ) než jednotlivá pozorování X1, . . . , Xn. Navíc je statistika ¯X je lineární funkcí
náhodných veličin X1, . . . , Xn.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 13
Uvažujme všechny lineární statistiky tvaru n
i=1 ciXi, kde c1, . . . , cn ∈ R, které jsou
nestrannými odhady střední hodnoty µ(θ), tj. pro ∀θ ∈ Θ musí platit
µ(θ) = Eθ
n
i=1
ciXi =
n
i=1
ci EθXi
=µ(θ)
= µ(θ)
n
i=1
ci ⇒
n
i=1
ci = 1.
Tím jsme dostali první podmínku, která se týká nestrannosti odhadu.
Nyní budeme hledat taková c1, . . . , cn ∈ R, která minimalizují rozptyl
Dθ
n
i=1
ciXi
nez.
=
n
i=1
c2
i DθXi = σ2
(θ)
n
i=1
c2
i
a pro něž platí n
i=1 ci = 1, tedy hledáme vázaný extrém, takže použijeme Lagrangeovu
funkci s multiplikátorem λ, tj.
L(c1, . . . , cn, λ) =
n
i=1
c2
i − λ
n
i=1
ci − 1 .
Pak pro j = 1, . . . , n
∂L
∂cj
= 2cj − λ = 0 ⇒ cj = 1
2
λ
∂L
∂λ
= −
n
i=1
ci + 1 = 0 ⇒
n
i=1
ci = 1.
Prvních n rovnic implikuje, že
c1 = c2 = · · · = cn.
Označme společnou hodnotu symbolem c. Díky poslední rovnici dostaneme
1 =
n
i=1
ci = nc ⇒ c = c1 = c2 = · · · = cn = 1
n
,
tedy výběrový průměr ¯X je nejlepším nestranným lineárním odhadem střední hodnoty
µ(θ).
Zkusme provést důkaz ještě jiným způsobem. Nechť n
i=1 ciXi je libovolný nestranný
lineární odhad pro µ (tj. nutně musí platit n
i=1 ci = 1).
Položíme-li ci = 1
n
+ δi pro i = 1, . . . , n
je minimalizace výrazu
n
i=1
c2
i za podmínky
n
i=1
ci = 1
ekvivalentní s úlohou minimalizovat
n
i=1
1
n
+ δi
2
za podmínky
n
i=1
δi = 0.
Za této podmínky je však
n
i=1
1
n
+ δi
2
=
n
i=1
1
n
2
=n 1
n2
+21
n
n
i=1
δi
=0
+
n
i=1
δ2
i = 1
n
+
n
i=1
δ2
i ,
což je minimální pro
δi = 0 pro i = 1, . . . , n.
Tedy nejlepším nestranným lineárním odhadem je lineární kombinace Xi s koeﬁcienty
ci = 1
n
.
14 M4122 Pravděpodobnost a statistika II
2. Postačující statistiky
Nalezení rovnoměrně nejlepších nestranných odhadů není vždy jednoduché.
Abychom nalezli odhad, který má nejmenší rozptyl, je vhodná jistá redukce výběru, tj.
nahrazení celého výběru jedinou statistikou, takovou, která bude obsahovat „veškerou informaci
o parametru θ , která byla obsažená ve výběru. Takováto redukce výběrového prostoru
se dosáhne pomocí postačujících statistik.
Definice 2.1. Mějme náhodný výběr Xn = (X1, . . . , Xn)′
z rozdělení pravděpodobnosti
Pθ, kde θ je neznámý parametr. Řekneme, že statistika S(X) je postačující (suﬁcientní)
statistikou (suﬃcient statistic), jestliže sdružené rozdělení náhodného výběru
Xn = (X1, . . . , Xn)′
podmíněné jevem S(X) = s je pro každé s nezávislé na θ.
Příklad 2.2. Nechť náhodný výběr Xn = (X1, . . . , Xn)′
pochází z alternativního rozdělení
s parametrem θ ∈ (0, 1), tj.
Xi ∼ A(θ) ∼ px =
θx
(1 − θ)1−x
n ∈ N, x = 0, . . . , n,
0 jinak.
Nechť
S =
n
i=1
Xi ⇒ S ∼ Bi(n, θ).
Nechť xn = (x1, . . . , xn)′
je realizace náhodného výběru. Uvažujme podmíněnou pravděpodobnost
pro libovolně, ale pevně zvolené s ∈ R
Pθ(X1 = x1, . . . , Xn = xn|S = s).
(a) Je-li n
i=1 xi = s, pak je tato podmíněná pravděpodobnost rovna nule.
(b) Nechť n
i=1 xi = s. Pak
Pθ(X1 = x1, . . . , Xn = xn|S = s) =
Pθ(X1 = x1, . . . , Xn = xn)
Pθ(S = s)
=
n
i=1 Pθ(Xi = xi)
Pθ(S = s)
=
θ
n
i=1 xi
(1 − θ)n− n
i=1 xi
n
s
θs(1 − θ)n−s
=
1
n
s
.
Výsledek nezávisí na θ, takže statistika S = n
i=1 Xi je postačující statistikou.
Uvedeme větu, která se nazývá také větou o faktorizaci a která zjednodušuje hledání
postačujících statistik. Kromě toho umožňuje rychle rozhodnout o tom, či je statistika po-
stačující.
Věta 2.3. Neymanovo faktorizační kritérium. Mějme náhodný výběr
Xn = (X1, . . . , Xn)′
z rozdělení s pravděpodobnostní funkcí (resp. hustotou) f(x; θ),
kde θ ∈ Θ. Potom S(X) je postačující statistika pro θ ∈ Θ, právě když existují nezáporné
měřitelné funkce g, h takové, že sdružené rozdělení náhodného výběru je součinem dvou
faktorů:
fX(x; θ) = h(x) g (S(x), θ)
(a říkáme, že hustota f se dá faktorizovat).
Důkaz. Tvrzení ukážeme pouze pro diskrétní případ.
⇒ Nechť S je postačující statistika, pak podle deﬁnice
Pθ(X = x|S(X) = s) = h(x)
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 15
a nezávisí na θ. Dále pro sdruženou pravděpodobnostní funkci platí
fX(x; θ) = Pθ(X = x) = Pθ(X = x|S(X) = S(x))
h(x)
Pθ(S(X) = S(x))
g(S(x),θ)
⇐ Předpokládejme, že sdruženou pravděpodobnostní funkci lze vyjádřit ve tvaru
fX(x; θ) = h(x) g (S(x), θ) ,
tj. že ji lze faktorizovat. Označme
Bs = {x ∈ Rn
; S(x) = s}.
Nejprve spočtěme
Pθ(S(X) = s) =
x∈Bs
Pθ(X = x) =
x∈Bs
h(x) g (S(x), θ)
= g (S(x), θ)
x∈Bs
h(x).
Je-li Pθ(S(X) = s) > 0 a S(x) = s, pak je podmíněná pravděpodobnost
Pθ(X = x|S(X) = s) = 0.
Je-li Pθ(S(X) = s) > 0 a S(x) = s, pak
Pθ(X = x|S(X) = s) =
Pθ(X = x)
Pθ(S(X) = s)
=
h(x) g (S(x), θ)
g (S(x), θ) x∈Bs
h(x)
=
h(x)
x∈Bs
h(x)
a tím je dokázáno, že podmíněné rozdělení vektoru X při dané hodnotě statistiky
S nezávisí na θ a S je postačující statistikou pro prametr θ.
Příklad 2.4. Nechť náhodný výběr Xn = (X1, . . . , Xn)′
pochází z Poissonova rozdělení
s parametrem θ > 0 s pravděpodobnostní funkcí
fX(x) = Pθ(X = x) =
e−θ
θx
x!
x = 0, 1, 2, . . . .
Ukážeme, že statistika
S =
n
i=1
Xi
je postačující statistikou pro parametr θ, neboť sdružená hustota náhodného výběru je tvaru
fX(x) =
e−nθ
θ
n
i=1 xi
n
i=1 xi!
= e−nθ
θ
n
i=1 xi
g(S(x),θ)
n
i=1
xi!
−1
h(x)
.
Než uvedeme větu, která ukazuje praktický význam postačujících statistik pro konstrukci
nejlepších nestranných odhadů, všimněme si podmíněných středních hodnot.
16 M4122 Pravděpodobnost a statistika II
3. Podmíněné střední hodnoty
Nechť Z = (X, Y )′
je náhodný vektor, F(x, y) je jeho sdružená distribuční funkce a
FX(x) a FY (y) odpovídající marginální distribuční funkce. Nechť vektor středních hodnot
EZ existuje (a je konečný).
(1) Nechť pro každou borelovskou množinu S ∈ B a pro každé x ∈ R existuje funkce F(x|y)
taková, že platí
P(X ≤ x, Y ∈ S) = S
F(x|y)dFY (y).
Potom funkci F(x|y) nazveme podmíněnou distribuční funkci náhodné veličiny
X při daném Y = y (podmíněnou jevem Y = y nebo také vzhledem k Y ).
(a) Diskrétní případ: Z = (X, Y )′
∼ p(x, y), M = {(x, y) ∈ R2
: p(x, y) > 0},
X ∼ pX(x), MX = {x ∈ R : pX(x) > 0}, Y ∼ pY (y), MY = {y ∈ R : pY (y) > 0}.
Počítejme
P(X ≤ x, Y ∈ S) =
y∈S t≤x
p(t, y) =
y∈S∩MY t≤x
p(t, y) +
y∈S∩(R−MY ) t≤x
p(t, y)
=0
=
y∈S∩MY t≤x
p(t, y)
pY (y)
pY (y) =
S∩MY t≤x
p(t, y)
pY (y)
dFY (y).
Takže podmíněná distribuční funkce je v diskrétním případě tvaru
F(x|y) =



t≤x
p(t,y)
pY (y)
pro y ∈ MY ,
0 pro y ∈ (R − MY ),
a podmíněná pravděpodobnostní funkce je rovna
p(x|y) =
p(x,y)
pY (y)
pro y ∈ MY ,
0 pro y ∈ (R − MY ),
.
(b) Spojitý případ: Z = (X, Y )′
∼ f(x, y), X ∼ fX(x), MX = {x ∈ R : fX(x) > 0},
Y ∼ fY (y), MY = {y ∈ R : fY (y) > 0}. Počítejme
P(X ≤ x, Y ∈ S) =
S
x
−∞
f(t, y)dtdy
=
S∩MY
x
−∞
f(t, y)dtdy +
S∩(R−MY )
x
−∞
f(t, y)
=0
dtdy
=
S∩MY
x
−∞
f(t, y)
fY (y)
dt fY (y)dy
=
S∩MY
x
−∞
f(t, y)
fY (y)
dt dFY (y).
Takže podmíněná distribuční funkce je v diskrétném případě tvaru
F(x|y) =



x
−∞
f(t,y)
fY (y)
dt pro y ∈ MY ,
0 pro y ∈ (R − MY ),
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 17
a podmíněná hustota je rovna
f(x|y) =
f(x,y)
fY (y)
pro y ∈ MY ,
0 pro y ∈ (R − MY ),
.
(2) Nechť T = T(X, Y ) je transformovaná náhodná veličina. Potom funkci
E(T(X, Y )|Y = y) = R
T(x, y)dF(x|y) y ∈ R
nazveme podmíněnou střední hodnotou náhodné veličiny X za podmínky Y = y
za předpokladu, že uvedený integrál pro všechna y ∈ R existuje (a je konečný).
Položme
E(T(X, Y )|Y = y) = h(y)
a deﬁnujme symbolem
E(T(X, Y )|Y ) = h(Y )
náhodnou veličinu, kterou nazveme (zobecněnou) podmíněnou střední hodnotou
náhodné veličiny T(X, Y ) při daném Y .
(a) Diskrétní případ:
E(T(X, Y )|Y = y) =
R
T(x, y)dF(x|y) =
x∈MX
T(x, y) p(x|y)
= x∈MX
T(x, y) p(x,y)
pY (y)
pro y ∈ MY ,
0 pro y ∈ (R − MY ),
a analogicky
E(T(X, Y )|Y ) = x∈MX
T(x, Y ) p(x,Y )
pY (Y )
pro Y ∈ MY ,
0 pro Y ∈ (R − MY ),
.
(b) Spojitý případ:
E(T(X, Y )|Y = y) =
R
T(x, y)dF(x|y) =
R
T(x, y) f(x|y)dx
= R
T(x, y) f(x,y)
fY (y)
dx pro y ∈ MY ,
0 pro y ∈ (R − MY ),
a analogicky
E(T(X, Y )|Y ) = R
T(x, Y ) f(x,Y )
fY (Y )
dx pro Y ∈ MY ,
0 pro Y ∈ (R − MY ),
.
Důležité vlastnosti podmíněných středních hodnot:
(i) Nechť X1, X2, Y jsou náhodné veličiny a a0, a1, a2 jsou reálné konstanty, pak pokud
střední hodnoty EX1, EX2 existují lze snadno dokázat, že platí
E(a0 + a1X1 + a2X2|Y ) = a0 + a1E(X1|Y ) + a2E(X2|Y ), (7)
(ii) Nechť X, Y jsou náhodné veličiny a střední hodnota EX existuje, pak
E [E(X|Y )] = EX. (8)
18 M4122 Pravděpodobnost a statistika II
Důkaz ukážeme pro spojitý případ:
EX =
R
xfX(x)dx=
R
x
R
f(x, y)dy dx=
R
x
R
f(x|y)fY (y)dy dx
=
R R
xf(x|y)dx
h(y)=E(X|Y =y)
fY (y)dy =
R
h(y)fY (y)dy = E[h(Y )] = E [E(X|Y )] .
(iii) Nechť T1 = T1(X, Y ) a T2 = T2(Y ) jsou transformované náhodné veličiny, pak
E(T1T2|Y ) = T2E(T1|Y ). (9)
Důkaz ukážeme pro spojitý případ:
h(y) = E(T1T2|Y = y) = E(T1(X, Y )T2(X)|Y = y)
=
R
T1(x, y)T2(y)f(x|y)dx
= T2(y)
R
T1(x, y)f(x|y)dx = T2E(T1|Y = y)
h(Y ) = E(T1T2|Y ) = T2E(T1|Y ).
(3) Nechť T = T(X, Y ) je transformovaná náhodná veličina. Podmíněný rozptyl při daném
Y = y je deﬁnován vztahem
D(T(X, Y )|Y = y) = E [T − E(T|Y = y)]2
|Y = y
a (zobecněný) podmíněný rozptyl při daném Y je deﬁnován vztahem
D(T(X, Y )|Y ) = E [T − E(T|Y )]2
|Y .
Platí
DT = E [D(T|Y )] + D [E(T|Y )] , (10)
neboť, spočítáme–li nejprve
D(T|Y ) = E [T − E(T|Y )]2
|Y
= E [(T − ET) − (E(T|Y ) − ET)]2
|Y
= E (T − ET)2
− 2(T − ET)[E(T|Y ) − ET] + [E(T|Y ) − ET]2
|Y
= E[(T−ET)2
|Y ] − 2[E(T|Y )−ET] E[(T−ET)|Y ]
viz(7)
= E(T|Y )−ET
+[E(T|Y )−ET]2
= E[(T − ET)2
|Y ] − [E(T|Y ) − ET]2
,
tak odtud dostaneme
E[(T−ET)2
|Y ] = D(T|Y ) + [E(T|Y ) − ET]2
a nakonec
E E[(T−ET)2
|Y ]
viz(7)
= E[(T−ET)2=DT
= E[D(T|Y )] + E[E(T|Y ) − ET
viz(8)
= E[E(T|Y )]
]2
= E[D(T|Y )] + E[E(T|Y ) − E[E(T|Y )]2
=D[E(T|Y )]
= E[D(T|Y )] + D[E(T|Y )]
Celkově tedy dostáváme
DT = E[D(T|Y )] + D[E(T|Y )].
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 19
Věta 3.1. Rao-Blackwellova. Nechť Xn = (X1, . . . , Xn)′
je náhodný výběr z rozdělení
pravděpodobnosti Pθ, kde θ je vektor neznámých parametrů. Nechť existuje postačující statistika
S(X) pro parametr θ. Nechť γ(θ) je daná parametrická funkce a statistika T(X) je
jejím nestranným odhadem, přičemž ET(X)2
< ∞ pro každé θ ∈ Θ. Pak platí
(i) Pro parametrickou funkci γ(θ) existuje nestranný odhad
S∗
(X) = S∗
(S(X)) ,
který je funkcí postačující statistiky S(X).
(ii) Pro rozptyl nestranného odhadu S∗
(X) platí
DS∗
(X) ≤ DT(X) pro každé θ ∈ Θ. (11)
(iii) V nerovnosti (11) platí rovnost právě když
S∗
(X) = T(X) s pravděpodobností 1 pro každé θ ∈ Θ.
Důkaz. Nechť T = T(X) je libovolný nestranný odhad parametrické funkce γ(θ) a S = S(X)
je postačující statistika pro parametr θ.
(i) Položme
S∗
(s) = E (T(X)|S(X) = s) .
Protože S(X) je postačující statistikou, funkce S∗
(s) nezávisí na θ, tj.
S∗
= S∗
(S) = S∗
(S(X)) = E [T(X)|S(X)] = E(T|S)
je statistika. Ukážeme, že S∗
je nestranný odhad parametrické funkce γ(θ). Pro každé
θ ∈ Θ platí:
ES∗
= E [E (T|S)] = ET = γ(θ).
(ii) Počítejme a upravujme rozptyl statistiky T
DT = E [T − γ(θ)]2
= E {[T − S∗
] + [S∗
− γ(θ)]}2
= E [T − S∗
]2
≥0
+2 E {[T − S∗
] [S∗
− γ(θ)]}
=0
+ E [S∗
− γ(θ)]2
DS∗
tj.
DT ≥ DS∗
,
neboť střední hodnotu součinu dvou statistik lze vyjádřit takto
E {[T − S∗
] [S∗
− γ(θ)]}
E(U·V )
= E {E {[T − S∗
] [S∗
− γ(θ)] |S}}
E(E(U·V |S))
= E



[S∗
− γ(θ)] E {[T − S∗
] |S}
=0



= 0.
(iii) V nerovnosti (11) platí rovnost právě když
E [T − S∗
]2
= 0 pro všechna θ ∈ Θ,
tj. když pro všechna θ ∈ Θ platí
S∗
(X) = T(X) s pravděpodobností 1.
Poznámka 3.2. Z uvedené věty vyplývá, že při hledání nejlepších nestranných odhadů se
můžeme omezit na odhady, které jsou funkcemi postačujících statistik. Věta 3.1 dává návod,
jak určit nestranný odhad, který je funkcí postačující statistiky, jestliže známe libovolný
nestranný odhad.
20 M4122 Pravděpodobnost a statistika II
Příklad 3.3. Uvažujme výběr z alternativního rozdělení s parametrem θ > 0 s pravděpodobnostní
funkcí
fX(x) = P(X = x) = θx
(1 − θ)1−x
x = 0, 1
a odhad parametrické funkce γ(θ) = θ počítejme pomocí podmíněné střední hodnoty
S∗
= E(T|S) , kde T je libovolný nestranný odhad γ(θ) = θ.
Je zřejmé, že nestranným odhadem parametru θ je i statistika
T = T(X) = X1,
tj. první člen výběru, neboť
EX1 = θ.
Jak jsme ukázali v příkladu 2.2, postačující statistikou pro parametr θ je statistika
S = S(X) =
n
i=1
Xi.
Statistika S je součtem nezávislých náhodných veličin s alternativním rozdělením a tedy má
binomické rozdělení s parametry n a θ, tj.
S =
n
i=1
Xi ∼ Bi(n, θ).
Všimněme si, že pravděpodobnost
P X1 = x,
n
i=1
Xi = s = P X1 = x,
n
i=2
Xi = s − x .
Náhodné veličiny X1 ∼ A(θ) ≡ Bi(1, θ) a n
i=2 Xi ∼ Bi(n − 1, θ) jsou nezávislé, takže
Pθ X1 = x,
n
i=1
Xi = s = Pθ (X1 = x) Pθ
n
i=2
Xi = s − x
= θx
(1 − θ)1−x n − 1
s − x
θs−x
(1 − θ)n−1−s+x
=
n − 1
s − x
θs
(1 − θ)n−s
.
Počítejme podmíněnou střední hodnotu za podmínky, že S = s
S∗
(s) = E(T|S = s) = E X1|
n
i=1
Xi = s =
x=0,1
x
P (X1 = x, n
i=1 Xi = s)
Pθ ( n
i=1 Xi = s)
=
n−1
s−x
θs
(1 − θ)n−s
n
s
θs(1 − θ)n−s
=
(n − 1)!s!(n − s)!
n!(s − 1)!(n − s)!
=
s
n
,
Tedy
S∗
(S) = E(T|S) =
1
n
n
i=1
Xi,
což je aritmetický průměr všech pozorování.
Podívejme se, jak to vypadá s rozptyly statistik T = X1 a S∗
.
DT = DX1 = θ(1 − θ)
DS∗
= D
1
n
n
i=1
Xi =
1
n2
n
i=1
DXi =
θ(1 − θ)
n
,
tedy rozptyl druhého nestranného odhadu se n krát zmenšil.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 21
Příklad 3.4. Uvažujme výběr z Poissonova rozdělení s parametrem θ > 0 s pravděpodobnostní
funkcí
fX(x) = P(X = x) =
e−θ
θx
x!
x = 0, 1, 2, . . .
a odhad parametrické funkce γ(θ) = θ počítejme pomocí podmíněné střední hodnoty
S∗
= E(T|S) , kde T je libovolný nestranný odhad γ(θ) = θ.
Je zřejmé, že nestranným odhadem parametru θ je i statistika
T = T(X) = X1,
tj. první člen výběru, neboť
EX1 = θ.
Jak jsme ukázali v příkladu 2.4, postačující statistikou pro parametr θ je statistika
S = S(X) =
n
i=1
Xi.
Dále je třeba si uvědomit, že statistika S je součtem nezávislých náhodných veličin s Poissonovým
rozdělením a má také Poissonovo rozdělení s parametrem nθ, tj.
S =
n
i=1
Xi ∼ Po(nθ).
Počítejme dále pravděpodobnost
P X1 = x,
n
i=1
Xi = s = P X1 = x,
n
i=2
Xi = s − x .
Náhodné veličiny X1 ∼ Po(θ) a n
i=2 Xi ∼ Po((n − 1)θ) jsou nezávislé, takže
P X1 = x,
n
i=1
Xi = s = P (X1 = x) P
n
i=2
Xi = s − x
=
e−θ
θx
x!
e−(n−1)θ
[(n − 1)θ]s−x
(s − x)!
.
Nyní již počítejme podmíněnou střední hodnotu za podmínky, že S = s
S∗
(s) = E(T|S = s) = E X1|
n
i=1
Xi = s =
s
x=0
x
P (X1 = x, n
i=1 Xi = s)
P ( n
i=1 Xi = s)
=
s
x=0
x
e−θθx
x!
e−(n−1)θ[(n−1)θ]s−x
(s−x)!
e−nθ(nθ)s
s!
=
s
x=0
x
s
x
1
n
x
1 −
1
n
s−x
.
Protože výraz s
x=0 x s
x
1
n
x
1 − 1
n
s−x
je střední hodnotou náhodné veličiny s binomickým
rozdělením Bi(s, 1
n
), ihned dostaneme
S∗
(s) = E(T|S = s) =
s
n
.
Tedy
S∗
(S) = E(T|S) =
1
n
n
i=1
Xi,
což je aritmetický průměr všech pozorování.
22 M4122 Pravděpodobnost a statistika II
Stejně jak v předchozím případě, všimněme si rozptylů obou odhadů T = X1 a S∗
.
DT = DX1 = θ
DS∗
= D
1
n
n
i=1
Xi =
1
n2
n
i=1
DXi =
θ
n
,
tedy rozptyl druhého nestranného odhadu se n krát zmenšil.
Poznámka 3.5. Nahrazení nestranného odhadu T odhadem S∗
= E(T|S) ještě neznamená,
že jsme mezi všemi nestrannými odhady našli odhad s nejmenším rozptylem. Úplnost
postačující statistiky je pro to dostatečnou podmínkou.
Definice 3.6. Systém parametrických tříd rozdělení P = {Pθ; θ ∈ Θ} nazveme úplným,
pokud pro každou měřitelnou funkci h(x) a náhodnou veličinu X s rozdělením z této třídy
platí implikace: jestliže
Eθh(X) = 0 pro každé θ ∈ Θ,
pak
h(X) = 0 s pravděpodobností 1 pro každé θ ∈ Θ.
Příklad 3.7. Nechť P = {Pθ; θ ∈ Θ} je třídou binomických rozdělení
X ∼ Pθ(X = x) =
n
x
θx
(1 − θ)n−x
n ≥ 1, 0 < θ < 1 x = 0, 1, . . . , n.
Ukážeme, že tento systém je úplný. Uvažujme funkci h(x) na množině {0, 1, . . . , n}, pro
kterou platí
Eh(X) = 0 pro každé θ ∈ (0, 1).
Tato funkce musí splňovat podmínku
Eh(X) =
n
x=0
h(x)
n
x
θx
(1 − θ)n−x
= 0 pro každé θ ∈ (0, 1).
Tuto podmínku můžeme napsat takto
Eh(X) =
n
x=0
h(x)
n
x
θx
(1 − θ)n−x
= (1 − θ)n
(1+z)−n
n
x=0
h(x)
n
x
θ
1 − θ
x
zx
= (1 + z)−n
n
x=0
n
x
h(x)zx
= 0 pro z > 0
Na jedné straně máme polynom n-tého řadu v proměnné z. Pokud se má identicky rovnat
nule, musí se všechny jeho koeﬁcienty rovnat nule, tj.
h(x) = 0 pro x = 0, 1, . . . , n.
Proto
P(h(X) = 0) = 1 pro každé θ ∈ (0, 1) .
Příklad 3.8. Nechť P = {Pθ; θ ∈ Θ} je třídou Poissonových rozdělení s pravděpodobnostní
funkcí
fX(x) = P(X = x) =
e−θ
θx
x!
x = 0, 1, 2, . . .
Tento systém je opět úplný. Uvažujme funkci h(x) na množině {0, 1, 2, . . .}, pro kterou platí
Eh(X) = 0 pro každé θ > 0.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 23
Tato funkce musí splňovat podmínku
Eh(X) =
∞
x=0
h(x)
e−θ
θx
x!
= 0 pro každé θ > 0.
Takže
∞
x=0
h(x)
θx
x!
= 0 pro každé θ > 0.
Tato mocninná řada je rovna nule pro všechna θ > 0, takže všechny její koeﬁcienty musí být
rovnu nule, tj.
h(x) = 0 pro x = 0, 1, 2, . . . .
Proto
P(h(X) = 0) = 1 pro každé θ > 0 .
Příklad 3.9. Nechť P = {Pθ; θ ∈ Θ} je třídou normálních rozdělení
X ∼
1
√
2πθ
e− 1
2 (x
θ )
2
x ∈ R, ; θ > 0
Tento systém není úplný. Deﬁnujme
h(x) =
−1 x < 0,
1 x ≥ 0.
.
Pro libovolné θ > 0 platí
1
√
2πθ
∞
−∞
h(x)e− 1
2 (x
θ )
2
dx = −
1
√
2πθ
0
−∞
e− 1
2 (x
θ )
2
dx
= 1
2
+
1
√
2πθ
∞
0
e− 1
2 (x
θ )
2
dx
= 1
2
= 0.
Tedy z vlastnosti, že Eh(X) = 0 neplyne, že P(h(X) = 0) = 1.
Definice 3.10. Nechť Xn = (X1, . . . , Xn)′
je náhodný výběr z rozdělení pravděpodobnosti
P = {Pθ; θ ∈ Θ}. Statistiku T(X) nazveme úplnou vzhledem k P = {Pθ; θ ∈ Θ},
pokud její rozdělení pravděpodobností tvoří úplný systém.
Nyní vyslovíme větu o jednoznačnosti nestranných odhadů založených na postačujících
statistikách.
Věta 3.11. První Lehmanova-Sheﬀého věta. Nechť Xn = (X1, . . . , Xn)′
je náhodný
výběr z rodělení pravděpodobnosti P = {Pθ; θ ∈ Θ}. Předpokládejme, že T = T(X) je
nestranný odhad parametrické funkce γ(θ), přičemž ET2
< ∞ pro každé θ ∈ Θ.
Nechť S = S(X) je úplná postačující statistika. Deﬁnujme
S∗
= E(T|S).
Pak S∗
je nejlepší nestranný odhad parametrické funkce γ(θ) a je jediný.
Důkaz. Nechť T = T(X) a T2 = T2(X) jsou nestranné odhady parametrické funkce γ(θ)
s konečnými druhými momenty. Označme S∗
2 = E(T2|S). Pro každé θ ∈ Θ platí
ES∗
= γ(θ) DS∗
≤ DT
ES∗
2 = γ(θ) DS∗
2 ≤ DT2
Máme tedy
E(S∗
− S∗
2) = E(E(T|S) − E(T2|S)) = 0 pro každé θ ∈ Θ.
24 M4122 Pravděpodobnost a statistika II
Z předpokladu o úplnosti plyne, že
P(S∗
= S∗
2) = 1 pro každé θ ∈ Θ.
Z toho plyne závěr, že pro nestranné odhady S∗
a T2 platí
DS∗
≤ DT2.
Proto S∗
je nejlepší. Z Raovy-Blackwellovy věty plyne, že T2 bude stejně dobrý odhad jako
S∗
2 právě tehdy, bude-li
T2 = S∗
2 skoro jistě při každém θ.
Jelikož víme, že S∗
= S∗
2, dostáváme odtud T2 = S∗
skoro jistě.
Poznámka 3.12. V tomto případě nejmenší možný rozptyl nestranného odhadu parametrické
funkce γ(θ) je roven DS∗
. Přitom jde o skutečné dosažitelné minimum.
Věta 3.13. Druhá Lehmanova-Sheﬀého věta. Nechť S je úplná postačující statistika.
Nechť
W = g(S)
je nestranný odhad parametrické funkce γ(θ) a nechť EW2
< ∞ pro každé θ ∈ Θ. Pak W
je nejlepší nestranný odhad parametrické funkce γ(θ) a je jediný.
Důkaz. Tvrzení je přímým důsledkem první Lehmannovy-Sheﬀého věty.
Příklad 3.14. Nechť Xn = (X1, . . . , Xn)′
je náhodný výběr z alternativního rozdělení
s pravděpodobnostní funkcí
f(x, θ) = Pθ(X = x) = θx
(1 − θ)n−x
0 < θ < 1 x = 0, 1
s pravděpodobností úspěchu θ ∈ (0, 1), kde θ je neznámý parametr. Budeme hledat nejlepší
nestranný odhad pro
• θ , což je střední hodnota alternativního rozdělení
• a v případě, že n ≥ 2 také pro θ(1 − θ)) , což je rozptyl alternativního rozdělení
θ : Z příkladů 2.2 a 3.7 vyplývá, že statistika
S =
n
i=1
Xi ∼ Bi(n, θ)
je úplnou postačující statistikou, takže statistika
S∗
(S) = E(T|S) =
1
n
n
i=1
Xi = ¯X
odvozená pomocí Rao-Blackwellovy věty je podle první Lehmanovy-Sheﬀého věty
nejlepším nestranným odhadem parametru θ.
θ(1 − θ)) : Pomocí Rao-Blackwellovy věty nejprve hledejme statistiku S∗
= E(T|S), kde T je
nějaký nestranný odhad parametrické funkce γ(θ) = θ(1 − θ) a S je postačující
statistikou pro parametr θ.
Jako nestranný odhad parametrické funkce γ(θ) = θ(1 − θ) vezměme na-
příklad
T = X1(1 − X2),
neboť
ET = E[X1(1 − X2)] = EX1 · E(1 − X2)
nezávislost X1,X2
= θ(1 − θ).
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 25
Pro s = 0, 1, . . . , n počítejme
S∗
(s) = E(T|S = s) = E X1(1 − X2)
n
i=1
Xi = s
=
P (X1 = 1, 1 − X2 = 1, n
i=1 Xi = s)
P( n
i=1 Xi = s)
Je-li s = 0, je zřejmé, že
E X1(1 − X2)
n
i=1
Xi = s = 0.
Nechť nyní s > 0. Pak
S∗
(s) =
P(X1 = 1)P(X2 = 0)P ( n
i=3 Xi = s − 1)
P( n
i=1 Xi = s)
=
θ(1 − θ) n−2
s−1
θs−1
(1 − θ)n−2−s+1
n
s
θs(1 − θ)n−s
=
(n − 2)!s!(n − s)!
n!(s − 1)!(n − s − 1)!
=
s(n − s)
n(n − 1)
=
n
n − 1
·
s
n
· 1 −
s
n
a
S∗
(S) =
n
n − 1
¯X(1 − ¯X),
kde
¯X =
1
n
n
i=1
Xi.
Protože statistika
S =
n
i=1
Xi ∼ Bi(n, θ)
je úplnou postačující statistikou, pak podle první Lehmanovy-Sheﬀého věty je
S∗
(S) nejlepším nestranným odhadem parametrické funkce θ(1 − θ).
Veličiny X1, . . . , Xn můžeme chápat jako výběr z Bi(1, θ). Toto rozdělení má
rozptyl θ(1 − θ). Všimněme si, že pro i = 1, . . . , n platí
X2
i = Xi,
neboť tyto veličiny nabývají pouze hodnot 0 a 1. Nestranný odhad rozptylu pořízený
na základě daného výběru je
S2
=
1
n − 1
n
i=1
(Xi − ¯X)2
=
1
n − 1
n
i=1
X2
i − n ¯X2
=
1
n − 1
n
i=1
Xi − n ¯X2
=
1
n − 1
n ¯X − n ¯X2
=
n
n − 1
¯X(1 − ¯X)
a odhad S2
je tedy totožný s nejlepším nestranným odhadem parametrické
funkce θ(1 − θ).
Příklad 3.15. Nechť Xn = (X1, . . . , Xn)′
je náhodný výběr z Poissonova rozdělení s pravděpodobnostní
funkcí
fX(x) = P(X = x) =
e−θ
θx
x!
x = 0, 1, 2, . . .
26 M4122 Pravděpodobnost a statistika II
kde θ je neznámý parametr. Budeme hledat nejlepší nestranný odhad pro
• θ , což je střední hodnota Poissonova rozdělení
• e−θ
= P(X = 0)
θ : Z příkladů 2.4 a 3.8 vyplývá, že statistika
S =
n
i=1
Xi ∼ Po(nθ)
je úplnou postačující statistikou, takže statistika
S∗
(S) = E(T|S) =
1
n
n
i=1
Xi = ¯X
odvozená pomocí Rao-Blackwellovy věty je podle první Lehmanovy-Sheﬀého věty
nejlepším nestranným odhadem parametru θ.
e−θ
: Pomocí Rao-Blackwellovy věty nejprve hledejme statistiku S∗
= E(T|S), kde T je
nějaký nestranný odhad parametrické funkce γ(θ) = e−θ
a S je postačující statistikou
pro parametr θ.
Položme
T = I{0}(X1) = I(X1 = 0) =
1 X1 = 0,
0 jinak.
Protože
ET = 1 · Pθ(T = 1) + 0 · Pθ(T = 0) = Pθ(X1 = 0) = e−θ
,
pak statistika T je nestranným odhadem parametrické funkce γ(θ) = e−θ
.
Je-li n = 1, pak statistika T je nejlepším nestranným odhadem parametrické
funkce γ(θ) = e−θ
.
Pro n > 1 počítejme
S∗
(s) = E(T|S = s) = E I(X1 = 0)
n
i=1
Xi = s
=
P (T = 1, n
i=1 Xi = s)
P( n
i=1 Xi = s)
=
P (X1 = 0, n
i=2 Xi = s)
P( n
i=1 Xi = s)
=
P(X1 = 0)P ( n
i=2 Xi = s)
P( n
i=1 Xi = s)
=
e−θe−(n−1)θ[(n−1)θ]s
s!
e−nθ(nθ)s
s!
=
n − 1
n
s
a
S∗
(S) =
n
n − 1
¯X(1 − ¯X),
kde
¯X =
n − 1
n
n
i=1 Xi
.
Protože statistika
S =
n
i=1
Xi ∼ Po(nθ)
je úplnou postačující statistikou, pak podle první Lehmanovy-Sheﬀého věty je
S∗
(S) nejlepším nestranným odhadem parametrické funkce e−θ
.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 27
Spočítejme ještě
ES∗
= ES∗
(S) = E
n − 1
n
S
=
∞
s=0
n − 1
n
s
e−nθ
(nθ)s
s!
= e−nθ
∞
s=0
[(n − 1)θ]s
s!
=e(n−1)θ
= e−θ
ES∗2
=
∞
s=0
n − 1
n
2s
e−nθ
(nθ)s
s!
= e−nθ
∞
s=0
(n−1)2
n
θ
s
s!
=e
(n−1)2
n θ
= e−2θ+ θ
n
DS∗
= ES∗2
− (ES∗
)2
= e−2θ+ θ
n − e−2θ
= e−2θ
e
θ
n − 1 .
28 M4122 Pravděpodobnost a statistika II
4. Regulární systém hustot a dolní mez rozptylu regulárních odhadů
Je zcela zřejmé, že na základě konečně mnoho pozorování Xn = (X1, . . . , Xn)′
nelze
odhadnout parametrickou funkce γ(θ) zcela bez chyby, tj. nelze najít nestranný odhad
Tn = T(X1, . . . , Xn)′
s nulovým rozptylem.
Existuje však dolní mez, pod kterou nemůže rozptyl žádného nestranného odhadu kles-
nout.
Tato dolní mez záleží ovšem, jak za chvíli ukážeme,
- na rozsahu náhodného výběru, tj. na n,
- na rodině rozdělení F(x; θ), ze kterého výběr pochází
- a na parametrické funkci γ(θ).
Při odvozování dolní meze rozptylu nestranných odhadů se omezíme
- na rodiny rozdělení F(x; θ), která splňují jisté podmínky, a to tzv. podmínky regu-
larity.
V dalším budeme značit symbolem f(x; θ) jak hustotu pravděpodobnosti absolutně spojité
náhodné veličiny, tak pravděpodobnostní funkci diskrétní náhodné veličiny, neboť obě jsou
hustotami, v prvém případě vzhledem k Lebesgueově míře, v druhém případě vzhledem
k čítací míře.
Definice 4.1. Mějme parametrický prostor Θ ⊂ R. Řekneme, že systém
parametrických hustot
Freg = {f(x; θ) : θ ∈ Θ}
je regulární, jestliže platí
(1) Θ ⊂ Rm
je otevřená borelovská množina.
(2) Množina M = {x ∈ R : f(x; θ) > 0} nezávisí na parametru θ.
(3) Pro každé x ∈ M existuje konečná parciální derivace
f′
i(x; θ) =
∂f(x; θ)
∂θi
(i = 1, . . . , m).
(4) Pro všechny θ = (θ1, . . . , θm)′
∈ Θ platí
M
f′
i(x; θ)
f(x; θ)
dF(x; θ) =
M
∂ ln f(x; θ)
∂θi
dF(x; θ) = 0 (i = 1, . . . , m),
kde F(x; θ) je odpovídající distribuční funkce.
(5) Pro všechny θ = (θ1, . . . , θm)′
∈ Θ je integrál
Jij = Jij(θ) =
M
∂ ln f(x; θ)
∂θi
∂ ln f(x; θ)
∂θj
dF(x; θ) (i, j = 1, . . . , m)
konečný a matice J = J(θ) = (Jij(θ))m
i,j=1 je pozitivně deﬁnitní. Matice J(θ) se nazývá
Fisherova informační matice o parametru θ.
Poznámka 4.2. Pro jednoduchost někdy hovoříme o regularitě f(x; θ), ne o regularitě
systému hustot.
Poznámka 4.3. Ukážeme, že podmínka (4) souvisí s otázkou, zda při derivování rovnosti
1 =
M
dF(x; θ)
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 29
lze zaměnit pořadí derivace a integrálu, tj.
0 = ∂
∂θj
1 = ∂
∂θj
M
dF(x; θ)
?
=
M
∂
∂θj
dF(x; θ) = 0
(∗)
.
Jestliže máme zaručeno, že platí vztah (∗), pak pořadí lze zaměnit. A nyní ukážeme, že
podmínka (4) je ekvivaletní s podmínkou (∗). Nechť ν je čítací nebo Lebesgueova míra.
Upravujme
0 =
M
∂
∂θj
dF(x; θ) =
M
∂
∂θj
f(x; θ) dν(x) =
M
f′
j(x; θ) dν(x)
někdy tato podmínka
bývá v deﬁnici regularity
=
M
f′
j(x; θ)f(x;θ)
f(x;θ)
dν(x) =
M
f′
j(x;θ)
f(x;θ)
dF(x; θ)
což je právě podmínka
(4) v deﬁnici regularity.
Poznámka 4.4. Označíme–li symbolem
Ui = Ui(θ) =
f′
i (X;θ)
f(X;θ)
= ∂ ln f(X;θ)
∂θi
tzv. i–tý skór příslušný k hustotě f(x; θ) a
U = U(θ) = (U1(θ), . . . , Um(θ))′
tzv. skórový vektor příslušný k hustotě f(x; θ), pak podmínku (4) lze ekvivalentně napsat
takto
pro ∀i ∈ {1, . . . , m} EθUi = 0, tj. EθU = (0, . . . , 0)′
= 0,
tj. skóry jsou centrované. V tomto značení podmínka (5) je ekvivalentní s existencí kovariancí
Jij =
M
∂ ln f(x;θ)
∂θi
∂ ln f(x;θ)
∂θj
dF(x; θ) = Eθ(UiUj) = Cθ(Ui, Uj) < ∞.
Pro sdruženou hustotu náhodného výběru Xn = (X1, . . . , Xn)′
platí
fX(x1, . . . , xn; θ) =
n
k=1
f(xi; θ) ⇒ ∂ ln fX(x1,...,xn;θ)
∂θj
=
n
k=1
∂ ln f(xk;θ)
∂θj
a označíme–li pro k–tou složku náhodného výběru
Uk = (Uk,1, . . . , Uk,m)′
= ∂ ln f(Xk;θ)
∂θ1
, . . . , ∂ ln f(Xk;θ)
∂θm
′
a pro celý náhodný výběr
U∗
n = (U∗
1 , . . . , U∗
m)′
= ∂ ln fX(X;θ)
∂θ1
, . . . , ∂ ln fX(X;θ)
∂θm
′
,
dostaneme
pro skórový vektor
náhodného výběru
U∗
n =
n
k=1
Uk a
pro jednotlivé složky
skórového vektoru
U∗
j =
n
k=1
Uk,j.
30 M4122 Pravděpodobnost a statistika II
Věta 4.5 (Raova-Cramerova nerovnost). Nechť Tn = T(X1,. . ., Xn) je regulárním odhadem
parametrické funkce γ(θ), tj.
(i) náhodný výběr Xn = (X1, . . . , Xn)′
je z rozdělení s regulární hustotou f ∈ Freg,
(ii) Tn(X) je nestranným odhadem parametrické funkce γ(θ),
(iii) pro všechna θ ∈ Θ, ∀j =1,. . ., m existují parciální derivace ∂γ(θ)
∂θj
a platí
∂
∂θj M
. . .
M
Tn(x1, . . . , xn)
n
i=1
dF(xi; θ) =
M
. . .
M
Tn(x1, . . . , xn)
∂
∂θj
n
i=1
dF(xi; θ).
Pak existuje dolní Rao–Cramerova hranice Cn rozptylu odhadu Tn a platí
Cn = Cn(θ) = 1
n
γ′
J−1
γ ≤ DθTn, kde γ′
= ∂γ(θ)
∂θ1
, . . . , ∂γ(θ)
∂θm
′
.
Důkaz. Důkaz uděláme pro skalární parametr θ. Protože Tn(Y) je nestranným odhadem
parametrické funkce γ(θ), platí
γ(θ) = EθTn(X) =
M
. . .
M
Tn(x1, . . . , xn)
n
k=1
dF(xk; θ)
=
M
. . .
M
Tn(x1, . . . , xn)
n
k=1
f(xk; θ)dν(x1) · · · dν(xn),
kde ν je čítací nebo Lebesgueova míra. Díky předpokladům ve větě můžeme psát
γ′
(θ) = [EθTn(X)]′
= ∂
∂θ
M
. . .
M
Tn(x1, . . . , xn)
n
k=1
f(xk; θ) dν(x1) · · · dν(xn)
=
M
. . .
M
Tn(x1, . . . , xn) ∂
∂θ
n
k=1
f(xk; θ) dν(x1) · · · dν(xn)
=
M
. . .
M
Tn(x1, . . . , xn)
n
k=1
f′
(xk; θ)
n
h=1,h=k
f(xh; θ) dν(x1) · · · dν(xn)
=
M
. . .
M
Tn(x1, . . . , xn)
n
k=1
f′(xk;θ)
f(xk;θ)
n
h=1
f(xh; θ) dν(x1) · · · dν(xn)
= Eθ Tn(X)
n
k=1
f′(Xk;θ)
f(Xk;θ)
= Eθ Tn(X)
n
k=1
Uk,1(θ) = Eθ [Tn(X) U∗
n]
Protože EθU∗
n = 0, pak Fisherova informace pro skalární parametr θ, která se týká náhodného
výběru, je rovna
J∗
n =Eθ(U∗
n)2
=DθU∗
n =Dθ
n
k=1
Uj,1(θ)
nez.
=
n
k=1
DθUk,1(θ)=
n
k=1
Eθ(Uk,1(θ))2
=J(θ)
=nJ(θ).
takže
|γ′
(θ)| = |E[U∗
nTn(X)]|=| C(U∗
n(θ), Tn(X))
vizEU∗
n=0
|
Schwarz.ner.
≤ DTn(X) DU∗
n(θ)
=
√
nJ(θ)
.
tj.
(γ′
(θ))
2
≤ DTn(X)nJ(θ) ⇒
(γ′
(θ))2
nJ(θ)
≤ DTn(X),
čímž je tvrzení dokázáno.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 31
Definice 4.6. Řekneme, že odhad Tn(X) je
(a) VYDATNÝM (také EFICIENTNÍM) odhadem γ(θ), pokud
ε[Tn(X)] =
Cn(θ)
DTn(X)
= 1
(b) ASYMPTOTICKY VYDATNÝM odhadem γ(θ), pokud
lim
n→∞
ε[Tn(X)] = 1
a číslo ε[Tn(X)] se nazývá vydatnost (eﬁcience) odhadu Tn(X).
Příklad 4.7. NORMÁLNÍ ROZDĚLENÍ A REGULARITA.
Mějme náhodnou veličinu X s normálním rozdělením
X ∼ N(µ, σ2
) ∼ f(x) =
1
√
2πσ2
exp −
1
2σ2
(x − µ)2
x ∈ R,
−4 −3 −2 −1 0 1 2 3 4 5 6 7 8 9
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
µ=0; σ= 1
µ=0; σ= 0.5
µ=0; σ= 2
µ=3; σ=1.25
µ=5; σ= 1
Hustoty N(µ,σ2
)
−4 −3 −2 −1 0 1 2 3 4 5 6 7 8 9
0
0.2
0.4
0.6
0.8
1
µ=0; σ= 0.5→
µ=0; σ= 2→
µ=3; σ=1.25→
←µ=0; σ= 1
←µ=5; σ= 1
Distribucni funkce N(µ,σ2
)
Obrázek 1: Ukázky hustot a distribučních funkcí pro různé hodnoty parametrů µ a σ2.
přičemž:
(a) σ2
je známé, tj. θ1 = µ. Pak hustota f(x) je regulární (viz body (1) až (5)):
(1) Množina Θ1 = (−∞, ∞) je neprázdná otevřená množina.
(2) Množina M = {x ∈ R : f(x) > 0} je (−∞, ∞) a nezávisí na µ ∈ Θ1.
(3) Pro každé y ∈ M existuje konečná derivace
f′
µ(x) = d f(x)
d µ
= f(x)x−µ
σ2 ⇒ U1 = X−µ
σ2 .
(4) Pro všechna µ ∈ Θ1 platí
EU1 =
∞
−∞
f′
µ(x)
f(x)
f(x)dx =
∞
−∞
f′
µ(x)dx = 1
σ2
∞
−∞
(x − µ)f(x)dx
0
= 0.
32 M4122 Pravděpodobnost a statistika II
(5) Pro všechna µ ∈ R je integrál J11 konečný a kladný
J(µ) = J11 = EU2
1 =
∞
−∞
f′
µ(x)
f(x)
2
f(x)dx =
∞
−∞
(f′
µ(x))
2
f(x)
dx
= 1
σ4
∞
−∞
(x − µ)2
f(x)dx
DX=σ2
= 1
σ2 > 0.
(b) µ je známé, tj. θ2 = σ2
. Pak hustota f(x) je regulární (viz body (1) až (5)):
(1) Množina Θ2 = (0, ∞) je neprázdná otevřená množina.
(2) Množina M = {x ∈ R : f(x) > 0} je (−∞, ∞) a nezávisí na σ2
∈ Θ2.
(3) Pro každé x ∈ M existuje konečná derivace
f′
σ2 (x) = d f(x)
d σ2 = f(x)(x−µ)2−σ2
2σ4 ⇒ U2 = (X−µ)2−σ2
2σ4 .
(4) Pro všechna σ2
∈ Θ2 platí
EU2 =
∞
−∞
f′
σ2 (x)
f(x)
f(x)dx =
∞
−∞
f′
σ2 (x)dx =
∞
−∞
f(x)(x−µ)2−σ2
2σ4 dx = 0.
(5) Pro všechna σ2
∈ Θ2 je integrál J22 konečný a kladný
J(σ2
) = J22 = EU2
2 =
∞
−∞
f′
σ2 (x)
f(x)
2
f(x)dx = 1
4σ8
∞
−∞
(x − µ)2
− σ2 2
f(x)dx
= 1
4σ8
∞
−∞
(x−µ)4
f(x)dx
µ4=3σ4
−2σ2
4σ8
∞
−∞
(x−µ)2
f(x)dx
σ2
+ σ4
4σ8
∞
−∞
f(x)dx
1
= 1
2σ4 > 0
−0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 1.2
−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
µ=y=0.32729
U
1
=(Y−µ)/σ
2
(σ
2
=1)
µ
Y ∼ N(µ,σ
2
)
0.2 0.4 0.6 0.8 1
−1.5
−1
−0.5
0
0.5
1
1.5
2
2.5
σ2
1
=(y−µ)2
=0.10712
U
2
=0.5[(Y−µ)
2
−σ
2
]/σ
4
(µ=0)
σ2
Obrázek 2: Ukázky skórových funkcí U1 (resp. U2) pro N(µ, σ2) při známém σ2 (resp. µ).
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 33
(c) θ = (θ1, θ2)′
= (µ, σ2
)′
. Pak hustota f(x) je regulární (viz body (1) až (5)).
(1) Množina Θ = Θ1 × Θ2 = (−∞, ∞) × (0, ∞) je neprázdná otevřená množina.
(2) Množina M = {x ∈ R : f(x) > 0} je (−∞, ∞) a nezávisí na θ ∈ Θ.
(3) Pro každé x ∈ M existují konečné derivace f′
µ(x), f′
σ2 (x) (viz předchozí dva případy).
(4) Pro všechna θ = (θ1, θ2)′
= (µ, σ2
)′
∈ Θ platí EU1 = EU2 = 0 (viz předchozí dva
případy) a skórový vektor je roven
U = X−µ
σ2 , (X−µ)2−σ2
2σ4
′
.
−0.5
0
0.5
1
0.2
0.4
0.6
0.8
1
−15
−10
−5
0
5
10
15
µ
U
1
=(Y−µ)/σ
2
σ
2
Y ∼ N(µ,σ2
)
−0.5
0
0.5
1
0.2
0.4
0.6
0.8
1
−20
0
20
40
60
80
µ
U
2
=0.5[(Y−µ)
2
−σ
2
]/σ
4
σ
2
Obrázek 3: Ukázky skórových funkcí U1 a U2 pro N(µ, σ2) při neznámém σ2 a µ.
(5) Pro všechna θ = (θ1, θ2)′
= (µ, σ2
)′
∈ Θ jsou integrály J11, J22 a J12 = J21 konečné,
přičemž
J(µ, σ2
) = J12 =
∞
−∞
f′
µ(x)
f(x)
f′
σ2 (x)
f(x)
f(x)dx
= 1
2σ6
∞
−∞
(x − µ) (x − µ)2
− σ2
f(x)dx
= 1
2σ6
∞
−∞
(x−µ)3
f(x)dx
µ3=0
− 1
2σ4
∞
−∞
(x−µ)f(x)dx
0
= 0
a Fisherova informační matice pro vektor parametrů θ = (θ1, θ2)′
= (µ, σ2
)′
je rovna
J(µ, σ2
) =
1
σ2 0
0 1
2σ4
a je pozitivně deﬁnitní.
34 M4122 Pravděpodobnost a statistika II
Příklad 4.8. WEIBULLOVO 3-PARAMETRICKÉ EXPONENCIÁLNÍ ROZDĚLENÍ
Wb(γ, θ, δ) A REGULARITA. Mějme náhodnou veličinu X s hustotou
f(x; γ, θ, δ) =
γ
δ
x−θ
δ
γ−1
exp − x−θ
δ
γ
x > θ, θ ∈ R, γ > 0, δ > 0
0 jinak.
Zřejmě nejde o regulární systém hustot, neboť množina M, což je deﬁniční obor náhodné
veličiny, je závislý na parametru θ.
Příklad 4.9. NORMÁLNÍ ROZDĚLENÍ A VYDATNÉ ODHADY. Mějme náhodnou
veličinu X s normálním rozdělením
X ∼ N(µ, σ2
) ∼ f(x) =
1
√
2πσ2
exp −
1
2σ2
(x − µ)2
x ∈ R
a náhodný výběr Xn = (X1, . . . , Xn)′
z téhož rozdělení, přičemž:
(a) σ2
je známé, tj. θ1 = µ.
(1) Skórová funkce náhodného výběru (viz příklad 4.7):
U∗
1 (µ) =
n
i=1
Xi − µ
σ2
.
(2) Fisherova informace o parametru µ z náhodného výběru (viz příklad 4.7 a důkaz
věty 4.5):
J∗
n(µ) = nJ(µ) = nJ11 =
n
σ2
.
(3) Uvažujme parametrickou funkci
γ(µ) = µ
a výběrový průměr, tj. statistiku
Tn(X) = ¯X =
1
n
n
i=1
Xi.
(i) Platí
E ¯X = µ,
tj. ¯X je nestranným odhadem parametru µ a
D ¯X =
σ2
n
.
(ii) ¯X je regulárním odhadem parametrické funkce γ(µ) = µ, přičemž
γ′
µ(µ) = 1,
neboť ¯X je nestranným odhadem parametru µ a platí
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 35
E ¯XU∗
1 (µ) =
1
nσ2
E
n
i=1
Xi
n
i=1
Xi − nµ
=
1
nσ2
n
i=1
EX2
i
σ2+µ2
+
2
nσ2
n−1
i=1
n
j=i+1
E(XiXj)
µ2(nez.)
−
nµ2
σ2
=
σ2
+ µ2
σ2
+
n(n − 1)
nσ2
µ2
−
nµ2
σ2
= 1 = γ′
µ(µ).
(iii) ¯X je vydatným odhadem µ, neboť dolní Raova-Cramerova hranice
Cn(µ) =
γ′
µ(µ)
2
Jn(µ)
=
1
n
σ2
=
σ2
n
= D ¯X.
(b) µ je známé, tj. θ2 = σ2
.
(1) Skórová funkce náhodného výběru (viz příklad 4.7):
U∗
2 (σ2
) =
n
i=1
(Xi − µ)2
− σ2
2σ4
=
1
2σ4
n
i=1


(Xi − µ)2
označme Zi
−σ2



=
1
2σ4
n
i=1
Zi −
1
2σ2
.
(2) Fisherova informace o parametru
γ(σ2
) = σ2
z náhodného výběru (viz příklad 4.7 a důkaz věty 4.5):
J∗
n(σ2
) = nJ(σ2
) =
n
2σ4
.
(3) Uvažujme parametrickou funkci
γ(σ2
) = σ2
a výběrový rozptyl, tj. statistiku
Tn(Y) = S2
=
1
n − 1
n
i=1
(Xi − ¯X)2
=
1
n − 1



n
i=1
(Xi − µ)2
označme Zi
−n( ¯X − µ)2



=
1
n − 1
n
i=1
Zi − n( ¯X − µ)2
.
36 M4122 Pravděpodobnost a statistika II
Počítejme
EZi =DYi = σ2
DZi =EZ2
i − (EZi)2
= µ4 − σ4
= 2σ4
C(Zi, Zj) =E(ZiZj) − E(Zi)E(Zj)
σ4
= 0 ⇒ E(ZiZj) = σ4
pro i = j.
Pak
(i) Snadno lze ukázat, že platí
ES2
= σ2
,
tj. S2
je nestranným odhadem parametru σ2
. Dále obecně pro výběrový
rozptyl platí:
DS2
=
µ4
n
−
n − 3
n(n − 1)
σ4
a protože v případě normálního rozdělení máme
µ4 = 3σ4
,
dostáváme
DS2
=
3σ4
n
−
n − 3
n(n − 1)
σ4
=
σ4
[3(n − 1) − (n − 3)]
n(n − 1)
=
2σ4
n − 1
.
(ii) S2
je regulárním odhadem parametrické funkce γ(σ2
) = σ2
, přičemž
γ′
σ2 (σ2
) = 1,
neboť je nestranným odhadem a platí
E S2
U∗
2 (σ2
) =
1
2(n − 1)σ4
E
n
i=1
Zi − n( ¯X − µ)2
n
i=1
Zi − nσ2
=
1
2(n − 1)σ4
n
i=1
EZ2
i
µ4=3σ4
+2
n−1
i=1
n
j=i+1
E(ZiZj)
σ4
− n
n
i=1
E Zi( ¯X − µ)2
(n+2)σ4
n2
− nσ2
n
i=1
EZi
σ2
+n2
σ2
E( ¯X − µ)2
D ¯X= σ2
n
=
3nσ4
+ n(n − 1)σ4
− (n + 2)σ4
− n2
σ4
+ nσ4
2(n − 1)σ4
= 1 = γ′
σ2 (σ2
),
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 37
přičemž platí
E Zi(¯Y − µ)2
= E Zi
1
n
n
i=1
(Xi − µ)
1
n
n
i=1
(Xi − µ)
=
1
n2
EZ2
i
3σ4
+
n
i=j=1
E(ZiZj)
σ4
+
n
i=j=1
n
i=j=k=1
E Zi(Xj − µ)(Xk − µ)
0
=
1
n2
3σ4
+ (n − 1)σ4
=
(n + 2)σ4
n2
.
(iii) S2
je asymptoticky vydatným odhadem σ2
, neboť dolní Raova-Cramerova
hranice je rovna
Cn(σ2
) =
γ′
σ2 (σ2
)
2
Jn(σ2)
=
1
n
2σ4
=
2σ4
n
< DS2
=
2σ4
n − 1
a
lim
n→∞
Cn(σ2
)
DS2
= 1.
KAPITOLA 3
Konstrukce bodových odhadů
Mějme náhodný výběr X = (X1, . . . , Xn)′
rozsahu n z rozdělení o distribuční funkci
F(x; θ), kde θ = (θ1, . . . , θm)′
∈ Θ ⊂ Rm
. Množina Θ nechť je neprázdná a otevřená.
Budeme předpokládat, že distribuční funkci F(x; θ) lze vyjádřit ve tvaru
F(x; θ) =
x
−∞
f(t; θ)dν(t) x ∈ R θ = (θ1, . . . , θm)′
∈ Θ,
kde ν je σ−konečná míra na (R, B) (např. Lebesgueova nebo čitací) a f(x; θ) je nezáporná
měřitelná funkce, tzv. hustota pravděpodobnosti (vzhledem k míře ν).
Pak sdružená hustota náhodného vektoru Xn = (X1, . . . , Xn)′
je vzhledem k nezávislosti
jednotlivých složek vektoru a jejich stejnému rozdělení rovna
fX(x1, . . . , xn; θ) =
n
i=1
f(xi; θ).
Mějme dále parametrickou funkcí
γ : Θ → R.
Předmětem našeho zájmu bude hodnota parametru θ nebo, obecněji, hodnota některé parametrické
funkce γ(θ).
1. Metoda momentů
Předpokládejme, že pro náhodný výběr existují obecné momenty:
µ′
k = µ′
k(θ) = EXk
i i = 1, . . . , n k = 1, . . . , m.
Výběrové obecné momenty jsou deﬁnovány vzorcem
M′
k = 1
n
n
i=1 Xk
i k = 1, 2, . . .
Momentová metoda odhadu parametru θ spočívá v tom, že za odhad ˜θ vezmeme řešení
rovnic
M′
k = µ′
k(θ) k = 1, . . . , m.
a nazveme je odhadem metodou momentů.
Někdy se může stát, že m rovnic nepostačuje k jednoznačnému určení ˜θ, pak se většinou
připojují další rovnice
M′
k = µ′
k(θ) pro k = m + 1, m + 2
atd., až se získá potřebný počet rovnic. To samozřejmě lze provádět jen za předpokladu, že
existují příslušné momenty µ′
k.
Odhadem dané parametrické funkce γ(θ) metodou momentů rozumíme statistiku
γ = γ(θ) .
39
40 M4122 Pravděpodobnost a statistika II
Odhady získané metodou momentů obvykle nejsou dostatečně kvalitní, v jednotlivých
konkrétních případech zpravidla lze dokázat konzistenci odhadů.
Příklad 1.1. Mějme náhodný výběr X = (X1, . . . , Xn)′
rozsahu n z normálního rozdělení
o parametrech µ a σ2
, které odhadneme momentovou metodou.
Pak
θ = (θ1, θ2)′
= (µ, σ2
)′
,
tj. m = 2 a Θ = R × (0, ∞).
Snadno lze spočítat, že
µ′
1 =
∞
−∞
x
1
√
2πσ
e− 1
2 (x−µ
σ )
2
dx = µ
µ′
2 =
∞
−∞
x2 1
√
2πσ
e− 1
2 (x−µ
σ )
2
dx = µ2
+ σ2
.
Výběrové obecné momenty jsou rovny
M′
1 = 1
n
n
i=1
Xi = ¯X
M′
2 = 1
n
n
i=1
X2
i .
Chceme-li najít odhady momentovou metodou, musíme řešit soustavu rovnic:
M′
1 = µ
M′
2 = µ2
+ σ2
Z první rovnice ihned dostaneme
µ = ¯X,
což dosadíme do druhé rovnice a počítáme
σ2
= M′
2 − ¯X2
= 1
n
n
i=1
X2
i − ¯X2
=
1
n
n
i=1
X2
i − n ¯X2
=(n−1)S2
= n−1
n
S2
,
kde
S2
= 1
n−1
n
i=1
(Xi − ¯X)2
je výběrový rozptyl.
Protože
Eθ(µ) = Eθ
¯X = µ,
vidíme, že že odhad µ je nestranný, avšak
Eθ(˜σ2
) = E n−1
n
S2
= n−1
n
σ2
,
takže σ2
není nestranný, avšak je asymptoticky nestranný.
Lze ukázat, že oba odhady jsou konzistentní (slabě i silně).
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 41
2. Metoda maximální věrohodnosti
Označme sdruženou hustotu pravděpodobnosti náhodného vektoru X takto
L(θ; x1, . . . , xn) = L(θ1, . . . , θm; x1, . . . , xn) =
n
i=1
f(xi; θ)
a nazveme ji věrohodnostní funkcí náhodného výběru.
Odhad θMLE nazveme maximálně věrohodným, jestliže pro každé θ ∈ Θ platí
L(θMLE; x1, . . . , xn) ≥ L(θ; x1, . . . , xn) .
Zpravidla je vhodnější pracovat s logaritmem funkce L. Pak za předpokladů známých z diferenciálního
počtu vede hledání maximálně věrohodného odhadu ˆθ k řešení rovnic
∂
∂θj
ln L(θ1, . . . , θm; x1, . . . , xn) = ∂
∂θj
l(θ; x) = ∂
∂θj
n
i=1
ln f(xi; θ1, . . . , θm) = 0 j = 1, . . . , m
které jsou ve statistické literatuře známé pod názvem soustava věrohodnostních rovnic.
Příklad 2.1. Mějme náhodný výběr X = (X1, . . . , Xn)′
rozsahu n z binomického rozdělení
o parametrech m a π. Parametr π odhadneme metodou maximální věrohodnosti.
Pro náhodný výběr z binomického rozdělení platí
{X1, . . . , Xn} ≃ Bi(m, π) ∼ p(x) =
m
x
πx
(1 − π)m−x
x = 0, 1, . . . , m,
0 jinak.
Věrohodnostní funkce:
L(π; X1, . . . , Xn) =
n
i=1
m
Xi
πXi
(1 − π)m−Xi
= π
n
i=1 Xi
(1 − π)nm− n
i=1 Xi
n
i=1
m
Xi
= πn ¯X
(1 − π)n(m− ¯X)
n
i=1
m
Xi
.
Logaritmus věrohodnostní funkce:
l(π; X1, . . . , Xn) =
n
i=1
ln
m
Xi
+ n ¯X ln π + n(m − ¯X) ln(1 − π)
Věrohodnostní rovnice:
∂l
∂π
= 1
π
n ¯X − 1
1−π
n(m − ¯X) = 0 ⇒ πMLE =
¯X
m
.
Vzhledem k tomu, že nepředpokládáme degenerované binomické rozdělení s nulovým rozptylem,
takže s pravděpodobností 1 musí platit
0 < ¯X < m,
pak snadno ověříme, že jde o maximum, neboť pokud spočítáme druhé parciální derivace
∂2
∂2π
l(π; X1, . . . , Xn) = − 1
π2 n ¯X − 1
(1−π)2 n(m − ¯X) = −n
¯X
π2 + m− ¯X
(1−π)2 < 0.
42 M4122 Pravděpodobnost a statistika II
Příklad 2.2. Mějme náhodný výběr X = (X1, . . . , Xn)′
rozsahu n z normálního rozdělení
o parametrech µ a σ2
. Tyto parametry odhadneme metodou maximální věrohodnosti.
Opět θ = (θ1, θ2)′
= (µ, σ2
)′
, tj. m = 2 a Θ = R × (0, ∞).
Pak
L(θ; X1, . . . , Xn) = L(µ, σ2
; X1, . . . , Xn) =
n
i=1
1√
2πσ
e− 1
2 (Xi−µ
σ )
2
= (2πσ2
)− n
2 e− 1
2σ2
n
i=1(Xi−µ)2
ln L(µ, σ2
; X1, . . . , Xn) = l(µ, σ2
; X1, . . . , Xn) = −n
2
ln(2πσ2
) − 1
2σ2
n
i=1
(Xi − µ)2
.
Vyjádřeme věrohodnostní rovnice
∂ ln L
∂σ2 = −n
2
1
2πσ2 2π + 1
2σ4
n
i=1
(Xi − µ)2
= 0
∂ ln L
∂µ
= 1
2σ2
n
i=1
2(Xi − µ) = 0
Z druhé rovnice plyne, že
µMLE = 1
n
n
i=1
Xi = ¯X . . . výběrový průměr
Po dosazení do první věrohodnostní rovnice dostaneme
−nσ2
+
n
i=1
(Xi − ¯X)2
= 0 ⇒ σ2
MLE = 1
n
n
i=1
(Xi − ¯X)2
= n−1
n
S2
= S∗2
,
kde
S2
= 1
n−1
n
i=1
(Xi − ¯X)2
je výběrový rozptyl.
Upravme nejprve logaritmus věrohodnostní funkce takto:
l(µ, σ2
; X1, . . . , Xn) = −n
2
ln(2π) − n
2
ln(σ2
) − 1
2σ2
n
i=1
(Xi − ¯X) + ( ¯X − µ)
2
= −n
2
ln(2π) −
n
2
ln(σ2
) − 1
2σ2
n
i=1
(Xi − ¯X)2
+ n( ¯X − µ)2
= −n
2
ln(2π) − n
2
ln(σ2
) − 1
2σ2 nS∗2
+ n( ¯X − µ)2
.
Nyní dokažme, že funkce l(µ, σ2
; X1, . . . , Xn) nabývá pro jakoukoliv realizaci
x1 = X1(ω), . . . , xn = Xn(ω) pro každé ω ∈ Ω
v bodě (µMLE, σ2
MLE) = (¯x, s∗2
) svého maxima, takže po dosazení dostáváme
l(¯x, s∗2
; x1, . . . , xn) = −n
2
ln(2π) − n
2
ln(s∗2
) − n
2
.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 43
Ověřme, zda platí
l(µ, σ2
; x1, . . . , xn)
?
≤ l(¯x, s∗2
; x1, . . . , xn)
−n
2
ln(2π) − n
2
ln(σ2
) − ns∗2+n(¯x−µ)2
2σ2
?
≤ −n
2
ln(2π) − n
2
ln(s∗2
) − n
2
0
?
≤ s∗2
2σ2 − 1
2
− ln s∗
σ
1. člen
+ (¯x−µ)2
2σ2
≥0
Protože pro všechna kladná
t = s∗
σ
> 0
platí
ln t < t2−1
2
,
je první i druhý člen nezáporný a nerovnost platí.
0 1 2 3 4
−6
−4
−2
0
2
4
6
8
t2−1
2
ln t
Protože
Eθ(µMLE) = Eθ
¯X = µ,
ale
Eθ(ˆσ2
MLE) = Eθ
n−1
n
S2
= n−1
n
σ2
,
vidíme že odhad µMLE je nestranný, avšak σ2
MLE již nestranný není (ale asymptoticky
nestranný).
V tomto případě jsme došli ke stejnému výsledku jako u momentové metody.
Poznámka 2.3. Maximálně věrohodné odhady mají řadu výhodných vlastností:
(1) Existuje-li vydatný (eﬁcientní) odhad, má soustava věrohodnostních rovnic jediné
řešení a to je rovné vydatnému (eﬁcientnímu) odhadu.
(2) Existuje-li postačující (suﬁcientní) odhad, je každé řešení věrohodnostních
rovnic funkcí postačujícího (suﬁcientního) odhadu.
(3) Pochází-li náhodný výběr z regulárního rozdělení, pak existuje maximálně věrohodný
odhad, který je konzistentní a asymptoticky normální, tj. v jednorozměrném
případě
θMLE
A
∼ N(θ, nJ(θ)).
Poznámka 2.4. (Srovnání metody momentů s metodou maximální věrohodnosti)
Obecně se dá říci, že momentová metoda je poměrně jednoduchá. Používá se zejména v těch
případech, kdy jiné metody odhadu jsou numericky či z jiných důvodů těžko zvládnutelné.
Na druhé straně pokud jde o rozdělení, která nemají konečné momenty, pak se tato metoda
nedá aplikovat vůbec. Někdy se odhady pořízené momentovou metodou berou alespoň jako
počáteční aproximace pro řešení věrohodnostních rovnic, pokud je pro jejich řešení nutný
iterační postup.
44 M4122 Pravděpodobnost a statistika II
3. Metoda minimálního χ2
Nejprve si připomeňme jedno velmi důležité vícerozměrné diskrétní rozdělení, a to mul-
tinomické.
Multinomické rozdělení popisuje situaci, kdy máme k neslučitelných jevů, které mohou
nastat v každém z n nezávislých pokusů s pravděpodobnostmi
π1, . . . , πk přičemž
k
j=1
πj = 1.
Nechť náhodná veličina Yj značí počet případů, kdy nastal j-tý jev, takže Yj může nabývat
hodnot od nuly do n a musí platit
k
j=1
Yj = n.
Náhodný vektor Y = (Y1, . . . , Yk)′
pak má multinomické rozdělení s pravděpodobnostní
funkcí
fY(y) =



n!
k
j=1
π
yj
j
yj!
pro yj = 0, 1, . . . , n;
k
j=1
yj = n
k
j=1
πj = 1
0 jinak
,
což lze ekvivalentně napsat i takto
fY(y) =
n!
π
y1
1 · ··· ·π
yk−1
k−1 (1−π1−···−πk−1)(n−y1−···−yk−1)
y1!· ··· ·yk−1!(n−y1−···−yk−1)!
pro yj = 0, 1, . . . , n
0 jinak.
a značíme
Y ∼ Mn(n, π1, . . . , πk) ,
přičemž platí pro j, h = 1, . . . , k
EYj =nπj
DYj =nπj(1 − πj)
C(Yj, Yh) = − nπjπh.
Multinomické rozdělení je zobecněním binomického rozdělení a je patrně nejdůležitějším
diskrétním mnohorozměrným rozdělením. Svým významem by se dalo přirovnat k mnohorozměrnému
normálnímu rozdělení, jemuž se podobá především díky dvěma vlastnostem:
podmíněná i marginální rozdělení jsou opět multinomická.
Nyní se opět vrátíme k náhodnému výběru X = (X1, . . . , Xn)′
rozsahu n z rozdělení
o distribuční funkci F(x; θ), kde θ = (θ1, . . . , θm)′
∈ Θ ⊂ Rm
.
Při odhadu neznámého parametru θ metodou minimálního χ2
na základě náhodného
výběru X = (X1, . . . , Xn)′
postupujeme tak, že
(1) rozdělí se interval (−∞, ∞) na konečný počet pod dvou disjunktních podmnožin
B1, . . . , Bk (pokud nejde o výběr z diskrétního rozdělení, které nabývá pouze konečného
počtu hodnot)
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 45
(2) určí se pravděpodobnosti
pj(θ) =
Bj
dF(x; θ)
jako funkce parametru θ
(3) pro danou realizaci náhodného výběru se určí bod θ, v němž funkce
χ2
(θ) =
k
j=1
Yj − npj(θ)
npj(θ)
2
nabývá minima, přičemž
Yj =
n
i=1
I(Xi ∈ Bj)
je počet bodů X1, . . . , Xn ležících v Bj (samozřejmě musí platit k
j=1 Yj = n).
Pokud je tato funkce diferencovatelná, hledání minima vede na řešení soustavy rovnic
−
1
2
∂χ2
(θ)
∂θh
=
k
j=1
Yj − npj(θ)
pj(θ)
+
[Yj − npj(θ)]2
2np2
j (θ)
∂pj(θ)
∂θh
= 0 (h = 1, . . . , k) (12)
vzhledem k neznámým θ1, . . . , θk. Avšak i v nejjedodušších případech je velmi obtížné
řešit systém rovnice (12). Potíže způsobuje člen
[Yj − npj(θ)]2
2np2
j (θ)
.
Pro velká n je však vliv tohoto členu zanedbatelný, a proto se řešení soustavy (12)
nahrazuje řešením soustavy
k
j=1
Yj − npj(θ)
pj(θ)
∂pj(θ)
∂θh
= 0 (h = 1, . . . , k) (13)
Tento postup se nazývá modiﬁkovanou metodou minimálního χ2
.
Odhady získané oběma metodami jsou při dosti obecných podmínkách konzistentními
odhady.
KAPITOLA 4
Intervalové odhady
1. Deﬁnice intervalového odhadu
Odhady, jimiž jsme se doposud zabývali, se někdy nazývají bodové odhady parametrické
funkce γ(θ).
Je tomu tak proto, že pro danou realizaci náhodného výběru x1, . . . , xn představuje odhad
daný statistikou Tn(x1, . . . , xn) jediné číslo (bod), které je v jistém smyslu přiblížením
ke skutečné hodnotě parametrické funkce γ(θ).
Úlohu odhadu však lze formulovat i jiným způsobem. Jde o to, sestrojit na základě daného
náhodného výběru takový interval, jehož konce jsou statistiky, a který se s dostatečně
velkou přesností pokryje skutečnou hodnotu parametrické funkce γ(θ). V tomto případě
mluvíme o intervalovém odhadu parametrické funkce γ(θ).
Podobná je úloha zkonstruovat na základě náhodného výběru statistiku, o níž lze s dostatečně
velkou spolehlivostí prohlásit, že skutečná hodnota parametrické funkce je větší
než tato statistika. V tomto případě mluvíme o dolním odhadu parametrické funkce γ(θ).
Analogicky lze zavést pomocí opačné nerovnosti pojem horního odhadu γ(θ).
Definice 1.1. Nechť {X1, . . . , Xn} ≃ F(x; θ) je náhodný výběr rozsahu n z rozdělení
o distribuční funkci F(x; θ), θ ∈ Θ. Dále mějme parametrickou funkci γ(θ), α ∈ (0, 1) a
statistiky D = D(X1, . . . , Xn) a H = H(X1, . . . , Xn).
Potom intervaly D, H nazveme 100(1 − α) % intervalem spolehlivosti pro parametrickou
funkci γ(θ) jestliže
Pθ(D(X1, . . . , Xn) ≤ γ(θ) ≤ H(X1, . . . , Xn)) = 1 − α
Jestliže
Pθ(D(X1, . . . , Xn) ≤ γ(θ)) = 1 − α,
pak statistiku D = D(X1, . . . , Xn) nazýváme dolním odhadem parametrické funkce
γ(θ) se spolehlivostí 1 − α (nebo s rizikem α).
Jestliže
Pθ(γ(θ) ≤ H(X1, . . . , Xn)) = 1 − α
pak statistiku H = H(X1, . . . , Xn) nazýváme horním odhadem parametrické funkce
γ(θ) se spolehlivostí 1 − α (nebo s rizikem α).
Poznámka 1.2. Vysvětleme si nyní smysl pojmu spolehlivost intervalových odhadů.
Konkrétní data x1, . . . , xn (tj. realizace náhodného výběru X = (X1, . . . , Xn)′
) nejsou
náhodnými veličinami, nýbrž jsou to výsledky určitého pokusu ω, tj.
x1 = X1(ω), . . . , xn = Xn(ω).
Sestrojíme-li tedy na jejich základě intervalový odhad, řekněme (a, b), parametrické
funkce γ(θ), pak nemá smysl mluvit o pravděpodobnosti P(a < γ(θ) < b), protože všechny
47
48 M4122 Pravděpodobnost a statistika II
tři symboly jsou reálná čísla (třebaže γ(θ) neznáme) a nerovnost a < γ(θ) < b buď platí
nebo neplatí, tj. náš intervalový odhad je buď správný nebo nesprávný.
Budeme-li však sestrojovat intervalové odhady vícekrát po sobě, pak poměrná četnost
případů, kdy intervalový odhad bude správný, bude přibližně rovna 1 − α.
Číslo α se volí poměrně malé, nejčastěji
0.05 spolehlivost je pak 0.95 tj. 95%
0.01 0.99 tj. 99%
Kromě dostatečné spolehlivosti bychom chtěli, aby interval Dn(X), Tn(X) byl co možná
nejkratší.
Tyto požadavky jsou však (při pevném rozsahu výběru n) protichůdné. Žádáme-li větší
spolehlivost, musíme se smířit s delším intervalem; žádáme-li naopak kratší interval, musíme
se smířit s nižší spolehlivostí.
2. Kvantily
Nyní deﬁnujme kvantilovou funkci a kvantil.
Definice 2.1. Nechť F je distribuční funkcí a α ∈ (0, 1). Potom funkci
F−1
(α) = Q(α) = inf{x ∈ R : F(x) ≥ α}
se nazývá kvantilová funkce a číslo
xα = Q(α)
se nazývá α-kvantilem rozdělení s distribuční funkcí F(x), přičemž
x0.25 = Q(0.25) se nazývá dolní kvartil
x0.5 = Q(0.5) medián
x0.75 = Q(0.75) horní kvartil
x0.75 − x0.25 = IQR interkvartilové rozpětí
Z deﬁnice kvantilů vyplývá následující vztah. Je-li X absolutně spojitá náhodná veličina,
pak platí
P(xα/2 < X ≤ x1−α/2) = F(x1−α/2) − F(xα/2) = 1 − α
Příklad 2.2. Kvantilová funkce diskrétního rozdělení
Uvažujme diskrétní rozdělení, ve kterém náhodná veličina X nabývá pouze tří hodnot
0, 1
2
a 1 se stejnými pravděpodobnostmi.
Toto rozdělení nazveme rovnoměrně diskrétní a budeme značit Rd 0, 1
2
, 1 , takže
pravděpodobnostní, distribuční a kvantilová funkce jsou tvaru
✻
✲
Pravděpodobnostní funkce
X ∼ Rd 0, 1
2
, 1
p(x) =
1
3
x = 0, 1
2
, 1
0 jinak.
1
3
r
0
r
1
2
r
1
✻
✲
Distribuční funkce
F(x)
1
3
2
3
1
0 1
2 1
r
r
r ✻
✲
Kvantilová funkce
Q(α)
1
2
1
0 1
3
2
3 1
r
r
r
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 49
Příklad 2.3. Kvantilová funkce spojitého rozdělení
Uvažujme spojité exponenciální rozdělení s parametrem λ > 0, značíme Ex(λ). Náhodná
veličina X nabývá pouze nezáporných hodnot a její hustota je tvaru
X ∼ Ex(λ) ∼ f(x) =
λe−λx
x ≥ 0, λ > 0
0 jinak.
Odvodíme distribuční funkci
F(x) =
x
−∞
f(t)dt =
0 x < 0,
x
0
λe−λt
dt = −e−λt x
0
= 1 − e−λx
x ≥ 0.
a kvantilovou funkci pro 0 ≤ α ≤ 1
α = 1 − e−λx
e−λx
= 1 − α
−λx = ln(1 − α)
x = − ln(1−α)
λ
⇒ Q(α) =
− ln(1 − α)
λ
pro 0 ≤ α ≤ 1.
Hustota f(x) pro λ = 0.2
0 10 20 30 40
0
0.05
0.1
0.15
0.2
Distribuční funkce F(x)
0 10 20 30 40
0
0.2
0.4
0.6
0.8
1
Kvantilová funkce Q(α)
0 0.2 0.4 0.6 0.8 1
0
5
10
15
20
25
30
35
Na závěr tohoto příkladu ještě nalezneme dolní, horní kvartil a medián.
Medián: x0.5 =
− ln 1−
1
2
λ
= ln 2
λ
Dolní kvartil: x0.25 =
− ln 1−
1
4
λ
=
ln 4
3
λ
Horní kvartil: x0.75 =
− ln 1−
3
4
λ
= ln 4
λ
2.1. Kvantily některých důležitých rozdělení. Zaveďme následující značení:
Φ distribuční funkce standardizovaného normálního rozdělení
Gn distribuční funkce rozdělení χ2
o n stupních volnosti
Hn distribuční funkce Studentova rozdělení o n stupních volnosti
Qn,m distribuční funkce Fisherova-Snedecorova rozdělení o n a m stupních volnosti
uα kvantily standardizovaného normálního rozdělení
χ2
α(ν) kvantily rozdělení χ2
o ν stupních volnosti
tα(ν) kvantily Studentova rozdělení o ν stupních volnosti
Fα(ν1, ν2) kvantily Fisherova-Snedecorova rozdělení o ν1 a ν2 stupních volnosti
Je-li distribuční funkce F absolutně spojitá a ryze monotónní a je-li příslušná hustota
f sudá funkce, pak platí
F(x) = 1 − F(−x) x ∈ R
a odtud
xα = −x1−α α ∈ (0, 1),
což speciálně platí pro normální a Studentovo rozdělení.
50 M4122 Pravděpodobnost a statistika II
2.2. Krabicový graf (box plot, box and whisker plot). Velmi často užívaným
grafem, který se řadí k metodám průzkumové analýzy dat (EDA - Exploratory Data
Analysis)
medián
x0.5
dolní kvartil
x0.25
IQR
horní kvartil
x0.75
odlehlá pozorování
x0.75 + 1.5 IQR
2.3. Empirická (výběrová) kvantilová funkce.
Je deﬁnována pomocí náhodného výběru
{X1, . . . , Xn}
takto
Qemp(pi) = X(i) pro pi =
i− 1
2
n
,
kde
X(1) ≤ X(2) ≤ · · · ≤ X(n)
jsou tzv. pořádkové statistiky, tj. uspořádaný
náhodný výběr.
0 0.2 0.4 0.6 0.8 1
0
5
10
15
20
25
30
35
Teoretická a empirická kvantilová funkce
exponenciálního rozdělení
2.4. Q–Q grafy (Q–Q plots, Quantile–quantile plots). Velmi užitečný graf, pomocí
kterého můžeme např. porovnávat
• teoretické a výběrové kvantily
• kvantily dvou výběrů
Na následujících třech obrázcích budeme demonstrovat použití Q–Q grafů pro simulovaná
data z exponenciálního, Poissonova a normálního rozdělení.
Pokud jsou generovaná data ze stejné rodiny rozdělení, body leží zhruba na přímce a
platí
X(i) ≈ Q(pi) = F−1
(pi) pro X ∼ F(x) a Y(i) ≈ a + bQ(pi) pro Y ∼ F x−a
b
.
Pocházejí-li z různých rozdělení, část bodů leží výrazně mimo přímku.
Exponenciální rozdělení
0 5 10 15 20 25 30
0
5
10
15
20
25
30
výběrové kvantily dat z Ex(0.02)
teoretickékvantily
Poissonovo rozdělení
0 5 10 15 20
−2
0
2
4
6
8
10
12
výběrové kvantily 1. výběr Po(10)
výběrovékvantily2.výběrPo(5)
Exponenciální a normální
rozdělení
0 5 10 15 20 25 30
2
3
4
5
6
7
8
9
10
výběrové kvantily 1. výběr Ex(0.02)
výběrovékvantily2.výběrN(5,1)
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 51
3. Konstrukce intervalových odhadů
Popíšeme nyní jednu metodu konstrukce intervalových odhadů, která je použitelná ve
většině případů.
(1) Najdeme nějakou tzv. pivotovou statistiku, tj. funkci h náhodného výběru
X = (X1, . . . , Xn)′
a parametrické funkce γ(θ), tedy náhodnou veličinu
h(X, γ(θ)) ,
tak aby její rozdělení již nezáviselo na parametru θ.
(2) Nechť qα/2 a q1−α/2 jsou kvantily rozdělení statistiky
h(X, γ(θ)).
Pak pro všechna θ platí
Pθ(qα/2 < h(X, γ(θ)) ≤ q1−α/2) = 1 − α
(3) Jestliže lze nerovnosti v závorce převést ekvivalentními úpravami na tvar, kde mezi
nerovnostmi stojí jen γ(θ), pak jsme sestrojili intervalový odhad
Dn(X) ≤ γ(θ) ≤ Hn(X)
o spolehlivosti 1 − α.
Tedy, je-li h(X, γ(θ)) ryze monotónní funkce, pak existuje inverzní funkce
h−1
(h(X, γ(θ))) = γ(θ).
(a) Pokud je h(X, γ(θ)) rostoucí funkce, pak platí
Pθ(h−1
(qα/2) ≤ γ(θ) ≤ h−1
(q1−α/2) = 1 − α.
(b) Pokud je h(X, γ(θ)) klesající funkce, pak platí
Pθ(h−1
(q1−α/2) ≤ γ(θ) ≤ h−1
(qα/2) = 1 − α.
52 M4122 Pravděpodobnost a statistika II
4. Bodové a intervalové odhady parametrů normálního rozdělení
Nechť k, n ∈ N, ν, ν1, ν2, . . . , νk ∈ N, b0, b1, . . . , bn ∈ R, ∃ i ∈ {1, . . . , n} : bi = 0
Připomeňme, že platí:
Normální rozdělení:
s hustotou
X ∼ N(µ, σ2
) ∼ f(x) = 1√
2πσ
e− 1
2 (x−µ
σ )
2
x ∈ R
má střední hodnotu EX = µ a rozptyl DX = σ2
. Toto rozdělení má následující vlastnosti:
{X1, . . . , Xn} ∧ Xi ∼ N(µi, σ2
i ) ⇒ b0 +
n
i=1
biXi ∼ N b0 +
n
i=1
biµi,
n
i=1
b2
i σ2
i
X ∼ N(µ, σ2
) ⇒ U = X−µ
σ
∼ N(0, 1)
χ2
rozdělení:
{U1, . . . , Uν} ≃ N(0, 1) ⇒ K = U2
1 + · · · + U2
ν ∼ χ2
(ν)
{K1 ∼ χ2
(ν1), . . . , Kk ∼ χ2
(νk)} ⇒ K = K1 + · · · + Kk ∼ χ2
(ν1 + · · · + νk)
Studentovo t-rozdělení:
U ∼ N(0, 1) ⊥ K ∼ χ2
(ν) ⇒ T = U√K
ν
∼ t(ν)
Fisherovo-Snedecorovo F-rozdělení:
K1 ∼ χ2
(ν1) ⊥ K2 ∼ χ2
(ν2) ⇒ F = K1/ν1
K2/ν2
∼ F(ν1, ν2)
Ještě než začneme odvozovat rozdělení výběrových statistik, připomeňme si, že platí věty:
Věta 4.1. Nechť náhodný vektor
X = (X1, . . . , Xn)′
∼ Nn(µ, Σ)
má n−rozměrné normální rozdělení a B je regulární matice reálných čísel typu n × n a
a ∈ Rn
. Potom náhodný vektor
Y = a + BX ∼ Nn(a + Bµ, BΣB′
).
Důkaz. Hustota pravděpodobnosti náhodného vektoru X je tvaru
fX(x) = (2π)− n
2 |Σ|− 1
2 e− 1
2
(X−µ)′Σ−1
(X−µ)
.
Inverzní transformace k transformaci
Y = a + BX
je rovna
X = B−1
(Y − a)
a jakobián této inverzní transformace je tvaru
|J| = B−1
= |B|−1
.
Pak hustotu pravděpodobnosti transformované náhodného vektoru
Y = a + BX
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 53
lze vyjádřit takto
fY(y) = fX(B−1
(Y − a))|B|−1
= (2π)− n
2 |Σ|− 1
2 |B|−1
e− 1
2
[B−1(y−a)−µ]′Σ−1
[B−1(y−a)−µ]
= (2π)− n
2 |BΣB′
|− 1
2 e− 1
2
(y−a−Bµ)′[BΣB′]−1(y−a−Bµ)
∼ Nn(a + Bµ, BΣB′
)
Věta 4.2. Nechť X1, . . . , Xn jsou nezávislé náhodné veličiny takové, že
Xi ∼ N(µi, σ2
) i = 1, . . . , n.
a B je ortonormální matice typu n × n. Položme X = (X1, . . . , Xn)′
a
Y = (Y1, . . . , Yn)′
= B(X − µ),
kde µ = (µ1, . . . , µn)′
. Potom Yj jsou nezávislé náhodné veličiny a
Yj ∼ N(0, σ2
).
Důkaz. Protože X1, . . . , Xn jsou nezávislé náhodné veličiny s rozdělením Xi ∼ N(µi, σ2
),
má náhodný vektor X hustotu pravděpodobnosti
fX(x) =
n
i=1
1√
2πσ
e− 1
2 (xi−µi
σ )
2
= (2π)− n
2 e− 1
2
n
i=1(xi−µi
σ )
2
∼ Nn(µ, Σ), kde Σ = σ2
In.
Je-li B ortonormální matice (tj. B−1
= B′
), pak z věty 4.1 plyne, že náhodný vektor
Y = B(X − µ) ∼ Nn(0, BΣB′
), kde BΣB′
= σ2
BB′
= σ2
In
s hustotou pravděpodobnosti
fY(y) =
n
j=1
1√
2πσ
e− 1
2 (
yj
σ )
2
=
n
j=1
fYj
(yj).
Odtud plyne tvrzení věty.
Na základě těchto vlastností můžeme odvodit rozdělení výběrových statistik v případě
náhodných výběrů z normálního rozdělení.
Věta 4.3. Mějme {X1, . . . , Xn} ≃ N(µ, σ2
) a výběrový průměr ¯X = 1
n
n
i=1
Xi a výběrový
rozptyl S2
= 1
n−1
n
i=1
(Xi − ¯X)2
. Pak platí
(1) Výběrový průměr ¯X ∼ N µ, σ2
n
(2) Statistika U =
¯X−µ
σ
√
n ∼ N(0, 1)
(3) Statistika K = n−1
σ2 S2
∼ χ2
(n − 1)
(4) Statistika T =
¯X−µ
S
√
n ∼ t(n − 1)
Důkaz. Mějme ortonormální matici typu n × n, jejíž první řádek je 1√
n
, . . . , 1√
n
′
, tj. např.
B=











b′
1
b′
2
b′
3
...
b′
n−1
b′
n











=











1√
n
1√
n
· · · · · · · · · 1√
n
1√
1·2
− 1√
1·2
0 · · · · · · 0
1√
2·3
1√
2·3
− 2√
2·3
0 · · · 0
...
...
...
... ... 0
1√
(n−2)(n−1)
1√
(n−2)(n−1)
· · · 1√
(n−2)(n−1)
− n−2√
(n−2)(n−1)
0
1√
(n−1)n
1√
(n−1)n
· · · · · · 1√
(n−1)n
− n−1√
(n−1)n











.
54 M4122 Pravděpodobnost a statistika II
Podle věty 4.2
Y = (Y1, . . . , Yn)′
= B(X − µ) ∼ N(0, σ2
In)
a Yi jsou nezávislé normálně rozdělené náhodné veličiny s nulovou střední hodnotou a se stejným
rozptylem σ2
.
Nejprve dokážeme důležité vztahy
(a) Počítejme: Y′
Y = (X − µ)′
B′
B
=In
(X − µ) = (X − µ)′
(X − µ) =
n
i=1
(Xi − µ)2
.
(b) Vyjádřeme Y1 = b′
1(X − µ) = 1√
n
n
i=1
(Xi − µ) = 1√
n
(n ¯X − nµ) =
√
n( ¯X − µ).
(c) Nakonec spočítejme
n
i=1
(Xi − ¯X)2
=
n
i=1
[(Xi − µ) − ( ¯X − µ)]2
=
n
i=1
(Xi − µ)2
Y′Y
−2( ¯X − µ)
n
i=1
(Xi − µ)
n( ¯X−µ)
+n( ¯X − µ)2
= Y′
Y − n( ¯X − µ)2
Y 2
1
=
n
i=1
Y 2
i − Y 2
1 =
n
i=2
Y 2
i .
Nyní budeme dokazovat jednotlivá tvrzení věty:
(1) Ze vztahu (b) dostaneme
Y1 =
√
n( ¯X − µ) = b′
1(X − µ) ∼ N(µY1 , σ2
Y1
),
přičemž
µY1 = b′
1E(X − µ) = b′
1(µ − µ) = 0
σ2
Y1
= b′
1DXb1 = σ2
b′
1b1 = σ2
.
Odtud ihned dostaneme, že
¯X = µ +
Y1
√
n
∼ N µ,
σ2
n
.
Provedeme-li standardizaci, tj. takovou lineární transformaci, která zajišťuje nulovou
střední hodnotu a jednotkový rozptyl, dostaneme první tvrzení věty:
U = U ¯X =
¯X − E ¯X
√
D ¯X
=
¯X − µ
σ
√
n ∼ N(0, 1).
(2) Náhodné veličiny Yi jsou nezávislé normálně rozdělené náhodné veličiny s nulovou střední
hodnotou a se stejným rozptylem σ2
, tj.
{Y1, . . . , Yn} ≃ N(0, σ2
).
Provedeme-li opět jejich standardizaci, dostaneme posloupnost nezávislých standardizovaných
normálních náhodných veličin
{Y1
σ
, . . . , Yn
σ
} ≃ N(0, 1),
jejichž kvadráty Ki = Yi
σ
2
mají χ2
rozdělení o jednom stupni volnosti, tj.
{K2 = Y2
σ
2
, . . . , Kn = Yn
σ
2
} ≃ χ2
(1).
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 55
Protože náhodná veličina, která je součtem několika nezávislých náhodných veličin s χ2
rozdělením, má opět χ2
rozdělení, přitom její stupeň volnosti je roven součtu jednotlivých
stupňů volnosti, dostáváme druhé tvrzení věty:
K = K2 + · · · + Kn =
n
i=2
Yi
σ
2
= n−1
σ2 S2
∼ χ2
(n − 1).
(3) Protože Y1, . . . , Yn jsou nezávislé náhodné veličiny a nám se již dříve podařilo vyjádřit
výběrový průměr a výběrový rozptyl takto
¯X = µ +
Y1
√
n
a S2
=
1
n − 1
n
i=2
Y 2
i ,
je vidět, že statistiky ¯X a S2
jsou stochasticky nezávislé, značíme ¯X ⊥ S2
.
Abychom dostali náhodnou veličinu, která má Studentovo rozdělení, potřebujeme mít
dvě nezávislé náhodné veličiny, z nichž jedna, označme ji jako U∗
, má standardizované
normální rozdělení, a druhá, označme ji jako K∗
, má χ2
rozdělení s ν stupni volnosti.
Pak náhodná veličina T∗
= U∗
√K∗
ν
má Studentovo rozdělení s ν stupni volnosti, tj.
U∗
∼ N(0, 1) ⊥ K∗
∼ χ2
(ν) ⇒ T∗
=
U∗
K∗
ν
∼ t(ν).
Položíme-li
U∗
= U = U ¯X =
¯X − µ
σ
√
n ∼ N(0, 1) a K∗
= K = n−1
σ2 S2
∼ χ2
(n − 1)
pak statistika
T∗
=
U∗
K∗
ν
=
¯X−µ
σ
√
n
n−1
σ2 S2
n−1
=
¯X − µ
S
√
n ∼ t(n − 1),
čímž jsme dokázali poslední tvrzení věty.
Poznámka 4.4. Statistiky U , K a T se nazývají pivotové statistiky, přičemž
U =
¯X−µ
σ
√
n je pivotovou stastistikou pro neznámý parametr µ při známém σ
K = n−1
σ2 S2
- ” - σ2
T =
¯X−µ
S
√
n - ” - µ při neznámém σ
56 M4122 Pravděpodobnost a statistika II
Důsledek 4.5. Mějme {X1, . . . , Xn} ≃ N(µ, σ2
), kde µ je neznámý parametr a
σ2
∈ R je známé reálné číslo. Pak
¯X − u1−α/2
σ√
n
, ¯X + u1−α/2
σ√
n
- je 100(1 − α)% interval spolehlivosti
pro střední hodnotu µ při známém σ2
¯X − u1−α
σ√
n
- je dolní odhad střední hodnoty µ
při známém σ2
se spolehlivostí 1 − α
¯X + u1−α
σ√
n
- je horní odhad střední hodnoty µ
při známém σ2
se spolehlivostí 1 − α
Důkaz. Za pivotovou statistiku zvolíme statistiku
U = U ¯X =
¯X−µ
σ
√
n ∼ N(0, 1).
uα/2
= − u1−α/2
u1−α/2
1 − α
α/2 α/2
U ∼ N(0,1)
Pro lepší čitelnost místo Pθ = Pµ budeme psát
pouze P.
Počítejme
1 − α = P(uα
2
≤ U ≤ u1− α
2
)
= P(uα
2
≤
¯X−µ
σ
√
n ≤ u1− α
2
)
= P( ¯X − u1−α/2
σ√
n
≤ µ ≤ ¯X + u1−α/2
σ√
n
)
Důsledek 4.6. Mějme {X1, . . . , Xn} ≃ N(µ, σ2
), kde µ a σ2
jsou neznámé parametry.
Pak
(1) pro střední hodnotu µ
¯X − t1−α/2(n−1) S√
n
, ¯X + t1−α/2(n−1) S√
n
- je 100(1 − α)% interval spolehlivosti
pro střední hodnotu µ při neznámém σ2
¯X − t1−α(n − 1) S√
n
- je dolní odhad střední hodnoty µ
při neznámém σ2
se spolehlivostí 1 − α
¯X + t1−α(n − 1) S√
n
- je horní odhad střední hodnoty µ
při neznámém σ2
se spolehlivostí 1 − α
(2) pro rozptyl σ2
(n−1)S2
χ2
1− α
2
(n−1)
, (n−1)S2
χ2
α
2
(n−1)
- je 100(1 − α)% interval spolehlivosti pro rozptyl σ2
(n−1)S2
χ2
1−α(n−1)
- je dolní odhad rozptylu σ2
se spolehlivostí 1 − α
(n−1)S2
χ2
α(n−1)
- je horní odhad rozptylu σ2
se spolehlivostí 1 − α
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 57
Důkaz.
(1) V případě hledání intervalu spolehlivosti pro střední hodnotu při neznámém rozptylu
za pivotovou statistiku zvolíme statistiku
T =
¯X − µ
S
√
n ∼ t(n − 1).
t
α/2
(ν) = − t
1−α/2
(ν) t
1−α/2
(ν)
1 − α
α/2 α/2
T ∼ t(ν)
Pro lepší čitelnost místo Pθ = Pµ,σ2 budeme psát
pouze P.
1 − α = P(tα/2(n−1) ≤ T ≤ t1−α/2(n−1))
= P(tα/2(n−1) ≤
¯X−µ
S
√
n ≤ t1−α/2(n−1))
= P( ¯X − t1−α/2(n−1) S√
n
≤ µ
≤ ¯X + t1−α/2(n−1) S√
n
)
(2) V případě hledání intervalu spolehlivosti pro rozptyl za pivotovou statistiku zvolíme
statistiku
K =
n − 1
σ2
S2
∼ χ2
(n − 1).
Počítejme
1 − α = P(χ2
α
2
(n − 1)) ≤ K ≤ χ2
1− α
2
(n − 1)
= P(χ2
α
2
(n − 1) ≤ n−1
σ2 S2
≤ χ2
1−α
2
(n − 1))
= P
(n − 1)S2
χ2
1− α
2
(n − 1)
≤ σ2
≤
(n − 1)S2
χ2
α
2
(n − 1)
χα/2
2
(ν) χ1−α/2
2
(ν)
1 − α
α/2 α/2
K ∼ χ2
(ν)
V dalším si budeme všímat intervalů spolehlivosti pro dva nezávislé výběry.
Věta 4.7. Nechť {X1, . . . , Xn1 } ∼ N(µ1, σ2
1) je náhodný výběr rozsahu n1 z normálního
rozdělení N(µ1, σ2
1), ¯X je jeho výběrový průměr a S2
1 jeho výběrový rozptyl.
Dále nechť {Y1, . . . , Yn2 } ∼ N(µ2, σ2
2) je náhodný výběr rozsahu n2 z normálního rozdělení
N(µ2, σ2
2), ¯Y je jeho výběrový průměr a S2
2 jeho výběrový rozptyl.
Předpokládejme, že oba výběry jsou stochasticky nezávislé, tj. X ⊥ Y. Pak
(1) Statistika
U ¯X− ¯Y =
¯X − ¯Y − (µ1 − µ2)
σ2
1
n1
+
σ2
2
n2
∼ N(0, 1).
(2) Pokud σ2
1 = σ2
2 = σ2
, pak statistika
T ¯X− ¯Y =
¯X − ¯Y − (µ1 − µ2)
S12
n1n2
n1 + n2
∼ t(n1 + n2 − 2), kde S2
12 =
(n1−1)S2
1 +(n2−1)S2
2
n1+n2−2
.
(3) Statistika
F =
S2
1
S2
2
σ2
2
σ2
1
∼ F(n1 − 1, n2 − 1).
58 M4122 Pravděpodobnost a statistika II
Důkaz. Z nezávislosti náhodných výběrů vyplývá, že všechny statistiky ¯X, ¯Y , S2
1 a S2
2 jsou
nezávislé, tj.
{ ¯X, ¯Y , S2
1 , S2
2 }.
(1) Protože výběrové průměry normálních náhodných výběrů mají opět normální rozdělení,
tj.
¯X ∼ N µ1,
σ2
1
n1
a
¯Y ∼ N µ2,
σ2
2
n2
,
tak i jejich rozdíl je opět normální, tj.
Z = ¯X − ¯Y ∼ N µ1 − µ2,
σ2
1
n1
+
σ2
2
n2
.
Potom standardizovaná náhodná veličina UZ má standardní normální rozdělení, tj.
UZ = U ¯X− ¯Y =
¯X − ¯Y − (µ1 − µ2)
σ2
1
n1
+
σ2
2
n2
∼ N(0, 1),
tím jsme dokázali první tvrzení věty.
(2) Je-li σ2
1 = σ2
2 = σ2
, pak statistika UZ je tvaru
UZ = U ¯X− ¯Y =
¯X − ¯Y − (µ1 − µ2)
σ2
1
n1
+
σ2
2
n2
=
¯X − ¯Y − (µ1 − µ2)
σ 1
n1
+ 1
n2
=
¯X − ¯Y − (µ1 − µ2)
σ
n1n2
n1 + n2
∼ N(0, 1).
Označíme-li dvě nezávislé statistiky s χ2
rozdělením
K1 =
n1 − 1
σ2
S2
1 ∼ χ2
(n1 − 1) a K2 =
n2 − 1
σ2
S2
2 ∼ χ2
(n2 − 1),
pak statistika K = K1 + K2 má opět χ2
rozdělení se stupni volnosti, které jsou součtem
stupňů volnosti statistik K1 a K2, tj.
K = K1 + K2 =
n1 − 1
σ2
S2
1 +
n2 − 1
σ2
S2
2
=
1
σ2
(n1 − 1)S2
1 + (n2 − 1)S2
2 ∼ χ2
(n1 + n2 − 2).
Položme
S2
12 =
(n1 − 1)S2
1 + (n2 − 1)S2
2
n1 + n2 − 2
,
pak
K =
n1 + n2 − 2
σ2
S2
12.
Abychom dostali náhodnou veličinu, která má Studentovo rozdělení, potřebujeme mít
dvě nezávislé náhodné veličiny, z nichž jedna, označme ji jako U∗
, má standardizované
normální rozdělení, a druhá, označme ji jako K∗
, má χ2
rozdělení s ν stupni volnosti.
Pak náhodná veličina T∗
= U∗
√K∗
ν
má Studentovo rozdělení s ν stupni volnosti, tj.
U∗
∼ N(0, 1) ⊥ K∗
∼ χ2
(ν) ⇒ T∗
=
U∗
K∗
ν
∼ t(ν).
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 59
Položíme-li
U∗
= U = U ¯X− ¯Y =
¯X − ¯Y − (µ1 − µ2)
σ
n1n2
n1 + n2
∼ N(0, 1)
a
K∗
= K =
n1 + n2 − 2
σ2
S2
12 ∼ χ2
(n1 + n2 − 2)
pak statistika
T∗
=
U∗
K∗
ν
=
¯X− ¯Y −(µ1−µ2)
σ
n1n2
n1+n2
n1+n2−2
σ2 S2
12
n1+n2−2
=
¯X − ¯Y − (µ1 − µ2)
S12
n1n2
n1 + n2
∼ t(n1 + n2 − 2),
čímž jsme dokázali druhé tvrzení věty.
(3) Chceme-li dokázat třetí tvrzení, musíme najít dvě nezávislé náhodné veličiny, které mají
χ2
rozdělení. Označme je K∗
1 ∼ χ2
(ν1) a K∗
2 ∼ χ2
(ν2). Pak náhodná veličina
F∗
=
K∗
1 /ν1
K∗
2 /ν2
∼ F(ν1, ν2).
Položíme-li
K∗
1 = K1 =
n1 − 1
σ2
1
S2
1 a K∗
2 = K2 =
n2 − 1
σ2
2
S2
2,
dostáváme
F∗
=
K∗
1 /ν1
K∗
2 /ν2
=
n1−1
σ2
1
S2
1/(n1 − 1)
n2−1
σ2
2
S2
2/(n2 − 1)
=
S2
1
S2
2
σ2
2
σ2
1
∼ F(n1 − 1, n2 − 1)
a tím jsme dokázali i poslední tvrzení věty.
60 M4122 Pravděpodobnost a statistika II
Důsledek 4.8. Nechť {X1, . . . , Xn1 } ∼ N(µ1, σ2
1) je náhodný výběr rozsahu n1 z normálního
rozdělení N(µ1, σ2
1), ¯X je jeho výběrový průměr a S2
1 jeho výběrový rozptyl.
Dále nechť {Y1, . . . , Yn2 } ∼ N(µ2, σ2
2) je náhodný výběr rozsahu n2 z normálního rozdělení
N(µ2, σ2
2), ¯Y je jeho výběrový průměr a S2
2 jeho výběrový rozptyl.
Předpokládejme, že oba výběry jsou stochasticky nezávislé, tj. X ⊥ Y. Pak
(1) jsou-li σ2
2 a σ2
1 známé , pak 100(1−α)% interval spolehlivosti pro rozdíl středních hodnot
µ1 − µ2 je tvaru
¯X − ¯Y − u1− α
2
σ2
1
n1
+
σ2
2
n2
, ¯X − ¯Y + u1− α
2
σ2
1
n1
+
σ2
2
n2
.
(2) Jestliže σ2
2 a σ2
1 nejsou známé a platí σ2
2 = σ2
1 = σ2
, pak 100(1 − α)% interval spolehlivosti
pro rozdíl středních hodnot µ1 − µ2 je tvaru
¯X − ¯Y − t1− α
2
(n1+n2−2) S12
n1+n2
n1n2
, ¯X − ¯Y + t1− α
2
(n1+n2−2) S12
n1+n2
n1n2
,
kde
S2
12 =
(n1−1)S2
1 + (n2−1)S2
2
n1 + n2 − 2
.
(3) Při neznámých µ1, µ2, σ2
1, σ2
2 je 100(1 − α)% interval spolehlivosti pro podíl rozptylů
σ2
1
σ2
2
roven
S2
1
S2
2
1
F1− α
2
(n1−1, n2−1)
,
S2
1
S2
2
1
Fα
2
(n1−1, n2−1)
.
Důkaz. Obdobně jako v předchozí větě
(1) jako pivotovou statistiku použijeme
U ¯X− ¯Y =
¯X − ¯Y − (µ1 − µ2)
σ2
1
n1
+
σ2
2
n2
∼ N(0, 1).
u
α/2
= − u
1−α/2
u
1−α/2
1 − α
α/2 α/2
U ∼ N(0,1)
Počítejme
1 − α = P uα
2
≤ U ¯X− ¯Y ≤ u1− α
2
= P

uα
2
≤
¯X − ¯Y − (µ1 − µ2)
σ2
1
n1
+
σ2
2
n2
≤ u1− α
2


= P ¯X − ¯Y − u1− α
2
σ2
1
n1
+
σ2
2
n2
≤ µ1 − µ2
≤ ¯X − ¯Y + u1− α
2
σ2
1
n1
+
σ2
2
n2
Tím jsme dokázali první tvrzení.
(2) V případě hledání intervalu spolehlivosti pro rozdíl středních hodnot při neznámém rozptylu
σ2
= σ2
1 = σ2
2 za pivotovou statistiku zvolíme statistiku
T ¯X− ¯Y =
¯X − ¯Y − (µ1 − µ2)
S12
n1n2
n1 + n2
∼ t(n1 + n2 − 2),
kde
S2
12 =
(n1−1)S2
1 + (n2−1)S2
2
n1 + n2 − 2
.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 61
Označme ν = n1+n2−2 a počítejme
1 − α = P(tα/2(ν) ≤ T ¯X−¯Y ≤ t1−α/2(ν))
= P tα/2(ν) ≤
¯X− ¯Y −(µ1−µ2)
S12
n1n2
n1+n2
≤ t1−α/2(ν)
= P ¯X− ¯Y −t1−α
2
(ν) S n1+n2
n1n2
≤ µ1 − µ2
≤ ¯X− ¯Y +t1−α
2
(ν) S n1+n2
n1n2
, t
α/2
(ν) = − t
1−α/2
(ν) t
1−α/2
(ν)
1 − α
α/2 α/2
T ∼ t(ν)
čímž jsme dokázali druhé tvrzení.
(3) V případě hledání intervalu spolehlivosti pro podíl rozptylů za pivotovou statistiku zvolíme
statistiku
F =
S2
1
S2
2
σ2
2
σ2
1
∼ F(n1 − 1, n2 − 1).
Položme ν1 = n1 − 1 a ν2 = n2 − 1 a počítejme
Fα/2
(ν1
,ν2
) F1−α/2
(ν1
,ν2
)
1 − α
α/2
α/2
F ∼ F(ν1
,ν2
)
1 − α = P(Fα
2
(ν1, ν2)) ≤ F ≤ F1− α
2
(ν1, ν2))
= P Fα
2
(ν1, ν2)) ≤
S2
1
S2
2
σ2
2
σ2
1
≤ F1− α
2
(ν1, ν2))
= P
S2
1
S2
2
1
F1− α
2
(n1−1, n2−1)
≤
σ2
1
σ2
2
≤
S2
1
S2
2
1
Fα
2
(n1−1, n2−1)
a tím jsme dokázali i poslední tvrzení.
Poznámka 4.9. Ve statistických tabulkách bývají uváděny kvantily F-rozdělení pouze
pro hodnoty α ≥ 0.5. Ukážeme, proč není třeba uvádět hodnoty kvantilů pro α < 0.5.
Uvažujme místo pivotové statistiky F statistiku
F∗
=
S2
2
S2
1
σ2
1
σ2
2
=
1
F
∼ F(n2 − 1, n1 − 1).
Opět označme ν1 = n1−1 a ν2 = n2−1 a počítejme interval spolehlivosti pro takto navrženou
pivotovou statistiku
1 − α = P(Fα
2
(ν2, ν1)) ≤ F∗
≤ F1− α
2
(ν2, ν1)) = P Fα
2
(ν2, ν1)) ≤
S2
2
S2
1
σ2
1
σ2
2
≤ F1− α
2
(ν2, ν1))
= P
S2
1
S2
2
Fα
2
(n2−1, n1−1) ≤
σ2
1
σ2
2
≤
S2
1
S2
2
F1− α
2
(n2−1, n1−1)
Takže F1− α
2
(n2−1, n1−1) =
1
Fα
2
(n1−1, n2−1)
a interval spolehlivosti pro
σ2
1
σ2
2
lze vyjádřit
i takto
S2
1
S2
2
1
F1− α
2
(n1−1,n2−1)
,
S2
1
S2
2
F1− α
2
(n2−1, n1−1) .
62 M4122 Pravděpodobnost a statistika II
V dalším se zaměříme na interval spolehlivosti pro rozdíl středních hodnot
u tzv. párových výběrů.
Věta 4.10. Nechť X1 = (X1, Y1)′
, . . . , Xn = (Xn, Yn)′
je náhodný výběr z dvourozměrného
normálního rozdělení N2(µ, Σ) s parametry µ = µ1
µ2
a Σ = σ2
1 ρσ1σ2
ρσ1σ2 σ2
2
, kde
µ1, µ2 ∈ R, σ2
1 > 0, σ2
2 > 0 a ρ ∈ (0, 1).
Pro i = 1, . . . , n označme
Zi = Xi − Yi
¯Z = 1
n
n
i=1 Zi
S2
Z = 1
n−1
n
i=1(Zi − ¯Z)2
.
Pak
¯Z − t1− α
2
(n − 1)
SZ
√
n
, ¯Z + t1− α
2
(n − 1)
SZ
√
n
je intervalový odhad parametrické funkce µ1 − µ2 o spolehlivosti 1 − α.
Důkaz. Připomeňme, že marginální náhodné veličiny vícerozměrného náhodného vektoru
jsou opět normální náhodné veličiny, tj.
{X1, . . . , Xn} ≃ N(µ1, σ2
1)
a
{Y1, . . . , Yn} ≃ N(µ2, σ2
2).
Takže pro jejich rozdíl
Zi = Xi − Yi i = 1, . . . , n
platí, že mají také normální rozdělení
{Z1, . . . , Zn} ≃ N(µZ, σ2
Z),
kde
EZi = E(Xi − Yi) = µ1 − µ2
DZi = D(Xi − Yi) = C(Xi − Yi, Xi − Yi)
= C(Xi, Xi) − C(Xi, Yi) − C(Yi, Xi) + C(Yi, Yi)
= DXi − 2 C(Xi, Yi)
=ρσ1σ2
+DYi = σ2
1 − 2ρσ1σ2 + σ2
2.
Budeme-li aplikovat důsledek 4.6 na
Z1, . . . , Zn,
dostaneme tvrzení věty.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 63
5. Bodové a intervalové odhady založené na centrální limitní větě
Odhady parametrů normálního rozdělení, které jsme doposud zkoumali, mají díky centrální
limitní větě (CLV) širší použití.
Často lze najít takovou transformaci h , že náhodná veličina h(X, γ(θ)) má
pro n → ∞ asymptoticky standardizované normální rozdělení N(0, 1) , tj.
h(X, γ(θ))
A
∼ N(0, 1)
Přitom rozdělení, z něhož výběr pochází
- nemusí splňovat požadavky spojitosti a ryzí monotonie distribuční funkce,
- může být i diskrétní.
Bodové i intervalové odhady lze pak sestrojit stejným způsobem jako v případě normálních
náhodných výběrů, jejich spolehlivost bude 1 − α jen přibližně, tj. asymptoticky.
Věta 5.1. Mějme {X1, . . . , Xn} ≃ L(µ(θ), σ2
(θ)) a výběrový průměr ¯X = 1
n
n
i=1
Xi. Nechť
S2
∗ = S2
∗(X) je (slabě) konzistentním odhadem rozptylu σ2
(θ). Pak statistika
U∗ =
¯X−µ(θ)
S∗
√
n
A
∼ N(0, 1).
Důkaz. Podle Lindebergovy-Levyho CLV mají standardizované průměry asymptoticky standardizované
normální rozdělení, tj.
U ¯X =
¯X − E ¯X
√
D ¯X
=
¯X − µ(θ)
σ2(θ)
n
=
¯X − µ(θ)
σ(θ)
√
n
A
∼ N(0, 1),
což lze ekvivalentně napsat také takto
U ¯X
L
→ U ∼ N(0, 1).
Abychom dokázali, že také U∗ =
¯X−µ(θ)
S∗
√
n
A
∼ N(0, 1), budeme potřebovat následující
tvrzení, které uvedeme bez důkazu (lze najít např. v knize Rao, R. C.: Lineární metody
statistické indukce a jejich aplikace. Academia Praha, 1978)
Jestliže Zn
L
→ Z ∧ Yn
P
→ c ⇒ Zn · Yn
L
→ cZ
Pokud položíme
Zn = U ¯X
L
→ Z = U
a
Yn = σ(θ)
S∗
P
→ 1,
neboť S2
∗ je (slabě) konzistentním odhadem rozptylu σ2
(θ), pak již dostaneme tvrzení věty,
tj.
U∗ = ZnYn =
¯X−µ(θ)
S∗
√
n
L
→ cZ = 1 · U ∼ N(0, 1).
Jako transformaci jsme zvolili funkci
h(X, µ(θ)) = U ¯X · σ(θ)
S∗
=
¯X−µ(θ)
S∗
√
n.
64 M4122 Pravděpodobnost a statistika II
Důsledek 5.2. Nechť {X1, . . . , Xn} ≃ L(µ(θ), σ2
(θ)) je náhodný výběr s konečnými
druhými momenty. Potom intervalovým odhadem střední hodnoty µ(θ) o asymptotické
spolehlivosti 1 − α je interval
¯X − u1− α
2
S√
n
, ¯X + u1− α
2
S√
n
,
kde S2
je výběrový rozptyl, tj.
S2
= 1
n−1
n
i=1
(Xi − ¯X)2
.
Důkaz. Důkaz je zřejmý, neboť S2
∗ = S2
je konzistentním odhadem rozptylu a jako pivotovou
statistiku jsme při tvorbě intervalového odhadu použili U∗ s asymptoticky standardizovaným
normálním rozdělením.
Důsledek 5.3. (Binární náhodné výběry). Nechť {X1, . . . , Xn} ≃ A(p) je náhodný
výběr s alternativním (binárním) rozdělením. Potom intervalovým odhadem parametru p
o asymptotické spolehlivosti 1 − α je interval
¯X − u1− α
2
¯X(1− ¯X)
n
, ¯X + u1− α
2
¯X(1− ¯X)
n
.
Důkaz. Nejprve připomeňme, že pro náhodné veličiny s alternativním (binárním) rozdělením
platí
EXi = p a DXi = p(1 − p).
Protože ¯X je konzistentním odhadem střední hodnoty, což je parametr p, pak statistika
S2
∗ = ¯X(1 − ¯X)
je konzistentním odhadem rozptylu p(1 − p).
Při tvorbě intervalového odhadu jako pivotovou statistiku jsme opět použili U∗ s asymptoticky
standardizovaným normálním rozdělením.
Důsledek 5.4. (Poissonovské náhodné výběry). Nechť {X1, . . . , Xn} ≃ Po(λ)
je náhodný výběr s Poisonovým rozdělením. Potom intervalovým odhadem parametru λ
(0 < λ < ∞) o asymptotické spolehlivosti 1 − α je interval
¯X − u1− α
2
¯X
n
, ¯X + u1− α
2
¯X
n
.
Důkaz. Připomeňme, že pro náhodné veličiny s Poissonovým rozdělením platí
EXi = DXi = λ.
Protože ¯X je konzistentním odhadem střední hodnoty, což je parametr λ, pak statistika
S2
∗ = ¯X
je konzistentním odhadem rozptylu λ.
Při tvorbě intervalového odhadu jako pivotovou statistiku jsme opět použili U∗ s asymptoticky
standardizovaným normálním rozdělením.
KAPITOLA 5
Testování statistických hypotéz
1. Úvod
Mějme náhodný výběr X = (X1, . . . , Xn)′
rozsahu n z rozdělení o distribuční funkci
F(x; θ), kde θ = (θ1, . . . , θm)′
∈ Θ ⊂ Rm
. Množina Θ nechť je neprázdná a otevřená.
Předpokládejme, že o parametru θ existují dvě konkurující si hypotézy:
H0: θ ∈ Θ0 ⊂ Θ
H1: θ ∈ Θ1 = Θ − Θ0
Tvrzení
H0 se nazývá nulovou hypotézou.
H1 alternativní hypotézou.
.
Je-li
Θ0
Θ1
jednobodová, nazývá se jednoduchou, v opačném případě složenou hypotézou.
O platnosti této hypotézy se má rozhodnout na základě náhodného výběru X = (X1, . . . , Xn)′
,
a to tak, že
ր zamítneme nebo
ց nezamítneme
platnost hypotézy H0.
Na testování použijeme statistiku Tn = T(X), kterou nazýváme testovací statistikou.
Množinu hodnot, které může testovací statistika nabýt, rozdělíme na dvě disjunktní oblasti.
Jednu označíme Wα , a nazveme ji kritickou oblastí (nebo také oblastí zamítnutí hypotézy)
a druhá je doplňkovou oblastí (oblast nezamítnutí testované hypotézy).
Na základě realizace náhodného výběru x = (x1, . . . , xn)′
vypočítáme hodnotu testovací
statistiky tn = T(x).
• Pokud hodnota testovací statistiky tn nabude hodnoty z kritické oblasti,
tj. tn = T(x) ∈ Wα , pak nulovou hypotézu zamítáme.
• Pokud hodnota testovací statistiky nabude hodnoty z oblasti nezamítnutí,
tj. tn = T(x) /∈ Wα , tak nulovou hypotézu nezamítáme, což ovšem neznamená
že přijímáme alternativu.
Toto rozhodnutí nemusí však být správné. V následující tabulce jsou uvedeny možné
situace
H0 platí neplatí
zamítáme chyba 1. druhu (α0 je hladina testu) O.K. (tzv. síla testu či silofunkce)
tn = T(x) ∈ Wα α0 =supθ∈Θ0
Pθ(T(X) ∈ Wα|H0)≤α 1−β(θ)=Pθ(T(X) ∈ Wα|H1) pro θ ∈ Θ1
nezamítáme O.K. chyba 2. druhu
tn = T(x) /∈ Wα β(θ) = Pθ(T(X) ∈ Wα|H1) pro θ ∈ Θ1
Volba kritického oboru Wα se řídí požadavky:
(1) Chceme, aby pravděpodobnost chyby 1. druhu byla menší nebo rovna předem zvolenému
malému α ∈ (0, 1) (obvykle se volí α = 0.01 nebo α = 0.05), tj. aby platilo pro ∀θ ∈ Θ0
α0 = sup
θ∈Θ0
Pθ(T(X) ∈ Wα|H0) ≤ α.
65
66 M4122 Pravděpodobnost a statistika II
Pro spojitá rozdělení je vždy možné (i když ne nutné) zvolit test, jehož hladina je právě
rovna α. U diskrétních rozdělení jsou možnými hladinami testu jen některé diskrétní
hodnoty. Není-li zvolená hladina mezi nimi, rozhodneme se pro hladinu, která je nejbližší
nižší (nebo nejbližší vyšší).
(2) Mezi testy na hladině α se pak snažíme zvolit test s co nejmenší pravděpodobností
chyby druhého druhu, tj. co nejsilnější test.
Vidíme, že postavení obou hypotéz je nesymetrické. Za nulovou hypotézu volíme tu,
jejíž neoprávněné zamítnutí (chyba 1. druhu) je závažnější.
Definice 1.1. Chybu, která spočívá v nesprávném zamítnutí nulové hypotézy,
i když je správná, budeme nazývat chybou prvého druhu, pravděpodobnost
α0 = sup
θ∈Θ0
Pθ(T(X) ∈ Wα|H0)
nazveme hladinou významnosti (též hladinou testu).
Chybu, která spočívá v nesprávném přijetí nulové hypotézy, i když neplatí, budeme
nazývat chybou druhého druhu a její pravděpodobnost pro ∀θ ∈ Θ1 označíme
β(θ) = Pθ(T(X) ∈ Wα|H1) .
Pravděpodobnost 1−β(θ) nazýváme silou testu (též silou kritické oblasti Wα) a jakožto
funkci θ ∈ Θ1 ji také nazveme silofunkcí testu.
2. Jednoduchá hypotéza a jednoduchá alternativa
Nejprve rozebereme nejjednodušší případ, kdy Θ = {θ0, θ1}.
V dalším budeme značit symbolem ν σ−konečnou míru na (Rn
, Bn
) (např. Lebesgueova
nebo čítací) a f(x; θ) nezápornou měřitelnou funkci, tzv. hustotu pravděpodobnosti
vzhledem k míře ν. Tedy f(x; θ) jsou jak hustoty absolutně spojitých náhodných veličin,
tak pravděpodobnostní funkce.
Budeme předpokládat, že pravděpodobnostní míry Pθ0 a Pθ1 jsou absolutně spojité vzhledem
k σ-konečné míře ν.
Označme hustoty
p0(x) = f(x; θ0),
p1(x) = f(x; θ1).
Lemma 2.1 (Neymanovo–Pearsonovo). Nechť k danému α ∈ (0, 1) existuje takové kladné
číslo c > 0, že pro množinu W0 = {x ∈ Rn
: p1(x) ≥ cp0(x)} platí W0
p0(x) dν(x) = α. Pak
pro libovolnou množinu W ∈ Bn
splňující podmínku W
p0(x) dν(x) ≤ α platí
W0
p1(x) dν(x) ≥
W
p1(x) dν(x).
Důkaz. Pro jednoduchost pro j = 0, 1 místo W0
pj(x) dν(x) pišme W0
pj dν. Vzhledem
k tomu, že množiny W a W0 lze psát jako disjunktní sjednocení, tj.
W = (W − W0) ∪ (W ∩ W0) a W0 = (W0 − W) ∪ (W ∩ W0),
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 67
pak platí
W0
p1 dν −
W
p1 dν =
W0−W
p1 dν +
W∩W0
p1 dν −
W−W0
p1 dν −
W∩W0
p1 dν
=
W0−W
p1 dν −
W−W0
p1 dν. (14)
Integrační obor prvního integrálu v (14) je částí množiny W0, takže vzhledem k deﬁnici této
množiny můžeme ho odhadnout zdola. Obdobně integrační obor druhého integrálu v (14)
není částí W0, takže ho můžeme opět díky deﬁnici W0 odhadnout shora, tj.
W0
p1 dν −
W
p1 dν =
W0−W∈W0
p1
≥cp0
dν −
W−W0 /∈W0
p1
<cp0
dν
≥
W0−W
c p0 dν −
W−W0
c p0 dν = c




W0
p0
=α
dν −
W
p0 dν
≤α



 ≥ 0.
Předpoklady lemmatu požadují, aby kritické obory W0 a W měly za platnosti nulové hypotéz
v prvém případě pravděpodobnost α a v druhém případě pravděpodobnost nejvýše
α. Tvrzení lemmatu porovnává pro dva kritické obory W0 a W pravděpodobnost, s jakou
zamítnou nulovou hypotézu, když platí hypotéza alternativní, tj. porovnává sílu testu
obou kritických oborů. Pro kritický obor W0 je síla testu stejná nebo větší než pro libovolný
kritický obor W, to znamená, že kritický obor W0 je mezi kritickými obory s danou hladinou
α nejsilnější možný.
Poznámka 2.2. Předchozí lemma lze vyslovit takto:
Test s kritickým oborem W0 = {x ∈ Rn
: p1(x) ≥ cp0(x)} (pro c > 0) určuje nejsilnější test
hypotézy H0 proti H1 na dané hladině α.
Příklad 2.3 (Jednoduchá hypotéza i alternativa pro náhodný výběr z normálního
rozdělení při známém rozptylu). Mějme {X1, . . . , Xn} ≃ N(µ, σ2
), kde
σ2
je známé. Nechť µ0, µ1 ∈ R. Je třeba najít kritický obor W0 nejsilnějšího testu
H0 : µ = µ0 proti H1 : µ = µ1 na hladině α ∈ (0, 1).
Platí
X ∼ fX(x; µ) =
n
i=1
fXi
(xi; µ) =
n
i=1
1√
2πσ
e− 1
2 (xi−µ
σ )
2
= (2πσ2
)−
n
2 exp − 1
2σ2
n
i=1
(xi − µ)2
.
Dále si připomeňme, že položíme-li ¯X = 1
n
n
i=1 Xi, resp. pro realizace ¯x = 1
n
n
i=1 xi, pak
za platnosti nulové hypotézy H0
¯X ∼ N µ0, σ2
n
⇒ U ¯X =
¯X − Eµ0 ( ¯X)
Dµ0 ( ¯X)
=
¯X − µ0
σ/
√
n
∼ N(0, 1). (15)
Dále využijeme vztah
n
i=1
(xi − ¯x)2
=
n
i=1
(xi −µ)2
−n(¯x−µ)2
⇒
n
i=1
(xi −µ)2
=
n
i=1
(xi − ¯x)2
+n(¯x−µ)2
. (16)
Označme p0(x) = fX(x; µ = µ0) a p1(x) = fX(x; µ = µ1).
Podmínku p1(x) ≥ cp0(x) lze napsat také takto p1(x)
p0(x)
≥ c > 0.
68 M4122 Pravděpodobnost a statistika II
Počítejme s využitím vztahu (16)
p1(x)
p0(x)
= exp n
2σ2 (¯x − µ0)2
− (¯x − µ1)2
≥ c.
Po zlogaritmování dostaneme
n
2σ2 (¯x − µ0)2
− (¯x − µ1)2
= n
2σ2 2¯x(µ1 − µ0) − (µ2
1 − µ2
0) ≥ ln c (17)
(1) Předpokládejme, že µ0 < µ1 .
Pak nerovnost (17) dále upravujme takto
¯x ≥ µ1+µ0
2
+ σ2 ln c
n(µ1−µ0)
označme k1
Dokážeme najít takové k1, aby platilo
Pµ0 ( ¯X ≥ k1) = α?
β
α
µ0
µ1
p0
(x) p1
(x)
W0
Díky normalitě výběrového průměru (viz (15)) však můžeme počítat a upravovat
α = Pµ0 ( ¯X ≥ k1) = Pµ0
¯X−µ0
σ/
√
n
≥ k1−µ0
σ/
√
n
= 1 − Φ k1−µ0
σ/
√
n
takže
Φ k1−µ0
σ/
√
n
= 1 − α ⇒ u1−α = k1−µ0
σ/
√
n
⇒ k1 = µ0 + σ√
n
u1−α
a kritický obor lze vyjádřit takto
W0 = {x ∈ Rn
: ¯x ≥ k1} = x ∈ Rn
: ¯x ≥ µ0 + σ√
n
u1−α .
(2) Nyní předpokládejme, že µ0 > µ1 .
Pak nerovnost (17) dále upravujme takto
¯x ≤ µ1+µ0
2
− σ2 ln c
n(µ0−µ1)
označme k2 β
α
µ0
µ1
p
0
(x)p
1
(x)
W0
Díky normalitě výběrového průměru (viz (15)) však můžeme počítat a upravovat
α = Pµ0 ( ¯X ≤ k2) = Pµ0
¯X−θ0
σ/
√
n
≤ k2−µ0
σ/
√
n
= Φ k2−µ0
σ/
√
n
takže
Φ k2−µ0
σ/
√
n
= α ⇒ uα = −u1−α = k2−µ0
σ/
√
n
⇒ k2 = µ0 − σ√
n
u1−α
a kritický obor lze vyjádřit takto
W0 = {x ∈ Rn
: ¯x ≤ k2} = x ∈ Rn
: ¯x ≤ µ0 − σ√
n
u1−α .
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 69
Všimněme si, že při jednoduché hypotéze i alternativě
H0 : µ = µ0 proti H1 : µ = µ1 na hladině α ∈ (0, 1)
při (1) µ0 < µ1
libovolné
má W0 stejný tvar nezávislý na µ1
(2) µ0 > µ1
libovolné
má W0 stejný tvar nezávislý na µ1
Říkáme, že test je stejnoměrně nejsilnější vůči všem alternativám typu
(1) µ0 < µ1
(2) µ0 > µ1
.
Příklad 2.4. Mějme pro jednoduchost náhodný výběr rozsahu n = 1, tj. jedinou náhodnou
veličinu X z rozdělení s hustotou
f(x; θ) =
θxθ−1
x ∈ (0, 1),
0 jinak.
Najdeme nejsilnější test hypotézy
H0 : θ = 1 proti H1 : θ = 2 na dané hladině α = 0.05.
Je třeba najít kritický obor W0 = {x ∈ R : p1(x) ≥ cp0(x)} (pro c > 0), přičemž
pj(x) = f(x; θj) =
θjxθj−1
x ∈ (0, 1), j = 0, 1
0 jinak.
Podmínku p1(x) ≥ cp0(x) lze napsat také takto p1(x)
p0(x)
≥ c > 0, takže
p1(x)
p0(x)
= 2x2−1
≥ c ⇒ x ≥ c
2
=k
a k určíme z požadavku na hladinu významnosti, tj.
α = 0.05 =
1
k
p0dx =
1
k
dx = 1 − k ⇒ k = 1 − 0.05 = 0.95
a
W0 = {x ∈ R : x ≥ 0.95}
Všimněme si dále, že pokud bychom zvolili alternativní hypotézu trochu jinak, např.
H1 : θ = 3 ⇒ p1(x)
p0(x)
= 3x3−1
≥ c ⇒ x2
≥ c
3
=k∗
,
pak zřejmě dostaneme jinou kritickou oblast, neboť tvar kritické oblasti závisí jak na nulové
hypotéze, tak na alternativní.
Poznámka 2.5. V současné době běžný statistický software (Statistika, SPSS, S+
, R, SAS)
udává dosaženou hladinu (v anglicky psané literatuře P–value, signiﬁcance value). Je to
nejmenší hladina testu, při které bychom ještě hypotézu H0 zamítli.
70 M4122 Pravděpodobnost a statistika II
3. Jednoduchá hypotéza a složená alternativa
Nechť parametrický prostor Θ má nejméně 3 různé body, z nichž jeden je θ0. Položme
Θ0 = {θ0}. Je třeba otestovat hypotézu
H0 : θ = θ0 proti H1 : θ ∈ Θ − Θ0 .
Nejprve si představme, že bychom se snažili najít pomocí N-P lemmatu nejsilnější test
hypotézy H0 proti alternativě
H′
1 : θ = θ1 ∈ Θ − Θ0.
Obecně je třeba počítat s tím, že každý takovýto dílčí test bude mít jiný kritický obor.
Může se však stát, že kritické obory budou stejné pro všechny zmíněné dílčí testy.
Pak je rozumné test H0 proti složené alternativě H1 založit právě na tomto společném kritickém
oboru. V tomto případě říkáme, že jde o
stejnoměrně nejsilnější test H0 proti H1.
Pokud však tato situace nenastane, vzniká otázka, jak postupovat v tomto případě.
Zaveďme si proto nejprve pojem zkreslený (vychýlený) test.
Definice 3.1. Testujme jednoduchou hypotézu H0 : θ = θ0 proti alternativě H0 : θ = θ0
na základě náhodného výběru s hustotou f(x; θ). Nechť Wα je kritický obor testu. Řekneme,
že test je zkreslený (vychýlený), jestliže existuje taková hodnota parametru θ1 = θ0,
pro kterou platí nerovnost
Wα
p1(x)dν
síla testu
<
Wα
p0(x)dν
chyba 1. druhu
,
kde p0(x) = f(x; θ0) a p1(x) = f(x; θ1).
Tato podmínka říká, že existuje parametr θ1, pro který je síla testu menší než chyba 1.
druhu, tedy
pravděpodobnost zamítnutí
pravdivé hypotézy
>
pravděpodobnost zamítnutí
nepravdivé hypotézy
což je naprosto nežádoucí vlastnost.
Tedy v případech, kdy nebude existovat rovnoměrně nejsilnější test, budeme se snažit
vytvořit alespoň nezkreslený test.
Příklad 3.2 (Jednoduchá hypotéza a složená alternativa pro náhodný výběr
z normálního rozdělení při známém rozptylu). Mějme {X1, . . . , Xn} ≃ N(µ, σ2
),
kde σ2
je známé. Nechť µ0, µ1 ∈ R.
Jak jsme již ukázali v příkladě 2.3, kritický obor je jiný pro µ1 < µ0 a µ2 > µ0, takže
nenajdeme kritický obor stejnoměrně nejsilnějšího testu
H0 : µ = µ0 proti H1 : µ = µ0 na hladině α ∈ (0, 1),
proto se budeme snažit najít kritický obor alespoň nezkresleného testu.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 71
(A) Zvolíme-li kritický obor typu
Wα = {x ∈ Rn
: ¯x ≥ k1} = x ∈ Rn
: ¯x ≥ µ0 + σ√
n
u1−α .
Pak silofunkce (což je síla testu jakožto
funkce parametru θ ∈ Θ − Θ0) je tvaru
β∗
(θ) = 1−β(θ)=β∗
(µ)=
Wα
p1 dν
= Pµ,σ( ¯X ≥ k1)
= Pµ,σ( ¯X ≥ µ0 + σ√
n
u1−α)
= Pµ,σ
¯X−µ
σ/
√
n
≥ µ0−µ
σ/
√
n
+ u1−α
= 1−Φ µ0−µ
σ/
√
n
+ u1−α
Zřejmě platí
β∗
(µ0) = α
Silofunkce β∗
(µ)
2 3 4 5 6 7 8
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
α
µ
0
a pro µ1 < µ0 je síla testu < chyba 1. druhu.
(B) Zvolíme-li kritický obor typu
Wα = {x ∈ Rn
: ¯x ≤ k2} = x ∈ Rn
: ¯x ≤ µ0 − σ√
n
u1−α .
Silofunkce β∗
(µ)
2 3 4 5 6 7 8
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
α
µ
0
Pak silofunkce je tvaru
β∗
(θ) = 1−β(θ)=β∗
(µ)=
Wα
p1 dν
= Pµ,σ( ¯X ≤ k2)
= Pµ,σ( ¯X ≤ µ0 − σ√
n
u1−α)
= Pµ,σ
¯X−µ
σ/
√
n
≤ µ0−µ
σ/
√
n
− u1−α
= Φ µ0−µ
σ/
√
n
− u1−α
Zřejmě opět platí
β∗
(µ0) = α
a pro µ1 > µ0
je síla testu < chyba 1. druhu.
(C) Abychom se vyvarovali předchozích obtíží, zvolme nyní kritický obor takto
Wα ={x ∈ Rn
: ¯x /∈ (k1, k2), kde k1 < k2}= x ∈ Rn
: ¯x /∈ µ0 − σ√
n
u1− α
2
, µ0 + σ√
n
u1− α
2
.
72 M4122 Pravděpodobnost a statistika II
Pak silofunkce je tvaru
β∗
(θ)=1−β(θ)=β∗
(µ)=
Wα
p1 dν
=Pµ,σ( ¯X ≤ k1 ∧ ¯X ≥ k2)
=1−Pµ,σ(µ0− σ√
n
u1− α
2
≤ ¯X ≤µ0+ σ√
n
u1− α
2
)
=1−Pµ,σ
µ0−µ
σ/
√
n
−u1− α
2
≤
¯X−µ
σ/
√
n
≤ µ0−µ
σ/
√
n
+u1− α
2
=1−Φ µ0−µ
σ/
√
n
+u1− α
2
+Φ µ0−µ
σ/
√
n
−u1− α
2
Zřejmě platí
β∗
(µ0) = α
Silofunkce β∗
(µ)
2 3 4 5 6 7 8
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
α
µ
0
a neexistuje žádné µ = µ0, pro které je síla testu menší než chyba 1. druhu, takže jde
o nezkreslený test.
4. Testy podílem věrohodností a testy založené na intervalových odhadech
Neymanovu-Pearsonovu větu nelze bezprostředně aplikovat na případ, kdy množiny Θ0,
Θ1 nejsou obě jednobodové. Její princip konstrukce kritického oboru lze však použít
s tím, že na místě pj(x), j = 0, 1, píšeme sup
θ∈Θj
p(x; θ). Dostáváme tedy kritický obor tvaru
W∗
0 = x ∈ Rn
: sup
θ∈Θ1
p(x; θ) ≥ c sup
θ∈Θ0
p(x; θ) .
Pokud c > 1 (což je pravidlem) je ekvivalentně
W∗
0 = x ∈ Rn
: sup
θ∈Θ
p(x; θ) ≥ c sup
θ∈Θ0
p(x; θ) = x ∈ Rn
: p(x; θMLE) ≥ cp(x; θ0,MLE) ,
kde θMLE je maximálně věrohodný odhad θ ∈ Θ a θ0,MLE je maximálně věrohodný odhad
za hypotézy H0.
Příklad 4.1 (Náhodný výběr z normálního rozdělení při neznámém rozptylu
a oboustranné alternativě). Mějme {X1, . . . , Xn} ≃ N(µ, σ2
), kde µ a σ2
jsou
neznámé parametry. Máme testovat hypotézu
H0 : µ = µ0 proti alternativě H1 : µ = µ0 na hladině významnosti α ∈ (0, 1)
Parametr θ = (µ, σ2
) je zde dvourozměrný, množina Θ = {(µ, σ2
) : µ ∈ R, 0 < σ2
< ∞}.
Maximálně věrohodné odhady jsou
θMLE = ¯X = 1
n
n
i=1
Xi, 1
n
n
i=1
(Xi − ¯X)2
a θ0,MLE = µ0, 1
n
n
i=1
(Xi − µ0)2
Dosadíme-li tyto odhady za θ = (µ, σ2
) do výrazu
p(x; θ) = n
i=1
1√
2πσ2
exp −xi−µ)2
2σ2 = (2πσ2
)
− n
2
exp − 1
2σ2
n
i=1(xi − µ)2
,
dostaneme pro W∗
0 nerovnost
2π
n
n
i=1(xi − ¯x)2 − n
2
exp −n
2
≥ c 2π
n
n
i=1(xi − µ0)2 − n
2
exp −n
2
,
což je
n
i=1
(xi − ¯x)2
≤ c1
n
i=1
(xi − µ0)2
.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 73
Dále využijeme vztah
n
i=1
(xi−¯x)2
=(n−1)s2
= n
i=1(xi−µ)2
− n(¯x − µ0)2
⇒
n
i=1
(xi−µ0)2
=
n
i=1
(xi−¯x)2
+ n(¯x−µ0)2
,
takže
n
i=1
(xi − ¯x)2
≤ c1
n
i=1
(xi − ¯x)2
+ n(¯x − µ)2
což nakonec můžeme vyjádřit takto
|¯x − µ0|
√
n ≥ c2
1
n−1
n
i=1(xi − ¯x)2 = c2s ⇒ |¯x−µ0|
s
√
n ≥ c2 .
Protože veličina Tn =
¯X−µ0
S
√
n má za platnosti nulové hypotézy Studentovo t–rozdělení
o n−1 stupních volností, pak na základě tohoto rozdělení můžeme určit kritickou hodnotu
c2 = t1− α
2
(n − 1),
neboť
α = P(µ0,σ2)(|Tn| ≥ c2) = P(µ0,σ2)
| ¯X−µ0|
S
√
n ≥ t1− α
2
(n − 1)
nebo ekvivalentně
1 − α = P(µ0,σ2)
¯X − S√
n
t1− α
2
(n − 1) ≤ µ0 ≤ ¯X + S√
n
t1− α
2
(n − 1)
Hypotézu H0 : µ = µ0 tedy zamítáme ve prospěch alternativy H1 : µ = µ0 na hladině
významnosti α, pokud realizace
tn = |¯x−µ0|
s
√
n ≥ t1− α
2
(n − 1).
Výsledky příkladů 2.3 a 4.1 naznačují, že existuje určitý VZTAH MEZI TESTY A
INTERVALOVÝMI ODHADY, který lze popsat následovně.
Mějme náhodný výběr X = (X1, . . . , Xn)′
rozsahu n z rozdělení, které závisí na parametru
θ = (θ1, . . . , θm)′
∈ Θ a parametrickou funkci γ(θ).
(A) Hypotéza H0 : γ(θ) = γ(θ0) proti (tzv. oboustranné) alternativě H1 : γ(θ) = γ(θ0) :
Mějme intervalový odhad (Dn(X), Hn(X)) parametrické funkce γ(θ) o spolehlivosti
1 − α. Pokud platí nulová hypotéza, pak
1 − α = Pθ (Dn(X) ≤ γ(θ0) ≤ Hn(X)),
takže kritický obor tohoto testu má tvar:
Wα = {X ∈ Rn
: γ(θ0) /∈ (Dn(X), Hn(X))} .
74 M4122 Pravděpodobnost a statistika II
Zjistíme-li v konkrétní situaci, že
γ(θ0) /∈ (dn(x), hn(x)) tj. realizace x ∈ Wα ,
potom
• buď nastal jev, který má pravděpodobnost α (volí se blízká nule),
• nebo neplatí nulová hypotéza.
Protože při obvyklé volbě α = 0.05 nebo α = 0.01 je tento jev „prakticky nemožný ,
proto nulovou hypotézu H0 zamítáme ve prospěch alternativy H1.
V opačném případě, tj. pokud
γ(θ0) ∈ (dn(x), hn(x)) tj. realizace x /∈ Wα ,
nulovou hypotézu H0 nezamítáme.
(B) Hypotéza H0 : γ(θ) = γ(θ0) proti (tzv. jednostranné) alternativě H1 : γ(θ) > γ(θ0) :
V tomto případě využijeme dolní odhad Dn(X) parametrické funkce γ(θ) o spolehlivosti
1 − α. Pokud platí nulová hypotéza, pak
1 − α = Pθ (Dn(X) ≤ γ(θ0)),
takže kritický obor tohoto testu má tvar:
Wα = {X ∈ Rn
: Dn(X) > γ(θ0)}.
(C) Hypotéza H0 : γ(θ) = γ(θ0) proti (tzv. jednostranné) alternativě H1 : γ(θ) < γ(θ0)
V tomto případě využijeme horní odhad Hn(X) parametrické funkce γ(θ) o spolehlivosti
1 − α. Pokud platí nulová hypotéza, pak
1 − α = Pθ (γ(θ0) ≤ Hn(X)),
takže kritický obor tohoto testu má tvar:
Wα = {X ∈ Rn
: Hn(X) < γ(θ0)}.
Předchozí úvahy shrňme do následující tabulky:
Hypotézu H0 zamítáme, pomocí
H0 H1 intervalu spolehlivosti kritické oblasti,
tj. pokud x ∈ Wα, kde Wα =
γ(θ) = γ(θ0) γ(θ) = γ(θ0) γ(θ0) /∈ (dn(x), hn(x)) {X ∈ Rn
:γ(θ0) /∈ (Dn(X), Hn(X))}
γ(θ) = γ(θ0) γ(θ) > γ(θ0) γ(θ0) < dn(x) {X ∈ Rn
: Dn(X) > γ(θ0)}
γ(θ) = γ(θ0) γ(θ) < γ(θ0) γ(θ0) > hn(x) {X ∈ Rn
: Hn(X) < γ(θ0)}
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 75
5. Testy o parametrech normálního rozdělení, testy založené na centrální
limitní větě
Pomocí intervalových (dolních, horních) odhadů, které jsme již dříve odvodili v sekci 4,
dostáváme celou řadu kritických oblastí testů o parametrech normálního rozdělení. Poznamenejme,
že se shodují s testy podílem věrohodností.
Přehled takto získaných testů pro jeden náhodný výběr {X1, . . . , Xn} ≃ N(µ, σ2
)
podáváme v následující tabulce:
H0 H1 Hypotézu H0 zamítáme, pokud X ∈ Wα, tj. Předpoklady
µ = µ0 µ = µ0 | ¯X − µ0|
√
n ≥ σu1− α
2
σ2
známé
µ = µ0 µ > µ0 ( ¯X − µ0)
√
n ≥ σu1−α σ2
známé
µ = µ0 µ < µ0 ( ¯X − µ0)
√
n ≤ −σu1−α σ2
známé
µ = µ0 µ = µ0 | ¯X − µ0|
√
n ≥ St1− α
2
(n − 1) σ2
neznámé
µ = µ0 µ > µ0 ( ¯X − µ0)
√
n ≥ St1−α(n − 1) σ2
neznámé
µ = µ0 µ < µ0 ( ¯X − µ0)
√
n ≤ −St1−α(n − 1) σ2
neznámé
σ2
= σ2
0 σ2
= σ2
0
(n−1)S2
σ2
0
/∈ χ2
α
2
(n − 1), χ2
1− α
2
(n − 1) µ neznámé
σ2
= σ2
0 σ2
> σ2
0
(n−1)S2
σ2
0
≥ χ2
1−α(n − 1) µ neznámé
σ2
= σ2
0 σ2
< σ2
0
(n−1)S2
σ2
0
≤ χ2
α(n − 1) µ neznámé
V případě dvou nezávislých výběrů
• první náhodný výběr {X1, . . . , Xn1 } ∼ N(µ1, σ2
1) (s výběrovým průměrem ¯X a
výběrový rozptylem S2
1),
• druhý náhodný výběr {Y1, . . . , Yn2 } ∼ N(µ2, σ2
2) (s výběrovým průměrem ¯Y a
výběrový rozptylem S2
2),
• a pokud označíme
S2
12 =
(n1−1)S2
1 + (n2−1)S2
2
n1 + n2 − 2
,
pak následující tabulka se týká testů rovnosti středních hodnot a rozptylů:
H0 H1 Hypotézu H0 zamítáme, pokud (X′
, Y′
)′
∈ Wα, tj. Předpoklady
µ1 = µ2 µ1 = µ2 | ¯X − ¯Y | ≥ u1− α
2
σ2
1
n1
+
σ2
2
n2
σ2
1, σ2
2 známé
µ1 = µ2 µ1 = µ2 | ¯X − ¯Y | ≥ t1− α
2
(n1+n2−2) S12
n1+n2
n1n2
σ2
1 = σ2
2 neznámé
σ2
1 = σ2
2 σ2
1 = σ2
2
S2
1
S2
2
/∈ Fα
2
(n1−1, n2−1), F1− α
2
(n1−1, n2−1) µ1, µ2 neznámé
Následující tabulka nabízí asymptotické testy pro náhodné výběry
{X1, . . . , Xn} ≃ L(µ(θ), σ2
(θ)) s konečnými druhými momenty (s výběrovým průměrem
¯X = 1
n
n
i=1
Xi a se S2
∗ = S2
∗(X), což je (slabě) konzistentní odhad rozptylu σ2
(θ)):
H0 H1 Hypotézu H0 zamítáme, pokud X ∈ Wα, tj. Předpoklady
µ = µ0 µ = µ0
| ¯X−µ0|
S∗
√
n ≥ u1− α
2
0 < σ2
(θ) < ∞
µ = µ0 µ = µ0
| ¯X−µ0|
√
¯X
√
n ≥ u1− α
2
{X1, . . . , Xn} ≃ Po(µ)
p = p0 p = p0
| ¯X−p0|
√
p0(1−p0)
√
n ≥ u1− α
2
{X1, . . . , Xn} ≃ A(p)
76 M4122 Pravděpodobnost a statistika II
6. Vztah mezi pravděpodobností chyby prvního, druhého druhu a počtem
pozorování
Abychom si uvědomili vztah mezi oběma chybami, ukážeme jednoduchý příklad.
Příklad 6.1 (Jednoduchá hypotéza i alternativa pro binomické rozdělení).
Dva chlapci, Honzík a František, mají každý svůj pytlík s barevnými kuličkami. Honzík má
80 bílých a 20 modrých kuliček, František 30 bílých a 70 modrých kuliček. Oba pytlíky jsou
k nerozeznání. Vybereme náhodně jeden z pytlíků a chceme rozhodnout, kterému z chlapců
patří. Za tím účelem provedeme následující test:
Výchozí test A:
Vybereme z pytlíku 10 kuliček. Pokud mezi nimi bude méně než
k = 8 bílých kuliček, zamítneme hypotézu, že patří Honzíkovi.
Vypočítejme chybu prvního i druhého druhu a pokusme se najít takový test, který by zajistil,
aby chyby prvního i druhého druhu byly vůči chlapcům co nejvíce spravedlivé.
Označme jako Y náhodnou veličinu, která značí počet bílých kuliček mezi deseti vybranými.
Náhodná veličina Y ∈ {0, 1, . . . , n}, n = 10. Zřejmě má binomické rozdělení, což
pro j = 0, 1 značíme
Y ∼ Bi(n, θ) s pravděpodobnostní funkcí pj(x) =
n
y
θy
j (1 − θj)n−y
y = 0, . . . , n,
0 jinak.
Budeme testovat hypotézu H0 : θ = θ0 = 0.8 proti alternativě H1 : θ = θ1 = 0.3, kde
kritický obor je Wα = {0, 1, . . . , k −1}. „Spravedlivý test budeme hledat pomocí procedury
v Matlabu s využítím příkazů „binocdf(y,n,theta)
p1(y) (vlevo) a p0(y) (vpravo)
0 1 2 3 4 5 6 7 8 9 10
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
Bi(10,0.8)
Bi(10,0.3)
Wα
opt
Hledání „spravedlivého testu pro
H
0
: θ
0
=0.8 proti H
1
: θ
1
=0.3
W
α
=(0,..., 0) α=0.0000 β=0.9718
W
α
=(0,..., 1) α=0.0000 β=0.8507
W
α
=(0,..., 2) α=0.0001 β=0.6172
Wα
=(0,..., 3) α=0.0009 β=0.3504
W
α
=(0,..., 4) α=0.0064 β=0.1503
W
α
=(0,..., 5) α=0.0328 β=0.0473
W
α
=(0,..., 6) α=0.1209 β=0.0106
W
α
=(0,..., 7) α=0.3222 β=0.0016
W
α
=(0,..., 8) α=0.6242 β=0.0001
W
α
=(0,..., 9) α=0.8926 β=0.0000
Wα
=(0,...,10) α=1.0000 β=0.0000
Chyby β (∗) a α (◦)
0 2 4 6 8 10
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
α
β
Wopt
=(0,...,5) αopt
=0.0328 βopt
=0.0473
Optimální test B:
Pokud mezi deseti vybranými kuličkami bude méně než k = 6 bílých,
pak zamítáme hypotézu, že pytlík s kuličkami patří Honzíkovi.
Teprve nyní je pravděpodobnost chyby prvního i druhého druhu vyvážená, srovnejme
α =
Wα
p0 dν =
k−1
i=1
0.8y
(1 − 0.8)n−y
=
0.3222 A
0.0328 B
1 − α =
0.6778 A
0.9672 B
β =
W1
p1 dν =
10
i=k
0.3y
(1 − 0.3)n−y
=
0.0016 A
0.0473 B
1 − β =
0.9984 A
0.9527 B
Tedy pravděpodobnost, že se v testu B vyvarujeme
chyby 1. druhu je 1 − α = 0.9672
chyby 2. druhu je 1 − β = 0.9527.
V předchozím příkladě jsme se snažili najít takový test, aby obě dvě chyby vyhovovaly
našim představám.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 77
Nyní se opět vrátíme k příkladu 3.2 a ukážeme, že síla testu je pro pevně danou chybu
prvého druhu ovlivněna rozsahem výběru.
Příklad 6.2 (Síla testu a rozsah výběru pro jednoduchou hypotézu a složenou
alternativu v případě náhodného výběru z normálního rozdělení při známém
rozptylu). Nechť {X1, . . . , Xn} ≃ N(µ, σ2
) je normální náhodný výběr, ve kterém je µ
je neznámý parametr a σ2
> 0 je známá konstanta. Uvažujme test hypotéz
(a) H0 : µ = µ0 proti H1 : µ = µ0
(b) H0 : µ = µ0 proti H1 : µ < µ0
(c) H0 : µ = µ0 proti H1 : µ > µ0
V příkladu 3.2 jsme zkonstruovali nezkreslený test pro oboustrannou alternativu a
v příkladu 2.3 stejnoměrně nejsilnější testy pro jednostranné alternativy.
Na následujících grafech ukážeme, jak při pevně dané chybě prvého druhu roste hodnota
silofunkce při rostoucím rozsahu výběru. Toho se právě využívá, pokud si předepíšeme obě
chyby a hledáme rozsah výběru, při kterém nepřekročíme stanovené chyby.
¯X ∼ N(µ0, σ2
/
√
n)
µ0 = 5, σ = 1, n = 10, 20, . . . , 90, 100
4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 6
0
0.5
1
1.5
2
2.5
3
3.5
4
µ
0
Hustoty výběrových průměrů
(a) Silofunkce β∗
(µ) = 1 − β(Iµ)
α = 0.05, µ0 = 5, σ = 1, n = 10, 20, . . . , 90, 100
4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 6
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
α
µ
0
1−β
Wα = x ∈ Rn
: ¯x /∈ µ0 − σ√
n
u1− α
2
, µ0 + σ√
n
u1− α
2
(b) Silofunkce β∗
(µ) = 1 − β(Iµ)
α = 0.05, µ0 = 5, σ = 1, n = 10, 20, . . . , 90, 100
4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 6
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
α
µ
0
1−β
Wα = x ∈ Rn
: ¯x ≤ µ0 − σ√
n
u1−α
(c) Silofunkce β∗
(µ) = 1 − β(Iµ)
α = 0.05, µ0 = 5, σ = 1, n = 10, 20, . . . , 90, 100
4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 6
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
α
µ
0
1−β
Wα = x ∈ Rn
: ¯x ≥ µ0 + σ√
n
u1−α
78 M4122 Pravděpodobnost a statistika II
Příklad 6.3 (Výška desetiletých chlapců). V roce 1961 byla u 15 náhodně vybraných
chlapců z populace všech desetiletých chlapců žijících v Československu zjištěna výška
Výšky 15 desetiletých chlapců
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
130 140 136 141 139 133 149 151 139 136 138 142 127 139 147
Je známo, že každá následující generace je v průměru o něco vyšší než generace předcházející.
Můžeme se tedy ptát, zda průměr ¯x = 139.133 zjištěný v náhodném výběru rozsahu
130 135 140 145 150
Values
n = 15 znamená, že na 5% hladině máme zamítnout
nulovou hypotézu H0 : µ = 136.1 (zjištění z roku 1951)
ve prospěch alternativní hypotézy H1 : µ > 136.1.
Rozptyl σ2
= 6.42
cm2
, zjištěný v roce 1951 (kdy se provádělo rozsáhlé šetření), můžeme
považovat za známý, neboť variabilita výšek zůstává (na rozdíl od střední výšky) téměř
nezměněná.
(I) Testování nulové hypotézy pomocí pivotové statistiky UX a kritické hodnoty.
Protože kritický obor W0 lze ekvivalentně vyjádřit i takto
W0 ={x ∈ Rn
: ¯x ≤ k2}= x ∈ Rn
: ¯x ≤ µ0 − σ√
n
u1−α = x ∈ Rn
: u¯x = ¯x−µ0
σ
√
n ≤ u1−α ,
počítejme u¯x = 139.133−136.1
6.4
√
15 = 1.835. Protože u¯x = 1.835 překračuje kritickou hodnotu
u1−α = u0.95 = 1.645 (získáme pomocí Matlabu, a to příkazem „norminv(0.95) ) nulovou
hypotézu na 5% hladině zamítneme ve prospěch alternativní hypotézy, že se střední
výška desetiletých hochů zvětšila.
(II) Testování nulové hypotézy pomocí p-hodnoty
132 133 134 135 136 137 138 139 140 141
0
0.05
0.1
0.15
0.2
0.25
interval spolehlivosti
X
prum
=139.1333
p−val=0.033206
Dosažená hladina odpovídající testové
statistice (tj. tzv. p-hodnota, anglicky
P-value, signiﬁcance value), což je nejmenší
hladina testu, při které bychom ještě
hypotézu H0 zamítli, je rovna 0.033
(opět získáme pomocí Matlabu příkazem
„1 - normcdf(mean(x),136.1,6.4/sqrt(n)) ),
takže například při α = 2.5% by již dosažený
výsledek nebyl statisticky významný.
Protože p-hodnota je menší než zvolená hladina
významnosti α = 0.05, hypotézu za-
mítáme.
(III) Testování nulové hypotézy pomocí intervalu spolehlivosti D, +∞)
Protože jde o jednostranný test, použijeme dolní odhad střední hodnoty µ
d = ¯x − σ√
n
u1−α = 139.133 − 6.4√
15
1.645 = 136.415
Protože interval spolehlivosti 136.415, +∞) nepokrývá hodnotu 136.1, proto nulovou hypotézuna
na hladině významnosti α = 0.05 zamítáme.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 79
Příklad 6.4 (Počet pozorování při dané chybě prvního a druhého druhu).
Mějme {X1, . . . , Xn} ≃ N(µ, σ2
), kde σ2
= 25 je známé. Chceme testovat hypotézu
H0 : µ = µ0 = 5 proti H1 : µ = µ1 = 4.
Naším úkolem je zjistit rozsah výběru tak, aby chyba 1. druhu byla rovna 0.05 a druhého
druhu 0.01.
V příkladě 2.3 jsme, ukázali, že kritický obor pro rovnoměrně nejsilnější test pro alternativu
typu µ0 > µ1 je tvaru
W0 = {x ∈ Rn
: ¯x ≤ k2} = x ∈ Rn
: ¯x ≤ µ0 − σ√
n
u1−α .
Jeli α = 0.05, pak u1−α = 1.645. Při této volbě máme zajištěnu chybu prvního druhu
rovnou 0.05, tj.
Pµ0 ( ¯X ≤ k2) = Φ k2−µ0
σ/
√
n
= α = 0.05.
Nyní musíme zvolit n tak, aby pro chybu druhého druhu platilo
Pµ1 ( ¯X > k2) = 1 − Φ k2−µ1
σ/
√
n
≤ β = 0.01,
takže
u1−β =
k2 − µ1
σ/
√
n
=
µ0 − σ√
n
u1−α − µ1
σ/
√
n
=
µ0 − µ1
σ/
√
n
− u1−α
a odtud již dostaneme, že
u1−β + u1−α = µ0−µ1
σ/
√
n
,
takže
√
n =
u1−β+u1−α
µ0−µ1
σ = 19.8560
tj.
n =
(u1−β+u1−α)2
(µ0−µ1)2 σ2
= ⌈394.2610⌉ = 395 ,
kde symbol ⌈c⌉ značí zaokrouhlení na celé
číslo nahoru.
k2 = 4.5862µ1 = 4 µ0 = 5
βα
¯X ∼ N(µ0, σ2
/
√
n)
p0(x)
¯X ∼ N(µ1, σ2
/
√
n)
p1(x)
W0
Pokud ovšem bychom σ neznali, pak by úloha nešla vyřešit.
80 M4122 Pravděpodobnost a statistika II
Příklad 6.5. Párový test
❜ ❜
❜
❜❜
❜
❜
❜
r
✻(¯x1, ¯x2)
❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵
X1
X2
H
0
:
µ
1
=
µ
2
Na sedmi rostlinách byl posuzován vliv fungicidního přípravku
podle počtu skrvn na listech před a týden po použití přípravku. Otestujte,
zdali má přípravek vliv na počet skrvn na listech. Data udávající
počet skrvn na listech před a po použití přípravku:
Počet skrvn na listech
před použitím přípravku X1 9 17 31 7 8 20 10
po použití přípravku X2 10 11 18 6 7 17 5
Za předpokladu, že náhodný výběr pochází z normálího rozdělení, tj.
X1,1
X2,1
, . . . ,
X1,n
X2,n
∼ N2 µ =
µ1
µ2
, Σ =
σ2
1 ρσ1σ2
ρσ1σ2 σ2
2
, kde ρ ∈ (0, 1)
pak
X1 ∼ N(µ1, σ2
1)
X2 ∼ N(µ2, σ2
2)
, Z = X1 − X2 ∼ N(µz = µ1 − µ2, σ2
z = σ2
1 + σ2
2 + 2ρσ1σ2)
a statistika T =
¯Z
SZ /
√
n
=
¯X1− ¯X2
SZ /
√
n
má za platnosti nulové hypotézy H0 : µ1 − µ2 = 0
Studentovo rozdělení o n − 1 stupních volnosti.
(I) Testování nulové hypotézy pomocí intervalu spolehlivosti
0 2 4 6 8 10 12
interval spolehlivosti
[ ¯X1 − ¯X2 − t1−α/2(n − 1) · S/
√
n;
¯X1 − ¯X2 + t1−α/2(n − 1) · S/
√
n] =
[4 ± 2.4469 · 4.6547/2.6458] =
[−0.30492; 8.3049]
Protože interval spolehlivosti pokrývá hodnotu Z = 0, na dané hladině významnosti
hypotézu nemůžeme zamítnout.
(II) Testování nulové hypotézy pomocí statistiky T a kritické hodnoty
−3 −2 −1 0 1 2 3
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
T=2.2736
p−val=0.063354
Vypočítáme-li hodnotu statistiky
T =
¯X1− ¯X2
S/
√
n
a porovnáme s kvantilem Studentova rozdělení, tj.
t = ¯x1−¯x2
s/
√
n
= 2.2736 ≯ t1−α/2(n − 1) = 2.4469,
takže hypotézu
H0 : µ1 − µ2 = 0
nezamítáme.
(III) Testování nulové hypotézy pomocí p-hodnoty
Vypočítáme-li p-hodnotu a porovnáme se zvolenou hladinou významnosti α = 0.05
p = P(|T| > t) = 2(1 − P(|T| ≤ t)) = 0.06335 > α
takže hypotézu
H0 : µ1 − µ2 = 0
nezamítáme.
Shrneme-li předchozí výsledky slovně, pak nulovou hypotézu o tom, že
přípravek nemá vliv na počet skvrn
na hladině významnosti α = 0.05 nemůžeme zamítnout oproti alternativě o jeho vlivu.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 81
Příklad 6.6 (Dva nezávislé náhodné výběry z normálního rozdělení při neznámých
ale stejných rozptylech). Bylo vybráno 13 polí stejné kvality. Na 8 z nich se
zkoušel nový způsob hnojení, zbývajících 5 bylo ošetřeno běžným způsobem. Výnosy pšenice
uvedené v tunách na hektar jsou označeny Xi u nového a Yi u běžného způsobu hnojení.
(převzato z knihy Anděl, J.: Statistické metody, str. 82, př. 8.2).
Je třeba zjistit, zda způsob hnojení má vliv na výnos pšenice.
Xi 5.7 5.5 4.3 5.9 5.2 5.6 5.8 5.1
Yi 5.0 4.5 4.2 5.4 4.4
4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8
X
Y
Nechť {X1, . . . , Xn1 } ∼ N(µ1, σ2
1) je náhodný
výběr rozsahu n1 z normálního rozdělení
N(µ1, σ2
1), ¯X je jeho výběrový průměr a
S2
1 jeho výběrový rozptyl.
Dále nechť {Y1, . . . , Yn2 } ∼ N(µ2, σ2
2) je náhodný
výběr rozsahu n2 z normálního rozdělení
N(µ2, σ2
2), ¯Y je jeho výběrový průměr a
S2
2 jeho výběrový rozptyl.
Předpokládejme, že oba výběry jsou stochasticky
nezávislé, tj. X ⊥ Y.
Chceme-li testovat hypotézu, že rozdíl středních hodnot je nulový (při neznámém rozptylu
σ2
= σ2
1 = σ2
2), za pivotovou statistiku zvolíme statistiku
T ¯X− ¯Y =
¯X − ¯Y − (µ1 − µ2)
S12
n1n2
n1 + n2
∼ t(n1 + n2 − 2),
kde
S2
12 =
(n1−1)S2
1 + (n2−1)S2
2
n1 + n2 − 2
.
Chceme-li použít T ¯X− ¯Y , měli bychom být přesvědčeni o tom, že rozptyly obou výběrů se významně
neliší. Budeme tedy nejprve testovat hypotézu H0 :
σ2
1
σ2
2
= 1 , že podíl obou rozptylů
je roven jedné proti alternativě, že se nerovná H1 :
σ2
1
σ2
2
= 1 . Za pivotovou statistiku zvolíme
statistiku
F =
S2
1
S2
2
σ2
2
σ2
1
∼ F(n1 − 1, n2 − 1).
(a) Můžeme například vypočítat statistiku F za platnosti nulové hypotézy a porovnat ji
s příslušnými oboustrannými kvantily.
Protože
f = 1.1243
Fα
2
(n1−1, n2−1) = 0.1811
F1− α
2
(n1−1, n2−1) = 9.0741
vidíme, že f není ani větší než horní
kritický bod, ani menší než dolní
kritický bod, takže hypotézu o rovnosti
rozptylů proti alternativě nerovnosti
nezamítáme a můžeme
konstatovat, že data nejsou v rozporu
s testovanou hypotézou. 0 1 2 3 4 5 6 7 8 9 10
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
F=1.1243
p−val=0.96557
82 M4122 Pravděpodobnost a statistika II
(b) Další možností je spočítat dosaženou hladinu významnosti, tj. p-hodnotu (pomocí Matlabu:
2*min(1-fcdf(var(x)/var(y),n1-1,n2-1),fcdf(var(x)/var(y),n1-1,n2-1)) a srovnat
se zvolenou hladinou testu α:
p − value = 0.9656 ≫ 0.05
Protože p-hodnota je výrazně větší než zvolená hladina testu, hypotézu o rovnosti rozptylů
proti alternativě nerovnosti nezamítáme. Můžeme také říci, že data nejsou
v rozporu s testovanou hypotézou.
(c) A naposledy můžeme ještě zkostruovat 100(1 − α)% interval spolehlivosti pro podíl roz-
ptylů
σ2
1
σ2
2
S2
1
S2
2
1
F1− α
2
(n1−1, n2−1)
,
S2
1
S2
2
1
Fα
2
(n1−1, n2−1)
.
a zjistit, zda pokrývá hodnotu 1. Protože dostáváme interval 0.1239, 6.2088 , který
pokrývá jedničku, hypotézu nezamítáme.
Díky předchozímu zjištění již můžeme bez obav testovat hypotézu H0 : µ1 − µ2 = 0
proti alternativě H1 : µ1 − µ2 = 0 a provedeme to opět třemi způsoby:
(I) Testování nulové hypotézy pomocí intervalu spolehlivosti
¯X− ¯Y −t1−α
2
(ν) S n1+n2
n1n2
; ¯X− ¯Y +t1−α
2
(ν) S n1+n2
n1n2
= 0.6875 ± 2.201 · 0.5089/1.7541
= 0.048958; 1.326
Protože interval spolehlivosti nepokrývá nulu, na dané hladině významnosti hypotézu
zamítáme ve prospěch alternativy.
(II) Testování nulové hypotézy pomocí statistiky T a kritické hodnoty
−3 −2 −1 0 1 2 3
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
T=2.3697
p−val=0.037169
Vypočítáme-li hodnotu statistiky
T ¯X− ¯Y =
¯X − ¯Y − (µ1 − µ2)
S12
n1n2
n1 + n2
a porovnáme s kvantilem Studentova rozdělení, tj.
t¯x−¯y = 2.3697 > t1−α/2(11) = 2.201,
takže hypotézu
H0 : µ1 − µ2 = 0
zamítáme.
(III) Testování nulové hypotézy pomocí p-hodnoty
Vypočítáme-li p-hodnotu a porovnáme se zvolenou hladinou významnosti α = 0.05
p = P(|T ¯X− ¯Y | > t) = 2(1 − P(|T ¯X− ¯Y | ≤ t)) = 0.037169 < α
takže hypotézu
H0 : µ1 − µ2 = 0
zamítáme.
Shrneme-li předchozí výsledky slovně, pak nulovou hypotézu o tom, že
hnojení je stejně účinné
na hladině významnosti α = 0.05 zamítáme ve prospěch alternativy, že má rozdílné účinky.
KAPITOLA 6
Regresní analýza
1. Pojem regrese
Název regrese pochází z prací antropologa a meteorologa Francise Galtona, které předložil
veřejnosti v letech 1877 až 1885. Galton se zabýval obecnými otázkami dědičnosti a mimo
jiné také o vztah mezi výškou otců a jejich prvorozených synů. Pozorováním a analýzou
údajů došel k rovnici, ze které vyplývá, že
⋄ vysocí otcové sice mají i vysoké syny, ale v průměru jsou
větší než jejich synové,
⋄ a podobně i malí otcové mají i malé syny, ale v průměru jsou
menší než jejich synové.
Směrnice regresní přímky má hodnotu
menší než 1 (přibližně kolem 0.5).
To znamená, že otcové, kteří jsou například
o 10 cm vyšší, než je průměrná
výška mužů jejich generace, mají syny
v průměru jen o 5 cm vyšší, než je průměrná
výška muže v generaci synů (jde
samozřejmě o výšku v dospělosti).
Směrnice regresní přímky, která číselně
charakterizuje velikost této tendence,
dostala proto název regresní
koeﬁcient.
Tuto tendenci návratu následující generace směrem k průměru nazval Galton regresí
(původně tomuto jevu říkal reversion, než později změnil na regression = krok zpět).
Současné pojetí regresní analýzy má sice jen málo společného s původním záměrem Galtona,
nicméně myšlenka přístupu k empirickým datům zůstala zachována a pojem regrese
se natolik vžil, že se používá dodnes.
2. Deﬁnice modelu
Regresní analýza je velmi široké téma, proto se v této úvodní přednášce omezíme jen na
studium modelu s regresní přímkou, který deﬁnujeme takto:
Definice 2.1. Nechť
(M1)
Y1, . . . , Yn (1) jsou nezávislé náhodné veličiny
se středními hodnotami EYi = β0 + β1xi i = 1, . . . , n
(2) jsou homoskedastické náhodné veličiny
tj. mají všechny stejný rozptyl DYi = σ2
i = 1, . . . , n
kde
x1, . . . , xn jsou známé konstanty, z nichž alespoň dvě jsou různé,
β0, β1 ∈ R jsou neznámé parametry
Uvedený model (M1) nazveme modelem lineární regrese (s regresní přímkou).
Tento model se často vyskytuje v praxi, kdy mezi (nenáhodnými) veličinami x a y existuje
lineární závislost y = β0 + β1x ,
• jejíž parametry však neznáme
83
84 M4122 Pravděpodobnost a statistika II
• a informaci o nich získáváme jen experimentálně, tj. tak, že pro zvolené hodnoty
xi naměříme odpovídající hodnoty yi zatížené chybou měření εi
Naměřené veličiny jsou tedy rovny Yi = yi + εi = β0 + β1xi + εi i = 1, . . . , n .
Jsou-li chyby εi nezávislé
náhodné
bez systematické složky, což vyjádříme požadavkem Eεi = 0
měřené stejně přesně Dεi = σ2
pak dospějeme k uvedenému modelu.
3. Odhady neznámých parametrů pomocí metody nejmenších čtverců
Metodou, která se nejčastěji používá k získání bodových odhadů neznámých parametrů,
je tzv. metoda nejmenších čtverců, která spočívá v proložení dat (xi, Yi)
křivkou tak, aby součet čtverců odchylek byl minimální. Pokud body prokládáme přímku,
nazveme ji regresní přímkou.
Definice 3.1. Náhodné veličiny β0 a β1, které pro daná Y1, . . . , Yn minimalizují součet
čtverců
S(β0, β1) =
n
i=1
(Yi − β0 − β1xi)2
,
nazýváme odhady parametrů β0, β1 metodou nejmenších čtverců.
V následujících dvou větách ještě nebudeme činit žádný předpoklad o typu rozdělení
náhodných veličin Yi − EYi, nemusejí být ani stejně rozdělené.
Ještě dříve než vyslovíme první větu, zaveďme následující značení
¯Y = 1
n
n
i=1
Yi a ¯x = 1
n
n
i=1
xi
a dále
SXX =
n
i=1
(xi − ¯x)2
=
n
i=1
x2
i − n¯x2
> 0 (neboť alespoň dvě xi jsou různá)
SXY =
n
i=1
(Yi − ¯Y )(xi − ¯x) =
n
i=1
xiYi − n¯x¯Y
SY Y =
n
i=1
(Yi − ¯Y )2
=
n
i=1
Y 2
i − n¯Y 2
Věta 3.2. V modelu (M1 mají odhady neznámých parametrů β0 a β1 pomocí metody
nejmenších čtverců následující tvar
β1 =
n
i=1(Yi − ¯Y )(xi − ¯x)
n
i=1(xi − ¯x)2
=
SXY
SXX
a β0 = ¯Y − β1 ¯x ,
přičemž reziduální součet čtverců nabývá hodnoty
S2
e = S(β0, β1) = SY Y −
S2
XY
SXX
.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 85
Důkaz. Odhady β0 a β1 musí nutně vyhovovat soustavě rovnic
∂S(β0, β1)
∂β0
= 0 a
∂S(β0, β1)
∂β1
= 0
Provedeme-li uvedené derivace, dostaneme
−2
n
i=1
(Yi − β0 − β1xi) = 0
−2
n
i=1
(Yi − β0 − β1xi)xi = 0
⇒
n
i=1
Yi = nβ0 + β1
n
i=1
xi
n
i=1
Yixi = β0 + β1
n
i=1
x2
i
tzv. systém
normálních
rovnic
Vzhledem k předpokladu, že alespoň dvě hodnoty xi jsou od sebe různé, pak determinant
soustavy rovnic
n
n
i=1
xi
n
i=1
xi
n
i=1 x2
i
= n
n
i=1
x2
i −
n
i=1
xi
2
= n
n
i=1
(xi − ¯x)2
= nSXX > 0,
takže tato soustava má právě jedno řešení, které označíme β0 a β1. S využitím notace pomocí
¯x a ¯Y lze systém normálních rovnic napsat jako
nβ0 + nβ1 ¯x = n¯Y
nβ0 ¯x + β1
n
i=1
x2
i =
n
i=1
xiYi
Z první rovnice okamžitě dostaneme, že β0 = ¯Y − β1 ¯x .
Pokud první rovnici vynásobíme výrazem −¯x a obě rovnice sečteme, máme
β1
n
i=1
x2
i − n¯x2
SXX
=
n
i=1
xiYi − n¯x¯Y
SXY
⇒ β1 =
SXY
SXX
.
Nutnou podmínku k existenci minima jsme již splnili. Nyní bude třeba dokázat, že jde
skutečně o minimum, tj. že pro libovolné β0, β1 ∈ R platí S(β0, β1) ≤ S(β0, β1).
Připomeňme, že
SXX =
n
i=1
(xi − ¯x)2
=
n
i=1
x2
i − n¯x2
⇒
n
i=1
x2
i = SXX + n¯x2
86 M4122 Pravděpodobnost a statistika II
a upravujme
S(β0, β1) =
n
i=1
(Yi − β0 − β1xi)2
=
n
i=1
(Yi − β0 − β1xi) − (β0 − β0) − (β1 − β1)xi
2
=
n
i=1
(Yi − β0 − β1xi)2
+ n(β0 − β0)2
+ (β0 − β0)2
n
i=1
x2
i
− 2(β0 − β0)
n
i=1
(Yi − β0 − β1xi)
− 1
2
∂S(β0,β1)
∂β0
=0
−2(β0 − β0)
n
i=1
xi(Yi − β0 − β1xi)
− 1
2
∂S(β0,β1)
∂β1
=0
+ 2(β0 − β0)(β1 − β1)
n
i=1
xi
= S(β0, β1) + n(β0 − β0)2
+ (β1 − β1)2
SXX + n¯x2
+ 2(β0 − β0)(β1 − β1)n¯x
= S(β0, β1)+n(β0 − β0)2
∗
+(β1−β1)2
SXX + n(β1−β1)2
¯x2
∗
+2(β0−β0)(β1−β1)n¯x
∗
= S(β0, β1)
=S2
e
+ (β1 − β1)2
SXX
=S2
1 ≥0
+ n (β0 − β0) + (β1 − β1)¯x
2
=S2
0 ≥0
. (18)
Takže pro libovolné β0, β1 ∈ R skutečně dostáváme, že
S(β0, β1) ≥ S(β0, β1)
což znamená, že β0, β1 jsou odhady parametrů β0, β1 metodou nejmenších čtverců.
Ještě než dopočítáme reziduální součet čtverců, označme
Yi = β0 − β1xi = ¯Y − SXY
SXX
¯x + SXY
SXX
xi = ¯Y + SXY
SXX
(xi − ¯x)
a počítejme
S(β0, β1) =
n
i=1
(Yi − β0 − β1xi)2
=
n
i=1
(Yi − Yi)2
=
n
i=1
Yi − ¯Y − SXY
SXX
(xi − ¯x)
2
=
n
i=1
(Yi − ¯Y )2
− 2SXY
SXX
(xi − ¯x)(Yi − ¯Y ) +
S2
XY
S2
XX
(xi − ¯x)2
= SY Y − 2
SXY
SXX
SXY +
S2
XY
S2
XX
SXX = SY Y −
S2
XY
SXX
=
SY Y SXX − S2
XY
SXX
Naším dalším úkolem bude
• popsat vlastnosti odhadů β0 a β0 získaných pomocí metody nejmenších čtverců
• a najít odhad neznámého parametru σ2
.
Pro tyto účely budou velmi výhodné následující transformace:
(I) Centrování: V = Y − µ pomocí µ = (µ1, . . . , µn)′
, kde EYi = µi = β0 + β1xi
pro i = 1, . . . , n, takže platí
(a) EVi = 0 ⇒ EV = 0
(b) DVi = D(Yi − β0 − β1xi) = DYi = σ2
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 87
(c) C(Vi, Vj) = C(Yi, Yj) =
σ2
i = j
0 i = j
, což plyne z nezávislosti Y1, . . . , Yn.
(II) Ortogonalizace: Z = BV = B(Y − µ) přičemž B je ortonormální matice tvaru
B =








1√
n
1√
n
1√
n
· · · 1√
n
x1−¯x√
SXX
x2−¯x√
SXX
x3−¯x√
SXX
· · · xn−¯x√
SXX
b31 b32 b33 · · · b3n
...
...
...
...
bn1 bn2 bn3 · · · bnn








=






b′
1
b′
2
b′
3
...
b′
n






= s1 · · · sn ,
pričemž
b′
jbk =
1 j = k,
0 j = k
s′
jsk =
1 j = k,
0 j = k.
takže celkově platí BB′
= B′
B = In .
88 M4122 Pravděpodobnost a statistika II
Zkoumejme vlastnosti této transformace:
(1)
n
i=1
Z2
i = Z′
Z = (Y − µ)′
B′
B(Y − µ) =
n
i=1
(Yi − β0 − β1xi)2
= S(β0, β1)
= S(β0, β1) + n (β0 − β0) + (β1 − β1)¯x
2
+ (β1 − β1)2
SXX
= S(β0, β1) + S2
0 + S2
1
(2) Z1 = 1√
n
1′
n(Y − µ) = 1√
n
n
i=1
(Yi − β0 − β1xi) = 1√
n
(n¯Y − nβ0 − nβ1 ¯x)
=
√
n(¯Y − β1 ¯x
=β0
−β0 + β1 ¯x − β1 ¯x) =
√
n (β0 − β0) + (β1 − β1)¯x
⇒ Z2
1 = S2
0
(3) Z2 = b′
2(Y − µ) = 1√
SXX
n
i=1
(xi − ¯x)(Yi − β0 − β1xi)
= 1√
SXX
n
i=1
[Yi(xi − ¯x) − β0(xi − ¯x) − β1(xi − ¯x)xi]
= 1√
SXX
n
i=1
xiYi−n¯x¯Y
=SXY
− β0√
SXX
n
i=1
(xi− ¯x)
=0
− β1√
SXX
n
i=1
x2
i −n¯x2
=SXX
=
SXY
SXX
=β1
√
SXX − β1
√
SXX = (β1 − β1)
√
SXX
⇒ Z2
2 = S2
1
(4)
n
i=3
Z2
i = S(β0, β1) neboť S(β0, β1) =
n
i=1
Z2
i = S(β0, β1) + S2
0 + S2
1
(5) EZj = E
n
i=1
bji(Yi − µi) = E
n
i=1
bjiVi =
n
i=1
bji EVi
=0
= 0
DZj = EZ2
j = D
n
i=1
bjiVi
nez.
=
n
i=1
b2
jiDVi = σ2
n
i=1
b2
ji
=1
= σ2
pro l = k
C(Zl, Zk) = C
n
i=1
bliVi,
n
j=1
bkjVj =
n
i=1
n
j=1
blibkjC(Vi, Vj)
=
n
i=1
blibki C(Vi, Vi)
=σ2
= σ2
b′
lbk
=0 pro l=k
= 0
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 89
Předchozích poznatků nyní využijeme ve větě:
Věta 3.3. V modelu (M1) platí
(1) Odhady β0 a β1 jsou nestrannými odhady parametrů β0 a β1.
(2) Statistika S2
M1
=
S2
e
n − 2
je nestranným odhadem parametru σ2
.
(3) Veličina Y = β0 + β1x je nestranným odhadem veličiny y = β0 + β1x pro ∀x ∈ R.
Důkaz.
(1) Počítejme postupně
E ¯Y = E 1
n
n
i=1
Yi = 1
n
n
i=1
EYi = 1
n
n
i=1
E(β0 + β1xi) = β0 + β1
1
n
n
i=1
xi = β0 + β1 ¯x
Eβ1 = E SXY
SXX
= 1
SXX
E
n
i=1
(Yi − ¯Y )(xi − ¯x) = 1
SXX
n
i=1
(xi − ¯x)E(Yi − ¯Y )
= 1
SXX
n
i=1
(xi − ¯x)(EYi − E ¯Y ) = 1
SXX
n
i=1
(xi − ¯x)(β0 + β1xi − β0 − β1 ¯x)
= 1
SXX
β1
n
i=1
(xi − ¯x)2
=SXX
= β1
Eβ0 = E(¯Y − β1 ¯x) = E(β0 + β1
=Eβ1
¯x − β1 ¯x) = β0 + Eβ1 ¯x − Eβ1 ¯x = β0
(2) Dále počítejme
ES2
M1
= E
S2
e
n − 2
=
1
n − 2
ES2
e =
1
n − 2
n
i=3
EY 2
i
=σ2
=
1
n − 2
(n − 2)σ2
= σ2
(3) Z nestrannosti β0 a β1 plyne
EY = E(β0 + β1x) = β0 + β1x = y .
90 M4122 Pravděpodobnost a statistika II
Věta 3.4. Nechť v modelu (M1) pro i = 1, . . . , n platí, že náhodné veličiny
Yi ∼ N(β0 + β1xi, σ2
) . Pak
(1) Odhad parametru β1 ∼ N β1,
σ2
SXX
.
(2) Odhad parametru β0 ∼ N β0, σ2 1
n
+
¯x2
SXX
.
(3) Odhad pro y=β0+β1x Y = β0 + β1x ∼ N β0 + β1x, σ2 1
n
+
(x − ¯x)2
SXX
.
(4) Náhodný vektor
β0
β1
a statistika K =
(n − 2)S2
M1
σ2
jsou nezávislé.
(5) Statistika K ∼ χ2
(n − 2) .
Důkaz. Pokud předpokládáme, že pro i = 1, . . . , n mají náhodné veličiny Yi normální rozdě-
lení
Yi ∼ N(β0 + β1xi, σ2
),
pak
Vi = Yi − β0 − β1xi ∼ N(0, σ2
)
a také
Zi = b′
iV =
n
k=1
bikVi ∼ N(0, σ2
b′
ibi
=1
).
Navíc vzhledem k tomu, že Zi jsou normální náhodné veličiny, pak z nekorelovanosti plyne
také nezávislost.
(1) Protože β1 = SXY
SXX
a statistika Z2 = (β1 − β1)
√
SXX, pak odhad β1 lze vyjádřit pomocí
Z2 takto
β1 =
Z2
√
SXX
+ β1 ∼ N(β1, σ2
S−1
XX).
(2) Protože
Z1 =
√
n (β0 − β0) + (β1 − β1)¯x
a
β1 − β1 =
Z2
√
SXX
,
pak
β0 = Z1√
n
− Z2√
SXX
¯x + β0 ∼ N β0, σ2 1
n
+
¯x2
SXX
(3) Počítejme postupně
Y = β0 + β1x = β0 +
Z1
√
n
−
Z2
√
SXX
¯x +
Z2
√
SXX
+ β1 x
= β0 + β1x +
Z1
√
n
+
Z2
√
SXX
(x − ¯x) ∼ N β0 + β1x, σ2 1
n
+
(x − ¯x)2
SXX
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 91
(4) Protože β0 a β1 závisí pouze na Z1 a Z2, kdežto S2
e =
n
i=3
Z2
i a Z1, . . . , Zn jsou nezávislé,
pak také statistika
K =
(n − 2)S2
M1
σ2
=
S2
e
σ2
a náhodný vektor
β0
β1
jsou nezávislé.
(5) Protože
Zi
σ
∼ N(0, 1),
pak
K =
(n − 2)S2
M1
σ2
=
S2
e
σ2
=
n
i=3
Zi
σ
2
∼ χ2
(n − 2).
Důsledek 3.5. Nechť v modelu (M1) pro i = 1, . . . , n platí, že náhodné veličiny
Yi ∼ N(β0 + β1xi, σ2
) . Pak platí
(1) Statistika
T1 =
β0 − β0
SM1
1
n
+ ¯x
SXX
∼ t(n − 2).
(2) Statistika
T2 =
β1 − β1
SM1
SXX ∼ t(n − 2).
(3) Statistika
T3 =
Y − (β0 + β1x)
SM1
1
n
+ (x−¯x)2
SXX
∼ t(n − 2).
Důkaz. Postupně dokazujme jednotlivá tvrzení:
(1) Víme, že v modelu (M1) má LS-odhad parametru β0 normální rozdělení
β0 ∼ N β0, σ2 1
n
+ ¯x2
SXX
.
Po provedení standardizace dostaneme
Uβ0
=
β0 − β0
σ 1
n
+ ¯x2
SXX
∼ N(0, 1).
Se statistikou Uβ0
je nezávislá statistika
K =
(n − 2)S2
M1
σ2
∼ χ2
(n − 2).
Protože platí, že
Uβ0
K
n−2
∼ t(n − 2),
92 M4122 Pravděpodobnost a statistika II
pak po dosazení a úpravách dostaneme
Uβ0
K
n−2
=
β0−β0
σ 1
n
+ ¯x2
SXX
(n−2)S2
M1
σ2
n−2
=
β0 − β0
SM1
1
n
+ ¯x2
SXX
= T1 ∼ t(n − 2).
(2) Při důkazu druhého tvrzení budeme postupovat zcela analogicky jako v předchozím
případě:
β1 ∼ N β1, σ2
SXX
⇒ Uβ1
=
β1 − β1
σ 1
SXX
∼ N(0, 1).
Dále
Uβ1
⊥ K ⇒ T2 =
Uβ1
K
n−2
=
β1−β1
σ 1
SXX
(n−2)S2
M1
σ2
n−2
=
β1 − β1
SM1
SXX ∼ t(n − 2).
(3) Postupujme opět analogicky jako v předchozích dvou případech
Y = β0+β1x ∼ N β0+β1x, σ2 1
n
+ (x−¯x)2
SXX
⇒ UY =
Y − (β0 + β1x)
σ 1
n
+ (x−¯x)2
SXX
∼ N(0, 1).
Dále
UY ⊥ K ⇒ T3 =
UY
K
n−2
=
Y −(β0+β1x)
σ 1
n
+
(x−¯x)2
SXX
(n−2)S2
M1
σ2
n−2
=
Y − (β0 + β1x)
SM1
1
n
+ (x−¯x)2
SXX
∼ t(n − 2).
4. Intervalové odhady a testy hypotéz v regresním modelu
V předchozím odstavci jsme nečinili žádný předpoklad o typu rozdělení náhodných veličin
Yi (resp. εi) pro i = 1, . . . , n.
Abychom mohli konstruovat intervalové odhady a provádět testy hypotéz, musíme připojit
předpoklad o typu rozdělení, a to předpoklad normálního rozdělení.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 93
Důsledek 4.1. Nechť v modelu (M1) pro i = 1, . . . , n platí, že náhodné veličiny
Yi ∼ N(β0 + β1xi, σ2
) . Pak intervalový odhad (se spolehlivostí 1 − α)
(1) pro β0 je tvaru
β0 − SM1
1
n
+ ¯x2
SXX
t1− α
2
(n − 2), β0 + SM1
1
n
+ ¯x2
SXX
t1− α
2
(n − 2) .
(2) pro β1 je tvaru
β1 − SM1√
SXX
t1− α
2
(n − 2), β1 + SM1√
SXX
t1− α
2
(n − 2) .
(3) pro y = β0 + β1x je tvaru
β0 + β1x − SM1
1
n
+ (x−¯x)2
SXX
t1− α
2
(n − 2), β0 + β1x + SM1
1
n
+ (x−¯x)2
SXX
t1− α
2
(n − 2) .
(4) pro σ2
je tvaru
(n − 2)S2
M1
χ2
1− α
2
(n − 2)
,
(n − 2)S2
M1
χ2
α
2
(n − 2)
.
Důkaz. Při dokazování prvních tří tvrzení použijeme pivotové statistiky Tj (j = 1, 2, 3)
uvedené v předchozím důsledku, tj. vyjdeme ze vztahu
1 − α = P −t1− α
2
(n − 2) ≤ Tj ≤ t1− α
2
(n − 2)
a pomocí jednoduchých úprav dostaneme první tři tvrzení.
Pro důkaz čtvrtého tvrzení využijeme pivotovou statistiku K =
(n−2)S2
M1
σ2 ∼ χ2
(n − 2),
tj.
1 − α = P χ2
α
2
(n − 2) ≤ K ≤ χ2
1− α
2
(n − 2)
a po jednoduchých úpravách dojdeme k poslednímu tvrzení.
Všimněme si nyní testování hypotéz v regresním modelu (M1). Testy lze obecně
sestavit např. metodou podílu věrohodností. V následující tabulce je popíšeme pomocí kritických
oblastí Wα.
H0 H1 Hypotézu H0 zamítáme, pokud Y ∈ Wα, tj.
β0 = 0 β0 = 0 |β0|/ 1
n
+ ¯x2
SXX
≥ SM1t1− α
2
(n − 2)
β0 = 0 β0 > 0 β0/ 1
n
+ ¯x2
SXX
≥ SM1t1−α(n − 2)
β0 = 0 β0 < 0 β0/ 1
n
+ ¯x2
SXX
≤ −SM1t1−α(n − 2)
β1 = 0 β1 = 0 |β1|
√
SXX ≥ SM1t1− α
2
(n − 2)
β1 = 0 β1 > 0 β1
√
SXX ≥ SM1t1−α(n − 2)
β1 = 0 β1 < 0 β1
√
SXX ≤ −SM1t1−α(n − 2)
94 M4122 Pravděpodobnost a statistika II
5. Některé speciální případy regresních modelů
5.1. Regresní přímka procházející počátkem. Pokud vztah mezi veličinami x a y
je vztahem přímé úměrnosti, pak v regresním modelu (M1) klademe
β0 = 0
a body (xi, Yi) prokládáme regresní přímkou procházející počátkem. Označme nejprve
S∗
XX =
n
i=1
x2
i S∗
XY =
n
i=1
xiYi S∗
Y Y =
n
i=1
Y 2
i .
Odhad parametru β1 pomocí metody nejmenších čtverců vypočteme, když nejprve položíme
první derivaci funkce
S(β1) =
n
i=1
(Yi − β1xi)2
rovnu nule, tj.
−2
n
i=1
(Yi − β1xi)xi = 0
a odtud pak
β1 =
n
i=1 Yixi
n
i=1 x2
i
=
S∗
XY
S∗
XX
.
Přesvědčíme se, že jde o minimum:
S(β1) =
n
i=1
(Yi − β1xi)2
=
n
i=1
(Yi − β1xi) − (β1 − β1)xi
2
=
n
i=1
(Yi − β1xi)2
S(β1)
−2(β1 − β1)
n
i=1
(Yi − β1xi)xi
− 1
2
dS(β1)
dβ1
=0
+(β1 − β1)2
n
i=1
x2
i
= S(β1) + (β1 − β1)2
n
i=1
x2
i
≥0
= S(β1) + (β1 − β1)2
S∗
XX
S2
1
takže pro libovolné β1 ∈ R platí S(β1) ≤ S(β1) . Nyní explicitně vyjádřeme S(β1):
S(β1) =
n
i=1
(Yi − β1xi)2
=
n
i=1
Yi −
n
i=1 Yixi
n
i=1 x2
i
xi
2
=
n
i=1
Y 2
i − 2
n
i=1 Yixi
n
i=1 x2
i
n
i=1
Yixi +
( n
i=1 Yixi)2
( n
i=1 x2
i )2
n
i=1
x2
i
=
n
i=1
Y 2
i −
( n
i=1 Yixi)2
n
i=1 x2
i
= S∗
Y Y −
S∗2
XY
S∗
XX
Abychom mohli odvodit vlastnosti odhadů opět použijeme transformaci vektoru Y, a to
ortogonalizaci Z = BV = B(Y − µ) přičemž B je ortonormální matice tvaru
B =





x1√
S∗
XX
x2√
S∗
XX
x3√
S∗
XX
· · · xn√
S∗
XX
b21 b22 b23 · · · b2n
...
...
...
...
bn1 bn2 bn3 · · · bnn





=




b′
1
b′
2
...
b′
n



 ,
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 95
pričemž b′
jbk =
1 j = k,
0 j = k
takže celkově platí BB′
= B′
B = In
a V = Y−µ pomocí µ = (µ1, . . . , µn)′
, kde EYi = µi = β1xi pro i = 1, . . . , n.
Postupně spočítejme
(a) EVi = 0 ⇒ EV = 0
(b) DVi = D(Yi − β1xi) = DYi = σ2
(c) C(Vi, Vj) = C(Yi, Yj) =
σ2
i = j
0 i = j
, což plyne z nezávislosti Y1, . . . , Yn.
(d) EZj = E
n
i=1
bji(Yi − µi) = E
n
i=1
bjiVi =
n
i=1
bji EVi
=0
= 0
DZj = EZ2
j = D
n
i=1
bjiVi
nez.
=
n
i=1
b2
jiDVi = σ2
n
i=1
b2
ji
=1
= σ2
pro l = k
C(Zl, Zk) = C
n
i=1
bliVi,
n
j=1
bkjVj =
n
i=1
n
j=1
blibkjC(Vi, Vj)
=
n
i=1
blibki C(Vi, Vi)
=σ2
= σ2
b′
lbk
=0 pro l=k
= 0
(e) Všimněme si, že
n
i=1
Z2
i = Z′
Z = (Y − µ)′
B′
B(Y − µ) =
n
i=1
(Yi − β1xi)2
= S(β1)
= S(β1) + (β1 − β1)2
S∗
XX = S(β0, β1) + S2
1
(f) A dále
Z1 = b′
1(Y − µ) = 1√
S∗
XX
n
i=1
xi(Yi − β1xi) = 1√
S∗
XX
n
i=1
xiYi − β1√
S∗
XX
n
i=1
x2
i
=
S∗
XY
S∗
XX
=β1
S∗
XX − β1 S∗
XX = (β1 − β1) S∗
XX ⇒ Z2
1 = S2
1
(g) Nakonec
n
i=2
Z2
i = S(β1) neboť S(β1) =
n
i=1
Z2
i = S(β1)
=S2
e
+S2
1
Pomocí předchozí transformace snadno spočítáme vlastnosti odhadů, když si uvědomíme, že
platí
Z1 = (β1 − β1) S∗
XX ∼ L(0, σ2
) ⇒ β1 = β1 + Z1√
S∗
XX
∼ L β1, σ2
S∗
XX
,
tj. β1 je nestranným odhadem parametru β1 .
96 M4122 Pravděpodobnost a statistika II
Opět ukážeme, že statistika S2
M1
=
S2
e
n − 1
je nestranným odhadem parametru σ2
.
ES2
M1
= E
S2
e
n − 1
=
1
n − 1
n
i=2
EZ2
i
=σ2
= σ2
Přidáme-li podmínku normality, tj. Yi ∼ N(β1xi, σ2
) pro i = 1, . . . , n, pak LS-odhad
parametru β1 má normální rozdělení
β1 ∼ N β1, σ2
S∗
XX
⇒ Uβ1
= β1−β1
σ
S∗
XX ∼ N(0, 1)
a je nezávislý se statistikou
K =
(n−1)S2
M1
σ2 ∼ χ2
(n − 1) .
Díky těmto vlastnostem můžeme získat statistiku
T =
Uβ1
K
n−1
= β1−β1
SM1
S∗
XX ∼ t(n − 1) .
Na závěr si ještě všimněme testování hypotéz v regresním modelu s regresní přímkou
procházející počátkem. Testy lze obecně opět sestavit např. metodou podílu věrohodností.
V následující tabulce je popíšeme pomocí kritických oblastí Wα.
H0 H1 Hypotézu H0 zamítáme, pokud Y ∈ Wα, tj.
β1 = 0 β1 = 0 |β1|
√
SXX ≥ SM1t1− α
2
(n − 1)
β1 = 0 β1 > 0 β1
√
SXX ≥ SM1t1−α(n − 1)
β1 = 0 β1 < 0 β1
√
SXX ≤ −SM1t1−α(n − 1)
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 97
5.2. Dva nezávislé náhodné výběry. Nechť {X1, . . . , Xnx } ∼ N(µX, σ2
X) je náhodný
výběr rozsahu nx z normálního rozdělení N(µX, σ2
X), ¯Xnx je jeho výběrový průměr a
S2
X jeho výběrový rozptyl.
Dále nechť {Y1, . . . , Yny } ∼ N(µY , σ2
Y ) je náhodný výběr rozsahu nY z normálního
rozdělení N(µY , σ2
Y ), ¯Yny je jeho výběrový průměr a S2
Y jeho výběrový rozptyl.
Položíme-li n = nx + ny a zavedeme-li následující značení
Y1 = X1 x1 = 1
...
...
Ynx = Xnx xnx = 1
Ynx+1 = Y1 xnx+1 = 0
...
...
Yn = Yny xn = 0
dostáváme regresní model (M1), ve kterém
¯x = 1
n
n
i=1
xi = nx
nx+ny
¯Y = 1
n
n
i=1
Yi = nx
nx+ny
¯Xnx + ny
nx+ny
¯Yny
SXX =
n
i=1
(xi − ¯x)2
=
n
i=1
x2
i − n¯x2
= nx − (nx + ny) nx
nx+ny
2
= nx(nx+ny)−n2
x
nx+ny
= nx(nx+ny−nx)
nx+ny
= nxny
nx+ny
SXY =
n
i=1
(Yi − ¯Y )(xi − ¯x) =
n
i=1
xiYi − n¯x¯Y
= nx
¯Xnx − (nx + ny) nx
(nx+ny)
nx
nx+ny
¯Xnx + ny
nx+ny
¯Yny
=
nx ny
¯Xnx − ny
¯Yny
nx + ny
= nxny
nx+ny
¯Xnx − ¯Yny
SY Y =
n
i=1
(Yi − ¯Y )2
=
n
i=1
Y 2
i − n¯Y 2
=
n
i=1
Y 2
i − (nx + ny) nx
nx+ny
¯Xnx + ny
nx+ny
¯Yny
2
=
n
i=1
Y 2
i −
(nx
¯Xnx +ny
¯Yny )2
nx+ny
98 M4122 Pravděpodobnost a statistika II
β1 =
SXY
SXX
=
nxny
nx+ny
¯Xnx − ¯Yny
nxny
nx+ny
= ¯Xnx − ¯Yny
β0 = ¯Y − β1 ¯x = nx
nx+ny
¯Xnx + ny
nx+ny
¯Yny − ¯Xnx − ¯Yny
nxny
nx+ny
= ¯Yny
S2
e = SY Y −
S2
XY
SXX
= SY Y − β1SXY
=
n
i=1
Y 2
i −
(nx
¯Xnx +ny
¯Yny )2
nx+ny
− nxny
nx+ny
¯Xnx − ¯Yny
2
=
n
i=1
Y 2
i − 1
nx+ny
n2
x
¯X2
nx
+2nxny
¯Xnx
¯Yny +ny
¯Y 2
ny
+nxny
¯X2
nx
−nxny
¯Xnx
¯Yny +nxny
¯Y 2
ny
=
n
i=1
Y 2
i − 1
nx+ny
nx(nx + ny) ¯X2
nx
+ ny(nx + ny)¯Y 2
ny
=
nx
i=1
X2
i − nx
¯X2
nx
(nx−1)S2
X
+
nx+ny
i=nx+1
Y 2
i − ny
¯Y 2
ny
(ny−1)S2
Y
= (nx − 1)S2
X + (ny − 1)S2
Y
S2
M1 =
S2
e
n − 2
=
(nx − 1)S2
X + (ny − 1)S2
Y
nx + ny − 2
Vzhledem k tomu, že výběrové průměry jsou nestrannými odhady středních hodnot, pak
neznámé parametry β0 a β1 lze interpretovat takto
β0 = µY
β1 = µX − µY
Na závěr si ještě všimněme, že (oboustranný) interval spolehlivosti, který jsme odvodili
pro neznámý parametr β1
β1 − SM1√
SXX
t1− α
2
(n − 2), β1 + SM1√
SXX
t1− α
2
(n − 2)
po dosazení má tvar pro β1 je tvaru
β1 − SM1
nxny
nx+ny
t1− α
2
(n − 2), β1 + SM1
nxny
nx+ny
t1− α
2
(n − 2) .
a je naprosto shodný s intervalem, který jsme odvodili pro rozdíl středních hodnot dvou
nezávislých náhodných výběrů z normálního rozdělení.
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. 99
Příklad 5.1. Máme analyzovat data o počtu pracovních hodin za měsíc spojených s provozováním
anesteziologické služby v závislosti na velikosti spádové populace nemocnice (viz
následující tabulka). Údaje byly získány ve 12 nemocnicích ve Spojených státech.
Poř. Počet Velikost populace
pracovních spádové oblasti
číslo hodin (osoby v tisích)
1 304,37 25,5
2 2616,32 294,3
3 1139,12 83,7
4 285,43 30,7
5 1413,77 129,8
6 1555,68 180,8
7 383,78 43,4
8 2174,27 165,2
9 845,30 74,3
10 1125,28 60,8
11 3462,60 319,2
12 3682,33 376,2
Závislost počtu pracovních hodin
na velikosti populace
0 50 100 150 200 250 300 350 400
0
500
1000
1500
2000
2500
3000
3500
4000
Graf naznačuje lineární vztah mezi pracovní dobou a velikostí populace, a tak budeme
pokračovat kvantiﬁkací tohoto vztahu pomocí přímky y = β0 + β1x.
0 50 100 150 200 250 300 350 400
0
500
1000
1500
2000
2500
3000
3500
4000
Používáme-li model regresní analýzy pro statistické
zpracování našich dat, je dobré ověřit
předpoklady, ze kterých model vychází. Shrňme
je v následujících třech bodech.
(1) Závisle proměnná Y (pracovní doba) má normální
rozdělení pro každou hodnotu nezávisle
proměnné x (velikost populace).
(2) Rozptyl závisle proměnné Y je stejný pro
každou hodnotu nezávisle proměnné x.
(3) Závislost veličiny Y na x je lineární.
Pro tuto chvíli předpokládejme, že pro náš příklad
jsou tyto předpoklady splněny.
Odhad absolutního členu β0 a směrnice β1 regresní přímky a jejich statistické charakteristiky
jsou uvedeny v další tabulce. Směrodatná chyba koeﬁcientu je výběrová směrodatná
odchylka odhadovaného parametru, tj. sβ0 = SM1
1
n
+ ¯x2
SXX
a sβ1 = SM1√
SXX
(Ve statistických
programech je obvykle označována anglicky jako Standard Error.)
Statistické charakteristiky lineární regrese
Parametr Koeﬁcient Směrodatná chyba koef. t-statistika p-hodnota
Absolutní člen β0 180,658 128,381 1,407 0,1896823
Směrnice β1 9,429 0,681 13,847 7.520972e-08
Z tabulky tedy dostáváme:
pracovní doba = 180,658 + 9,429 · velikost populace.
100 M4122 Pravděpodobnost a statistika II
To je třeba interpretovat jako odhad průměrné hodnoty počtu pracovních hodin pro populaci
s danou velikostí. Očekáváme, že na každých dalších 1 000 lidí stoupne za měsíc počet
pracovních hodin o 9,429, což je směrnice regresní přímky. Uvědomte si, že absolutní člen
(180, 658) značí průměrný počet pracovních hodin, když je populace rovna nule. To zřejmě
nedává smysl a mělo by nám to připomenout, že model by se měl používat pouze v tom rozmezí
obou veličin, v němž se pohybovaly pozorované hodnoty. V tomto případě to znamená
x od 26 do 370. Je ovšem pravda, že dosažená hladina významnosti pro absolutní člen je
přibližně 0, 19, a nelze tedy říci, že by se absolutní člen β0 významně lišil od nuly.
Připomeňme, že tyto výsledky jsme spočítali pro náhodný výběr 12 nemocnic. Kdybychom
teď zvolili jiný náhodný výběr 12 nemocnic, dostali bychom odlišný odhad směrnice
a absolutního členu. Určeme proto intervaly spolehlivosti neznámých parametrů β0 a β1.
Oboustranný interval spolehlivosti pro β0
180,6575 ± 2,228 · 128,3812 = 180,6575 ± 286,051
−200 −100 0 100 200 300 400 500
(−105,394; 466,709)
Oboustranný interval spolehlivosti pro β1
9,429 ± 2,228 · 0,681 = 9,429 ± 1,517
0 2 4 6 8 10 12
(7,912; 10,946)
Na základě výběru 12 nemocnic můžeme říci, že neznámý parametr β0 leží mezi −105, 394
a 466, 709 a neznámý parametr β1, tj. parametr změny průměrného počtu pracovních hodin
v závislosti na změně velikosti populace (v tisících), leží mezi 7, 912 a 10, 946 pracovními
hodinami za měsíc.
Protože interval spolehlivosti pro β0 pokrývá nulu, nelze potvrdit, že se významně liší
od nuly. Naproti tomu interval spolehlivosti pro β1 nulu nepokrývá, tedy se významně liší
od nuly, jinak řečeno počet pracovních hodin skutečně lineárně závisí na rozsahu spádové
populace.
Pokud bychom uvažovali regresi procházející počátkem (plná čára) a výsledek srovnali
s obecnou regresní přímkou (čárkovaná čára), dostaneme následující odhady
β∗
1 = 10, 185 sβ∗
1
= 0, 4371,
t∗
= 3, 30157, p∗
− hodnota = 1.0318e − 10
Oboustranný interval spolehlivosti pro β∗
1
10,185 ± 2,2 · 0,4371 = 10,185 ± 0,962
0 2 4 6 8 10 12
(9,223; 11,147)
Protože interval spolehlivosti pro β∗
1 nulu nepokrývá,
opět jsme prokázali, že se významně
liší od nuly, tj. počet pracovních hodin skutečně
lineárně závisí na rozsahu spádové po-
pulace.
0 50 100 150 200 250 300 350 400
0
500
1000
1500
2000
2500
3000
3500
4000
4500
pracovní doba = 10,185 · velikost populace.