Přechod na menu, Přechod na obsah, Přechod na patičku
     

Úvod do matematické statistiky


1. Náhodný výběr a výběrové charakteristiky


V teorii pravděpodobnosti se předpokládá, že

  • je známý pravděpodobnostní prostor $(\Omega,\mathcal{A},P)$
  • a že také známe rozdělení pravděpodobnosti náhodných veličin (resp. náhodných vektorů), které na tomto pravděpodobnostním prostoru uvažujeme.

V matematické statistice však

  • máme k dispozici výsledky $n$ nezávislých pozorování hodnot sledované náhodné veličiny $X$, které se ve statistice říká statistický znak, tj. máme $$x_1=X(\omega_1),\ldots,x_n=X(\omega_n),\; \omega_1,\ldots,\omega_n\in \Omega$$
  • a na základě těchto pozorování chceme učinit výpověď o rozdělení zkoumané náhodné veličiny.

Definujme nejprve základní pojmy matematické statistiky. Základním pojmem matematické statistiky je pojem náhodného výběru.

Definice 1.1.

Náhodný vektor $\mathbf{X}_n=(X_1,\ldots,X_n)'$ nazýváme náhodným výběrem z rozdělení pravděpodobnosti $P$, pokud

$(i)$ $X_1, \ldots, X_n$ jsou nezávislé náhodné veličiny,
$(ii)$ $X_1, \ldots, X_n$ mají stejné rozdělení pravděpodobnosti

Číslo $n$ nazýváme rozsah náhodného výběru. Libovolný bod $ \mathbf{x}_n=(x_1,\ldots,x_n)'$, kde $x_i$ je realizace náhodné veličiny $X_i$ ($i=1,\ldots,n$), budeme nazývat realizací náhodného výběru $\mathbf{X}_n=(X_1,\ldots,X_n)'$. Množinu všech hodnot, kterých může náhodný výběr nabýt, nazýváme výběrový prostor a budeme jej značit $\mathcal{X}$.

Základní dělení matematické statistiky je dané strukturou množiny všech možných rozdělení (označme ji $\mathcal{P}$) náhodného výběru $\mathbf{X}$. Velmi často vybíráme do množiny $\mathcal{P}$ jen rozdělení, která jsou stejného typu a která závisí pouze na nějakém (skalárním či vícerozměrném) parametru. Tento parametr se většinou značí $\boldsymbol\theta$ a pravděpodobnostní míry z množiny $\mathcal{P}$ symbolem $P_{\boldsymbol\theta}$. Přitom předpokládáme, že parametr $\boldsymbol\theta$ nabývá hodnot z nějaké množiny $\boldsymbol\Theta$.

Definice 1.2. Množinu $\mathcal{P}$ pravděpodobnostních měr tvaru $$\mathcal{P}=\{P_{\boldsymbol\theta};\boldsymbol\theta\in\boldsymbol\Theta\}$$ nazýváme parametrickou třídou rozdělení. Vektor $\boldsymbol\theta$ nazýváme parametrem rozdělení pravděpodobnosti $P_{\boldsymbol\theta}$ a množinu $\boldsymbol\Theta$ možných hodnot parametru $\boldsymbol\theta$ parametrický prostor.

Nechť náhodný výběr $\mathbf{X}_n=(X_1,\ldots,X_n)'$ je z rozdělení, které je dáno distribuční funkcí $F(x,\boldsymbol\theta),\;\boldsymbol\theta\in\boldsymbol\Theta$. Zkráceně budeme značit:

\vDash\{X_1,\ldots,X_n\} \simeq F(x;\boldsymbol\theta).

Nyní se zmiňme o tzv. rodinách rozdělení.

Definice 1.3. Nechť $g(x)$ je nějaká hustota. Definujme rodiny rozdělení $$\begin{align*} \mathcal{F}_1 & =\{f(x;\theta)=g(x-\theta);\theta\in\mathbb{R}\} \\ \mathcal{F}_2 & =\left\{f(x;\delta)=\tfrac{1}{\delta}g \left(\tfrac{x}{\delta}\right);\delta \gt 0\right\} \\ \mathcal{F}_3 & =\left\{f(x;\theta,\delta)=\tfrac{1}{\delta}g \left(\tfrac{x-\theta}{\delta}\right); \theta\in\mathbb{R},\delta \gt 0\right\} \end{align*}$$ Pak říkáme, že ${\mathcal{F}_1}$ je rodina s parametrem polohy (location family), ${\mathcal{F}_2}$ je rodina s parametrem měřítka (scale family) a ${\mathcal{F}_3}$ je rodina s parametrem polohy a měřítka (location-scale family).

Cílem teorie odhadu je na základě náhodného výběru odhadnout

  • rozdělení pravděpodobnosti,
  • popřípadě některé parametry tohoto rozdělení,
  • anebo nalézt odhad nějaké funkce parametrů $\boldsymbol \theta$, tj. $\gamma(\boldsymbol\theta)$.

Funkci $\gamma(\boldsymbol\theta)$ nazýváme parametrickou funkcí. V matematické statistice se pro funkce, pomocí kterých budeme odhady provádět, nazývají statistikou. (Tyto funkce jsou navíc měřitelné).

Definice 1.4. Libovolnou náhodnou veličinu $T_n$, která vznikne jako funkce náhodného výběru $\mathbf{X}_n=(X_1,\ldots,X_n)'$, budeme nazývat statistikou, tj. $^{\scriptscriptstyle{\mathrm{T}}}n$.
Příklad 1.5. Výběrová (empirická) distribuční funkce.

Ukážeme, jakým způsobem lze například informaci obsaženou v náhodném výběru zužitkovat k popisu distribuční funkce. Mějme \vDash\{X_1,\ldots,X_n\} \simeq F(x;\boldsymbol\theta)

Zaveďme tzv. indikátor množiny předpisem: $I_B(x)= \begin{cases} 1 & x\in B, \\ 0 & x\notin B \end{cases}$ a pro $x\in \mathbb{R}$ indikátor jevu: $I_i(x)=I_{(-\infty,x\gt }(X_i)= \begin{cases} 1 & X_i\leq x, \\ 0 & X_i\gt x. \end{cases}\quad\mbox{pro}\quad i=1,\ldots,n.$

Potom $I_1(x),\ldots,I_n(x)$ jsou nezávislé náhodné veličiny se stejným alternativním rozdělením pravděpodobností s parametrem $\pi\in(0,1)$, tj. \vDash\{I_1,\ldots,I_n\}\simeq A(\pi). Parametr $\pi$ je roven pravděpodobnosti úspěchu, tj.

P(I_i(x)=1)=P(X_i\leq x)=F(x;\boldsymbol\theta)
\quad\Rightarrow\quad {\vDash\{I_1,\ldots,I_n\}\simeq
A(\pi=F(x;\boldsymbol\theta))}.

Položme

$$\begin{array}{lcl} Y(x) & = & \sum_{i=1}^n I_i(x) \\[1ex] F_n(x) & = & \frac{Y(x)}{n} \end{array}$$

a postupně počítejme

$${EF_n(x)}=E\tfrac{Y(x)}{n}=\tfrac{1}{n} Y_n =\tfrac{1}{n}\sum_{i=1}^n I_i(x)=\tfrac{1}{n}\cdot n\;F(x;\boldsymbol\theta) ={F(x;\boldsymbol\theta)}.$$

Protože posloupnost $\{F_n(x)\}_{n=1}^\infty$ splňuje jak slabý, tak silný zákon velkých čísel, tak platí

$$\begin{array}{lcl} \lim_{n\to \infty}P(|F_n(x)-F(x;\boldsymbol\theta)|\geq \varepsilon) & = & 0 \\[1ex] P(\lim_{n\to \infty}F_n(x)=F(x;\boldsymbol\theta)) & = & 1 \end{array}$$
Graf Distribuční funkce

Z uvedených vztahů je vidět, že pokud rozsah výběru bude dostatečně velký, lze distribuční funkci rozdělení, z něhož výběr pochází, dostatečně přesně aproximovat pomocí výběrové (empirické) distribuční funkce.

Předpokládejme, že rozdělení, z něhož výběr pochází, má konečné druhé momenty se střední hodnotou $\mu$ a rozptylem $\sigma^2$, což budeme dále značit

\vDash\{X_1,\ldots,X_n\} \simeq \mathcal{L}(\mu,\sigma^2).

Tedy pro každé $i=1,\ldots,n$ platí

$$\begin{array}{lcl} EX_i & = & \mu \\ DX_i & = & \sigma^2 \end{array}.$$

Potom tyto charakteristiky zřejmě závisí na parametru $\boldsymbol\theta$, neboť

$$\begin{array}{lcl} \mu & = & \int_{-\infty}^\infty xdF(x;\boldsymbol\theta) \\[1ex] \sigma^2 & = &\int_{-\infty}^\infty (x-\mu)^2dF(x;\boldsymbol\theta) \end{array},$$

proto bude lépe značit je $\mu(\boldsymbol\theta)$ a $\sigma^2(\boldsymbol\theta$ místo $\mu$ a $\sigma^2$.

Všimněme si dále, že pro každé $x\in \mathbb{R}$ je $F_n(x)=F_n(X_1,\ldots,X_n)$ statistikou, tím také náhodnou veličinou (která nabývá hodnot mezi nulou a jedničkou) a tím i funkcí elementárního jevu $\omega\in\Omega$.

Zvolíme-li $\omega$ libovolně, ale pevně a uvažujeme-li {$F_n(x)$} jako funkci proměnné $x$, pak lze snadno odvodit, že je tato funkce distribuční funkcí nějaké náhodné veličiny a lze zavést její střední hodnotu a rozptyl

$$\begin{array}{lcl} \mu_n & = & \int_{-\infty}^\infty xdF_n(x;\boldsymbol\theta)= \tfrac{1}{n}\sum_{i=1}^n X_i \\[1ex] \sigma_n^2 & = &\int_{-\infty}^\infty (x-\mu)^2dF(x;\boldsymbol\theta) =\tfrac{1}{n}\sum_{i=1}^n (X_i-\mu_n)^2 \end{array}$$

Zřejmě $\mu_n$ a $\sigma_n^2$ jsou borelovské funkce náhodného výběru a tedy statistiky a lze je považovat za odhady parametrických funkcí $\mu(\boldsymbol\theta)$ a $\sigma^2(\boldsymbol\theta)$. Lze očekávat, že čím bude rozsah náhodného výběru větší, tím bude odhad uvedených parametrických funkcí kvalitnější.

Poznámka 1.6.

Odhadem parametrické funkce $\gamma(\boldsymbol\theta)$ budeme rozumět nějakou statistiku $^{\scriptscriptstyle{\mathrm{T}}}n$, která bude pro různé náhodné výběry kolísat kolem $\gamma(\boldsymbol\theta)$.

Statistika $^{\scriptscriptstyle{\mathrm{T}}}n$ závisí na parametru $\boldsymbol\theta$ prostřednictvím distribuční funkce rozdělení, z něhož výběr pochází.

Také rozdělení této statistiky, tj. náhodné veličiny, závisí na parametru $\boldsymbol\theta$.

Proto střední hodnotu a rozptyl této statistiky budeme značit $E_{\boldsymbol\theta} T_n$ a $D_{\boldsymbol\theta} T_n$.

Definice 1.7. Výběrové charakteristiky.

Nechť $\mathbf{X}_n=(X_1,\ldots,X_n)'$ je náhodný výběr rozsahu $n$ z rozdělení s distribuční funkcí $F(x;\boldsymbol\theta)$, $\boldsymbol\theta\in\boldsymbol\Theta$. Potom statistika

$\bar{X}_n=\bar{X}=\tfrac{1}{n}\sum_{i=1}^n X_i$ se nazývá výběrový průměr
$S^2=\tfrac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2$ výběrový rozptyl
$S=\sqrt{S^2}$ výběrová směrodatná odchylka
$F_n(x)=\tfrac{1}{n}\sum\limits_{i=1}^n I_{(-\infty,x\gt }(X_i)$ výběrová (empirická) distribuční funkce
RNDr. Marie Forbelská, Ph.D., Mgr. Jan Koláček, Ph.D. |
ÚMS, Přírodovědecká fakulta, Masarykova univerzita |
Návrat na úvodní stránku webu, přístupnost |
Stránky Přírodovědecké fakulty MU
| Technická spolupráce:
| Servisní středisko pro e-learning na MU
| Fakulta informatiky Masarykovy univerzity, 2013

Centrum interaktivních a multimediálních studijních opor pro inovaci výuky a efektivní učení | CZ.1.07/2.2.00/28.0041