Přechod na menu, Přechod na obsah, Přechod na patičku
     

Kontingenční tabulky


V předchozí kapitole jsme uvažovali pouze jeden znak $X$. Teď si nadefinujeme četnosti, které se budou týkat dvou znaků $X$ a $Y$, tyto četnosti se nazývají simultánní a tabulka, která obsahuje tyto četnosti, se nazývá kontingenční tabulka.

Bodové rozložení


Simultánní četnost - mějme výběrový soubor o rozsahu $n$, znak $X$ s počtem variant $r$ a znak $Y$ s počtem variant $s$. Pro $j = 1, \dots, r$ a $k = 1, \dots, s$ definujeme:

  • Absolutní četnost dvojice $(x_{[j]},y_{[k]})$ $$n_{jk} = N (X = x_{[j]} \wedge Y = y_{[k]})$$
  • Relativní četnost dvojice $(x_{[j]},y_{[k]})$ $$p_{jk}= \frac{n_{jk}}{n}$$
  • Absolutní kumulativní četnost dvojic nepřesahujících $(x_{[j]},y_{[k]})$ $$N_{jk} = N (X \leq x_{[j]} \wedge Y \leq y_{[k]}) = \sum_{u\leq j} \sum_{v \leq k} n_{uv}$$
  • Relativní kumulativní četnost dvojic nepřesahujících $(x_{[j]},y_{[k]})$ $$F_{jk}= \frac{N_{jk}}{n} = \sum_{u\leq j} \sum_{v \leq k} p_{uv}$$

Marginální četnosti – četnosti jednotlivých znaků. Používáme tečkovou notaci, tečka stojí na místě znaku, podle něhož sčítáme. Do tabulky je píšeme do posledního sloupce nebo řádku.

  • $n_{j .} = n_{j1} +\dots+ n_{js}$
  • $n_{ . k} = n_{1k} +\dots+ n_{rk}$
  • $p_{j .} = p_{j1} +\dots+ p_{js}$
  • $p_{ . k} = p_{1k} +\dots+ p_{rk}$
  • $N_{j .} = n_{1 .} +\dots+ n_{j .}$
  • $N_{ . k} = n_{ . 1} +\dots+ n_{ . k}$
  • $F_{j .} = p_{1 .} +\dots+ p_{j .}$
  • $F_{ . k} = p_{ . 1} +\dots+ p_{ . k}$

Podmíněné relativní četnosti - relativní četnost může být sloupcově nebo řádkově podmíněná

  • Sloupcově podmíněná - relativní četnost varianty $x_{[j]}$ za předpokladu $y_{[k]}$ $$p_{j(k)}= \frac{n_{jk}}{n_{ . k}} = \frac{p_{jk}}{p_{ . k}}$$
  • Řádkově podmíněná - relativní četnost varianty $y_{[k]}$ za předpokladu $x_{[j]}$ $$p_{(j)k}= \frac{n_{jk}}{n_{j .}} = \frac{p_{jk}}{p_{j .}}$$

Kontingenční tabulka absolutních četností (obecně):

$y$ $y_{[1]}$ $\cdots$ $y_{[s]}$ $n_{j .}$
$x$ $n_{jk}$
$x_{[1]}$ $n_{11}$ $\cdots$ $n_{1s}$ $n_{1 .}$
$\cdots$ $\cdots$ $\cdots$ $\cdots$ $\cdots$
$x_{[r]}$ $n_{r1}$ $\cdots$ $n_{rs}$ $n_{r\cdot}$
$n_{. k}$ $n_{. 1}$ $\cdots$ $n_{. s}$ $n$

První řádek a první sloupec představují varianty znaků, vnitřní část tabulky je pak vyplněna simultánními četnostmi, poslední sloupec a poslední řádek vyplníme marginálními četnostmi. Podobně zavádíme tabulku i pro jiné druhy četností.

Simultánní četnostní funkce - funkce dvou reálných proměnných

$$p(x,y)= \begin{cases} p_{jk}& \text{ pro } x=x_{[j]} \wedge y=y_{[k]}, j=1, \dots, r, k=1, \dots, s\\ 0& \text{ jinak } \end{cases}$$

Marginální četnostní funkce

$$p_1(x)= \begin{cases} p_{j .}& \text{ pro } x=x_{[j]}, j=1, \dots, r\\ 0& \text{ jinak } \end{cases}$$ $$p_2(y)= \begin{cases} p_{. k}& \text{ pro } y=y_{[k]}, k=1, \dots, s\\ 0& \text{ jinak } \end{cases}$$

Jestliže pro všechny dvojice $(x,y)$ z $\mathbb{R}^2$ platí vztah:

$$p(x,y) = p_1 (x) p_2 (y),$$

neboli pro všechna $j = 1, \dots, r$ a všechna $k= 1, \dots, s$ platí vztah:

$$p_{jk} = p_{j .} p_{. k},$$

pak můžeme říct, že znaky $X$ a $Y$ jsou četnostně nezávislé v daném výběrovém souboru.

Podmíněné četnostní funkce

  • Sloupcově podmíněná $$p_{1\vert 2} (x\vert y)=\begin{cases} \frac{p(x,y)}{p_2(y)} & \text{ pro } p_2 (y)\neq 0\\ 0 & \text{ jinak } \end{cases}$$
  • Řádkově podmíněná $$p_{2\vert 1} (y\vert x)=\begin{cases} \frac{p(x,y)}{p_1(x)} & \text{ pro } p_1 (x)\neq 0\\ 0 & \text{ jinak } \end{cases}$$
Příklad 2.1:

Ve firmě byl proveden průzkum, ve kterém se zjišťovalo pohlaví (znak $X$) a nejvyšší dosažené vzdělání (znak $Y$). Dotazovaných bylo 150. Žen bylo 77 a mužů 73. Základní vzdělání mělo 8 žen a 5 mužů, středoškolské mělo 55 žen a 46 mužů a vysokoškolské mělo 14 žen a 22 mužů.

Sestavte:

  1. Kontingenční tabulku absolutních četností
  2. Kontingenční tabulku relativních četností
  3. Kontingenční tabulku absolutních kumulativních četností
  4. Kontingenční tabulku sloupcově podmíněných relativních četností
  5. Kontingenční tabulku řádkově podmíněných relativních četností
  6. Zjistěte, zda znaky $X$ a $Y$ jsou četnostně nezávislé
  7. V programu Statistica vytvořte graf simultánní četnostní funkce
a. Kontingenční tabulku absolutních četností
postup
postup v programu Statistica
b. Kontingenční tabulka relativních četností
postup
postup v programu Statistica
c. Kontingenční tabulku absolutních kumulativních četností
postup
postup v programu Statistica

Vnitřní část tabulky vyplníme simultánními absolutními kumulativními četnostmi (použijeme vzorec \(\displaystyle N_{jk}=N(X \leq x_{[j]} \wedge Y \leq y_{[k]}) = \sum_{u \leq j} \sum_{v \leq k} n_{uv}\). Světle modře jsou vyznačené buňky, které sčítáme a výsledek zapíšeme do tmavomodré buňky.

d. Kontingenční tabulku sloupcově podmíněných relativních četností
postup
postup v programu Statistica

Tentokrát mírně poupravíme tabulku a vnitřní část vyplníme podle vzorce

\[p_{j(k)}=\frac{n_{jk}}{n_{.k}}=\frac{p_{jk}}{p_{.k}}\]
e. Kontingenční tabulku řádkově podmíněných relativních četností
postup
postup v programu Statistica

Tabulku poupravíme, aby vypadala následovně, a vnitřní část vyplníme podle vzorce

\[p_{(j)k}=\frac{n_{jk}}{n_{j.}}=\frac{p_{jk}}{p_{j.}}\]
f. Četnostní nezávislost
postup

Budeme potřebovat tabulku, kterou jsme dostali v případě 2.1b).

Budeme dosazovat do vzorce:

\[p_{jk}=p_{j.}p_{.k}\]
  1. \(j=1, k=1\)
    \(p_{1.}p_{.1}\) \(=\frac{77}{150}\cdot\frac{13}{150}=\frac{1001}{22500}=0,04\neq\frac{8}{150}=0,05=\) \(p_{11}\)

Vidíme, že požadovaná rovnost není splněna, nemusíme tedy dále pokračovat a můžeme říci, že nejvyšší dosažené vzdělání a pohlaví jsou četnostně závislé.

g. Graf simultánní četnostní funkce
postup
postup v programu Statistica

Na osu z naneseme hodnoty simultánní četnostní funkce, na osu x hodnoty znaku X a na osu y hodnoty znaku Y

graf simultánní četnostní funkce

Intervalové rozložení


$(u_j;u_{j+1}\rangle$ … $j$-tý třídicí interval znaku $X$, pro $j=1,…, r$

$(v_k;v_{k+1}\rangle$ … $k$-tý třídicí interval znaku $Y$, pro $k=1,…, s$

$d_j = u_{j+1}-u_j$ … délka $j$-tého třídicího intervalu znaku $X$

$h_k = v_{k+1}-v_k$ … délka $k$-tého třídicího intervalu znaku $Y$

$x_{[j]}$ … střed $j$-tého třídicího intervalu znaku $X$

$y_{[k]}$ … střed $k$-tého třídicího intervalu znaku $Y$

$(u_j;u_{j+1}\rangle \times (v_k;v_{k+1}\rangle$ … $(j,k)$-tý dvourozměrný třídicí interval

$(x_{[j]}, y_{[k]})$ … těžiště dvourozměrného třídicího intervalu

$d_jh_k$ … obsah dvourozměrného třídicího intervalu

Simultánní četnost - mějme výběrový soubor o rozsahu $n$, $r$ je počet třídicích intervalů znaku $X$ a $s$ je počet třídicích intervalů znaku $Y$. Pro $j = 1, \dots, r$ a $k = 1, \dots, s$ definujeme:

  • Absolutní četnost $(j,k)$–tého třídicího intervalu $$ n_{jk} = N(u_j\lt X \leq u_{j+1} \wedge v_k \lt Y \leq v_{k+1}) $$
  • Relativní četnost $(j,k)$–tého třídicího intervalu $$ p_{jk}= \frac{n_{jk}}{n} $$
  • Četnostní hustota v $(j,k)$–tém třídicím intervalu $$ f_{jk} = \frac{p_{jk}}{d_jh_k} $$

Marginální četnosti (opět používáme tečkovou notaci)

  • Absolutní četnost $j$–tého třídicího intervalu $$ n_{j .} = N(u_j\lt X \leq u_{j+1})= n_{j1} + \dots + n_{js} $$
  • Absolutní četnost $k$-tého třídicího intervalu $$ n_{ . k} = N (v_k \lt Y \leq v_{k+1}) = n_{1k} + \dots + n_{rk} $$
  • Relativní četnost $j$–tého třídicího intervalu $$ p_{j .}= \frac{n_{j .}}{n} $$
  • Relativní četnost $k$–tého třídicího intervalu $$ p_{ . k}= \frac{n_{ . k}}{n} $$
  • Hustota četnosti v $j$–tém třídicím intervalu $$ f_{j .} = \frac{p_{j .}}{d_j} $$
  • Hustota četnosti v $k$–tém třídicím intervalu $$ f_{ . k} = \frac{p_{ . k}}{h_k} $$

Podmíněné relativní četnosti (opět používáme tečkovou notaci)

  • Podmíněná relativní četnost hodnot $j$-tého intervalu prvního znaku mezi hodnotami druhého znaku ležícími v $k$-tém intervalu $$ p_{j(k)}= \frac{n_{jk}}{n_{ . k}} = \frac{p_{jk}}{p_{ . k}} $$
  • Podmíněná relativní četnost hodnot $k$-tého intervalu druhého znaku mezi hodnotami prvního znaku ležícími v $j$-tém intervalu $$ p_{(j)k}= \frac{n_{jk}}{n_{j .}} = \frac{p_{jk}}{p_{j .}} $$

Kontingenční tabulka pro absolutní četnosti (obecně):

$(v_k;v_{k+1}\rangle$ $(v_1;v_2\rangle$ $\cdots$ $(v_s;v_{s+1}\rangle$ $n_{j\cdot}$
$(u_j;u_{j+1}\rangle$ $n_{jk}$
$(u_1;u_2\rangle$ $n_{11}$ $\cdots$ $n_{1s}$ $n_{1 .}$
$\cdots$ $\cdots$ $\cdots$ $\cdots$ $\cdots$
$(u_r;u_{r+1}\rangle$ $n_{r1}$ $\cdots$ $n_{rs}$ $n_{r .}$
$n_{. k}$ $n_{. 1}$ $\cdots$ $n_{. s}$ $n$

Simultánní hustota četnosti

$$ \tilde{f}(x,y)= \begin{cases} f_{jk} & \text{ pro } u_j \lt x \leq u_{j+1} \wedge v_k \lt y \lt v_{k+1}, j= 1,\dots, r, k = 1,\dots, s\\ 0 & \text{ jinak } \end{cases} $$

Marginální hustoty četností

$$ \tilde{f}_1 (x)= \begin{cases} f_{j .},& \text{ pro } u_j \lt x \leq u_{j+1},\qquad j= 1,\dots, r\\ 0, & \text{ jinak } \end{cases} $$ $$ \tilde{f}_2 (y)= \begin{cases} f_{. k},& \text{ pro } v_k \lt y \leq v_{k+1},\qquad k = 1,\dots, s\\ 0, & \text{ jinak } \end{cases} $$

Jestliže pro všechny dvojice $(x,y)$ z $\mathbb{R}^2$ platí vztah:

$$ \tilde{f}(x,y) = \tilde{f}_1 (x) \tilde{f}_2 (y), $$

neboli pro všechna $j = 1, \dots, r$ a všechna $k= 1, \dots, s$ platí vztah:

$$ f_{jk} = f_{j .} f_{ . k}, $$

pak můžeme říct, že znaky $X$ a $Y$ jsou četnostně nezávislé v daném výběrovém souboru při daném intervalovém rozložení.

Podmíněné hustoty četnosti

  • Podmíněná hustota četnosti prvního znaku $$ f_{1\vert 2} (x\vert y)=\begin{cases} \frac{\tilde{f}(x,y)}{\tilde{f}_2(y)} & \text{ pro } \tilde{f}_2 (y)\neq 0\\ 0 & \text{ jinak } \end{cases} $$
  • Podmíněná hustota četnosti druhého znaku $$ f_{2\vert 1} (y\vert x)=\begin{cases} \frac{\tilde{f}(x,y)}{\tilde{f}_1(x)} & \text{ pro } \tilde{f}_1 (x)\neq 0\\ 0 & \text{ jinak } \end{cases} $$
Příklad 2.2:

Ve firmě byl prováděn průzkum ohledně věku a mzdy zaměstnanců a brigádníků. Dotazovaných bylo 250. Dotazovaní byli rozděleni do 4 věkových skupin:

Ve věku 15-25 mělo hrubou mzdu mezi 10 000-25 000 55 zaměstnanců
25 000-40 000 16 zaměstnanců
40 000-55 000 2 zaměstnanci
Ve věku 25-35 mělo hrubou mzdu mezi 10 000-25 000 18 zaměstnanců
25 000-40 000 25 zaměstnanců
40 000-55 000 7 zaměstnanci
Ve věku 35-45 mělo hrubou mzdu mezi 10 000-25 000 8 zaměstnanců
25 000-40 000 27 zaměstnanců
40 000-55 000 23 zaměstnanci
Ve věku 45-55 mělo hrubou mzdu mezi 10 000-25 000 5 zaměstnanců
25 000-40 000 31 zaměstnanců
40 000-55 000 33 zaměstnanců

Údaje o mzdách jsou nadále uváděny v tisících korun.

Sestavte:

  1. Kontingenční tabulku absolutních četností
  2. Kontingenční tabulku relativních četností
  3. Kontingenční tabulku simultánních četnostních hustot
  4. V programu Statistica vytvořte Stereogram

Nejdříve si nachystáme kontingenční tabulku:

Hrubá mzda $(10;25\rangle$ $(25;40\rangle$ $(40;55\rangle$
Věk
$(15;25\rangle$
$(25;35\rangle$
$(35;45\rangle$
$(45;55\rangle$
a. Kontingenční tabulku absolutních četností
postup
postup v programu Statistica

Tabulku vyplníme absolutními četnostmi, aby vypadala takto:

Hrubá mzda $(10;25\rangle$ $(25;40\rangle$ $(40;55\rangle$ $n_{j .}$
Věk
$(15;25\rangle$ 55 16 2 73
$(25;35\rangle$ 18 25 7 50
$(35;45\rangle$ 8 27 23 58
$(45;55\rangle$ 5 31 33 69
$n_{. k}$ 86 99 65 250
b. Kontingenční tabulku relativních četností
postup
postup v programu Statistica

Tabulku vyplníme relativními četnostmi (použijeme vzorec $p_{jk} = n_{jk}/n$):

Hrubá mzda $(10;25\rangle$ $(25;40\rangle$ $(40;55\rangle$ $p_{j .}$
Věk
$(15;25\rangle$ $\dfrac{55}{250}$ $\dfrac{16}{250}$ $\dfrac{2}{250}$
$(25;35\rangle$ $\dfrac{18}{250}$ $\dfrac{25}{250}$ $\dfrac{7}{250}$
$(35;45\rangle$ $\dfrac{8}{250}$ $\dfrac{27}{250}$ $\dfrac{23}{250}$
$(45;55\rangle$ $\dfrac{5}{250}$ $\dfrac{31}{250}$ $\dfrac{33}{250}$
$p_{. k}$

Četnosti vypočítáme a doplníme i poslední řádek a sloupec:

Hrubá mzda $(10;25\rangle$ $(25;40\rangle$ $(40;55\rangle$ $p_{j .}$
Věk
$(15;25\rangle$ 0,22 0,06 0,01 0,29
$(25;35\rangle$ 0,07 0,10 0,03 0,20
$(35;45\rangle$ 0,03 0,11 0,09 0,23
$(45;55\rangle$ 0,02 0,12 0,13 0,28
$p_{. k}$ 0,34 0,40 0,26 1
c. Kontingenční tabulku simultánních četnostních hustot
postup
postup v programu Statistica

Tabulku vyplníme simultánními četnostními hustotami, vnitřní část tabulky vyplníme podle vzorce $f_{jk} = \frac{p_{jk}}{d_j \cdot h_k}$, poslední sloupec vyplníme podle vzorce $f_{j\cdot}= \frac{p_{j\cdot}}{d_j}$ poslední řádek vyplníme podle vzorce $f_{\cdot k}= \frac{p_{\cdot k}}{h_k}$, kde $d_j = 10$ a $h_k = 15$.

Hrubá mzda (v tisících) $(10;25\rangle$ $(25;40\rangle$ $(40;55\rangle$ $f_{j .}$
Věk
$(15;25\rangle$ $\dfrac{0,22}{150}$ $\dfrac{0,06}{150}$ $\dfrac{0,01}{150}$ $\dfrac{0,29}{10}$
$(25;35\rangle$ $\dfrac{0,07}{150}$ $\dfrac{0,10}{150}$ $\dfrac{0,03}{150}$ $\dfrac{0,20}{10}$
$(35;45\rangle$ $\dfrac{0,03}{150}$ $\dfrac{0,11}{150}$ $\dfrac{0,09}{150}$ $\dfrac{0,23}{10}$
$(45;55\rangle$ $\dfrac{0,02}{150}$ $\dfrac{0,12}{150}$ $\dfrac{0,13}{150}$ $\dfrac{0,28}{10}$
$f_{. k}$ $\dfrac{0,34}{15}$ $\dfrac{0,40}{15}$ $\dfrac{0,26}{15}$

Po vypočtení hodnot:

Hrubá mzda (v tisících) $(10;25\rangle$ $(25;40\rangle$ $(40;55\rangle$ $f_{j .}$
Věk
$(15;25\rangle$ 0,00147 0,00043 0,00005 0,029
$(25;35\rangle$ 0,00048 0,00067 0,00019 0,020
$(35;45\rangle$ 0,00021 0,00072 0,00061 0,023
$(45;55\rangle$ 0,00013 0,00083 0,00088 0,028
$f_{. k}$ 0,02267 0,02667 0,01733
d. V programu Statistica vytvořte Stereogram
postup
postup v programu Statistica

3D graf, který zobrazuje relativní četnost $(j, k)$-tého třídicího intervalu. V grafu jsou kvádry sestrojené nad jednotlivými třídicími intervaly, jejich výška je určena simultánní hustotou četnosti $f(x,y)$. Objem těchto kvádrů je roven relativním četnostem. Toto vyplývá ze vzorce $p_{jk} = d_j h_k f_{jk}$. Jedná se tedy o analogii histogramu, jako v předchozí kapitole, ale v prostoru.

graf simultánní četnostní funkce

Bohužel program Statistica neumí vytvořit správný stereogram. Správný graf by měl na ose z simultánní hustotu četnosti, místo počtu pozorování (absolutní četnosti) a mezi kvádry by nebyly žádné mezery.

RNDr. Marie Budíková, Dr. a kol. |
ÚMS, Přírodovědecká fakulta, Masarykova univerzita |
Návrat na úvodní stránku webu, přístupnost |
Stránky Přírodovědecké fakulty MU
| Technická spolupráce:
| Servisní středisko pro e-learning na MU
| Fakulta informatiky Masarykovy univerzity, 2016

Centrum interaktivních a multimediálních studijních opor pro inovaci výuky a efektivní učení | CZ.1.07/2.2.00/28.0041