Přechod na menu, Přechod na obsah, Přechod na patičku
     

Číselné charakteristiky znaků


  • nevypovídají úplně vše o rozložení dat, vypovídají o poloze hodnot znaku, o jejich rozptýlení (variabilitě), o těsnosti závislosti mezi dvěma znaky apod.
  • třídění znaků a jejich charakteristiky:
    1. Nominální znaky – představují kvalitativní pojmenování, můžeme pouze říct, zda 2 varianty znaků jsou si rovny
      př.: barva očí, pohlaví, rasa, …
      • empirický modus $\hat{x}$ – nejčetnější hodnota nebo střed nejčetnějšího intervalu, jedná se o charakteristiku polohy
    2. Ordinální znaky – můžeme je porovnávat podle velikosti
      př.: známky ve škole, bodování ve sportu, …
      • $\alpha$-kvantil – číslo $ x_\alpha $ rozdělí uspořádaná data na horní úsek (obsahující alespoň podíl 1-$ \alpha $ všech dat) a dolní úsek (obsahující alespoň podíl $ \alpha $ všech dat) podle $ \alpha $, kde $ \alpha \in (0,1)$, jedná se o charakteristiku polohy, pro některá $ \alpha $ máme speciální označení:
        • $\alpha = 0,25$: $ x_{0,25} $ – dolní kvartil
        • $\alpha = 0,50$: $ x_{0,50}=\tilde{x} $ – medián
        • $\alpha = 0,75$: $ x_{0,75} $ – horní kvartil
        • $\alpha = 0,01; 0,02; \dots ; 0,99$ – percentily
      • kvartilové rozpětí – $ x_{0,75} - x_{0,25} = q $ – jedná se o charakteristiku rozptýlení
        Výpočet $ \alpha$-kvantilu:
        • Nejdříve vypočítáme $n\alpha$
          1. pokud dostaneme celé číslo $ c $ $\Rightarrow$ $ x_\alpha=\frac{x_{(c)}+x_{(c+1)}}{2} $
          2. pokud nedostaneme celé číslo $\Rightarrow$ číslo zaokrouhlíme nahoru na nejbližší celé číslo $ c $ $\Rightarrow$ $ x_\alpha = x_{(c)} $
Příklad 3.1:

Vypočítejte medián hrubé měsíční mzdy a kvartilové rozpětí. Byly zjištěny tyto hodnoty v Kč: 24 600, 24 500, 25 950, 17 550, 21 200, 38 700, 15 400, 64 350.

postup
postup v programu Statistica

Zjistěte:

  1. medián
    • nejdříve hodnoty seřadíme podle velikosti:
      15 400, 17 550, 21 200, 24 500, 24 600, 25 950, 38 700, 64 350
    • pozorování je celkem 8 $ \Rightarrow n=8$
    • chceme vypočítat medián $ \Rightarrow \alpha=0,5$
    • hodnota $n\alpha=8\cdot 0,5=4 \Rightarrow $ vyšlo nám celé číslo $ \Rightarrow c=4$
    • pro výpočet budeme tedy potřebovat 4. a 5. číslo v seřazené řadě
    • $ x_{0,50}=\frac{x_{(4)}+x_{(5)}}{2} = \frac{24\,500+2\,600}{2} = 24\,550$
  2. kvartilové rozpětí
    • nejdříve spočítáme $ x_{0,25}$ a $ x_{0,75} $
    • výpočet provedeme stejně jako v předchozím případě, pouze za $ \alpha $ budeme volit jiná čísla
    • pozorování je celkem 8 $ \Rightarrow n=8$
    • chceme vypočítat dolní kvartil $ \Rightarrow \alpha=0,25$
    • hodnota $n\alpha=8\cdot 0,25=2 \Rightarrow $ vyšlo nám celé číslo $ \Rightarrow c=2$
    • pro výpočet budeme tedy potřebovat 2. a 3. číslo v seřazené řadě
    • $ x_{0,25}=\frac{x_{(2)}+x_{(3)}}{2} = \frac{17\,550+21\,200}{2} = 19\,375$
    • chceme vypočítat horní kvartil $ \Rightarrow \alpha=0,75$
    • hodnota $n\alpha=8\cdot 0,75=6 \Rightarrow $ vyšlo nám celé číslo $ \Rightarrow c=6$
    • pro výpočet budeme tedy potřebovat 6. a 7. číslo v seřazené řadě
    • $ x_{0,75}=\frac{x_{(6)}+x_{(7)}}{2} = \frac{25\,950+38\,700}{2} = 32\,325$
    • kvartilové rozpětí je $ x_{0,75} - x_{0,25} = 32\,325 - 19\,375 = 12\,950$
  • třídění znaků a jejich charakteristiky (pokr.):
    1. Intervalové znaky – můžeme je porovnávat podle velikosti, sečítat i odčítat, 0 je na stupnici určena konvencí
      př.: datum nástupu do zaměstnání
    2. Poměrové znaky – můžeme je porovnávat podle velikosti, sečítat, odčítat, násobit, dělit, 0 je na stupnici určena přirozeně
      př.: míra nezaměstnanosti, míra inflace, počet vyrobených kusů, …
      • geometrický průměr – $ \sqrt[n]{\prod_{i=1}^n x_i}$ , pouze pro znaky s kladnými hodnotami, jedná se o charakteristiku polohy
    3. Alternativní znaky – nabývají pouze dvou variant, zpravidla tyto varianty označujeme 0 nebo 1, mohou být ztotožněny s kterýmkoliv z předchozích typů
      př.: 1 muž a 0 žena

Poměrové znaky a intervalové znaky

Jednorozměrný datový soubor

  • aritmetický průměr – charakteristika polohy
    $$m=\frac{1}{n}\sum_{i=1}^n x_i$$
  • rozptyl – charakteristika rozptýlení
    $$s^2=\frac{1}{n}\sum_{i=1}^n (x_i-m)^2$$
    V praxi se využívá výpočetní vzorec:
    $$s^2=\frac{1}{n}\sum_{i=1}^n x_i^2-m^2$$
  • směrodatná odchylka – charakteristika rozptýlení
    $$s=\sqrt{s^2}$$
  • variační koeficient – pouze u poměrových znaků
    $$\frac{s}{m}$$
  • hodnota znaku X
    1. $ i $-tá hodnota znaku X
      $$x_i$$
    2. $ i $-tá centrovaná hodnota znaku X
      $$x_i-m$$
    3. $ i $-tá standardizovaná hodnota znaku X
      $$\frac{x_i-m}{s}$$
Příklad 3.2:

Na dálnici byla měřena rychlost. Naměřeny byly tyto hodnoty v km/h:
120, 150, 99, 133, 145, 112, 160, 125, 100, 87.

postup
postup v programu Statistica

Spočítejte:

  1. průměr
    • $n$ je počet naměřených hodnot $ \Rightarrow n=10$
    • průměr spočítáme dosazením do vzorce: $$m=\frac{1}{10}\sum_{i=1}^{10} x_i$$
    • po dosazení:
      $$\begin{align} m&=\frac{1}{10}\bigl( 120+150+99+133+145+112+160+125+100+87 \bigr)\\ &=\frac{1231}{10}=123,1 \end{align}$$
    • průměrná rychlost na dálnici u deseti měřených aut byla 123,1 km/h
  2. rozptyl
    • $ n=10 $, $ m=123,1 $
    • rozptyl spočítáme dosazením do vzorce:
      $$s^2=\frac{1}{10}\sum_{i=1}^{10} (x_i-123,1)^2$$
    • po dosazení:
      $\begin{align} s^2&=\frac{1}{10}\bigl[ (120-123,1)^2+(150-123,1)^2+(99-123,1)^2\\ & +(133-123,1)^2+(145-123,1)^2+(112-123,1)^2\\&+(160-123,1)^2+(125-123,1)^2+(100-123,1)^2\\&+(87-123,1)^2 \bigr]\\&= \frac{1}{10}\bigl(9,61+723,61+580,81+98,01+479,61+123,21\\&+1361,61+3,61+533,61+1303,21\bigr)=\frac{5216,9}{10}=521,69 \end{align}$
  3. směrodatnou odchylku
    • směrodatnou odchylku získáme odmocněním rozptylu:$$ s=\sqrt{s^2}=\sqrt{521,69}=22,84 $$
Příklad 3.3:

Spočítejte průměr a rozptyl centrovaných hodnot, průměr a rozptyl standardizovaných hodnot.

postup
  1. Průměr centrovaných hodnot
    • průměr spočítáme podle vzorce \[m=\frac{1}{n}\sum_{i=1}^n x_i\]
    • místo obecného $ x_i $ budeme počítat s centrovanou hodnotou, tj. s $ x_i-m $
    • dostáváme tedy \[\frac{1}{n}\sum_{i=1}^n (x_i-m)\]
    • toto dále můžeme rozepsat na rozdíl dvou sum \[\frac{1}{n}\sum_{i=1}^n x_i- \frac{1}{n}\sum_{i=1}^n m\]
    • vidíme, že první část je průměr, tedy $ m $, ve druhé sumě sečteme $n$krát $m$
    • po rozepsání dostáváme \[ m - \frac{1}{n} \cdot n \cdot m \]
    • konečný výsledek je \[ m - m = 0 \]
  2. Rozptyl centrovaných hodnot
    • princip bude stejný jako v předchozím případě, pouze místo vzorce pro průměr použijeme vzorec pro rozptyl, tedy \[ s^2=\frac{1}{n}\sum_{i=1}^n (x_i-m)^2 \]
    • místo $x_i$ dosadíme $ x_i-m $ a místo $ m $ dosadíme průměr centrovaných hodnot, což z předchozího případu víme, že je 0
    • po dosazení do vzorce rozptylu dostáváme \[ \frac{1}{n}\sum_{i=1}^n \left[(x_i-m)-0\right]^2\]
    • vidíme, že rozptyl centrovaných hodnot je roven rozptylu \[ \frac{1}{n}\sum_{i=1}^n \left[(x_i-m)-0\right]^2=\frac{1}{n}\sum_{i=1}^n (x_i-m)^2=s^2\]
    • konečný výsledek je $ s^2$
  3. Průměr standardizovaných hodnot
    • průměr spočítáme podle vzorce \[m=\frac{1}{n}\sum_{i=1}^n x_i\]
    • místo obecného $ x_i $ budeme počítat se standardizovanou hodnotou, tj. s $ \frac{x_i-m}{s} $
    • dostáváme tedy \[\frac{1}{n}\sum_{i=1}^n \frac{x_i-m}{s}\]
    • před sumu můžeme vytknout $ \frac{1}{s} $ \[ \frac{1}{s}\cdot \frac{1}{n}\sum_{i=1}^n (x_i-m) \]
    • vidíme, že po vytknutí nám zůstává průměr centrovaných hodnot, který víme, že je 0
    • konečný výsledek je \[ \frac{1}{s} \cdot 0=0\]
  4. Rozptyl standardizovaných hodnot
    • použijeme vzorec pro rozptyl, tedy \[ s^2=\frac{1}{n}\sum_{i=1}^n (x_i-m)^2 \]
    • místo $x_i$ dosadíme $ \frac{x_i-m}{s} $ a místo $ m $ dosadíme průměr standardizovaných hodnot, o němž víme, že je 0
    • po dosazení do vzorce rozptylu dostáváme \[ \frac{1}{n}\sum_{i=1}^n \bigl(\frac{x_i-m}{s}-0 \bigr)^2\]
    • můžeme rozepsat \[ \frac{1}{n}\sum_{i=1}^n \frac{(x_i-m)^2}{s^2} \]
    • dále vytkneme $ \frac{1}{s^2} $ \[ \frac{1}{s^2} \cdot \frac{1}{n}\sum_{i=1}^n (x_i-m)^2\]
    • vidíme, že po vytknutí zůstává rozptyl centrovaných hodnot, který víme, že je roven $ s^2 $
    • konečný výsledek je \[ \frac{1}{s^2}\cdot s^2=1\]

Lineární kombinace

Známe hodnoty $ x_1,x_2,\cdots, x_n $, jejich průměr $ m_1 $ a jejich rozptyl $ s^2_1 $ a reálné konstanty $ a,b $. Jestliže víme, že platí $ y_i=a+bx_i $, kde $ i=1,2,\cdots, n $, vypočítejte průměr $m_2 $ a rozptyl $ s^2_2 $.

  1. $ m_2 $
    • vzorec pro výpočet průměru je \[m_2=\frac{1}{n} \sum _{i=1}^n y_i\]
    • za $ y_i$ dosadíme $a+bx_i $ \[ \frac{1}{n} \sum _{i=1}^n (a+bx_i)\]
    • dále rozepíšeme na součet dvou sum \[ \frac{1}{n} \sum _{i=1}^n a+\frac{1}{n} \sum _{i=1}^n bx_i\]
    • první suma sčítá $ n $krát $ a $ a u druhé sumy můžeme vytknout $ b $ \[ \frac{1}{n}\cdot n\cdot a + b\cdot \frac{1}{n} \sum _{i=1}^n x_i \]
    • konečný výsledek je tvaru \[m_2=a+bm_1\]
  2. $ s_2^2 $
    • vzorec pro výpočet rozptylu je \[ s^2=\frac{1}{n}\sum_{i=1}^n (y_i-m_2)^2 \]
    • za $ y_i$ dosadíme $a+bx_i $ a za $ m_2 $ dosadíme $a+bm_1$ \[ \frac{1}{n} \sum _{i=1}^n (a+bx_i-a-bm_1)^2\]
    • vidíme, že $ a $ se nám odečtou a zůstává nám \[ \frac{1}{n} \sum _{i=1}^n (bx_i-bm_1)^2\]
    • dále vytkneme $ b^{2} $ \[ b^{2} \cdot \frac{1}{n} \sum _{i=1}^n (x_i-m_1)^2\]
    • konečný výsledek je tvaru \[ s_2^{2}=b^{2}s_1^{2}\]
Příklad 3.4:

Ještě před měsícem byl průměrný nájem 9 950 Kč a jeho rozptyl byl 1 248 150 Kč$^2$. Měsíční nájem se zvedl o 20 %, dále byl zaveden nový poplatek za úklid okolo domu 200 Kč za měsíc. Vypočtěte, jaký je současný průměrný nájem a současný rozptyl.

postup
  • nejdříve si všechny proměnné označíme:
    • $ m_{1}= 9\,950$, $ m_{2}=? $
    • $ s^2_{1}= 1\,248\,150$, $ s^{2}_{2}=?$
    • $ a=200, b=1,2 $
  • použijeme vzorečky, které jsme si dříve odvodili \[ m_2=a+bm_1 \] \[ s_2^{2}=b^{2}s_1^{2}\]
  • dosadíme do vzorečků \[ m_2=200+1,2 \cdot 9\,950 \] \[ s_2^{2}=1,2^{2} \cdot 1\,248\,150 \]
  • konečný výsledek je \[ m_2=12\,140 \] \[ s_2^{2}=1\,797\,336 \]
  • současný průměrný nájem tedy je $12\,140$ Kč a současný rozptyl nájmu je $ 1\,797\,336$ Kč$^2$

Momenty

  • $ k $-tý počáteční moment $$m'_k=\frac{1}{n}\sum x_i^k, k=1,2,\dots.$$ Vidíme, že 1. počáteční moment je roven aritmetickému průměru.
  • $ k $-tý centrální moment $$m_k=\frac{1}{n}\sum (x_i-m'_1)^k, k=1,2,\dots.$$ Vidíme, že 2. centrální moment je roven rozptylu.

Pomocí momentů můžeme definovat šikmost a špičatost:

  • šikmost – nesouměrnost rozložení kolem průměru $$\alpha_3=\frac{m_3}{s^3}$$
    • $\alpha_3=0$ – symetrické rozložení
    • $\alpha_3 \lt 0$ – záporné zešikmení
    • $\alpha_3 \gt 0$ – kladné zešikmení
  • špičatost – koncentrace rozložení kolem průměru $$\alpha_4=\frac{m_4}{s^4}-3$$
    • $\alpha_4=0$ – normální špičatost
    • $\alpha_4 \lt 0$ – plošší rozložení
    • $\alpha_4 \gt 0$ – špičatější rozložení
Příklad 3.5:

U předešlého příkladu s měřením rychlosti na dálnici vypočítejte šikmost a špičatost. Vyřešte pouze v programu Statistica.

postup v programu Statistica

Nejdříve vytvoříme nový datový soubor o 1 proměnné (Rychlost v km/h) a 10 případech, tabulku vyplníme následovně:

tabulka rychlostí

Základní statistiky a tabulky – Popisné statistiky – Proměnná: Rychlost v km/h – OK – Detailní výsledky – zrušíme označení u všech číselných charakteristik a zaškrtneme označení u šikmost a špičatost – Výpočet.

Pro zaokrouhlení na dvě desetinná místa se kurzorem nastavíme na danou proměnnou v nové tabulce a dvakrát klikneme – Desetinná místa: 2 – OK

tabulka

Vidíme, že v tomto případě bude rozložení mírně kladně zešikmené a plošší okolo svého průměru. Pro představu si necháme vykreslit histogram s Gaussovou křivkou.

Grafy – 2D grafy – Histogram – Proměnné: Rychlost v km/h – OK – OK.

tabulka

Dvourozměrný datový soubor

  • kovariance – je charakteristika simultánního rozptýlení prvního a druhého znaku kolem jejich průměrů
    $$s_{12}=\frac{1}{n}\sum_{i=1}^n (x_i-m_1)(y_i-m_2)$$

    Pomocí pár úprav dostaneme výpočetní vzorec:

    $$s_{12}=\frac{1}{n}\sum_{i=1}^n x_iy_i-m_1m_2$$
  • koeficient korelace – mezi prvním a druhým znakem, jedná se o charakteristiku těsnosti jejich lineárního vztahu, platí, že $|r_{12}|\leq 1$
    $$ r_{12}=\frac{1}{n}\sum_{i=1}^n \frac{x_i-m_1}{s_1} \cdot \frac{y_i-m_2}{s_2}$$

    Pokud vytkneme $ \frac{1}{s_1\cdot s_2} $ před sumu dostaneme výpočetní vzorec:

    $$ r_{12}=\frac{s_{12}}{s_1\cdot s_2}$$
Příklad 3.6:

V následující tabulce jsou zaznamenány ceny aut v tisících a jejich stáří v letech, jedná se o vozy stejné značky. Spočítejte kovarianci a koeficient korelace.

stáří auta 8 12 14 13 6 13 16 14 11 9
cena auta 156 124 85 67 254 98 37 55 118 187
  1. kovariance
postup
postup v programu Statistica
  • kovarianci spočítáme ze vzorce $$s_{12}=\frac{1}{n}\sum_{i=1}^n x_iy_i-m_1m_2$$
  • počet aut je 10 $ \Rightarrow n=10 $
  • dále potřebujeme spočítat průměrné stáří $ m_1 $ a průměrnou cenu aut $ m_2 $
    1. $ m_1= \frac{1}{10}\bigl(8+12+14+13+6+13+16+14+11+9 \bigr)=\\ \quad =\frac{1}{10}\cdot 116 = 11,6$
    2. $ m_2= \frac{1}{10}\bigl(156\,000+124\,000+85\,000+67\,000+254\,000+\\ \quad+98\,000+37\,000+55\,000+118\,000+187\,000 \bigr)=\\ \quad =\frac{1}{10}\cdot1\,181\,000 = 118\,100$
  • pro lepší přehlednost si spočítáme zvlášť $ \sum_{i=1}^n x_iy_i $: \begin{align*} \sum_{i=1}^n x_iy_i&=8 \cdot 156\,000+12 \cdot 124\,000+14 \cdot 85\,000+13 \cdot 67\,000+\\ &+6 \cdot 254\,000+13 \cdot 98\,000+16 \cdot 37\,000+14 \cdot 55\,000+\\ &+11 \cdot 118\,000+9 \cdot 187\,000\bigr)= 11\,938\,000 \end{align*}
  • po dosazení do vzorce dostaneme: $$\begin{align*}s_{12}&=\frac{1}{10}\sum_{i=1}^n x_iy_i-11,6\cdot 118\,100 =\\&=\frac{1}{10} 11\,938\,000 -1\,369\,960 = -176\,160\end{align*}$$
  • konečný výsledek je tedy $ s_{12}= -176\,160$
  1. koeficient korelace
postup
postup v programu Statistica
  • koeficient korelace spočítáme pomocí vzorce $$r_{12}=\frac{s_{12}}{s_1\cdot s_2}$$
  • nejdříve musíme spočítat směrodatnou odchylku stáří aut $ s_1 $ a směrodatnou odchylku ceny aut $ s_2 $
    1. $\begin{align*} s_1^{2}&= \frac{1}{10}\bigl[(8-11,6)^{2}+(12-11,6)^{2}+(14-11,6)^{2}+\\&+(13-11,6)^{2}+(6-11,6)^{2}+(13-11,6)^{2}+\\&+(16-11,6)^{2}+(14-11,6)^{2}+(11-11,6)^{2}+\\&+(9-11,6)^{2} \bigr]= \frac{1}{10}\cdot 86,4 = 8,64 \end{align*}$ $ \Rightarrow s_1=\sqrt{8,64}= 2,94 $
    2. $\begin{align*} s_2^{2}&= \frac{1}{10}\bigl[(156\,000-118\,100)^{2}+(124\,000-118\,100)^{2}+\\&+(85\,000-118\,100)^{2}+(67\,000-118\,100)^{2}+\\&+(254\,000-118\,100)^{2}+(98\,000-118\,100)^{2}+\\&+(37\,000-118\,100)^{2}+(55\,000-118\,100)^{2}+\\&+(118\,000-118\,100)^{2}+(187\,000-118\,100)^{2} \bigr]=\\&=\frac{1}{10}\cdot 39\,356\,900\,000 = 3\,935\,690\,000 \end{align*}$ $ \Rightarrow s_2=\sqrt{3\,935\,690\,000}=6\,2735,08 $
  • v předchozím případě jsme si spočítali kovarianci, víme tedy, že $ s_{12}= -176\,160$
  • po dosazení do vzorce dostáváme \[ r_{12}=\frac{-176\,160}{ 2,94\cdot6\,2735,08} = -0,96 \]
  • konečný výsledek je tedy $ r_{12}= -0,96 \Rightarrow$ mezi stářím aut a cenou aut existuje silná nepřímá lineární závislost

Korelační koeficient


Hodnoty znaku X, Y v dvourozměrném datovém souboru.

RNDr. Marie Budíková, Dr. a kol. |
ÚMS, Přírodovědecká fakulta, Masarykova univerzita |
Návrat na úvodní stránku webu, přístupnost |
Stránky Přírodovědecké fakulty MU
| Technická spolupráce:
| Servisní středisko pro e-learning na MU
| Fakulta informatiky Masarykovy univerzity, 2016

Centrum interaktivních a multimediálních studijních opor pro inovaci výuky a efektivní učení | CZ.1.07/2.2.00/28.0041