logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Spojitá a kategoriální data
Základní popisné statistiky
Frekvenční tabulky
Grafický popis dat
2. Základní typy dat

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Anotace
—Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami,
nevýhodami a vlastní sadou využitelných statistických metod – od binárních přes kategoriální,
ordinální až po spojitá data roste míra informace v nich obsažené. —Základním přístupem k popisné
analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací – histogramů.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Typy proměnných (dat)
Binární = dummy data
Proměnná, která může nabývat pouze dvou hodnot. Bývá definovaná odpovědí na otázku (např. TRUE ×
FALSE, 1 × 0).
Nominální = kategoriální data
Proměnná, která může nabývat počtu hodnot (n ∊ ℕ), pro které neexistuje přirozené pořadí (např.
barvy vzorků).
Ordinální data
Nominální proměnná, pro kterou ale existuje jasné pořadí kategorií (např. velikost oděvů S, M, L,
XL).
Kardinální data
Ordinální proměnná, u které lze určit rozdíl mezi kategoriemi. Ty jsou stejně vzdálené (např. počet
dětí v rodině).
Intervalová data
Spojitá proměnná, u které lze určit rozdíl mezi kategoriemi – často jde o vzdálenost od 0 (např.
teplota ve °C, čas).
Poměrová data
Intervalová proměnná, u které má smysl určovat podíly jednotlivých kategorií (např. hmotnost,
vzdálenost).

logo-IBA
Spojitá data
Diskrétní data
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?
– různé typy dat znamenají různou informaci
Kolikrát ?
Podíl
hodnot větší/menší než specifikovaná
hodnota
?
O kolik ?
Větší, menší ?
Rovná se ?
Procenta odvozené hodnoty
Data poměrová
Data intervalová
Data kardinální
Data ordinální
Data nominální
Data binární
Kategoriální otázky
Otázky „Ano/Ne“
Samotná znalost typu dat ale na dosažení informace nestačí…

logo-IBA
Spojitá data
Diskrétní data
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?
– různé typy dat znamenají různou informaci
Data poměrová
Data intervalová
Data kardinální
Data ordinální
Data nominální
Data binární
Samotná znalost typu dat ale na dosažení informace nestačí…
PRŮMĚR
MEDIÁN
MODUS
X
Y = f

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?
– základní popisné statistiky
Průměr:
Rozptyl (výběrový):
p-tý kvantil
Medián:
Data:
Směrodatná odchylka (výběrová):
Modus:

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
JAK vznikají informace ?
- opakovaná měření informují rozložením hodnot
KOLIK se naměřilo
CO se naměřilo
Diskrétní data Spojitá data
y
x
y
x
X: měřený znak
Y: frekvence              - absolutní / relativní

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
X: Průměrný počet výrobků v prodejně
Y: Odhad prostoru průměrně nabízeného k vystavení výrobku
X:  1,2  :  (1,15 - 1,24)
Y:  1,8  :  (1,75 - 1,84)
X/Y = 0,667 :
1,15
1,84
1,24
1,75
(
)
Odvozená data: Pozor na odvozené indexy
Znak X: Hmotnost
Znak Y: Plocha
Příklad I:
Příklad II:
+ / - 3,8 %
+ / - 2,5 %
+ / - 6,2 %
průměr
(min - max)
:
-
Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
N: 100 dětí (hemofiliků)
x: znak: počet krvácivých epizod za měsíc
n(x) – absolutní četnost x
N(x) – kumulativní četnost hodnot nepřevyšujících x; N(x) = S n(t)
p(x) – relativní četnost; p(x) = n(x) / n
F(x) – kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n
Jak vznikají informace ?
- frekvenční tabulka jako základní nástroj popisu
Primární data
Frekvenční sumarizace
x
n(x)
N(x)
p(x)
F(x)
0
20
20
0,2
0,2
1
10
30
0,1
0,3
2
30
60
0,3
0,6
3
40
100
0,4
1,0
0
0
1
2
1
1
3
1
1
2
.
.
.
.
.
.
n = 100
t Ł x
DISKRÉTNÍ DATA

logo-IBA
n(x)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?
 Grafické výstupy z frekvenční tabulky
x
p(x)
x
N(x)
x
F(x)
x
3
2
1
0
0
1
2
3
0
1
2
3
0
1
2
3
10 -
20 -
30 -
20 -
40 -
60 -
0,1 -
0,2 -
0,3 -
0,2 -
0,4 -
0,6 -

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?                                                                      -
frekvenční tabulka jako základní nástroj popisu
—Příklad: x: koncentrace látky v krvi n = 100 pacientů
Primární data
Frekvenční sumarizace
n = 100 opakovaných měření (100 pacientů)
x: koncentrace sledované látky v krvi (20 – 100 jednotek)
d(l) – šířka intervalu
n(l) – absolutní četnost
n(l) / n – intervalová relativní četnost
N(x’’) – intervalová kumulativní četnost do horní hranice X’’
F(x’’) – intervalová relativní kumulativní četnost do horní  hranice X’’
interv
d(l)
n(l)
n(l)/n
N(x’’)
F(x’’)
<20, 40)
20
20
0,2
20
0,2
<40, 60)
20
10
0,1
30
0,3
<60, 80)
20
40
0,4
70
0,7
<80, 100)
20
30
0,3
100
1,0
1,21
1,48
1,56
0,31
1,21
1,33
0,33
.
.
.
n = 100
SPOJITÁ DATA

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?                                                                    -
frekvenční sumarizace spojitých dat
x
x
  F(x)
Intervalová relativní kumulativní četnost
Histogram
Výběrová distribuční funkce
  f(x)=
Intervalová hustota četnosti
20
40
60
80
100
Plocha: n(l) / n
n(l) / n
d(l)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Počet zvolených tříd a velikost souboru určují kvalitu výstupu
k = 10 tříd
k = 5 tříd
     1,5   2,0  2,5  3,0   3,5  4,0  4,5   5,0
  1        2       3       4       5
k = 20 tříd
 1,0                 2,0                     3,0                  4,0                   5,0

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Histogram vyjadřuje tvar výběrového rozložení
x
x
x
x
x
f(x)
f(x)
f(x)
f(x)
f(x)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Příklad: věk účastníků vážných dopravních nehod
Věk (roky)
Věk (roky)
Správný histogram ?
Správný histogram ?
 Věk
 0 - 4
 5 - 9
10 - 15
16 - 19
20 - 24
25 - 59
  > 60
f
28
46
58
20
114
316
103
Plocha histogramu odpovídá počtu případů (pokud jde o pravděpodobnost, je plocha 1).
Kategorie na ose x nemusí být ekvidistantní.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Pojem ROZLOŽENÍ - příklad spojitých dat
j(x)
0
F(x)
Rozložení
x
Distribuční funkce
0
Je - li dána
 distribuční funkce,
 je dáno rozložení
x

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Výběrové rozložení hodnot lze modelově popsat  a odhadnout tak pravděpodobnost výskytu X
f(x)
x
f(x)
x
f(x)
x
j(x)
j(x)
j(x)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Distribuční funkce jako užitečný nástroj pro práci s rozložením
x
j(x)
1,00
F(x)
F(x) … distribuční funkce
x1      x2
Známe-li distribuční funkci, pak známe rozložení sledované veličiny.
Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří.
Plocha = relativní četnost
x
j(x)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?
- frekvenční sumarizace spojitých dat
—Grafické výstupy z frekvenční tabulky – spojitá data
f(x)
x
F(x)
x
KVANTIL
20
40
60
80
100
Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní zařazení každé
jednotlivé hodnoty
X0.1; X0.9; X0.5; Xq

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním?
X0,95  x
j(x)
0,95
F(x)
Hledáme:  P(X > xq) = 0,95 = q
xq = (x0,95) = ?
q  = 0,95 … pravděpodobnost
Jakékoliv číslo na ose x je kvantilem*
5 %
F (xq ) = q
Kvantil je číslo, jehož hodnota distribuční funkce je rovna P,
pro kterou je kvantil definován
* za předpokladu omezeného definičního oboru distribuční funkce