logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina
Jak vznikají informace
Rozložení dat
1. Statistická analýza dat

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina
Význam statistické analýzy dat
—Sběr a vyhodnocování dat je způsobem k uchopení a pochopení reality.
http://2.bp.blogspot.com/_SqkFcytz7qE/SxczexsFRpI/AAAAAAAAAJw/-AaQYwUgdKA/s640/platosCave%2520copy.
jpg
—Chápání reality je vždy nedokonalé a nepřesné.
— Statistika umožňuje vnést do pochopení reality určitou spolehlivost a ukázat, jak je velká.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina
Význam statistické analýzy dat
—Realita je variabilní a statistika je věda zabývající se variabilitou
—Korektní analýza variabilita a její pochopení přináší užitečné informace o realitě
—V případě deterministického světa by statistická analýza nebyla potřebná
—V případě zcela chaotického světa by nebyla možná.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina
Práce s variabilitou v analýze dat
—Dva hlavní přístupy k variabilitě:

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina
Práce s variabilitou v analýze dat
—Statistika není schopna činit závěry o jevech neobsažených ve zkoumaném vzorku.
—Statistika je nasazena v procesu získání informací ze vzorkovaných dat a je podporou v získání
znalosti a pochopení problému.
—Statistika není náhradou naší inteligence!

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Práce s variabilitou v analýze dat
—Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou
populaci.
—
—Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům.
Neznámá cílová populace
Vzorek
Analýza
Díky zobecnění výsledků známe vlastnosti cílové populace

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina
Význam vzorkování ve statistice

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina
Velikost vzorku a přesnost statistických výstupů
—Existuje skutečné rozložení a skutečný průměr měřené proměnné
—
—Z jednoho měření nezjistíme nic
—
—
—Vzorek určité velikosti poskytuje odhad reálné hodnoty s definovanou spolehlivostí
—
—
—
—Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně
tento přístup je ve většině případech nereálný.
—

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina
Obecné schéma aplikace statistické analýzy
—Jak velký vzorek je nezbytný pro statisticky relevantní výsledky?
—Klíčová stratifikační kritéria cílové populace.
—
—Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku.
—
—Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem
statistické analýzy.
—
—Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně
akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných
apod.
—
—Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených
rozsahů dat.
—
—Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím
přispět k pochopení řešeného problému.
—
—Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření
prediktivních modelů.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace
Rozložení dat
1a. Teoretické pozadí statistické analýzy

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Anotace
—Základním principem statistiky je pravděpodobnost výskytu nějaké události. Prostřednictvím
vzorkování se snažíme odhadnout skutečnou pravděpodobnost událostí.
—Klíčovou otázkou je velikost vzorku, čím větší vzorek, tím větší šance na projevení se skutečné
pravděpodobnosti výskytu jevu (a tím je také nákladnější analýza).
n = 1
m = 0
n = 4
m = 0,25
n = 9
m = 0,22
n = 16
m = 0,19

logo-IBA
Definice
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Náhodný jev značíme velkým latinským písmenem, např. A. Jde o jev, pro který požadujeme tzv.
statistickou stabilitu, tj. aby při n opakování pokusu platilo pro relativní četnost výsledku:
Prostor elementárních jevů značíme obvykle Ω, jde o libovolnou neprázdnou množinu (její prvky
nazýváme elementárními jevy).
Elementární jev nejjemnější možný náhodný jev, tj. náhodný jev, který nelze vyjádřit jako
sjednocení dvou jiných neprázdných náhodných jevů. Značí se obvykle ω.
Platí tedy, že elementární jevy jsou prvky prostoru elementárních jevů, rovněž jsou prvky náhodných
jevů a náhodné jevy jsou podmnožiny prostoru elementárních jevů.

logo-IBA
Definice
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Ω – prostor
elementárních
jevů
A – náhodný jev
ω – elementární jev
ω – elementární jev
ω – elementární jev
ω – elementární jev
A – náhodný jev
A – náhodný jev

logo-IBA
Definice
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
σ-algebra systém (množina) podmnožin prostoru elementárních jevů (označujeme A) splňující
následující podmínky:
1.A je neprázdná množina,
2.A  ∈  A   ⇒   A \A  ∈  A
3.sjednocení libovolného počtu Ai ∈  A.
Jevové pole uspořádaná dvojice prostoru elementárních jevů a na něm definované σ-algebry (Ω, A).
Jevové pole se také někdy nazývá měřitelný prostor.
Pravděpodobnost reálná množinová funkce P definovaná na množině A σ-algebry
(Ω, A) tak, že jsou dodrženy následující podmínky:
1.P(Ω) = 1
2.∀ A ∈ A:  P(A) ≥ 0
3.pravděpodobnost součtu neslučitelných jevů je rovna součtu pravděpodobnosti těchto neslučitelných
jevů.
(podle Kolmogorova)

logo-IBA
Definice
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Pravděpodobnostní prostor uspořádaná trojice prostoru elementárních jevů, na něm definované
σ-algebry  a jim příslušné pravděpodobnostní funkce (Ω, A, P).
Borelovská σ-algebra je σ-algebra B generovaná systémem borelovských množin S, tj. množin
splňujících podmínku:
1. S = (–∞,x ⟩, kde x ∈ ℝ.
Náhodná veličina reálná množinová funkce X definovaná na prostoru elementárních jevů Ω nějakého
pravděpodobnostního prostoru (Ω, A, P), splňující pro nějakou borelovskou σ-algebru B předpoklad:
1.B ∈ B   ⇒   {ω ∈ Ω:  X(ω) ∈ B} ∈ A.
1.
Pravděpodobnostní prostor je měřitelný prostor s přidanou funkcí pravděpodobnosti.

logo-IBA
Definice
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Náhodná veličina přiřazuje náhodným jevům měřitelné hodnoty (reálná čísla), rozdělení
pravděpodobnosti pak každé takové hodnotě (reprezentované nějakou borelovskou množinou B) přiřazuje
pravděpodobnost, tj. hodnotu mezi 0 a 1 takovou, že jsou dodrženy předpoklady po definici
pravděpodobnosti uvedené dříve.
Náhodná veličina se někdy také nazývá náhodná proměnná nebo měřitelná funkce, borelovské množiny se
někdy též nazývají měřitelné množiny.
Lze ukázat, že dostatečnou podmínkou pro to, aby X byla náhodná veličina je vztah ∀x ∈ ℝ: {X < x} ∈
A.
Rozdělení pravděpodobnosti množinová funkce, která každé borelovské množině B přiřadí
pravděpodobnost tak, že je dodržena následující podmínka:
1.PX(B) = P({ω ∈ Ω:  X(ω) ∈ B)} pro B ∈ B.

logo-IBA
Definice
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Ω – prostor
elementárních
jevů
ω – elementární jev
A – náhodný jev
1
0
–∞
B – borelovské množiny
B – borelovská
σ-algebra
A – množinová
σ-algebra
ω – elementární jev
PX – rozdělení pravděpodobnosti
Jevové pole

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
JAK vznikají informace ? základní pojmy
Skutečnost
Náhoda
(vybere jednu z možností pokusu)
Jev
podmnožina množiny všech možných výsledků (elementárních jevů) pokusu/děje, o které lze říct, zda
nastala nebo ne
Pozorovatel
Rozliší, co nastalo
a) podle možností
b) podle toho, jak potřebuje
Jevové pole
třída všech jevů, které jsme se rozhodli nebo jsme schopni sledovat
Skutečnost + Jevové pole = Měřitelný prostor
Experimentální jednotka -
objekt, na kterém se provádí šetření
Populace -
soubor experimentálních jednotek
Znak -
vlastnost sledovaná na objektu
Sledovaná veličina -
číselná hodnota vyjadřující výsledek náhodného experimentu
Znak se stává náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosováním objektu ze základního
souboru
Výběr - výběrová populace - cílová populace
Náhodný výběr
Reprezentativnost

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
JAK vznikají informace ?
„Empirical approach“
„Classical approach“
Empirický postup
možné jevy: čísla 1 – 6
n – počet hodů (opakování)
 f
n
n = 10
 f
n
n = 50
 f
n
n = ¥
U složitých stochastických systémů se pravdě blížíme až po odvedení značného množství
experimentální práce: musíme dát systému šanci se projevit

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
JAK vznikají informace ?
Empirický postup
možné jevy: čísla 1 – 6
n – počet hodů (opakování)
 f
n
n = 10
 f
n
n = 50
 f
n
n = ¥
Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost
systému (výsledky se stávají stabilnější) …diskutabilní je ale ovšem míra zobecnění konkrétního
experimentu

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Empirický zákon velkých čísel
Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytů sledovaného jevu mezi
všemi dosud provedenými realizacemi zpravidla ustaluje kolem konstanty.
Pravděpodobnost je libovolná reálná funkce definovaná na jevovém poli A, která každému jevu A
přiřadí nezáporné reálné číslo P(A) z intervalu 0 - 1.
.A
.B
.C
.D
A
P(A)
0
1
Z praktického hlediska je pravděpodobnost
idealizovaná relativní četnost
P (A) = 1 …………………………… jev jistý
P (A) = 0 …………………………… jev nemožný
P (A Ç B) = P (A) . P (B/A)  …..……závislé jevy
P (A Ç B) = P (A) . P (B)………….  nezávislé jevy
P (A / B) = P (A Ç B) / P (B) ……….podmíněná pravděpodobnost

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Pravděpodobnost výskytu jevu – rozložení dat
„vše je možné“: pouze jev s pravděpodobností 0 nikdy nenastane
existuje pravděpodobnost výskytu jevů (nedeterministické závěry)
0
pravděpodobnost výskytu
x
1
počet chlapců v rodině s X dětmi
2
3
4
5
j(x)
x
výška postavy
plocha = pravděpodobnost   výskytu
pravděpodobnost lze zkoumat retrospektivně i prospektivně

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Spojitá a kategoriální data
Základní popisné statistiky
Grafický popis dat
2. Základní typy dat

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Anotace
—Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami,
nevýhodami a vlastní sadou využitelných statistických metod - od binárních přes kategoriální,
ordinální až po spojitá data roste míra informace v nich obsažené.
—Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických
reprezentací – histogramů.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?
– různé typy dat znamenají různou informaci
Kolikrát ?
Podíl
hodnot větší/menší než specifikovaná
hodnota
?
O kolik ?
Větší, menší ?
Rovná se ?
Procenta odvozené hodnoty
Data poměrová
Data intervalová
Data ordinální
Data nominální
Spojitá data
Diskrétní data
Kategoriální otázky
Otázky „Ano/Ne“
Samotná znalost typu dat ale na dosažení informace nestačí ………….

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?
– různé typy dat znamenají různou informaci
PRŮMĚR
MEDIÁN
MODUS
Data poměrová
Data intervalová
Data ordinální
Data nominální
Spojitá data
Diskrétní data
Statistika středu
X
Y = f

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?
– různé typy dat znamenají různou informaci
Definice průměru, směrodatné odchylky, mediánu aj.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
JAK vznikají informace ?
- opakovaná měření informují rozložením hodnot
KOLIK se naměřilo
CO se naměřilo
Diskrétní data Spojitá data
y
x
y
x
X: měřený znak
Y: frekvence              - absolutní / relativní

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
X: Průměrný počet výrobků v prodejně
Y: Odhad prostoru průměrně nabízeného k vystavení výrobku
X:  1,2  :  (1,15 - 1,24)
Y:  1,8  :  (1,75 - 1,84)
X/Y = 0,667 :
1,15
1,84
1,24
1,75
(
)
Odvozená data: Pozor na odvozené indexy
Znak X: Hmotnost
Znak Y: Plocha
Příklad I:
Příklad II:
+ / - 3,8 %
+ / - 2,5 %
+ / - 6,2 %
průměr
(min - max)
:
-
Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
N: 100 dětí (hemofiliků)
x: znak: počet krvácivých epizod za měsíc
n(x) – absolutní četnost x
N(x) – kumulativní četnost hodnot nepřevyšujících x; N(x) = S n(t)
p(x) – relativní četnost; p(x) = n(x) / n
F(x) – kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n
Jak vznikají informace ?
- frekvenční tabulka jako základní nástroj popisu
Primární data
Frekvenční sumarizace
x
n(x)
N(x)
p(x)
F(x)
0
20
20
0,2
0,2
1
10
30
0,1
0,3
2
30
60
0,3
0,6
3
40
100
0,4
1,0
0
0
1
2
1
1
3
1
1
2
.
.
.
.
.
.
n = 100
t Ł x
DISKRÉTNÍ DATA

logo-IBA
n(x)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?
 Grafické výstupy z frekvenční tabulky
x
p(x)
x
N(x)
x
F(x)
x
3
2
1
0
0
1
2
3
0
1
2
3
0
1
2
3
10 -
20 -
30 -
20 -
40 -
60 -
0,1 -
0,2 -
0,3 -
0,2 -
0,4 -
0,6 -

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?                                                                      -
frekvenční tabulka jako základní nástroj popisu
—Příklad: x: koncentrace látky v krvi n = 100 pacientů
Primární data
Frekvenční sumarizace
n = 100 opakovaných měření (100 pacientů)
x: koncentrace sledované látky v krvi (20 – 100 jednotek)
d(l) – šířka intervalu
n(l) – absolutní četnost
n(l) / n – intervalová relativní četnost
N(x’’) – intervalová kumulativní četnost do horní hranice X’’
F(x’’) – intervalová relativní kumulativní četnost do horní  hranice X’’
interv
d(l)
n(l)
n(l)/n
N(x’’)
F(x’’)
<20, 40)
20
20
0,2
20
0,2
<40, 60)
20
10
0,1
30
0,3
<60, 80)
20
40
0,4
70
0,7
<80, 100)
20
30
0,3
100
1,0
1,21
1,48
1,56
0,31
1,21
1,33
0,33
.
.
.
n = 100
SPOJITÁ DATA

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?                                                                    -
frekvenční sumarizace spojitých dat
x
x
  F(x)
Intervalová relativní kumulativní četnost
Histogram
Výběrová distribuční funkce
  f(x)=
Intervalová hustota četnosti
20
40
60
80
100
Plocha: n(l) / n
n(l) / n
d(l)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Počet zvolených tříd a velikost souboru určují kvalitu výstupu
k = 10 tříd
k = 5 tříd
     1,5   2,0  2,5  3,0   3,5  4,0  4,5   5,0
  1        2       3       4       5
k = 20 tříd
 1,0                 2,0                     3,0                  4,0                   5,0

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Histogram vyjadřuje tvar výběrového rozložení
x
x
x
x
x
f(x)
f(x)
f(x)
f(x)
f(x)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Příklad: věk účastníků vážných dopravních nehod
Věk (roky)
Věk (roky)
Správný histogram ?
Správný histogram ?
 Věk
 0 - 4
 5 - 9
10 - 15
16 - 19
20 - 24
25 - 59
  > 60
f
28
46
58
20
114
316
103

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Pojem ROZLOŽENÍ - příklad spojitých dat
j(x)
0
F(x)
Rozložení
x
Distribuční funkce
0
Je - li dána
 distribuční funkce,
 je dáno rozložení
x

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Výběrové rozložení hodnot lze modelově popsat  a definovat tak pravděpodobnost výskytu X
f(x)
x
f(x)
x
f(x)
x
j(x)
j(x)
j(x)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Distribuční funkce jako užitečný nástroj pro práci s rozložením
x
j(x)
1,00
F(x)
P(X   x) =  F(x) = F(x")
F(x) … distribuční funkce
P(X   x) =    j(x)  d(x)
             M
j(x)  d(x) = 1
- Ą
Ą
Ł
Ł
F(x): Pravděpodobnost, že se X vyskytuje
v intervalu M
M
Známe-li distribuční funkci, pak známe rozložení sledované veličiny.
Pro jakoukoli množinu hodnot (M) lze určit P, že X do této množiny patří.
Plocha = relativní četnost
x

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Jak vznikají informace ?
- frekvenční sumarizace spojitých dat
—Grafické výstupy z frekvenční tabulky – spojitá data
f(x)
x
F(x)
x
KVANTIL
20
40
60
80
100
Uspořádání čísel podle velikosti a konstrukce rozložení umožňuje pravděpodobnostní zařazení každé
jednotlivé hodnoty
X0.1; X0.9; X0.5; Xq

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním?
X0,95  x
j(x)
0,95
F(x)
Hledáme:  P(X   xq) = 0,95 = q
xq = (x0,95) = ?
q  = 0,95 … Pravděpodobnost
Jakékoliv číslo na ose x je kvantilem
5 %
F (xq ) = q
Kvantil je číslo, jehož hodnota distribuční funkce je rovna P,
pro kterou je kvantil definován
Ł