V. Průzkumová analýza dát


Motivácia
—Pri spracovaní dát sa často používajú metódy, ktoré sú založené na predpoklade, že dáta pochádzajú
z nejakého konkrétneho rozloženia.
—Najčastejšie sa predpokladá normálne rozloženie.
—Prečo to nemusí platiť:
¡  Dáta pochádzajú z  iného rozloženia.
¡   Sú zaťažené chybami.
¡   Pochádzajú z niekoľkých rôznych rozložení.
¡

Základné pojmy
—Dátový súbor – dáta.
—Prípad – pozorovaná  jednotka (napr. pacient), predstavuje jeden riadok v dátovom súbore.
—Znaky = premenné – pozorované vlastnosti prípadu (napr. výška, váha, farba očí).
—Náhodný výber – postupnosť nezávislých rovnako rozložených veličín (prípadov). Keď niekomu dávame
dotazník, nevieme vopred ako odpovie.
—Usporiadaný náhodný výber – dátový súbor usporiadaný podľa nejakého znaku.
—

Jak vznikají informace ?
– různé typy dat znamenají různou informaci
Kolikrát ?
Podíl
hodnot větší/menší než specifikovaná
hodnota
?
O kolik ?
Větší, menší ?
Rovná se ?
Procenta odvozené hodnoty
Data poměrová
Data intervalová
Data ordinální
Data nominální
Spojitá data
Diskrétní data
Kategoriální otázky
Otázky „Ano/Ne“
Samotná znalost typu dat ale na dosažení informace nestačí ………….

Frekvenčná tabuľka alebo
tabuľka rozloženia četností I.
—Bodové rozloženie četností:
¡Máme malý počet variant, jednotlivým variantám priraďujeme ich četnosti.
¡n – počet všetkých prípadov
¡
¡
¡
Varianta
Absolútne četnosti
Relatívna četnosť
Absolútna kumulatívna četnosť
Relatívna kumulatívna četnosť
Varianta j        xj
nj
pj
Nj
Fj
pj=nj/n
Nj  = n1+n2+…+nj
Fj  = Nj /n=
p1+p2+…+pj

Funkcie
—Empirická distribučná funkcia
¡zobrazuje relatívne kumulatívne četnosti
¡končí vždy v 1
—Četnostná funkcia
¡p(x) = pj               ak je x jednou z variant
¡        = 0                ak x nie je jednou z variant
¡zobrazuje relatívne četnosti
¡

Grafy
—Graf četností funkcie
¡osa x: možnosti, osa y: četnosti
¡sú zobrazené len body
—Graf empirickej distribučnej funkcie
—Stĺpcový diagram
¡osa x: možnosti, osa y: počet pozorovaní
—Polygon četností
¡osa x: možnosti, osa y: počet pozorovaní
¡spojené čiarou
¡
¡

Príklad
—U 30 domácností bol zisťovaný počet členov rodiny
—
—
—
—
—Vytvorte tabuľku rozloženia četností.
—Nakreslite graf četností, stĺpcový graf a polygon četností.
Počet členov
1
2
3
4
5
6
Počet domácností
2
6
4
10
5
3

Príklad tabuľka rozloženia četností
xj
nj
pj
Nj
Fj
1
2
2/30
2
2/30
2
6
6/30
8
8/30
3
4
4/30
12
12/30
4
10
10/30
22
22/30
5
5
5/30
27
27/30
6
3
3/30
30
30/30=1

Frekvenčná tabuľka alebo
tabuľka rozloženia četností II.
—Intervalové rozloženie
¡Veľký počet variant, ktoré rozdelíme do intervalov
¡Určujeme četnosti v jednotlivých intervaloch
¡Určenie počtu intervalov je subjektívne
¡Často sa odporúča ako odmocnina z n (n=počet všetkých prípadov)
¡

Frekvenčná tabuľka
Interval
nj
pj
fj
Nj
Fj
počet
 nj / n
  pj / dj
 n1+ n2 +…+ nj
p1+p2 +…+pj
 dj – šírka
   intervalu
intervalová hustota četností
intervalová empirická distribučná
funkcia

Grafy
—Histogram
¡osa x: intervaly, osa y: hodnota četnostnej funkcie
¡pomer obsahov  stĺpikov odpovedá pomeru zastúpenia jednotlivých intervalov v dátach
—
—Intervalová empirická distribučná funkcia
¡osa x: intervaly, osa y: hodnoty intervalovej empirickej funkcie
¡vždy sa vynesú nad koniec intervalu a spoja sa priamkou

Príklad
—V 70 domácnostiach boli zisťované týždenné výdaje na sladkosti.
—
—
—
—
—Napíšte tabuľku rozloženia četností a nakreslite histogram a graf intervalovej empirickej
distribučnej funkcie.
—
—
výdaje
(36,65>
(65,95>
(95,125>
(125,155>
(155,
       185>
(185,
       200>
Počet domácností
7
16
27
14
4
2

Príklad tabuľka rozloženia četností
Interval
nj
pj
fj
Nj
Fj
(35,65>
7
7/70
7/2100
2
7/70
(65,95>
16
16/70
16/2100
23
23/70
(95,125>
27
27/70
27/2100
50
50/70
(125,155>
14
14/70
14/2100
64
64/70
(155,185>
4
4/70
4/2100
68
68/70
185,215
2
2/70
2/2100
70
70/70=1

Číselné charakteristiky dátového súboru
Nominálne znaky
—
—Modus – najčastejšia varianta
—
—
—
—
—
—
—
—

Číselné charakteristiky dátového súboru
Ordinálne znaky
—Vieme ich usporiadať
—Alfa – kvantil = xalfa je číslo, ktoré rozdeľuje usporiadaný súbor na dolný úsek, ktorý obsahuje
podiel aspoň alfa všetkých dát a na horný úsek, ktorý obsahuje podiel aspoň 1-alfa všetkých dát.
—Alfa- číslo
—Medián: x0,50
—x0,25 = dolný kvartil, x0,75 = horný kvartil
—x0,1 ,..., x0,9 = decily
—x0,01 ,..., x0,99 = percentily

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Číselné charakteristiky dátového súboru
Intervalové a pomerové znaky-ukazatele stredu
—Průměr – vhodný ukazatel středu u normálního/symetrického rozložení, kde xi jsou jednotlivé
hodnoty a n jejich počet
—
—
—Medián – jde vlastně o 50% kvantil, tj. polovina hodnot leží nad a polovina pod mediánem
—
—V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Číselné charakteristiky dátového súboru
Intervalové a pomerové znaky-ukazatele šírky
—Rozptyl je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot od průměru.
—
—Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě symetrického/normálního
rozložení
—
—Směrodatná odchylka je druhá odmocnina z rozptylu
—
—Koeficient variance - podíl SD ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do
průměr ±3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty
v rozložení – ukazatel problémů s normalitou dat

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Ukazatele tvaru rozložení
—Skewness – ukazatel „šikmosti“ rozložení, asymetrie rozložení
—Kurtosis – ukazatel „špičatosti/plochosti“ rozložení

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Další parametry rozložení
—Počet hodnot – důležitý ukazatel, znamená jak moc lze na data spoléhat
—Střední chyba odhadu průměru - je založena na směrodatné odchylce rozložení a počtu hodnot,
vlastně jde o směrodatnou odchylku rozložení průměru. Říká jak přesný je náš výpočet průměru. Čím
větší počet hodnot rozložení, tím je náš odhad skutečného průměru přesnější.
—Suma hodnot
—Modus – nejčastější hodnota, vhodný např. při kategoriálních datech
—Minimum, maximum
—Rozsah hodnot
—Harmonický průměr  - převrácená hodnota průměru převrácených hodnot (vždy platí harmonický průměr
< geometrický průměr < aritmetický průměr)

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Príklad
Hmotnost jedince (myši)
1,2; 1,4; 1,6; 1,8; 2,0; 2,4; 3.8
n = 7 opakování
medián = 1,8
rozptyl (s2) =
sm. odchylka (s) =
průměr =

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Otázka: Jak velké musí být X, aby 5 % všech hodnot bylo nad ním?
X0,95  x
j(x)
0,95
F(x)
Hledáme:  P(X   xq) = 0,95 = q
xq = (x0,95) = ?
q  = 0,95 … Pravděpodobnost
Jakékoliv číslo na ose x je kvantilem
5 %
F (xq ) = q
Kvantil je číslo, jehož hodnota distribuční funkce je rovna P,
pro kterou je kvantil definován
Ł

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Diagnostické grafy-krabicový graf (box plot)

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Normální rozložení
N (m,s)
j(x)
m
N (0,1)
Tmavý šikmo nahoru
j(z)
0
Tabelovaná
podoba
Standardizovaná forma
x
z
z =
x - m
s

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Parametry charakterizující normální rozložení a jejich význam
j(x)
x
medián
průměr
m ~ x
průměr - ukazatel středu
s2 ~ s2
rozptyl
xi
x
a)
b)
m
s ~ s
směrodatná odchylka
Pravidlo ± 3s
koeficient variance
  c)
  d)
E (x) ~ x ~ m
D (x) ~ s2 ~ s2

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Normální rozložení – příklad
• Data z průzkumu jsou publikována jako:
Kosti prehistorického zvířete:
n = 2000
průměrná délka = 60 cm
sm. odchylka (s) = 10 cm
Předpokládáme, že je oprávněný model normálního rozložení
ü
Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ?
Kolik kostí mělo zřejmě délku větší než 66 cm ?
Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost 66 cm: P (x > 66) ?
a platí, že
tedy
22,6% kostí leží v rozsahu 60-66cm

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Rozložení
Parametry
Stručný popis
Normální
Průměr (m)
Rozptyl (s2)
Symetrická funkce popisující intervalovou hustotu četnosti; nejpravděpodobnější jsou průměrné
hodnoty znaku v populaci.
Log-normální
Medián
Geometrický průměr
Rozptyl (s2)
Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního
rozložení.
 Weibullovo
a - parametr tvaru
b - parametr rozsahu hodnot
Změnou parametru a lze modelovat distribuci doby přežití, např. stresovaného organismu. Rozložení
využívané i jako model k odhahu LC50 nebo EC50 u testů toxicity.
Rovnoměrné
Medián
Geometrický průměr
Rozptyl (s2)
Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního
rozložení.
Triangulární
f(x) = [b - ABS (x - a)] / b2
a - b < x < a + b
Pravděpodobnostní funkce pro typ rozložení, kdy jsou střední hodnoty výrazně pravděpodobnější než
hodnoty okrajové.
Gamma
Parametry distribuční funkce:
a - parametr tvaru
b - parametr rozsahu hodnot
Umožňuje flexibilně modelování distribučních funkcí nejrůznějších tvarů. Např. c2 rozložení je
rozložení typu Gamma. Gamma rozložení
s a = 1 je známo jako exponenciální rozložení.
Stručný přehled dalších rozložení I.

Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Stručný předal rozložení II.
Rozložení
Parametry
Stručný popis
Beta
Parametry distribuční funkce:
a - parametr tvaru
b - parametr rozsahu hodnot
Pravděpodobnostní funkce pro proměnnou omezenou rozsahem do intervalu [0; 1]. Je matematicky
komplikovanější, ale velmi flexibilní při popisu změn hodnot proměnné
v ohraničeném intervalu.
Studentovo
Stupně volnosti - uvažuje velikost vzorku
Průměr
Rozptyl
Simuluje normální rozložení pro menší vzorky čísel. Pro větší soubory (n > 100) se limitně blíží k
normálnímu rozložení.
Pearsonovo
Stupně volnosti - uvažuje velikost vzorku
Slouží především k porovnání četností jevů ve dvou a více kategoriích.
Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat.
Fisher-Snedecorovo
Dvojí stupně volnosti - uvažuje velikost dvou vzorků
Používá se k testování hodnot průměrů - F test pro porovnání dvou výběrových rozptylů; F test,
ANOVA atd.
Stručný přehled dalších rozložení II.