Přednáška IV.
Náhodná veličina, rozdělení
pravděpodobnosti a reálná data
Náhodná veličina
Rozdělení pravděpodobnosti náhodných veličin
Normální rozdělení a rozdělení příbuzná
Transformace náhodných veličin
Tomáš Pavlík Biostatistika
Opakování – typy dat
Jaké znáte typy dat?
Uveďte příklady…
Tomáš Pavlík Biostatistika
Opakování – popis dat
Co chceme u dat popsat?
Jak to můžeme udělat?
Tomáš Pavlík Biostatistika
Opakování – který histogram je správný a proč?
Chceme pomocí histogramu vykreslit počty zraněných při automobilových
haváriích na předměstí Londýna v roce 1985. Data máme zadána jako počty v
daných věkových kategoriích.
1. Náhodná veličina
Tomáš Pavlík Biostatistika
Pojem náhodná veličina
Číselné vyjádření výsledku náhodného pokusu. Matematicky je to funkce, která
každému elementárnímu jevu ω z Ω přiřadí hodnotu X(ω) z nějaké množiny
možných hodnot.
Náhodná veličina se netýká pouze kvantitativních proměnných. Číselné
vyjádření výsledku náhodného pokusu může popisovat i pohlaví.
Chování náhodné veličiny lze popsat pomocí rozdělení pravděpodobnosti:
Funkce zadaná analyticky
Výčet možností a příslušných pravděpodobností
RX →Ω:
Tomáš Pavlík Biostatistika
Význam náhodných veličin
Množina Ω často není známa (může být i nekonečná) a nejsme tak schopni ji
popsat. Náhodná veličina převádí Ω na čísla, se kterými se pracuje lépe.
Neznáme-li Ω, nejsme schopni popsat ani X, ale jsme schopni ho pozorovat.
Základní
prostor Ω
Jev A ω1
R0R0 x1P(A)
Náhodná veličina XPravděpodobnost P
Tomáš Pavlík Biostatistika
Pravděpodobnostní chování náhodné veličiny
Pravděpodobnostní chování náhodné veličiny je jednoznačně popsáno tzv.
rozdělením pravděpodobnosti náhodné veličiny .
Rozdělením náhodné veličiny X definované na prostoru s pravděpodobností P
rozumíme předpis, který jednoznačně určuje všechny pravděpodobnosti typu
pro každou .
Distribuční funkce
Hustota – spojité náhodné veličiny
Pravděpodobnostní funkce – diskrétní náhodné veličiny
))(:()()( BXPBXPBP iiX ∈Ω∈=∈= ωω
RB ⊂
Tomáš Pavlík Biostatistika
Opět vztah populace × vzorek
Rozdělení pravděpodobnosti představuje model cílové populace.
Pomocí vzorku (naměřených pozorování) se ptáme, jestli byl model správný –
snažíme se z dat usuzovat na vlastnosti tohoto rozdělení pravděpodobnosti.
Hypotéza
Model cílové
populace
Experimentální
vzorek
Ověření
hypotézy na
základě dat
Tomáš Pavlík Biostatistika
Popis rozdělení pravděpodobnosti
Distribuční funkce popisuje rozdělení pravděpodobnosti kumulativním
způsobem.
Hustota a pravděpodobnostní funkce popisují rozdělení pravděpodobnosti pro
jednotlivé „body“ (respektive intervaly) na reálné ose.
Distribuční funkce a hustota, respektive pravděpodobnostní funkce, jsou
navzájem ekvivalentní, tedy známe-li jednu nepotřebujeme druhou.
Tomáš Pavlík Biostatistika
Distribuční funkce
Vyjadřuje pravděpodobnost, že náhodná veličina X nepřekročí dané x na reálné
ose.
Vlastnosti distribuční funkce?
))(:()()( xXPxXPxF ii ≤Ω∈=≤= ωω
Tomáš Pavlík Biostatistika
Distribuční funkce
Vyjadřuje pravděpodobnost, že náhodná veličina X nepřekročí dané x na reálné
ose.
Vlastnosti distribuční funkce:
1. Neklesající
2. Zprava spojitá
3.
4.
5.
1)(0 ≤≤ xF
))(:()()( xXPxXPxF ii ≤Ω∈=≤= ωω
∞→→
−∞→→
xxF
xxF
pro1)(
pro0)(
Tomáš Pavlík Biostatistika
Distribuční funkce
)(xFy =
1x 2x x
)( 1xF
)( 2xF
y
)( 21 xXx ≤<
)( 21 xXxP ≤<
Tomáš Pavlík Biostatistika
Výběrová distribuční funkce
Distribuční funkce je teoretická záležitost, která definuje pravděpodobnostní
model pro náhodnou veličinu X. Často neznáme její přesné vyjádření.
Výběrová distribuční funkce je charakteristika pozorovaných dat. Je odhadem
teoretické distribuční funkce (je-li vzorek reprezentativní).
Vyjádření:
∑=
≤=
≤
=
n
i
i
i
n xxI
nn
xx
xF
1
)(
1)(#
)(
Tomáš Pavlík Biostatistika
Výběrová distribuční funkce – příklad
Výška studentů 2. ročníku Matematické biologie
Tomáš Pavlík Biostatistika
Spojité a diskrétní náhodné veličiny
Náhodné veličiny dělíme dle podstaty na:
Spojité – mohou nabývat všech hodnot v daném intervalu.
Diskrétní – mohou nabývat nejvýše spočetně mnoha hodnot.
Spojitou náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv.
hustota pravděpodobnosti, což je funkce taková, že platí:
Diskrétní náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv.
pravděpodobnostní funkce, což je funkce taková, že platí:
∫ ∞−
=
x
XX dtxfxF )()(
∑∑ ≤≤
===
xtxt
XX tXPtpxF )()()(
Tomáš Pavlík Biostatistika
F(x) a f(x) a p(x)
Spojitá
náhodná
veličina
Diskrétní
náhodná
veličina
)20( ≤< XP
)20( ≤< XP
)3( =XP
Tomáš Pavlík Biostatistika
Spojité a diskrétní náhodné veličiny - příklady
Spojité náhodné veličiny:
Medicína:
Biologie:
Diskrétní náhodné veličiny:
Medicína:
Biologie:
Tomáš Pavlík Biostatistika
Spojité a diskrétní náhodné veličiny - příklady
Spojité náhodné veličiny:
Medicína: výška, váha, krevní tlak, glykémie, čas do sledované události, …
Biologie: biomasa na m2, listová plocha, pH, koncentrace látek ve vodě,
ovzduší, …
Diskrétní náhodné veličiny:
Medicína: počet krvácivých epizod, počet hospitalizací, počet dní po
operaci do odeznění bolesti, …
Biologie: počet zvířat na jednotku (plochu, objem), počet kolonií na misku,
…
Tomáš Pavlík Biostatistika
Kvantilová funkce
Inverzní funkce k distribuční funkci, výsledkem není pravděpodobnost, ale číslo
na reálné ose, které odpovídá určité pravděpodobnosti.
Distribuční funkce
Kvantilová funkce
)()( xXPxF ≤=
)())(( 11
pFxXPFxp
−−
=≤=
Spojitá náhodná
veličina
P
x
2. Charakteristiky náhodných veličin
Tomáš Pavlík Biostatistika
Co chceme u dat popsat?
Kvalitativní data – četnosti (absolutní i relativní) jednotlivých kategorií.
Kvantitativní data – těžiště a rozsah pozorovaných hodnot.
Tomáš Pavlík Biostatistika
Charakteristiky náhodných veličin
Distribuční funkce, hustota a pravděpodobnostní funkce popisují chování
náhodné veličiny sice kompletně, ale trochu neprakticky – složitě.
Jsou definovány dvě charakteristiky, které odráží vlastnosti rozdělení jedním
číslem: střední hodnota a rozptyl.
Střední hodnota je definována
pro spojitou náhodnou veličinu X s hustotou f(x) jako integrál (pokud existuje):
pro diskrétní náhodnou veličinu X s pravděpodobnostní funkcí p(x) jako součet:
∑∈
==
Rx
xxpXE )()( µ
∫
∞
∞−
== dxxfxXE )()( µ
Tomáš Pavlík Biostatistika
Charakteristiky náhodných veličin
Rozptyl je definován pro spojitou i diskrétní náhodnou veličinu X jako střední
hodnota:
Pro výpočet je používán vzorec:
Nevýhoda rozptylu je, že není ve stejných jednotkách jako střední hodnota,
proto se používá tzv. směrodatná odchylka – odmocnina z rozptylu.
2222
222
)()()()()(2)(
))()(2())(()(
XEXEXEXEXEXE
XEXEXXEXEXEXD
−=+−=
+−=−=
22
))(()( XEXEXD −== σ
Tomáš Pavlík Biostatistika
Charakteristiky náhodných veličin
To, co nás zajímalo u pozorovaných dat má teoretický ekvivalent (ve smyslu
pravděpodobnosti) ve formě charakteristik náhodných veličin:
Těžiště ≈ Střední hodnota
Rozsah ≈ Rozptyl
Těmto charakteristikám pak odpovídají parametry rozdělení pravděpodobnosti.
Charakteristiky však mohou být i lehce zavádějící: náhodná veličina nemusí
nabývat své střední hodnoty. Příklad: Náhodná veličina X nabývá hodnot −1 a
1, obou s pravděpodobností 0,5. Její střední hodnota je 0!
Tomáš Pavlík Biostatistika
Význam střední hodnoty
Jedná se o formu váženého průměru možných hodnot na základě jejich
pravděpodobností.
Uvažujme diskrétní náhodnou veličinu
X = {x1, …, xk}
P(X=x1) = p1,…, P(X=xk) = pk
Pak střední hodnota má tvar:
∑=
==
k
i
ii xpxXE
1
)()( µ
Jednotlivé možné hodnoty
Váhu pro jednotlivé hodnoty
hraje jejich pravděpodobnost
Tomáš Pavlík Biostatistika
K čemu všechny ty funkce a čísla vlastně jsou?
Popis vlastností cílové populace – na základě pozorovaných dat (histogram, box
plot, popisné statistiky) jsme schopni usuzovat na charakter rozdělení
pravděpodobnosti sledované veličiny. Dokonce jsme schopni otestovat míru
shody s teoretickým rozdělením.
Srovnání vlastností cílové populace/populací – na základě pozorovaných dat a
našich předpokladů o teoretickém modelu (hypotéz) jsme schopni pomocí
statistických testů srovnávat vlastnosti jedné nebo více cílových populací.
Predikce vlastností cílové populace – nevyvrátíme-li na základě pozorovaných
dat platnost teoretického modelu, jsme schopni se ptát, jak a s jakou
pravděpodobností se bude cílová populace v budoucnu chovat.
Tomáš Pavlík Biostatistika
Příklad – srovnání
Pacienti s hypertenzí, léčení ACE-I nebo AIIA.
Teď předbíháme:
Vizualizace a popis → zhodnotíme tvar
rozdělení a přítomnost odlehlých hodnot.
Testem můžeme ověřit normalitu hodnot.
Testem můžeme ověřit rovnost rozptylů.
Rozhodneme o aplikovatelnosti jednotlivých
testů.
TKs v sedě (mmHg) B ACE-I B AIIA p-hodnota A vs. B
Čas 0 – medián 155 155
0,929
Čas 12 měsíců - medián 135 135
p-hodnota 0 vs. 12 <0,001 <0,001
Pacienti s ACE-I Pacienti s AIIA
N = 1 416 N = 1 394
Medián
25%-75%
5%-95%
0 12
mmHg
0 12
3. Normální rozdělení pravděpodobnosti
a rozdělení z něj odvozená
Tomáš Pavlík Biostatistika
Normální rozdělení pravděpodobnosti
Klíčové rozdělení pravděpodobnosti. Jak
pro teoretickou statistiku, tak pro
biostatistiku.
Označení „normální“ neznamená, že by
bylo normálnější než ostatní rozdělení.
Popisuje proměnné, jejichž hodnoty se
symetricky shlukují kolem střední
hodnoty. Rozptyl kolem střední
hodnoty je dán aditivním vlivem mnoha
„slabě působících“ faktorů.
Příklad: výška člověka, krevní tlak
Tomáš Pavlík Biostatistika
Normální rozdělení pravděpodobnosti
Je kompletně popsáno dvěma parametry:
μ – střední hodnota, tedy E(X)
σ2 – rozptyl, tedy D(X)
Označení: N(μ, σ2)
Hustota pravděpodobnosti:
Čím bychom mohli jednotlivé parametry normálního rozdělení odhadnout?
22
2/)(
2
2
2
1
),;( σµ
πσ
σµ −−
= x
exf
Tomáš Pavlík Biostatistika
Normální rozdělení dle hodnot parametrů μ a σ2
Tomáš Pavlík Biostatistika
Normální rozdělení pravděpodobnosti
Normalita je klíčovým předpokladem řady statistických metod – zejména testů
a modelů.
Není-li splněna podmínka normality hodnot, je špatně celý model se kterým
daná metoda pracuje, což vede k neinterpretovatelným závěrům.
Její ověření je tak stejně důležité jako výběr správného testu.
Pro ověření normality existuje řada testů a grafických metod.
Tomáš Pavlík Biostatistika
Standardizované normální rozdělení
Jakékoliv normální rozdělení může být převedeno (zatím schválně neříkám
transformováno) na tzv. standardizované normální rozdělení:
Hustota pravděpodobnosti:
Klíčové rozdělení řady testů.
Výhoda je, že všechny hodnoty distribuční i kvantilové funkce jsou tabelovány a
obsaženy ve všech dostupných softwarech.
2/2
2
1
)1,0;( x
exf −
=
π
)1,0(~),(~ 2
2
NY
X
YNX →
−
=→
σ
µ
σµ
Tomáš Pavlík Biostatistika
Pravidlo ±3 sigma
U normálního rozdělení lze vyčíslit procento hodnot, které by se měly
vyskytovat v rozmezí ± x násobku směrodatné odchylky od střední hodnoty.
Lze říci, že v rozmezí μ ± 3σ by se mělo vyskytovat přes 99,5 % všech hodnot.
68,3 % všech hodnot
95,6 % všech hodnot
99,7 % všech hodnot
Tomáš Pavlík Biostatistika
Pravidlo ±3 sigma – k čemu to je?
Lze ho použít pro jednoduché (ale pouze orientační) ověření normality
rozdělení pozorovaných dat.
Příklad 1: Hladina sérového albuminu u 216 pacientů s cirhózou jater.
Sumarizace pozorovaných hodnot:
68,3 % všech hodnot
95,6 % všech hodnot
99,7 % všech hodnot
g/l84,5
g/l46,34
=
=
s
x
hodnot%99,07
g/l98,5194,163
hodnot%95,83
g/l14,4678,222
hodnot%73,15
g/l30,4062,281
≈
−=±
≈
−=±
≈
−=±
sx
sx
sx
Tomáš Pavlík Biostatistika
Pravidlo ±3 sigma – k čemu to je?
Příklad 2: Simulovaná data, 50 hodnot z N(0,1) + 1 odlehlá hodnota (200).
Sumarizace pozorovaných hodnot:
02,28
,873
=
=
s
x
hodnot%99,7hodnot%98,04
95,8721,803
hodnot%95,6hodnot%98,04
92,5918,522
hodnot%68,3hodnot%98,04
90,3115,241
≠=
−−=±
≠=
−−=±
≠=
−−=±
sx
sx
sx
Tomáš Pavlík Biostatistika
Pravidlo ±3 sigma – k čemu to je?
Pravidlo 3 sigma můžeme použít pro identifikaci odlehlých hodnot.
Pravidlo 3 sigma můžeme použít pro orientační ověření normality dat.
Tomáš Pavlík Biostatistika
Chí-kvadrát rozdělení
Vzniká jako součet druhých mocnin k nezávislých náhodných veličin se
standardizovaným normálním rozdělením, N(0,1). Konstanta k je nazývána
počet stupňů volnosti.
Velký význam v teoretické statistice:
Výpočet intervalu spolehlivosti pro rozptyl
Testování hypotéz o nezávislosti kvalitativních dat
Testy dobré shody
)(~)1,0(~ 2
1
2
kQXQNX
k
i
ii χ→=→ ∑=
Tomáš Pavlík Biostatistika
Studentovo t rozdělení
Charakterizuje rozdělení průměru jako odhadu střední hodnoty veličiny s
normálním rozdělením, v případě, že neznáme rozptyl (což je téměř vždy).
Vzniká jako podíl dvou nezávislých veličin, jedné s rozdělením N(0,1) a druhé s
rozdělením χ2(k). Parametrem t rozdělení je opět počet stupňů volnosti k.
)(~
/
)(~),1,0(~ 2
ktT
kQ
X
TkQNX →=→χ
Lze ho chápat jako aproximaci normálního
rozdělení pro malé vzorky, pro velké velikosti
souborů konverguje k normálnímu
rozdělení.
Teoretický základ t testu.
Tomáš Pavlík Biostatistika
Log-normální rozdělení
Náhodná veličina Y má log-normální rozdělení, když X=ln(Y) má normální
rozdělení. A naopak, když X má normální, pak Y=exp(X) má log-normální.
Hustota:
Normální rozdělení – aditivní efekt faktorů
Log-normální rozdělení – multiplikativní efekt faktorů
Řada jevů v přírodě se řídí log-normálním rozdělením: délka inkubační doby
infekčního onemocnění, abundance druhů, řada krevních parametrů (např.
sérový bilirubin u pacientů s cirhózou), počet bakteriálních buněk v daném
objemu,…
0,
2
1
),;(
22
2/)(ln
2
2
>= −−
xe
x
xf x σµ
πσ
σµ
Tomáš Pavlík Biostatistika
Binomické rozdělení
Diskrétní rozdělení, které popisuje počet výskytů sledované události (ve formě
nastala/nenastala) v sérii n nezávislých experimentů, kdy v každém
experimentu je stejná pravděpodobnost výskytu události a je p = θ.
Pravděpodobnostní funkce:
Základ binomických testů pro srovnávání výskytu sledovaných událostí v
populaci nebo mezi populacemi.
knk
k
n
kXP −
−





== )1()( θθ
Tomáš Pavlík Biostatistika
Poissonovo rozdělení
Diskrétní rozdělení, které popisuje počet výskytů sledované události na danou
jednotku (času, plochy, objemu), když se tyto události vyskytují vzájemně
nezávisle s konstantní intenzitou (parametr λ).
Jedná se o zobecnění binomického rozdělení pro a .
Pravděpodobnostní funkce:
Střední hodnota, rozptyl:
Příklady: průměrný výskyt mutací bakterií na 1 Petriho misku, počet krvinek
v poli mikroskopu, počet žížal vyskytujících se na 1 m2, počet pooperačních
komplikací během určitého časového intervalu po výkonu.
0,
!
);()( ≥===
−
x
x
e
xpxXP
x
X
λ
λ
λ
∞→n 0→p
λλ == DXEX ,
Tomáš Pavlík Biostatistika
Poissonovo rozdělení – vliv λ
Tomáš Pavlík Biostatistika
Exponenciální rozdělení
Spojité rozdělení, které popisuje délky časových intervalů mezi jednotlivými
událostmi Poissonova procesu. Popisuje tedy časový interval mezi událostmi,
když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou
(parametr λ).
Hustota:
Střední hodnota, rozptyl:
Význam v analýze přežití, je to „nejjednodušší“ modelové rozdělení pro délku
doby do výskytu sledované události – předpokládá totiž konstantní intenzitu
(systém nemá paměť).
Zobecněním jsou další rozdělení: Weibullovo, Gamma.
2
1,1
0,);(
λλ
λλ λ
==
≥= −
DXEX
xexf x
X
Tomáš Pavlík Biostatistika
Bimodální rozdělení
Představuje většinou problém, neboť se zřejmě jedná o směs dvou souborů s
unimodálním rozdělením.
Bimodální rozdělení má např. tento tvar:
muži
ženy
Tomáš Pavlík Biostatistika
Existuje ±3 sigma i u asymetrických rozdělení?
Pro nenormální rozdělení existuje pomůcka v podobě obecného pravidla –
Čebyševovy nerovnosti: Máme-li náhodnou veličinu X se střední hodnotou μ a
a konečným rozptylem σ2, pak pro libovolné reálné číslo k > 0 platí:
2
1
)|(|
k
kXP ≤≥− σµ
4. Transformace náhodných veličin
Tomáš Pavlík Biostatistika
Transformace náhodné veličiny
Transformací náhodné veličiny X rozumíme aplikaci matematické funkce g tak,
že vzniká nová náhodná veličina (tzv. transformovaná) Y = g(X).
Nová veličina nabývá nových hodnot → má také jiné rozdělení
pravděpodobnosti → je třeba ho najít (hustotu, pravděpodobnostní funkci).
S transformací se mění škála – mění se i interpretace „vzdáleností“ mezi
jednotlivými hodnotami.
Tomáš Pavlík Biostatistika
Transformace náhodné veličiny
Spojitá veličina: chceme najít hustotu fY(y).
Diskrétní veličina: chceme najít pravděpodobnostní funkci pY(y).
.),())(())(()()(
)(
1
1
RyxpygXPyXgPyYPyp
ygx
XY ∑−
∈
−
∈=∈=====
.)),(())(())(()()( 11
RyygFygXPyXgPyYPyF XY ∈=≤=≤=≤= −−
.),())(()))((1()()(:klesající)(Pro 111
Ryyg
dy
d
ygfygF
dy
d
yF
dy
d
yfxg XXYY ∈−=−== −−−
.),())(())(()()(:rostoucí)(Pro 111
Ryyg
dy
d
ygfygF
dy
d
yF
dy
d
yfxg XXYY ∈=== −−−
.,)())(()(:jakoukoliv)(Pro 11
Ryyg
dy
d
ygfyfxg XY ∈= −−
Tomáš Pavlík Biostatistika
Transformace náhodné veličiny – příklad
Máme rozdělení náhodné veličiny X dáno tabulkou a chceme najít rozdělení
pravděpodobnosti transformované náhodné veličiny Y = X2 – 1.
x -2 -1 0 1 2
p(x) 0,1 0,25 0,15 0,3 0,2
x -2 -1 0 1 2
p(x) 0,1 0,25 0,15 0,3 0,2
y 3 0 -1 0 3
p(y) 0,3 0,55 0,15 - -
Tomáš Pavlík Biostatistika
Význam transformací pro zpracování dat
Teoretické vlastnosti transformovaných náhodných veličin nám dávají nástroj
pro práci s pozorovanými daty.
Transformace můžeme použít pro následující cíle:
1. Normalizaci pozorovaných hodnot
2. Standardizaci normálních hodnot
3. Stabilizaci rozptylu pozorovaných hodnot – teď vynecháme
4. Lepší interpretaci pozorovaných hodnot
Tomáš Pavlík Biostatistika
1. Normalizace pozorovaných hodnot
Normalita pozorovaných hodnot je silný předpoklad řady statistických metod,
který musí být splněn, aby výsledky byly interpretovatelné!
Hodnocení normality dat – vizuálně, na základě testu.
Nenormální data je nutné transformovat nebo použít test bez předpokladu
normality.
Logaritmická transformace
Y = ln(X)
Odmocninová transformace
Y = sqrt(X)
Box-Coxova transformace
Tomáš Pavlík Biostatistika
2. Standardizace normálních hodnot
Standardizace je transformace náhodné veličiny s N(μ,σ2) na N(0,1).
Důvod: řada statistických metod byla odvozena pro standardizované normální
rozdělení, N(0,1). Děláme to tedy opět kvůli lepší možnosti hodnocení dat.
Teoretická standardizace:
Praktická standardizace:
Obrázek: standardizace je převod
„modré“, „zelené“ a „okrové“ na
„červenou“.
2
σ
µ−
=
X
U
2
s
xx
u i
i
−
=
Tomáš Pavlík Biostatistika
4. Lepší interpretace pozorovaných hodnot
Někdy se nám hodí transformovat pozorovaná data kvůli lepší interpretaci.
Příklad: Microarray experiment se dvěma vzorky, měříme intenzitu genu XY v
jedné tkáni (hodnota intenzity AXY) a v druhé tkáni (hodnota intenzity BXY).
Následně hodnoty převádíme na logaritmus se základem 2 jejich podílu:
Jaké to má výhody?






=
XY
XY
XY
B
A
Z 2log
Tomáš Pavlík Biostatistika
Poděkování…
Rozvoj studijního oboru „Matematická biologie“ PřF MU
Brno je finančně podporován prostředky projektu ESF č.
CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia
Matematické biologie“ a státním rozpočtem České republiky