Přednáška II.
Vztah pravděpodobnosti,
statistiky a biostatistiky
Statistika vychází z pravděpodobnosti
Podmíněná pravděpodobnost, Bayesův vzorec
Senzitivita, specificita, prediktivní hodnoty
Frekventistická a Bayesovská statistika
Tomáš Pavlík Biostatistika
Opakování – klíčové principy biostatistiky
Zkreslení
Reprezentativnost
SrovnatelnostSpolehlivost
Významnost
Tomáš Pavlík Biostatistika
Opakování – příčina a důsledek
Příklad: Farmaceutická společnost se snaží o kategorizaci nového
přípravku proti běžné rýmě. Jako důkaz účinnosti přípravku provedla
společnost experiment, kdy byl její přípravek podán velkému množství
pacientů s rýmou. S potěšením pak firma reportovala Státnímu ústavu pro
kontrolu léčiv, že 90 % pacientů se po 10 dnech užívání cítilo lépe. SÚKL
přesto přípravek neschválil.
Proč?
Tomáš Pavlík Biostatistika
Statistika, biostatistika a analýza dat
Statistika Biostatistika Analýza dat
 Primárně je zaměřena na
vývoj metod a algoritmů
pro řešení teoretických
problémů.
 Nicméně i statistika je vždy
primárně motivována
reálnými problémy.
 Vychází z teorie
pravděpodobnosti.
 Propojení znalosti
statistických metod a dané
problematiky v řešení
biologických a klinických
úloh.
 Na prvním místě není
teoretický vývoj, ale
aplikace.
 Velmi obecná oblast bez
jasné definice.
 Prostupuje různými
odvětvími.
 Zahrnuje komplexní
postupy hodnocení dat
(čištění, kódování).
 Nemusí být založena na
statistice.
Tomáš Pavlík Biostatistika
Biostatistika vychází ze statistiky
Biostatistika je aplikace statistických metod v řešení biologických a
klinických problémů.
Snahou je získat z pozorovaných dat užitečnou informaci. V popředí
zájmu je pozorovaná variabilita mezi studovanými subjekty, kterou
chceme vysvětlit.
Tomáš Pavlík Biostatistika
Statistický pohled na problém
Cílová populace – chceme postihnout konkrétní problém.
Získáme experimentální vzorek cílové populace (pozorování), která
převedeme na číselné vyjádření (data). Vzorek by měl být reprezentativní
a náhodný.
Předpokládáme pravděpodobnostní chování (model) tohoto vzorku (tedy
i cílové populace).
Konkrétní problém vyjádříme ve vybraném modelu jako hypotézu.
Zhodnotíme hypotézu na základě vybraného modelu a pozorovaných dat.
Tomáš Pavlík Biostatistika
Statistika vychází z pravděpodobnosti
Teorie pravděpodobnosti se zabývá modelováním náhody.
Lze nějak ale vyjádřit, co je to náhoda?
Tomáš Pavlík Biostatistika
Statistika vychází z pravděpodobnosti
Teorie pravděpodobnosti se zabývá modelováním náhody.
Lze nějak ale vyjádřit, co je to náhoda?
Objektivní nepředvídatelnost?
Nedostatek informací?
Tomáš Pavlík Biostatistika
Statistika vychází z pravděpodobnosti
Teorie pravděpodobnosti se zabývá modelováním náhody.
Lze nějak ale vyjádřit, co je to náhoda?
Objektivní nepředvídatelnost?
Nedostatek informací?
“Chance is only ignorance of the connections between phenomena.”
Pierre Simon de Laplace
Tomáš Pavlík Biostatistika
Statistika
Statistika vs. pravděpodobnost
Pravděpodobnost
Cílová
populace
Vzorek
Cílová
populace
Vzorek
Tomáš Pavlík Biostatistika
Statistika
Statistika vs. pravděpodobnost
Pravděpodobnost
Cílová
populace
Vzorek
Cílová
populace
Vzorek
Cílem statistiky je získání
informace o cílové populaci
na základě pozorovaného
experimentálního vzorku.
V teorii pravděpodobnosti se
ptáme na pravděpodobnost
získání konkrétního
výsledku, máme-li danou
strukturu cílové populace.
Tomáš Pavlík Biostatistika
Značení
Základní prostor (Ω) – množina všech možných výsledků experimentu
Elementární jev (ω) – konkrétní výsledek experimentu
Náhodný jev (A) – podmnožina základního prostoru
Množina všech jevů (A) – množina (všech) podmnožin základního prostoru
Ø představuje jev nemožný, Ω zase jev jistý
Množinové operace mají v teorii pravděpodobnosti svůj význam:
- jev A nastane, když nastane ω
- jev A nenastane, když nastane ω
- nastání jevu A implikuje nastání jevu B
- nastání jevu A a zároveň jevu B
- nastání jevu A nebo jevu B
- jevy A a B se navzájem vylučují, jsou disjunktní
- nastání jevu opačného k jevu Ac
A
BA
BA
BA
BA
A
A
.7
0.6
.5
.4
.3
.2
.1
=∩
∪
∩
⊂
∉
∈
ω
ω
Tomáš Pavlík Biostatistika
Pravděpodobnost
Pravděpodobnost lze definovat jako funkci, která přiřazuje náhodnému jevu
reálné číslo mezi 0 a 1. Je to tedy funkce P: A → [0,1]. Musí platit následující:
)()()(.3
1)(0.2
1)(,0)(.1
BPAPBAPBA
APA
PP
+=∪⇒=∩
≤≤⇒Ω⊆
=Ω=
φ
φ
Tomáš Pavlík Biostatistika
Definice pravděpodobnosti
Klasická definice pravděpodobnosti: předpokládáme, že Ω je konečná a
všechny ω jsou stejně pravděpodobné. Pak
kde |A| je počet prvků množiny A (počet elementárních jevů jevu A).
Axiomatická definice pravděpodobnosti: Ω je libovolná množina
elementárních jevů, A’ je množina měřitelných jevů (A’ je podmnožina A).
Funkce P: A’ → [0,1], která splňuje
se nazývá pravděpodobnost. Trojice (Ω, A’, P) se nazývá pravděpodobnostní
prostor.
||
||
)(
Ω
=⇒Ω⊆
A
APA
∑== =⇒≠∀=∩Ω∈
=Ω
n
i ii
n
iji APAPjiAAAA
P
1121 )()(,:,...,.2
1)(.1
φ
Tomáš Pavlík Biostatistika
Definice pravděpodobnosti – najděte rozdíly
Klasická definice pravděpodobnosti: předpokládáme, že Ω je konečná a
všechny ω jsou stejně pravděpodobné. Pak
kde |A| je počet prvků množiny A (počet elementárních jevů jevu A).
Axiomatická definice pravděpodobnosti: Ω je libovolná množina
elementárních jevů, A’ je množina měřitelných jevů (A’ je podmnožina A).
Funkce P: A’ → [0,1], která splňuje
se nazývá pravděpodobnost. Trojice (Ω, A’, P) se nazývá pravděpodobnostní
prostor.
||
||
)(
Ω
=⇒Ω⊆
A
APA
∑== =⇒≠∀=∩Ω∈
=Ω
n
i ii
n
iji APAPjiAAAA
P
1121 )()(,:,...,.2
1)(.1
φ
Tomáš Pavlík Biostatistika
Co to znamená?
Axiomatická definice připouští i nespočetný základní prostor, tedy
nespočetnou množinu elementárních jevů.
Příklady: hod kostkou × měření výšky lidské postavy
Axiomatická definice připouští různou pravděpodobnost různých
elementárních jevů.
Příklady: hod kostkou × měření výšky lidské postavy
Tomáš Pavlík Biostatistika
Nezávislost jevů
Dva jevy A a B jsou nezávislé právě tehdy, když platí
Jsou-li dva jevy A a B nezávislé, pak i
Ac je nezávislé na B
A je nezávislé na Bc
Ac je nezávislé na Bc
)()()( BPAPBAP =∩
Tomáš Pavlík Biostatistika
Nezávislost jevů
Dva jevy A a B jsou nezávislé právě tehdy, když platí
Jsou-li dva jevy A a B nezávislé, pak i
Ac je nezávislé na B
A je nezávislé na Bc
Ac je nezávislé na Bc
Příklad: Uvažujme opět hod kostkou a jevy A = {1, 3, 5} a B = {4, 5, 6}.
Jevy A a B tedy nejsou nezávislé.
)()()( BPAPBAP =∩
)()(4/16/1)( BPAPBAP =≠=∩
Tomáš Pavlík Biostatistika
Podmíněná pravděpodobnost
Máme-li jev B s pravděpodobností P(B) > 0, pak podmíněnou
pravděpodobnost jevu A za podmínky nastoupení jevu B definujeme
jako
Pro nezávislé jevy A a B platí
)(
)(
)|(
BP
BAP
BAP
∩
=
)(
)(
)()(
)|( AP
BP
BPAP
BAP ==
Tomáš Pavlík Biostatistika
Podmíněná pravděpodobnost
)(
)(
)|(
BP
BAP
BAP
∩
= BA∩A B
Ω
Tomáš Pavlík Biostatistika
Podmíněná pravděpodobnost
Příklad: Osoba X má všechny typické příznaky chřipky. Pravděpodobnost, že se
jedná o klasickou chřipku je 0,7 (jev A), prasečí chřipku 0,2 (jev B), ptačí chřipku
0,05 (jev C) a dosud neznámou formu 0,05 (jev D). Diagnostický test prokázal,
že klasická chřipka to není. Jaká je nyní pravděpodobnost, že se jedná o novou
formu chřipky?
Tomáš Pavlík Biostatistika
Podmíněná pravděpodobnost
Příklad: Osoba X má všechny typické příznaky chřipky. Pravděpodobnost, že se
jedná o klasickou chřipku je 0,7 (jev A), prasečí chřipku 0,2 (jev B), ptačí chřipku
0,05 (jev C) a dosud neznámou formu 0,05 (jev D). Diagnostický test prokázal,
že klasická chřipka to není. Jaká je nyní pravděpodobnost, že se jedná o novou
formu chřipky?
Řešení:
167,0
3,0
05,0
)(
)(
)(
)(
)|( ===
∩
= cc
c
c
AP
DP
AP
ADP
ADP
Tomáš Pavlík Biostatistika
Celková pravděpodobnost a Bayesův vzorec
Můžeme-li rozdělit základní prostor na k po dvou disjunktních
podmnožin (Hi, i = 1, …, k), pro které zároveň platí, že jejich sjednocení
je celý základní prostor (tzv. systém hypotéz), pak pravděpodobnost
jevu A lze získat jako
Dále platí
∑=
=
k
i
ii HPHAPAP
1
)()|()(
∑=
=
∩
= k
i
ii
jjj
j
HPHAP
HPHAP
AP
HAP
AHP
1
)()|(
)()|(
)(
)(
)|( Bayesův vzorec
Vzorec pro celkovou
pravděpodobnost
Tomáš Pavlík Biostatistika
Počasí a podmíněná pravděpodobnost
Co má počasí společného s pravděpodobností?
Tomáš Pavlík Biostatistika
Počasí a podmíněná pravděpodobnost
Co má počasí společného s pravděpodobností?
U každého jevu (A) se můžeme ptát na jeho pravděpodobnost za slunečného počasí, za
deště, za bouřky, atd. Celkovou pravděpodobnost jevu A potom můžeme získat jako
součet přes tyto možnosti.
Tyto stavy lze chápat jako výchozí hypotézy ovlivňující výsledek, přičemž vždy nastává
(platí) pouze jeden z těchto stavů (hypotéz). Pokud pozorujeme jev A, můžeme se zpětně
ptát na platnost těchto hypotéz (s použitím Bayesova vzorce).
H0
Ω
H1 H2
H3 H4 H5
Tomáš Pavlík Biostatistika
Celková pravděpodobnost – jiný příklad
Populaci můžeme rozdělit dle věku na tři skupiny: děti (H0), dospělé v
produktivním věku (H1) a dospělé v postproduktivním věku (H2), přičemž známe
rozdělení populace, tedy známe P(H0), P(H1) a P(H2).
Označme jev A: stane se úraz.
Známe-li pravděpodobnost úrazu u dítěte, P(A|H0), u dospělého v produktivním
věku, P(A|H1), a u dospělého v postproduktivním věku, P(A|H2), jsme schopni
pomocí vzorce pro celkovou pravděpodobnost spočítat P(A).
Ω H0 H1 H2
Tomáš Pavlík Biostatistika
Bayesův vzorec
Příklad: Uvažujme populaci mužů nekuřáků ve věku 50 – 60 let, u kterých
sledujeme výskyt chronického kašle (jev A). Dle stavu plic můžeme muže
zjednodušeně rozdělit na zdravé (jev H1), nemocné plicním karcinomem (jev
H2) a nemocné sarkoidózou (jev H3). Pravděpodobnosti výskytu jednotlivých
plicních onemocnění jsou známé, navíc známe i pravděpodobnosti výskytu
chronického kašle dle stavu plic:
P(H1) = 0,991, P(H2) = 0,001, P(H3) = 0,008
P(A|H1)=0,002, P(A|H2)=0,900, P(A|H3)=0,950
Zajímá nás, s jakou pravděpodobností bude u pacienta s chronickým kašlem při
podrobnějším vyšetření diagnostikován karcinom plic.
Tomáš Pavlík Biostatistika
Bayesův vzorec
Příklad: Uvažujme populaci mužů nekuřáků ve věku 50 – 60 let, u kterých sledujeme výskyt chronického kašle (jev A).
Dle stavu plic můžeme muže zjednodušeně rozdělit na zdravé (jev H1), nemocné plicním karcinomem (jev H2) a
nemocné sarkoidózou (jev H3). Pravděpodobnosti výskytu jednotlivých plicních onemocnění jsou známé, navíc známe i
pravděpodobnosti výskytu chronického kašle dle stavu plic:
P(H1) = 0,991, P(H2) = 0,001, P(H3) = 0,008
P(A|H1)=0,002, P(A|H2)=0,900, P(A|H3)=0,950
Zajímá nás, s jakou pravděpodobností bude u pacienta s chronickým kašlem při podrobnějším vyšetření diagnostikován
karcinom plic.
Řešení:
086,0
008,0950,0001,0900,0991,0002,0
001,0900,0
)|(
)()|(
)()|(
)(
)(
)|(
2
3
1
222
2
=
×+×+×
×
=
=
∩
=
∑=
AHP
HPHAP
HPHAP
AP
HAP
AHP
i
ii
Tomáš Pavlík Biostatistika
Význam podmíněné pravděpodobnosti v biostatistice
Princip podmíněné pravděpodobnosti je v biostatistice velmi častý – máme
systém hypotéz (nejčastěji dvou) o vlastnostech cílové populace a pozorovaná
data. Na jejich základě pak rozhodujeme o platnosti stanovených hypotéz.
Přímé použití podmíněné pravděpodobnosti lze demonstrovat na příkladu
binárních diagnostických testů:
Osoba ve skutečnosti má (jev H) nebo nemá (jev Hc) sledované
onemocnění.
Diagnostický test u dané osoby indikuje přítomnost (jev A+) nebo
nepřítomnost (jev A-) sledovaného onemocnění.
Nás zajímají diagnostické schopnosti testu.
Tomáš Pavlík Biostatistika
Senzitivita, specificita
Senzitivita testu: schopnost testu rozpoznat skutečně nemocné osoby, tedy
pravděpodobnost, že test bude pozitivní, když je osoba skutečně nemocná.
Senzitivita testu = P(A+|H) = T / (T + V).
Specificita testu: schopnost testu rozpoznat osoby bez nemoci, tedy
pravděpodobnost, že test bude negativní, když osoba není nemocná.
Specificita testu = P(A-|Hc) = W / (U + W).
Skutečnost – přítomnost nemoci
Ano (H) Ne (Hc)
Výsledek
diagnostického
testu
Pozitivní (A+) T U
Negativní (A-) V W
Tomáš Pavlík Biostatistika
Pozitivní a negativní prediktivní hodnota
Prediktivní hodnota pozitivního testu: pravděpodobnost, že osoba je skutečně
nemocná, když je test pozitivní.
Prediktivní hodnota pozitivního testu = P(H|A+) = T / (T + U).
Prediktivní hodnota negativního testu: pravděpodobnost, že osoba není
nemocná, když je test negativní.
Prediktivní hodnota negativního testu = P(Hc|A-) = W / (V + W).
Skutečnost – přítomnost nemoci
Ano (H) Ne (Hc)
Výsledek
diagnostického
testu
Pozitivní (A+) T U
Negativní (A-) V W
Tomáš Pavlík Biostatistika
Shrnutí
Skutečnost – přítomnost nemoci
Ano (H) Ne (Hc)
Výsledek
diagnostického
testu
Pozitivní (A+) T U T + U
Negativní (A-) V W V + W
T + V U + W
Senzitivita
testu
Specificita
testu
Prediktivní hodnota
pozitivního testu
Prediktivní hodnota
negativního testu
Tomáš Pavlík Biostatistika
Senzitivita, specificita
Příklad: Zajímá nás přesnost vyšetření jater ultrazvukem, tedy schopnost
vyšetření UTZ identifikovat maligní ložisko v pacientových játrech. Přesnost je
vztažena k histologickému ověření odebrané tkáně. Výsledky jsou dány
tabulkou:
Vyšetření
UTZ
Histologické ověření
Maligní Benigní Celkem
Maligní 32 2 34
Benigní 3 24 27
Celkem 35 26 61
Senzitivita testu = P(A+|H) = ?
Specificita testu = P(A-|Hc) = ?
Tomáš Pavlík Biostatistika
Senzitivita, specificita
Příklad: Zajímá nás přesnost vyšetření jater ultrazvukem, tedy schopnost
vyšetření UTZ identifikovat maligní ložisko v pacientových játrech. Přesnost je
vztažena k histologickému ověření odebrané tkáně. Výsledky jsou dány
tabulkou:
Vyšetření
UTZ
Histologické ověření
Maligní Benigní Celkem
Maligní 32 2 34
Benigní 3 24 27
Celkem 35 26 61
Senzitivita testu = P(A+|H) = 32 / 35 = 91,4 % (IS = 75,8 – 97,8)
Specificita testu = P(A-|Hc) = 24 / 26 = 92,3 % (IS = 73,4 – 98,7)
Tomáš Pavlík Biostatistika
Bayesův vzorec pro výpočet prediktivních hodnot
Obě prediktivní hodnoty testu lze vypočítat s pomocí charakteristik
testu, senzitivity a specificity, a celkové prevalence onemocnění v cílové
populaci.
)()|()()|(
)()|(
)|( cc
HPHAPHPHAP
HPHAP
AHP ++
+
+
+
=
Prediktivní hodnota
pozitivního testu
Prediktivní hodnota
negativního testu )()|()()|(
)()|(
)|(
HPHAPHPHAP
HPHAP
AHP cc
cc
c
−−
−
−
+
=
Senzitivita testu Specificita testu Prevalence)|( HAP +
)|( c
HAP −
)(HP
Tomáš Pavlík Biostatistika
Pozitivní a negativní prediktivní hodnota
Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického
testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99%
specificitu.
1. Uvažujme jihoafrickou zemi s prevalencí HIV pozitivních cca 20 %:
P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,2.
Tomáš Pavlík Biostatistika
Pozitivní a negativní prediktivní hodnota
Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického
testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99%
specificitu.
1. Uvažujme jihoafrickou zemi s prevalencí HIV pozitivních cca 20 %:
P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,2.
%1,96
)20,01()99,01(20,098,0
20,098,0
)()|()()|(
)()|(
)|( =
−×−+×
×
=
+
= ++
+
+
cc
HPHAPHPHAP
HPHAP
AHP
Prediktivní hodnota pozitivního testu
Prediktivní hodnota negativního testu
%5,99
20,0)98,01()20,01(99,0
)20,01(99,0
)()|()()|(
)()|(
)|( =
×−+−×
−×
=
+
= −−
−
−
HPHAPHPHAP
HPHAP
AHP cc
cc
c
Tomáš Pavlík Biostatistika
Pozitivní a negativní prediktivní hodnota
Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického
testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99%
specificitu.
2. Uvažujme evropskou zemi s prevalencí HIV pozitivních cca 0,2 %:
P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,002.
Tomáš Pavlík Biostatistika
Pozitivní a negativní prediktivní hodnota
Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického
testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99%
specificitu.
2. Uvažujme evropskou zemi s prevalencí HIV pozitivních cca 0,2 %:
P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,002.
%4,16
)002,01()99,01(002,098,0
002,098,0
)()|()()|(
)()|(
)|( =
−×−+×
×
=
+
= ++
+
+
cc
HPHAPHPHAP
HPHAP
AHP
Prediktivní hodnota pozitivního testu
Prediktivní hodnota negativního testu
%9,99
002,0)98,01()002,01(99,0
)002,01(99,0
)()|()()|(
)()|(
)|( =
×−+−×
−×
=
+
= −−
−
−
HPHAPHPHAP
HPHAP
AHP cc
cc
c
Tomáš Pavlík Biostatistika
Dva směry statistiky
Ve statistice existují dva hlavní filozofické směry: frekventistický a Bayesovský.
Liší se v pohledu na pravděpodobnostní chování neznámých hodnot, které se
snažíme odhadnout.
Frekventistická statistika: všechny neznámé hodnoty považujeme za konstantní
(parametry). Na základě dat se snažíme tuto hodnotu „lokalizovat“.
Bayesovská statistika: všechny neznámé hodnoty mají pravděpodobnostní
chování (rozdělení pravděpodobnosti). Na základě dat se snažíme toto
pravděpodobnostní chování „upřesnit“.
Tomáš Pavlík Biostatistika
Frekventistická statistika
Neznámou charakteristiku cílové populace (konstantu) se snažíme odhadnout
pouze na základě pozorovaných dat.
Důležitý je předpoklad reprezentativnosti vzorku – pracujeme pouze s daty jako
obrazem neznámé charakteristiky. Bude-li špatný vzorek, bude špatný i odhad
(výsledky mohou být velmi odlišné od známých hodnot).
Často pracuje s asymptotickým chováním, kdy velikost vzorku jde do
nekonečna; řada odhadů a testů je odvozena právě pro tyto situace.
∞→n∞<<n
0
0.1
0.2
0.3
0 1 2 3 4 5 6
0
0.1
0.2
0.3
0 1 2 3 4 5 6
Tomáš Pavlík Biostatistika
Bayesovská statistika
Neznámá charakteristika cílové populace má pravděpodobnostní chování, které
se snažíme pomocí pozorovaných dat upřesnit.
Předpoklad reprezentativnosti vzorku je stále důležitý, ale již nepracujeme
pouze s daty – pracujeme i s tzv. apriorní pravděpodobností, P(H), což je náš
vstupní předpoklad o chování neznámé charakteristiky.
Nevýhodou je neznalost apriorní pravděpodobnosti.
)()|(
)(
)()|(
)|( HPHAP
AP
HPHAP
AHP ∝=
Tomáš Pavlík Biostatistika
Reklama na další týdny…
Středem zájmu statistiky a biostatistiky je tzv. náhodná veličina.
Základní
prostor Ω
Jev A ω1
R0R0 x1P(A)
Náhodná veličina XPravděpodobnost P
Tomáš Pavlík Biostatistika
Poděkování…
Rozvoj studijního oboru „Matematická biologie“ PřF MU
Brno je finančně podporován prostředky projektu ESF č.
CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia
Matematické biologie“ a státním rozpočtem České republiky