Přednáška XI.
Asociace ve čtyřpolní tabulce
a základy korelační analýzy
Relativní riziko a poměr šancí
Princip korelace dvou náhodných veličin
Korelační koeficienty – Pearsonův a Spearmanův
Korelace a kauzalita
Tomáš Pavlík Biostatistika
Opakování – Testování hypotéz o podílech
V čem se liší konstrukce intervalů spolehlivosti a testování hypotéz při
rozhodování o podílech (zastoupení „úspěchů“ v náhodném výběru)?
Tomáš Pavlík Biostatistika
Opakování – Fisherův exaktní test
Jak funguje Fisherův exaktní test?
Veličina X
Veličina Y
Y = 1 Y = 2 Celkem
X = 1 a b a + b
X = 2 c d c + d
Celkem a + c b + d n
Tomáš Pavlík Biostatistika
Opakování – Chí-kvadrát test dobré shody
Lze použít chí-kvadrát test dobré shody na testování normality dat?
Pokud ano, jak?
1. Vyjádření rizik ve čtyřpolní tabulce
Tomáš Pavlík Biostatistika
Motivace
Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS).
Výsledky dány v tabulce:
Pomocí Pearsonova chí-kvadrát nebo Fisherova exaktního testu můžeme
rozhodovat o závislosti/nezávislosti dvou sledovaných veličin. Testy ale
neumožňují tento vztah kvantifikovat.
Má-li to smysl a chceme-li kvantifikovat (rozhodovat o těsnosti této
závislosti) můžeme použít tzv. relativní riziko (RR) a poměr šancí (OR).
SIDS
Věk matky
Do 25 let 25 a více let Celkem
Ano 29 15 44
Ne 7301 11241 18542
Celkem 7330 11256 18586
Tomáš Pavlík Biostatistika
Srovnávané skupiny
Pomocí RR i OR můžeme srovnat pravděpodobnosti výskytu sledovaného
jevu ve dvou různých skupinách:
1. skupina s pravděpodobností výskytu události P1:
experimentální skupina – např. léčená novou léčbou
riziková skupina – např. hypertonici
skupina s expozicí určitému faktoru – např. horníci
2. skupina s pravděpodobností výskytu události P0:
kontrolní skupina
skupina bez expozice
Tomáš Pavlík Biostatistika
Relativní riziko = Relative risk
Výpočet relativního rizika (RR) umožňuje srovnat pravděpodobnosti výskytu
sledovaného jevu ve dvou různých skupinách.
1. skupina – experimentální nebo skupina s expozicí určitému faktoru
2. skupina – kontrolní nebo skupina bez expozice
db
b
ca
a
P
P
RR
+
+==
0
1
=RR
Pravděpodobnost výskytu jevu v 1. skupině (experimentální)
Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní) 0
1
P
P
=
Sledovaný jev
Skupina
Experimentální Kontrolní Celkem
Ano a b a + b
Ne c d c + d
Celkem a + c b + d n
Tomáš Pavlík Biostatistika
Příklad – relativní riziko
Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS).
Výsledky dány v tabulce:
SIDS
Věk matky
Do 25 let 25 a více let Celkem
Ano 29 15 44
Ne 7301 11241 18542
Celkem 7330 11256 18586
97,2
1124115
15
730129
29
0
1
=
+
+=
+
+==
db
b
ca
a
P
P
RR
Riziko výskytu SIDS u dětí
matek ve věku do 25 je téměř
třikrát vyšší než u dětí matek
rodících ve vyšším věku.
Tomáš Pavlík Biostatistika
Riziko vs. „šance“ (odds)
Riziko a pravděpodobnost – odhad pravděpodobnosti vzniku onemocnění
Relativní riziko – poměr dvou pravděpodobností
Šance – poměr pravděpodobnosti výskytu jevu a výskytu opačného jevu
nabývá hodnot mezi 0 a nekonečnem
pokud kůň vyhraje s pravděpodobností 10%, jaká je jeho šance na výhru?
1
1
1 P
P
odds
−
=
Tomáš Pavlík Biostatistika
Poměr šancí = Odds ratio
Poměr šancí (OR) je další charakteristikou, která umožňuje srovnat výskyt
sledovaného jevu ve dvou různých skupinách.
1. skupina – experimentální nebo skupina s expozicí určitému faktoru
2. skupina – kontrolní nebo skupina bez expozice
=OR
Pravděpodobnost výskytu jevu v 1. skupině (experimentální)
Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní)
0
0
1
1
0
1
1
1
P
P
P
P
O
O
−
−
==
1 – Pravděpodobnost výskytu jevu v 1. skupině (experimentální)
1 – Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní)
d
b
c
a
P
P
P
P
OR =
−
−
=
0
0
1
1
1
1
Sledovaný jev
Skupina
Experimentální Kontrolní Celkem
Ano a b a + b
Ne c d c + d
Celkem a + c b + d n
Tomáš Pavlík Biostatistika
Příklad – odds ratio
Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS).
Výsledky dány v tabulce:
SIDS
Věk matky
Do 25 let 25 a více let Celkem
Ano 29 15 44
Ne 7301 11241 18542
Celkem 7330 11256 18586
98,2
11241
15
7301
29
1
1
0
0
1
1
===
−
−
=
d
b
c
a
P
P
P
P
OR
„Šance“ na výskyt SIDS u dětí
matek ve věku do 25 je téměř
třikrát vyšší než u dětí matek
rodících ve vyšším věku.
Tomáš Pavlík Biostatistika
Grafické srovnání RR a OR
A B
RR = 2
10
3
10
6
== OR = 5.3
7
3
4
6
==
Výskyt sledovaného jevu
Bez výskytu sledovaného jevu
Tomáš Pavlík Biostatistika
Umělý příklad – pití slazených nápojů
Sledujeme vliv pití slazených nápojů na výskyt zubního kazu. Výsledky dány
v tabulce:
Zubní kaz
Pití slazených nápojů
Ano Ne Celkem
Ano 34 19 53
Ne 16 31 47
Celkem 50 50 100
79,1
3119
19
1634
34
=
+
+=
+
+=
db
b
ca
a
RR 47,3
31
19
16
34
===
d
b
c
a
OR
Tomáš Pavlík Biostatistika
Srovnání RR a OR
Hodnoty, jakých může nabývat RR i OR, souvisí s četností výskytu sledované
události v kontrolní (referenční) skupině.
Tomáš Pavlík Biostatistika
Komentáře k RR, OR
hodnota relativního rizika leží mezi 0 a 1/P0
pro běžné jevy nelze pozorovat vysoké hodnoty relativního rizika
pokud je riziko v kontrolní skupině 66%, maximální RR je 1,5
OR je obtížnější interpretovat
může být vhodné konvertovat na RR, musíme ale znát riziko v kontrolní skupině
nevychází stejně, ale oba jsou validní ukazatele účinku
ALE POKUD SE NEJEDNÁ O VZÁCNÝ JEV, OR NELZE INTERPRETOVAT JAKO RR!!!
)1(1 0 ORP
OR
RR
−−
=
RRP
PRR
OR
0
0
1
)1(
−
−
=
Tomáš Pavlík Biostatistika
Výhody a nevýhody RR a OR
Nevýhoda OR:
obtížná interpretace.
Výhoda i nevýhoda RR:
nezajímá ho samotná pravděpodobnost výskytu jevu, ale pouze jejich
podíl → korektní použití RR je však pouze v případě, že
pravděpodobnost výskytu jevu v kontrolní skupině je reprezentativní
(není ovlivněna výběrem sledovaných subjektů).
Tomáš Pavlík Biostatistika
Prospektivní a retrospektivní studie
Prospektivní studie
U některých subjektů je rizikový
faktor přítomen a u jiných ne →
sledujeme v čase, zda se vyskytne
událost.
Retrospektivní studie
U některých subjektů se událost
vyskytla a u jiných ne → zpětně
hodnotíme, zda se liší s ohledem na
nějaký rizikový faktor.
Exponovaní jedinci
Jedinci bez expozice
Případy (s událostí)
Případy (s událostí)
Kontroly (bez události)
Kontroly (bez události)
Exponovaní jedinci
Jedinci bez expozice
Historie Začátekstudie Čas
Začátekstudie Čas
S událostí
Bez události
Průběh studie
Kohorta
subjektů
(náhodně
vybranáze
studované
populace)
S událostí
Bez události
Exponovaníjedinci
Jedinci bez expozice
Tomáš Pavlík Biostatistika
Použití RR a OR
Prospektivní studie – u některých subjektů je rizikový faktor přítomen a u
jiných ne → sledujeme, zda se vyskytne událost.
Zjištěná pravděpodobnost výskytu události v kontrolní skupině je
reprezentativní, neboť prospektivně zařazujeme všechny pacienty
→ korektní použití RR.
Retrospektivní studie – u některých subjektů se událost vyskytla a u jiných
ne → zpětně hodnotíme, zda se liší s ohledem na nějaký rizikový faktor.
Zjištěná pravděpodobnost výskytu události v kontrolní skupině není
reprezentativní, neboť ji ovlivňujeme zpětným výběrem skupin subjektů.
→ nekorektní použití RR.
→ korektní použití OR.
Tomáš Pavlík Biostatistika
Intervalové odhady
RR i OR jsou variabilní stejně jako četnosti v kontingenční tabulce – bodový
odhad je tak vhodné doplnit 100(1-α)% intervalem spolehlivosti.
Lze ukázat, že pro nepříliš malé hodnoty a, b, c, d má přirozený logaritmus
RR (lnRR) i přirozený logaritmus OR (lnOR) normální rozdělení.
Pak platí:
100(1-α)% IS pro přirozené logaritmy:
100(1-α)% IS pro RR a OR:
dbbcaa
RRSE
+
−+
+
−=
1111
)(ln
dcba
ORSE
1111
)(ln +++=
)(lnln),( 2/1
**
RRSEzRRhd α−±= )(lnln),( 2/1
**
ORSEzORhd α−±=
))exp(),(exp(),( **
hdhd RRRR
= ))exp(),(exp(),( **
hdhd OROR
=
Tomáš Pavlík Biostatistika
Příklad – intervalové odhady
Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS):
Logaritmická transformace:
Zpětná transformace:
SIDS
Věk matky
Do 25 let 25 a více let Celkem
Ano 29 15 44
Ne 7301 11241 18542
Celkem 7330 11256 18586
98,2
11241/15
7301/29
97,2
)1124115/(15
)730129/(29
==
=
+
+
=
OR
RR
)58,5;60,1())exp(),(exp(),(
)53,5;60,1())exp(),(exp(),(
**
**
==
==
hdhd
hdhd
OROR
RRRR
318,0)(ln
317,0)(ln
11241
1
7301
1
15
1
29
1
1124115
1
15
1
730129
1
29
1
=+++=
=−+−= ++
ORSE
RRSE
)72,1;47,0(318,0*96,1092,1),(
)71,1;47,0(317,0*96,1089,1),(
**
**
=±=
=±=
hd
hd
Tomáš Pavlík Biostatistika
Relativní redukce rizika (RRR)
Absolutní redukce rizika (ARR)
Další způsoby vyjádření rozdílu rizika
ARR = %202.0
10
3
10
5
==−=
Bez léčby S léčbou
RRR = 1 - RR = 1 - %406.01
10
5
10
3
1 =−=−=
Tomáš Pavlík Biostatistika
Další způsoby vyjádření rozdílu rizika
ARR = 20% Pro snížení počtu událostí o 20 je třeba léčit 100 pacientů.
5
20
100
2,0
1
==NNT =
NNT = Pro snížení počtu událostí
o 1 je třeba léčit 5 pacientů.
Počet pacientů, které je potřeba léčit, abychom zabránili výskytu jedné
události – „number needed to treat“ (NNT).
Tomáš Pavlík Biostatistika
Zvláštní případ RRR – účinnost vakcíny (vaccine efficacy)
Hodnotíme dvojitě zaslepenou placebem kontrolovanou studii zaměřenou na účinnost
bivalentní vakcíny proti incidentní HPV infekci (Harper a kol., 2004)
According to protocol group, 18 měsíců
HPV infekce
Skupina
Vakcinace Placebo Celkem
Ano 2 23 25
Ne 364 332 696
Celkem 366 355 721
6,91084,01
33223
23
3642
2
111
0
1
=−=
+
+−=
+
+−=−=
db
b
ca
a
P
P
VE
Riziko infekce u vakcinovaných
je pouhých 8,4% ve srovnání s
kontrolní skupinou – vakcína
předejde 91,6% infekcírelativní riziko
Tomáš Pavlík Biostatistika
Absolutní vs. relativní četnost
Vyjádření výsledků v relativní formě (procento) má často příjemnou
interpretaci, ale může být zavádějící.
Relativní vyjádření účinnosti by mělo být vždy doprovázeno absolutním
vyjádřením účinnosti.
Příklad: Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků.
Studie 1: Výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %.
Relativní změna v účinnosti = 40 %; absolutní změna = 8 %.
Studie 2: Výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %.
Relativní změna v účinnosti = 40 %; absolutní změna = 0,6 %.
Výsledkem je rozdílný přínos léčby při stejné relativní účinnosti.
Tomáš Pavlík Biostatistika
NNT a absolutní vs. relativní četnost
Příklad: Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků.
Studie 1: Výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %.
Relativní změna v účinnosti = 40 %; absolutní změna = 8 %.
Studie 2: výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %.
Relativní změna v účinnosti = 40 %; absolutní změna = 0,6 %.
7,166
6,0
100
006,0
1
==NNT =
NNT = Pro snížení počtu událostí
o 1 je třeba léčit 167 pacientů.
5,12
8
100
08,0
1
==NNT =
NNT = Pro snížení počtu událostí
o 1 je třeba léčit 13 pacientů.
2. Hodnocení vztahu dvou spojitých
veličin – základy korelace
Tomáš Pavlík Biostatistika
Proč hodnotit vztah dvou spojitých veličin?
Zatím jsme se zabývali spojitou veličinou v jedné skupině, spojitou veličinou
ve více skupinách, diskrétní veličinou v jedné skupině, diskrétní veličinou ve
více skupinách, dvěma diskrétními veličinami v jedné skupině.
Teď se chceme zabývat dvěma spojitými veličinami v jedné skupině:
1. Chceme zjistit, jestli mezi nimi existuje vztah – např. jestli vyšší hodnoty
jedné veličiny znamenají nižší hodnoty jiné veličiny.
2. Chceme predikovat hodnoty jedné veličiny na základě znalosti hodnot
jiných veličin.
3. Chceme kvantifikovat vztah mezi dvěma spojitými veličinami – např. pro
použití jedné veličiny na místo druhé veličiny.
Tomáš Pavlík Biostatistika
Jak hodnotit vztah dvou spojitých veličin?
Nejjednodušší formou je bodový graf (x-y graf).
Vztah výšky a váhy studentů Biostatistiky pro matematické biology – jaro 2010:
Tomáš Pavlík Biostatistika
Korelace
Korelační koeficient – kvantifikuje míru vztahu mezi dvěma spojitými
veličinami (X a Y).
Standardní metodou je výpočet Pearsonova korelačního koeficientu (r).
Nabývá hodnot od -1 do 1.
Hodnota r je kladná, když vyšší hodnoty X souvisí s vyššími hodnotami
Y, a naopak je záporná, když nižší hodnoty X souvisí s vyššími
hodnotami Y.
Charakterizuje linearitu vztahu mezi X a Y – jinak řečeno variabilitu
kolem lineárního trendu.
Hodnoty 1 nebo -1 získáme, když body x-y grafu leží na přímce.
Tomáš Pavlík Biostatistika
Pearsonův korelační koeficient (r)
Předpokládáme realizaci dvourozměrného náhodného vektoru o rozsahu n:
(máme dvojice hodnot, které patří k sobě –
charakterizují i-tý subjekt)
Pearsonův korelační koeficient:
kde jsou výběrové průměry, jsou výběrové směrodatné odchylky.


















n
n
y
x
y
x
y
x
,,,
2
2
1
1

yx
n
i ii
n
i i
n
i i
n
i ii
ssn
yxnyx
yyxx
yyxx
r
)1()()(
))(( 1
1
2
1
2
1
−
−
=
−−
−−
=
∑
∑∑
∑ =
==
=
yx a yx ss a
Tomáš Pavlík Biostatistika
Pearsonův korelační koeficient (r)
r = 1,0 r = -0,9
r = 0,4 r = 0,05
Tomáš Pavlík Biostatistika
Příklad – Pearsonův korelační koeficient (r)
Vztah výšky a váhy studentů Biostatistiky pro matematické biology – jaro 2010:
64,0
5,12*3,5*)113(
417,2148929148
5,12
3,5
417,2148
929148
)1(
1
1
=
−
−
=
=
=
=
=
−
−
=
∑
∑
=
=
r
s
s
yxn
yx
ssn
yxnyx
r
y
x
n
i ii
yx
n
i ii
Tomáš Pavlík Biostatistika
Problémy s výpočtem r
Pearsonův korelační koeficient lze vypočítat na jakýchkoliv datech.
Pokud však budeme chtít jakkoliv rozhodovat o vlastnostech r (interval
spolehlivosti, testování hypotéz), musíme učinit předpoklad o normalitě
hodnocených veličin.
r = 0,93
p < 0,001
r = 0,63
p < 0,001
r = 0,23
p = 0,019
Více skupin Nelineární vztah Velikost výběru
Tomáš Pavlík Biostatistika
Interval spolehlivosti pro r
Výběrové rozdělení koeficientu r není normální, pro výpočet IS je třeba ho
transformovat:
Veličina w má normální rozdělení se standardní chybou přibližně:
100(1-α)% IS pro w má tvar:
100(1-α)% IS pro r pak dostaneme zpětnou transformací:
r
r
w
−
+
=
1
1
ln
2
1
3/1)( −= nwSE
3/),( 2/1
**
−±= − nzwhd α






+
−
+
−
=
1)2exp(
1)2exp(
;
1)2exp(
1)2exp(
),( *
*
*
*
h
h
d
d
hd
Tomáš Pavlík Biostatistika
Příklad – interval spolehlivosti pro r
Vztah výšky a váhy studentů Biostatistiky pro matematické biology – jaro 2010:
64,0=r
)377,1;138,0()(),(
316,010/1)(
758,0
64,01
64,01
ln
2
1
2/1
**
=±=
==
=
−
+
=
− wSEzwhd
wSE
w
α
)88,0;14,0(),(
1)2exp(
1)2exp(
;
1)2exp(
1)2exp(
),( *
*
*
*
=






+
−
+
−
=
hd
h
h
d
d
hd
Tomáš Pavlík Biostatistika
Test hypotézy H0: r = 0
Předpokládáme realizaci dvourozměrného náhodného vektoru o rozsahu n:
Předpokládáme normalitu X i Y!
Za platnosti nulové hypotézy má statistika t rozdělení
pravděpodobnosti s n – 2 stupni volnosti.
Pro oboustrannou alternativu zamítáme H0 na hladině významnosti α = 0,05,
když hodnota testové statistiky přesáhne v absolutní hodnotě kvantil
Tuto testovou statistiku nelze použít pro testování hypotézy
2
1
2
r
n
rT
−
−
=


















n
n
y
x
y
x
y
x
,,,
2
2
1
1

0: 00 ≠= rrH
)2(
2/1
−
−
n
t α
Tomáš Pavlík Biostatistika
Příklad – test hypotézy H0: r = 0
Vztah výšky a váhy studentů Biostatistiky pro matematické biology – jaro 2010:
64,0=r
0:1 ≠rH
76,2
64,01
213
64,0
1
2
22
=
−
−
=
−
−
=
r
n
rT
20,2)11(
975,0
)2(
2/1 ==−
− tt n
α
)11(
975,020,276,2 tT =>=
Zamítáme H0: r = 0.
Tomáš Pavlík Biostatistika
Spearmanův korelační koeficient (rs)
Pearsonův korelační koeficient je náchylný k odlehlým hodnotám a obecně
odchylkám od normality. Spearmanův korelační koeficient stejně jako řada
dalších neparametrických metod pracuje pouze s pořadími pozorovaných
hodnot.
Máme náhodný výběr rozsahu n:
Definujeme:
xri – pořadí xi mezi hodnotami x; yri – pořadí yi mezi hodnotami y; di = xri – yri.
Spearmanův korelační koeficient:
Vyskytují-li se shodné hodnoty, je nutné použít výpočet pomocí Pearsonova
korelačního koeficientu na pořadích.
Hodnoty rs se pohybují stejně jako u r od -1 do 1.
)1(
6
1 2
1
2
−
−=
∑=
nn
d
r
n
i i
s


















n
n
y
x
y
x
y
x
,,,
2
2
1
1

Tomáš Pavlík Biostatistika
Příklad – Spearmanův korelační koeficient (rs)
Vztah výšky a váhy studentů Biostatistiky pro matematické biology – jaro 2010:
Student
Výška
xi
Pořadí
výška
Váha
yi
Pořadí
váha
Rozdíl di di
2
1 175 10 69 10 0 0
2 166 1 55 3 -2 4
3 170 4 67 8 -4 16
4 169 2,5 52 1 1,5 2,25
5 188 13 90 12,5 0,5 0,25
6 175 10 53 2 8 64
7 176 12 57 4,5 7,5 56,25
8 171 5 57 4,5 0,5 0,25
9 173 6,5 68 9 -2,5 6,25
10 175 10 73 11 -1 1
11 173 6,5 62 6 0,5 0,25
12 174 8 90 12,5 -4,5 20,25
13 169 2,5 63 7 -4,5 20,25
Tomáš Pavlík Biostatistika
Příklad – Spearmanův korelační koeficient (rs)
V souboru je hodně shodných hodnot → musíme použít Pearsonovo r na pořadí.
48,0
)113(13
191*6
1
)1(
6
1 22
1
2
=
−
−=
−
−=
∑=
nn
d
r
n
i i
s
Student
Pořadí
výška
Pořadí
váha
Rozdíl
di
di
2
1 10 10 0 0
2 1 3 -2 4
3 4 8 -4 16
4 2,5 1 1,5 2,25
5 13 12,5 0,5 0,25
6 10 2 8 64
7 12 4,5 7,5 56,25
8 5 4,5 0,5 0,25
9 6,5 9 -2,5 6,25
10 10 11 -1 1
11 6,5 6 0,5 0,25
12 8 12,5 -4,5 20,25
13 2,5 7 -4,5 20,25
47,0
88,3*86,3*)113(
3765,217
88,3
86,3
376
5,721
)1(
1
1
=
−
−
=
=
=
=
=
−
−
=
∑
∑
=
=
r
s
s
yxn
yx
ssn
yxnyx
r
y
x
n
i ii
yx
n
i ii
Tomáš Pavlík Biostatistika
Jak to, že nám r a rs vyšly různě?
Původní hodnoty:
Pořadí:
48,0=sr
47,0=r
64,0=r
Tomáš Pavlík Biostatistika
IS pro rs a test hypotézy H0: rs = 0
Výběrové rozdělení rs je pro výběry s n > 10 stejné jako výběrové rozdělení r,
proto je možné pro konstrukci 100(1-α)% IS použít metodu pro Pearsonův
koeficient.
Pro větší vzorky, n > 30, je možné použít pro ověření hypotézy H0: rs = 0
stejnou testovou statistiku jako v případě r:
)2(
2
~
1
2 −
−
−
= n
s
s t
r
n
rT
Tomáš Pavlík Biostatistika
Poznámka o r2
Korelace dvou náhodných veličin se často interpretuje pomocí druhé mocniny
Pearsonova korelačního koeficientu: r2.
Hodnota r2 vyjadřuje, kolik % své variability sdílí jedna veličina s druhou, jinak
řečeno, kolik % variability jedné veličiny může být predikováno pomocí té
druhé.
S hodnotou r2 se setkáte v lineárních modelech.
Tomáš Pavlík Biostatistika
Klíčové principy – zkreslení
Pojem zavádějící faktor – pro zavádějící faktor současně platí, že
přímo nebo nepřímo ovlivňuje sledovaný následek,
je ve vztahu se studovanou expozicí ,
není mezikrokem mezi expozicí a následkem.
Zavádějící
faktor
NásledekExpozice
Tomáš Pavlík Biostatistika
• Proměnná asociovaná s rizikovým faktorem a kauzálně spojená s
výsledkem
• může zcela zatemnit skutečný vztah mezi rizikovým faktorem a
výsledkem
Nošení zápalek Rakovina plic
Kouření
RIZIKOVÝ FAKTOR? VÝSLEDEK
ZAVÁDĚJÍCÍ FAKTOR
Zavádějící faktor (confounder)
Tomáš Pavlík Biostatistika
Rakovina plic
Konzumace alkoholu
Vysoká Nízká Celkem
Ano 33 27 60
Ne 1667 2273 3940
Celkem 1700 2300 4000
67,1
2273
27
1667
33
1
1
0
0
1
1
===
−
−
=
d
b
c
a
P
P
P
P
OR
Vysoká konzumace alkoholu je
rizikovým faktorem pro vznik
rakoviny plic...
Zdroj: Fundamentals of biostatistics, Rosner 2006
Jak na zavádějící faktory: stratifikace
Tomáš Pavlík Biostatistika
Rakovina plic
Konzumace alkoholu
Vysoká Nízká Celkem
Ano 24 6 30
Ne 776 194 970
Celkem 800 200 1000
Rakovina plic
Konzumace alkoholu
Vysoká Nízká Celkem
Ano 9 21 30
Ne 891 2079 2970
Celkem 900 2100 3000
00,1
194
6
776
24
==OR
00,1
2079
21
891
9
==OR
Skupina kuřáků
Skupina nekuřáků
Ve skutečnosti ani u kuřáků ani u nekuřáků konzumace alkoholu riziko vzniku rakoviny plic nezvyšuje
Zdroj: Fundamentals of biostatistics, Rosner 2006
Jak na zavádějící faktory: stratifikace
Tomáš Pavlík Biostatistika
Poděkování…
Rozvoj studijního oboru „Matematická biologie“ PřF MU
Brno je finančně podporován prostředky projektu ESF č.
CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia
Matematické biologie“ a státním rozpočtem České republiky