Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy * Relativní riziko a poměr šancí Princip korelace dvou náhodných veličin Korelační koeficienty - Pearsonův a Spearmanův Korelace a kauzalita INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Opakování-Testování hypotéz o podílech ■* V čem se liší konstrukce intervalů spolehlivosti a testování hypotéz při rozhodování o podílech (zastoupení „úspěchů" v náhodném výběru)? Tomáš Pavlík Biostatistika Opakování - Fisherův exaktní test ■* Jak funguje Fisherův exaktní test? Veličina X Veličina Y Y= 1 Y=2 Celkem X= 1 a b a + b X=2 c d c + d Celkem a + c b + d n mu Tomáš Pavlík 4P=- ! (Ml I Biostatistika Opakování - Chí-kvadrát test dobré shody * Lze použít chí-kvadrát test dobré shody na testování normality dat? ' Pokud ano, jak? Tomáš Pavlík Biostatistika 1. Vyjádření rizik ve čtyřpolní tabulce Motivace * Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce: SIDS Věk matky Do 25 let 25 a více let Celkem Ano 29 15 44 Ne 7301 11241 18542 Celkem 7330 11256 18586 ■* Pomocí Pearsonova chí-kvadrát nebo Fisherova exaktního testu můžeme rozhodovat o závislosti/nezávislosti dvou sledovaných veličin. Testy ale neumožňují tento vztah kvantifikovat. Má-li to smysl a chceme-li kvantifikovat (rozhodovat o těsnosti této závislosti) můžeme použít tzv. relativní riziko (RR) a poměr šancí (OR). Tomáš Pavlík Biostatistika Srovnávané skupiny Pomocí RR i OR můžeme srovnat pravděpodobnosti výskytu sledovaného jevu ve dvou různých skupinách: skupina s pravděpodobností výskytu události Px: * experimentální skupina - např. léčená novou léčbou riziková skupina - např. hypertonici skupina s expozicí určitému faktoru - např. horníci *2. skupina s pravděpodobností výskytu události P0: * kontrolní skupina 1 ■ skupina bez expozice Tomáš Pavlík Biostatistika Relativní riziko = Relative risk Výpočet relativního rizika (RR) umožňuje srovnat pravděpodobnosti výskytu sledovaného jevu ve dvou různých skupinách. * 1. skupina - experimentální nebo skupina s expozicí určitému faktoru * 2. skupina - kontrolní nebo skupina bez expozice RR = Pravděpodobnost výskytu jevu v 1. skupině (experimentální) p Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní) Sledovaný jev Skupina Experimentální Kontrolní Celkem Ano a b a + b Ne c d c + d Celkem a + c b + d n P RR = ^ = P. a a + c b b + d Tomáš Pavlík IBA Biostatistika Příklad - relativní riziko * Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce: SIDS Věk matky Do 25 let 25 a více let Celkem Ano 29 15 44 Ne 7301 11241 18542 Celkem 7330 11256 18586 Riziko výskytu SIDS u dětí matek ve věku do 25 je téměř třikrát vyšší než u dětí matek rodících ve vyšším věku. P RR = — a a + c b 29 29 + 7301 15 b + d 15 + 11241 Tomáš Pavlík Biostatistika Riziko vs. „šance" (odds) i-; Riziko a pravděpodobnost-odhad pravděpodobnosti vzniku onemocnění Relativní riziko - poměr dvou pravděpodobností ■s Šance - poměr pravděpodobnosti výskytu jevu a výskytu opačného jevu odds = —^— nabývá hodnot mezi 0 a nekonečnem pokud kůň vyhraje s pravděpodobností 10%, jaká je jeho šance na výhru? Tomáš Pavlík Biostatistika Poměr šancí = Odds ratio * Poměr šancí (OR) je další charakteristikou, která umožňuje srovnat výskyt sledovaného jevu ve dvou různých skupinách. 1. skupina - experimentální nebo skupina s expozicí určitému faktoru * 2. skupina - kontrolní nebo skupina bez expozice Pravděpodobnost výskytu jevu v 1. skupině (experimentální) OR = R 1 - Pravděpodobnost výskytu jevu v 1. skupině (experimentální) Ol 1 — Pl Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní) O0 P$ 1 - Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní) 1 — R0 Sledovaný jev Skupina Experimentální Kontrolní Celkem Ano a b a + b Ne c d c + d Celkem a + c b + d n Tomáš Pavlík I-> OR = a c_ d IBA IUI Biostatistika Příklad - odds ratio Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce: SIDS Věk matky Do 25 let 25 a více let Celkem Ano 29 15 44 Ne 7301 11241 18542 Celkem 7330 11256 18586 OR = Pl a 29 c 7301 Po b 15 d 11241 = 2,98 I „Šance" na výskyt SIDS u dětí matek ve věku do 25 je téměř třikrát vyšší než u dětí matek rodících ve vyšším věku. Tomáš Pavlík Biostatistika Grafické srovnání RR a OR B mm • 11 6_ m=2 10 OR = i t Výskyt sledovaného jevu Bez výskytu sledovaného jev mm tltl ttt ttffttt = A 3 7 Tomáš Pavlík IBA Biostatistika Umělý příklad - pití slazených nápojů Sledujeme vliv pití slazených nápojů na výskyt zubního kazu. Výsledky dány v tabulce: Zubní kaz Pití slazených nápojů Ano Ne Celkem Ano 34 19 53 Ne 16 31 47 Celkem 50 50 100 a 34 a 34 RR = a + c --b _ 34 + 16 _179 19 OR = ^~-b = 16 =3 47 19 ' b + d 19 + 31 d 31 Tomáš Pavlík 4jJa" lIMIl Biostatistika IBA X,, ^ Srovnání RR a OR Hodnoty, jakých může nabývat RR i OR, souvisí s četností výskytu sledované události v kontrolní (referenční) skupině. 6.0 5.5 5.0 4.5 40. / OR(HR=2.0) 3.5 ..- 3.0 2.5 2.0 • ■ ■ .:: '------ 1.5 "---------------------..._RR(HR=2.0) 1,0 ~ RR(HR = 0.5) . 0.5-- - - — - .. - Z ' "-------------- 00 J______ OR(HR = 0.5) ' .....- 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 P0 = referent event probability Tomáš Pavlík Biostatistika Komentáře k RR, OR ■* hodnota relativního rizika leží mezi 0 a 1/P0 pro běžné jevy nelze pozorovat vysoké hodnoty relativního rizika pokud je riziko v kontrolní skupině 66%, maximální RR je 1,5 OR je obtížnější interpretovat může být vhodné konvertovat na RR, musíme ale znát riziko v kontrolní skupině RR =-^- OR=RR{l-P°) l-P0(l-OR) i-PoRR * nevychází stejně, ale oba jsou validní ukazatele účinku ^ALE POKUD SE NEJEDNÁ O VZÁCNÝ JEV, OR NELZE INTERPRETOVAT JAKO RR!!! Tomáš Pavlík Biostatistika Výhody a nevýhody RR a OR + Nevýhoda OR: * obtížná interpretace. * Výhoda i nevýhoda RR: ■* nezajímá ho samotná pravděpodobnost výskytu jevu, ale pouze jejich podíl -> korektní použití RR je však pouze v případě, že pravděpodobnost výskytu jevu v kontrolní skupině je reprezentativní (není ovlivněna výběrem sledovaných subjektů). Tomáš Pavlík Biostatistika Prospektivní a retrospektivní studie Prospektivní studie *U některých subjektů je rizikový faktor přítomen a u jiných ne -> sledujeme v čase, zda se vyskytne událost. - Retrospektivní studie U některých subjektů se událost vyskytla a u jiných ne -> zpětně hodnotíme, zda se lišíš ohledem na nějaký rizikový faktor. Exponovaníjedinci Kohorta subjektů (náhodně vybraná ze studované populace) S událostí Bez události Jedinci bez expozice Bez události + Začátek studie Exponovaní jedinci Jedinci bez expozice Exponovaní jedinci Průběh studie Čas Případy (s událostí) Případy (s událostí) Jedinci bez expozice O ■o Kontroly (bez události) Kontroly (bez události) Tomáš Pavlík IBA JMI Historie Biostatistika -1- Začátek studie Čas Použití RR a OR i-; Prospektivní studie - u některých subjektů je rizikový faktor přítomen a u jiných ne -> sledujeme, zda se vyskytne událost. Zjištěná pravděpodobnost výskytu události v kontrolní skupině je reprezentativní, neboť prospektivně zařazujeme všechny pacienty -> korektní použití /?/?. i; Retrospektivní studie - u některých subjektů se událost vyskytla a u jiných ne -> zpětně hodnotíme, zda se liší s ohledem na nějaký rizikový faktor. Zjištěná pravděpodobnost výskytu události v kontrolní skupině není reprezentativní, neboť ji ovlivňujeme zpětným výběrem skupin subjektů. -> nekorektní použití/?/?. -> korektní použití OR. Tomáš Pavlík Biostatistika Intervalové odhady RR i OR jsou variabilní stejně jako četnosti v kontingenční tabulce - bodový odhad je tak vhodné doplnit 100(l-a)% intervalem spolehlivosti. Lze ukázat, že pro nepříliš malé hodnoty a, b, c, d má přirozený logaritmus RR (In/?/?) i přirozený logaritmus OR (InO/?) normální rozdělení. Pak platí: 100(l-ot)% IS pro přirozené logaritmy: (d ,h ) = \nRR±zl_a/2SE(\nRR) (d ,h ) = \nOR±zl_a/2SE(\nOR) 100(l-a)% IS pro RR a OR: (dRR,hRR) = (Qxp(d*),exv(h*)) (d0R,h0R) = (exp(ď),exp(h*)) Tomáš Pavlík IBA Příklad - intervalové odhady Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS): SIDS Věk matky Do 25 let 25 a více let Celkem Ano 29 15 44 Ne 7301 11241 18542 Celkem 7330 11256 18586 ■* Logaritmická transformace: SE(\nRR) = 29 —±+J---1 =0 317 29+7301 ^ 15 15+11241 1 ' SE(\n OR) = Ji + + t^t + Tik = 0,318 ^ 29/(29 + 7301) 15/(15 + 11241) 29/7301 <9i? = = 2,98 15/11241 ( NNT = -=-= 12,5 „ . ;~ ^ 0,08 8 o 1 je třeba lecit 13 pacientů. Studie 2: výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %. Relativní změna v účinnosti = 40 %; absolutní změna = 0,6 %. 1 100 C t> NNT- ~ 166 7 NNT = Pro snížení počtu událostí ~ 0 006 0 6 ' o 1 je třeba léčit 167 pacientů. Tomáš Pavlík Biostatistika 2. Hodnocení vztahu dvou spoji veličin - základy korelace Proč hodnotit vztah dvou spojitých veličin? Zatím jsme se zabývali spojitou veličinou v jedné skupině, spojitou veličinou ve více skupinách, diskrétní veličinou v jedné skupině, diskrétní veličinou ve více skupinách, dvěma diskrétními veličinami v jedné skupině. •^Teďse chceme zabývat dvěma spojitými veličinami v jedné skupině: 1. Chceme zjistit, jestli mezi nimi existuje vztah - např. jestli vyšší hodnoty jedné veličiny znamenají nižší hodnoty jiné veličiny. 2. Chceme predikovat hodnoty jedné veličiny na základě znalosti hodnot jiných veličin. 3. Chceme kvantifikovat vztah mezi dvěma spojitými veličinami - např. pro použití jedné veličiny na místo druhé veličiny. Tomáš Pavlík Biostatistika Jak hodnotit vztah dvou spojitých veličin? 1 • Nejjednodušší formou je bodový graf (x-y graf). • Vztah výšky a váhy studentů Biostatistiky pro matematické biology-jaro 2010: o o 00 165 170 Tomáš Pavlík 175 180 Vyíka (cm) mu f*''. IBA . imi 135 Biostatistika 100 Korelace - Korelační koeficient - kvantifikuje míru vztahu mezi dvěma spojitými veličinami (X a Y). ' Standardní metodou je výpočet Pearsonova korelačního koeficientu (r). * Nabývá hodnot od -1 do 1. Hodnota r je kladná, když vyšší hodnoty X souvisí s vyššími hodnota Y, a naopak je záporná, když nižší hodnoty X souvisí s vyššími hodnotami Y. ■3 Charakterizuje linearitu vztahu mezi X a Y-jinak řečeno variabilitu kolem lineárního trendu. - Hodnoty 1 nebo -1 získáme, když body x-y grafu leží na přímce. Tomáš Pavlík Biostatistika Pearsonův korelační koeficient (r) Předpokládáme realizaci dvourozměrného náhodného vektoru o rozsahu n: x2 ^2 y (máme dvojice hodnot, které patří k sobě -charakterizují /-tý subjekt) Pearsonův korelační koeficient: r = kde x ay jsou výběrové průměry, sx a s jsou výběrové směrodatné odchylky. Tomáš Pavlík Biostatistika Pearsonův korelační koeficient (r) r = 1,0 r =-0,9 r =0,4 r =0,05 Tomáš Pavlík IBA W imi: Biostatistika Příklad - Pearsonův korelační koeficient (r) •* Vztah výšky a váhy studentů Biostatistiky pro matematické biology - jaro 2010: > 165 170 175 180 Výška (cm) 185 190 (W - l)SxSy X^j, =148929 nxy = 148 417,2 s„ = 53 sy=\2,5 148929-148417,2 . (13-1)* 5,3* 12,5 Tomáš Pavlík /BA W imi: Biostatistika Problémy s výpočtem r iA Pearsonův korelační koeficient lze vypočítat na jakýchkoliv datech. Pokud však budeme chtít jakkoliv rozhodovat o vlastnostech r (interval spolehlivosti, testování hypotéz), musíme učinit předpoklad o normalitě hodnocených veličin. Více skupin Nelineární vztah Velikost výběru Interval spolehlivosti pro r Výběrové rozdělení koeficientu r není normální, pro výpočet IS je třeba ho transformovat: 1, 1 + r w = In 2 \-r Veličina w má normální rozdělení se standardní chybou přibližně: SE(w) = 1/ V«-3 100(l-a)% IS pro w má tvar: ((«-2) _ .(li) _ 9 on ll-a/2 ~ '0,975 — T7 = 2,76 > 2,20 = C5 Zamítáme H0: r = 0. JUL. ||^| i Biostatistika Spearmanův korelační koeficient (rs) Pearsonův korelační koeficient je náchylný k odlehlým hodnotám a obecně odchylkám od normality. Spearmanův korelační koeficient stejně jako řada dalších neparametrických metod pracuje pouze s pořadími pozorovaných x2 ^2 y hodnot. Máme náhodný výběr rozsahu n: y^ylj Definujeme: xrj- pořadí x, mezi hodnotami x; yrj- pořadí y, mezi hodnotami y; =xrj-yrj. Spearmanův korelační koeficient: rs=l- ^l=l 1 n(n2-\) Vyskytují-li se shodné hodnoty, je nutné použít výpočet pomocí Pearsonova korelačního koeficientu na pořadích. Hodnoty r se pohybují stejně jako u r od -1 do 1. Tomáš Pavlík IBA ML Biostatistika Příklad - Spearmanův korelační koeficient (rs) •* Vztah výšky a váhy studentů Biostatistiky pro matematické biology - jaro 2010: Student Výška x\ Váha Y\ Pořadí váha Rozdíl c/j 42 175 10 69 10 2 166 1 55 3 -2 4 3 170 4 67 8 -4 16 4 169 2,5 52 1 1,5 2,25 5 188 13 90 12,5 0,5 0,25 6 175 10 53 2 8 64 7 176 12 57 4,5 7,5 56,25 8 171 5 57 4,5 0,5 0,25 9 173 6,5 68 9 -2,5 6,25 10 175 10 73 11 -1 1 11 173 6,5 62 6 0,5 0,25 12 174 8 90 12,5 -4,5 20,25 13 169 2,5 63 -4,5 20,25 Tomáš Pavlík Biostatistika Příklad - Spearmanův korelační koeficient (rs) V souboru je hodně shodných hodnot -> musíme použít Pearsonovo r na pořadí. Student Pořadí váha Rozdíl 42 10 0 0 2 1 3 -2 4 4 8 -4 16 4 2,5 1 1,5 2,25 13 12,5 0,5 0,25 6 10 2 8 64 12 4,5 7,5 56,25 8 5 4,5 0,5 0,25 9 6,5 9 -2,5 6,25 10 10 11 -1 1 11 6,5 6 0,5 0,25 12 8 12,5 -4,5 20,25 -4,5 20,25 Tomáš Pavlík IBA m r = X;=1 ^=721,5 hjčj? = 637 SL = 3,86 a> = 3,88 721,5-637 r = (13-1)* 3,86* 3,88 6VW rf,2 6 _ j _ __/=] i _ y__ = 0,47 191 n(nz-l) 13(13z-l) = 0,48 Biostatistika Jak to, že nám r a r. vyšly různě? Původní hodnoty: r = 0,64 Pořadí: r = 0,47 rs = 0,48 175 180 Výška (cm) Tomáš Pavlík mu /BA (Ml. Biostatistika IS pro rs a test hypotézy H0: rs = 0 Výběrové rozdělení rs je pro výběry sn > 10 stejné jako výběrové rozdělení r, proto je možné pro konstrukci 100(l-a)% IS použít metodu pro Pearsonův koeficient. Pro větší vzorky, n > 30, je možné použít pro ověření hypotézy H0: rs = 0 stejnou testovou statistiku jako v případě r: Tomáš Pavlík IMI Biostatistika Poznámka o r2 Korelace dvou náhodných veličin se často interpretuje pomocí druhé mocniny Pearsonova korelačního koeficientu: r2. Hodnota r2 vyjadřuje, kolik % své variability sdílí jedna veličina s druhou, jinak řečeno, kolik % variability jedné veličiny může být predikováno pomocí té druhé. ■*S hodnotou r2 se setkáte v lineárních modelech. Tomáš Pavlík Biostatistika Klíčové principy - zkreslení * Pojem zavádějící faktor- pro zavádějící faktor současně platí, že ,; přímo nebo nepřímo ovlivňuje sledovaný následek, je ve vztahu se studovanou expozicí, ,; není mezikrokem mezi expozícia následkem. Zavádějící faktor Expozice >■ ^■1 Následek >- CORRELATION DtXS NOT IMPLY í CAUéATlON. j Tomáš Pavlík Biostatistika Zavádějící faktor (confounder) Proměnná asociovaná s rizikovým faktorem a kauzálně spojená s výsledkem RIZIKOVÝ FAKTOR? VÝSLEDEK Nošení zápalek _ Rakovina plic Kouření ZAVÁDĚJÍCÍ FAKTOR může zcela zatemnit skutečný vztah mezi rizikovým faktorem a výsledkem Tomáš Pavlík Biostatistika Jak na zavádějící faktory: stratifikace Rakovina plic Konzumace alkoholu Vysoká Nízká Celkem Ano 33 27 60 Ne 1667 2273 3940 Celkem 1700 2300 4000 OR = a 33 c 1667 b 27 1-n d 2273 = 1,67 Vysoká konzumace alkoholu je rizikovým faktorem pro vznik rakoviny plic... Zdroj: Fundamentals of biostatistics, Rosner 2006 Tomáš Pavlík Biostatistika Jak na zavádějící faktory: stratifikace Skupina kuřáků Rakovina plic Konzumace alkoholu Vysoká Nízká Celkem Ano 24 6 30 Ne 776 194 970 Celkem 800 200 1000 Skupina nekuřáků Rakovina plic Konzumace alkoholu Vysoká Nízká Celkem Ano 9 21 30 Ne 891 2079 2970 Celkem 900 2100 3000 O R = OR = 24 776 194 = 1,00 9 891 21 2079 = 1,00 Ve skutečnosti ani u kuřáků ani u nekuřáků konzumace alkoholu riziko vzniku rakoviny plic nezvyšuje Zdroj: Fundamentals of biostatistics, Rosner 2006 Tomáš Pavlík Biostatistika Poděkování... Rozvoj studijního oboru „Matematická biologie'' PřF MU Brno je finančně podporován prostředky projektu ESF č. CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia Matematické biologie" a státním rozpočtem České republiky 18f k BH pnSt t^í čími ^^^^k I soclalnL ^^^^^^^ MINISTERSTVO ŠKOLSTVÍ. OP Vzdělávání ^^HipřV? ■ fondvCR EVROPSKÁ UNIE mládeže a tělovýchovy pro konkurenceschopnost 4ííA p*" INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Tomáš Pavlík Biostatistika