logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Asociační tabulky Korelace Regrese 13. Vztah dvou proměnných logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Fisherův exaktní (přímý) test —Využití ve čtyřpolní tabulce s nízkými četnostmi, které znemožňují použití c2-testu. —Patří mezi neparametrické testy pracující s daty na nominální škále, v nejjednodušší podobě ve dvou třídách: pozitivní/negativní, úspěch/neúspěch apod. —Nulová hypotéza předpokládá rovnoměrné zastoupení sledovaného znaku u dvou nezávislých souborů. —Slovo exaktní (přímý) znamená, že se přímo vypočítává pravděpodobnost odmítnutí, resp. platnosti nulové hypotézy. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Fisherův exaktní (přímý) test —Výpočet probíhá v cyklu: ¡spočítá se parciální pravděpodobnost čtyřpolní tabulky p1: ¡ ¡ ¡ ¡ ¡nejnižší hodnota v tabulce se sníží o jedna při zachování součtů řádků i sloupců, ¡postup se opakuje (výpočet parciálních pravděpodobností p2…pn) ¡cyklus končí ve chvíli, kdy je v nejnižším poli tabulky 0. —p-hodnota testu je součtem parciálních pravděpodobností. ¡ logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Vyjádření rizik ve čtyřpolní tabulce - motivace —Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány v tabulce. —Pomocí Pearsonova chí‐kvadrátu nebo Fisherova exaktního testu můžeme rozhodovat o závislosti/nezávislosti dvou sledovaných veličin. Testy ale neumožňují tento vztah kvantifikovat. — —Má‐li to smysl a chceme‐li kvantifikovat (rozhodovat o těsnosti této závislosti) můžeme použít tzv. relativní riziko a poměr šancí. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Relativní riziko = Relative Risk (RR) —Výpočet relativního rizika (RR) umožňuje srovnat pravděpodobnosti výskytu sledovaného jevu ve dvou různých skupinách. —1. skupina –experimentální nebo skupina s expozicí určitému faktoru —2. skupina –kontrolní nebo skupina bez expozice logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Příklad: relativní riziko —Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány ve čtyřpolní tabulce: Riziko výskytu SIDS u dětí matek ve věku do 25 je téměř třikrát vyšší než u dětí matek rodících ve vyšším věku. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Poměr šancí = Odds ratio —Poměr šancí (OR) je další charakteristikou, která umožňuje srovnat výskyt sledovaného jevu ve dvou různých skupinách. —1. skupina –experimentální nebo skupina s expozicí určitému faktoru —2. skupina –kontrolní nebo skupina bez expozice logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Příklad: odds ratio —Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS). Výsledky dány ve čtyřpolní tabulce: „Šance“ na výskyt SIDS u dětí matek ve věku do 25 je téměř třikrát vyšší než u dětí matek rodících ve vyšším věku. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Grafické srovnání RR a OR logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Umělý příklad: pití slazených nápojů —Sledujeme vliv pití slazených nápojů na výskyt zubního kazu. Výsledky dány v tabulce: logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Srovnání RR a OR —Hodnoty, jakých může nabývat RR i OR, souvisí s četností výskytu sledované události v kontrolní (referenční) skupině. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Výhody a nevýhody RR a OR — —Nevýhoda OR: ¡obtížná interpretace. — —Výhoda i nevýhoda RR: ¡nezajímá ho samotná pravděpodobnost výskytu jevu, ale pouze jejich podíl → korektní použití RR je však pouze v případě, že pravděpodobnost výskytu jevu v kontrolní skupině je reprezentativní (není ovlivněna výběrem sledovaných subjektů). — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Prospektivní a retrospektivní studie —Prospektivní studie ¡U některých subjektů je rizikový faktor přítomen a u jiných ne → sledujeme v čase, zda se vyskytne událost. —Retrospektivní studie ¡U některých subjektů se událost vyskytla a u jiných ne → zpětně hodnotíme, zda se liší s ohledem na nějaký rizikový faktor. — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina Použití RR a OR —Prospektivní studie – u některých subjektů je rizikový faktor přítomen a u jiných ne → sledujeme, zda se vyskytne událost. ¡Zjištěná pravděpodobnost výskytu události v kontrolní skupině je reprezentativní, neboť prospektivně zařazujeme všechny pacienty ¡→ korektní použití RR. —Retrospektivní studie – u některých subjektů se událost vyskytla a u jiných ne → zpětně hodnotíme, zda se liší s ohledem na nějaký rizikový faktor. ¡Zjištěná pravděpodobnost výskytu události v kontrolní skupině není reprezentativní, neboť ji ovlivňujeme zpětným výběrem skupin subjektů. ¡→ nekorektní použití RR. ¡→ korektní použití OR. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina Korelace a regrese —Zatím jsme se zabývali spojitou veličinou v jedné skupině, spojitou veličinou ve více skupinách, diskrétní veličinou v jedné skupině, diskrétní veličinou ve více skupinách, dvěma diskrétními veličinami v jedné skupině. —Teď se chceme zabývat dvěma spojitými veličinami v jedné skupině: —1.Chceme zjistit, jestli mezi nimi existuje vztah –např. jestli vyšší hodnoty jedné veličiny znamenají nižší hodnoty jiné veličiny. —2.Chceme predikovat hodnoty jedné veličiny na základě znalosti hodnot jiných veličin. —3.Chceme kvantifikovat vztah mezi dvěma spojitými veličinami –např. pro použití jedné veličiny namísto druhé veličiny. logo-IBA Korelace a regrese —Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako jiné statistické metody, i korelace mohou být parametrické nebo neparametrické. —Regresní analýza vytváří model vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná) závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro vysvětlení variability hodnocené proměnné. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina logo-IBA Korelace —K měření těsnosti lineárního vztahu 2 spojitých proměnných r = 0 → nekorelované r > 0 → kladně korelované r < 0 → záporně korelované —H0: proměnné X, Y jsou stochasticky nezávislé náhodné veličiny (r = 0) HA: proměnné X, Y nejsou stochasticky nezávislé náhodné veličiny (r ≠ 0) —Parametrický korelační koeficient: Pearsonův kor. koef. (dvourozměrné normální rozložení) —Neparametrické korelační koeficienty: Spearmanův (pořadový) kor. koef., Kendallovo tau. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina logo-IBA Vizuální hodnocení vztahu dvou proměnných —Nejjednodušší formou je bodový graf (x‐y graf), tzv. scatterplot. —Vztah výšky a váhy studentů Biostatistiky pro matematické biology – jaro 2010: Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina logo-IBA Základy korelační analýzy - I. Korelace – vztah (závislost) dvou znaků (parametrů) Y2 X1 Y 2 X 1 Y2 X1 ANO NE ANO a b NE c d X1 X2 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina logo-IBA Základy korelační analýzy - II. Parametrické míry korelace Kovariance Pearsonův koeficient korelace 0 0 0 -- x -- y Y2 X1 r = 1 r = -1 Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy korelační analýzy - III. PI (zem) 10 14 15 32 40 20 16 50 PI (rostl.) 19 22 26 41 35 32 25 40 I. II. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy korelační analýzy - IV. Srovnání dvou korelačních koeficientů (r) 1. 2. Krevní tlak x koncentrace kysl. radikálů 7,461 >> 1,96 => P << 0,01 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy korelační analýzy - V. Neparametrická korelace (rs) PI v půdě 1 2 3 6 7 5 4 8 PI v rostl. 1 2 4 8 6 5 3 7 dI 0 0 1 2 -1 0 -1 -1 i = 1, ….. n; n = 8 => v = 6 P = 0,358 Pacient č. 1 2 3 4 5 6 7 Lékař 1 4 1 6 5 3 2 7 Lékař 2 4 2 5 6 1 3 7 dI 0 -1 1 -1 2 -1 0 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Korelace v grafech I. Y X Y X Vztahy velmi často implikují funkční vztah mezi Y a X. Y = a + b . X Y = a + b1 . X1 + b2 . X2 + b3 . X3 Y = a + b1 . X1 + b2 . X2 Y = a + b1 . X1 + b2 . X2 + b3 . X1 . X2 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Korelace v grafech II. Problém rozložení hodnot Problém typu modelu X Y X r = 0,981 (p < 0,001) r = 0,761 (p < 0,032) Y Problém velikosti vzorku Y X Y X r = 0,891 (p < 0,214) r = 0,212 (p < 0,008) logo-IBA Jednoduchá lineární regrese —V případě existence vzájemného vztahu (korelace) lze tento vztah podrobněji popsat. —Cíl regresní analýzy: popsat závislost hodnot proměnné Y na hodnotách proměnné X. —V případě lineární regrese je tento popis dán lineárním modelem tvaru y = ax + b. —Existují i techniky nelineární regrese. —Nemáme-li dostatek informací k teoretickému souboru, snažíme se odhadnout typ funkce pomocí dvourozměrného diagramu. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina logo-IBA Předpoklady lineární regrese —Hlavním předpokladem je splnění požadavků Gauss-Markovovy věty: 1. 2. 3. —Splnění těchto předpokladů je zajištěno v případě, kdy jsou rezidua normálně rozdělena, nezávislá na prediktorech (které jsou nezávislé). Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, J. Kalina E(\varepsilon_i)=0, V(\varepsilon_i)= \sigma^2 < \infty, {\rm cov}(\varepsilon_i,\varepsilon_j) = 0, \forall i \neq j