Úvod do matematické biologie a biomedicíny přednáška 02.12.2019 Eva Budinská (budinska@recetox.muni.cz) Co všechno (ne)lze vyčíst z grafů •Síla grafického znázornění dat (nejen) v biologii a medicíně •Zdroj: Grafické znázornění dat •Nejdůležitější nástroj analýzy a komunikace výsledků! Základné vlastnosti dobrého grafu •Obsah! •Jednoduchost •Ne(zkreslení) Obsah •Graf a jeho legenda musí obsahovat všechny důležité informace • Obsah •Žádný rozdíl nemusí mít vždy význam zobrazovat Wittke Thompson, JK,Pluzhnikova,CoxNJ (2005) Rational inferences about departures from Hardy-Weinberg equilibrium. American Journal of Human Genetics 76:967T986,Figure1 Obsah •Žádný rozdíl nemusí mít vždy význam zobrazovat EpsteinMP,Satten GA (2003) Inference on haplotype e9ects in case-control studies using unphased genotype data. American Journal of Human Genetics 73:1316T1329, Figure 1 Figure 1. Empirical coverage of CIs for the relative-risk parameter β of haplotype 01100. Results are based on 10,000 simulated data sets with the same haplotype frequencies as the FUSION data. Haplotype 01100 has a multiplicative effect on disease risk, with β=0.35. Jednoduchost Jak zkomplikovat graf? •Výběrem nevhodného zobrazení! •Ozdobami, které nesouvisí s obsahem •Nevhodnými a příliš četnými barvami •Zbytečnými 3D efekty Nevhodné zobrazení – mnoho kategorií Nevhodné zobrazení – málo kategorií Nevhodné zobrazení – málo kategorií Ozdoby, které nesouvisí s obsahem A screenshot of a cell phone Description automatically generated Počet článků nalezených v db pubmed pod heslem 'bioinformatic tool' Rok publikace Počet článků nalezených pod daným heslem Nevhodné a příliš četné barvy Zbytečné 3D efekty Vědecké studie ukazují, že 3D efekty snižují srozumitelnost grafu. … a kombinací výše uvedeného •Graf znázorňuje 5 čísel! •Podíly vysokoškolských studentů nad a pod 25 let, v letech 1972 až 1976. … a kombinací výše uvedeného A screenshot of a cell phone Description automatically generated •Graf znázorňuje 5 čísel! •Podíly vysokoškolských studentů nad a pod 25 let, v letech 1972 až 1976. Zkreslení •Graf by neměl zobrazovat zkreslenou skutečnost (ať už účelově •nebo náhodou) Zkreslení škálou I. •Každý automaticky předpokládá, že osa Y začíná nulou! Skóre klinické deprese v čase Zkreslení škálou I. •Každý automaticky předpokládá, že osa Y začíná nulou! Skóre klinické deprese v čase Skóre klinické deprese v čase Klinická deprese nastává při skóre >70 Zkreslení škálou II. Zkreslení škálou II. •Zkrácení osy y vyvolává dojem velkého rozdílu http://www.exercisebiology.com/index.php/site/articles/how_graphs_can_fool_you/ Zkreslení škálou II •Prezidentské volby ve Venezuele Takto rozdíl prezentován v novinách http://www.stat.auckland.ac.nz/~ihaka/120/Lectures/lecture03.pdf •Počty studentů na různých fakultách a podíl mužů a žen http://www.stat.auckland.ac.nz/~ihaka/120/Lectures/lecture03.pdf •Počty studentů na různých fakultách a podíl mužů a žen Zkreslení škálou III. •Transformace osy logaritmem Zkreslení škálou III. •… to samé bez transformace http://www.stat.auckland.ac.nz/~ihaka/120/Lectures/lecture03.pdf Zkreslení škálou IV. •Chybějící body na ose x – zkreslení linearity A screenshot of a cell phone Description automatically generated By Smallman12q - Own work, CC0, https://commons.wikimedia.org/w/index.php?curid=20059374 Zkreslení škálou IV. •Chybějící body na ose x – zkreslení linearity A screenshot of a cell phone Description automatically generated A screenshot of a cell phone Description automatically generated By Smallman12q - Own work, CC0, https://commons.wikimedia.org/w/index.php?curid=20059374 Zkreslení škálou V •Chybějící body na ose x – zkreslení linearity Změny týdenního příjmu http://www.exercisebiology.com/index.php/site/articles/how_graphs_can_fool_you/ Zkreslení škálou V •Chybějící body na ose x – zkreslení linearity Změny týdenního příjmu http://www.exercisebiology.com/index.php/site/articles/how_graphs_can_fool_you/ Zkreslení škálou VI •Nesprávné zobrazení jednorozměrného násobného rozdílu pomocí plochy Zkreslení škálou VI •Nesprávné zobrazení jednorozměrného násobného rozdílu pomocí plochy Trojnásobný rozdíl působí jako devítinásobný Zkreslení škálou VI •Nesprávné zobrazení jednorozměrného násobného rozdílu pomocí plochy Trojnásobný rozdíl působí jako devítinásobný Správné zobrazení Zkreslení škálou VI. Zkreslení úhlem pohledu a 3D efekty By Smallman12q - Own work, CC0, https://commons.wikimedia.org/w/index.php?curid=20059374 Item C > Item A ? Zkreslení úhlem pohledu a 3D efekty By Smallman12q - Own work, CC0, https://commons.wikimedia.org/w/index.php?curid=20059374 Item C > Item A ? Item C < Item A ! Figure 1. Source: Erickson Times https://www.forbes.com/sites/naomirobbins/2012/02/16/misleading-graphs-figures-not-drawn-to-scale/# 7ea98afa15ef Figure 1. Source: Erickson Times https://www.forbes.com/sites/naomirobbins/2012/02/16/misleading-graphs-figures-not-drawn-to-scale/# 7ea98afa15ef Faktor klamu Faktor klamu >1 => změna v grafu je přehnaná Faktor klamu mezi 0 a 1 => změna v grafu není dostatečně viditelná Faktor klamu = 1 => perfektní reprezentace skutečného rozdílu Nesprávný graf – zkreslení významu Průměrná tělesná teplota ve dvou skupinách http://www.exercisebiology.com/index.php/site/articles/how_graphs_can_fool_you/ Nesprávný graf – zkreslení významu Nesprávné zobrazení výsledků dává pocit, že jde o nevýznamný rozdíl Průměrná tělesná teplota ve dvou skupinách Podíl pacientů se zvýšenou teplotou (>37C) http://www.exercisebiology.com/index.php/site/articles/how_graphs_can_fool_you/ Výběr správného grafu • Grafy zobrazující rozložení spojitých proměnných •Histogram •Krabicový graf •Jednorozměrný bodový graf •Průměr a chyba Krabicový graf (box and whisker plot) A screenshot of a cell phone Description automatically generated Speciální případ – sloupcový graf s chybou A picture containing clock Description automatically generated Průměr měření skupiny A (25 vzorků) a B (18 vzorků) s indikací směrodatné odchylky každé skupiny; byl aplikován oboustranný dvouvýběrový T-test. Sloupcový graf s chybou – ale kterou? Popisná chyba: SD - směrodatná odchylka Inferenční (odvozovací) chyba: SE - standardní chyba CI - interval spolehlivosti Sloupcový graf s chybou – ale kterou? SD SD Grafy zobrazující frekvenci kategoriálních proměnných •Koláčový graf •Sloupcový graf Grafy zobrazující asociaci kategoriální a spojité proměnné •Krabicové grafy v kategoriích •Kategorizovaný sloupcový graf Grafy zobrazující asociaci dvou kategoriálních proměnných •Mozaikový graf Grafy zobrazující asociaci dvou spojitých proměnných •Dvouroměrný x-y graf Cvičení •Různé datové soubory vs. 4 metody zobrazení: •- Jednorozměrné individuální body (s rozptylem na ose y) •- Histogram s hustotou •- Průměr +/- směrodatná odchylka -Boxplot - •Vyberte nejvíce a nejméně informativní graf co se týká rozložení hodnot, u každého datového souboru. Příklad 1. Náhodné rozložení, N=400 A screenshot of text Description automatically generated Příklad 2. N=37 A screenshot of a cell phone Description automatically generated Příklad 3. N=100 A screenshot of a cell phone Description automatically generated Příklad 4. N=4 A close up of text on a white background Description automatically generated Proč se vyhýbat sloupcovým grafům s chybou A picture containing clock Description automatically generated Proč se vyhýbat sloupcovým grafům s chybou A picture containing woman, food Description automatically generated Proč se vyhýbat sloupcovým grafům s chybou Mají příliš nízký poměr data/atrament Alternativa bez sloupce Proč se vyhýbat sloupcovým grafům s chybou Často trpí neduhem – zkreslení škálou Krzywinski M, Altman N. (2014) Visualizing samples with box plots. Nat Methods. 2014 Feb;11(2):119-20. Proč se vyhýbat sloupcovým grafům s chybou Proč se vyhýbat sloupcovým grafům s chybou Proč se vyhýbat sloupcovým grafům s chybou Proč se vyhýbat sloupcovým grafům s chybou Proč se vyhýbat sloupcovým grafům s chybou Proč se vyhýbat sloupcovým grafům s chybou Proč se vyhýbat sloupcovým grafům s chybou Proč se vyhýbat sloupcovým grafům s chybou Kdy nejsou vhodné ani krabicové grafy Když je jen málo bodů na zobrazení, krabicové grafy postrádají význam, jsou degenerované From Moritz et al., Anal. Chem. 2004 Aug 15; 76(16):4811-24 A screenshot of a cell phone Description automatically generated A screenshot of a cell phone Description automatically generated A screenshot of a cell phone Description automatically generated A screenshot of a cell phone Description automatically generated A screenshot of a cell phone Description automatically generated A screenshot of a cell phone Description automatically generated A screenshot of a cell phone Description automatically generated A screenshot of a cell phone Description automatically generated A screenshot of a cell phone Description automatically generated A screenshot of a cell phone Description automatically generated A screenshot of a cell phone Description automatically generated A screenshot of a cell phone Description automatically generated A screenshot of a cell phone Description automatically generated A screenshot of a cell phone Description automatically generated A screenshot of a social media post Description automatically generated Další čtení •https://eagereyes.org •http://www.biostat.wisc.edu/~kbroman/topten_worstgraphs/mykland_disc.html •http://www.exercisebiology.com/index.php/site/articles/how_graphs_can_fool_you/ •https://www.eea.europa.eu/data-and-maps/daviz/learn-more/chart-dos-and-donts#toc-2 •http://www.radford.edu/jkell/statsgraphs.pdf •http://www.stat.auckland.ac.nz/~ihaka/120/Lectures/lecture03.pdf •http://people.stat.sfu.ca/~cschwarz/Stat650/Notes/PDF/ChapterBadgraphs.pdf •http://www.datavis.ca/gallery/index.php •http://www.doc.govt.nz/documents/science-and-technical/docts32.pdf •http://www.edwardtufte.com/tufte/ • •Geoff Cumming, Fiona Fidler, David L. Vaux (2007). Error bars in experimental biology. JCB Hom. 177 (1): 7e • •