Úvod do matematické biologie a biomedicíny přednáška 02.12.2019 Eva Budinská (budinska@recetox.muni.cz) Co všechno (ne)lze vyčíst z grafů Síla grafického znázornění dat (nejen) v biologii a medicíně • Zdroj: Grafické znázornění dat Nejdůležitější nástroj analýzy a komunikace výsledků! Základné vlastnosti dobrého grafu •Obsah! •Jednoduchost •Ne(zkreslení) Obsah • Graf a jeho legenda musí obsahovat všechny důležité informace Obsah • Žádný rozdíl nemusí mít vždy význam zobrazovat Wittke Thompson, JK,Pluzhnikova,CoxNJ (2005) Rational inferences about departures from Hardy-Weinberg equilibrium. American Journal of Human Genetics 76:967T986,Figure1 Obsah • Žádný rozdíl nemusí mít vždy význam zobrazovat EpsteinMP,Satten GA (2003) Inference on haplotype e9ects in case-control studies using unphased genotype data. American Journal of Human Genetics 73:1316T1329, Figure 1 Figure 1. Empirical coverage of CIs for the relative-risk parameter β of haplotype 01100. Results are based on 10,000 simulated data sets with the same haplotype frequencies as the FUSION data. Haplotype 01100 has a multiplicative effect on disease risk, with β=0.35. Jednoduchost • Dobrý graf není složitější, než informace v něm obsažená • Graf by měl mít vysoký poměr data / inkoust: Množství inkoustu použitého k zobrazení dat Celkové množství inkoustu použitého k zobrazení grafu Jak zkomplikovat graf? • Výběrem nevhodného zobrazení! • Ozdobami, které nesouvisí s obsahem • Nevhodnými a příliš četnými barvami • Zbytečnými 3D efekty Nevhodné zobrazení – mnoho kategorií Nevhodné zobrazení – málo kategorií Nevhodné zobrazení – málo kategorií Ozdoby, které nesouvisí s obsahem Počet článků nalezených v db pubmed pod heslem 'bioinformatic tool' Rok publikace Počet článků nalezených pod daným heslem Nevhodné a příliš četné barvy Zbytečné 3D efekty Vědecké studie ukazují, že 3D efekty snižují srozumitelnost grafu. … a kombinací výše uvedeného • Graf znázorňuje 5 čísel! • Podíly vysokoškolských studentů nad a pod 25 let, v letech 1972 až 1976. … a kombinací výše uvedeného • Graf znázorňuje 5 čísel! • Podíly vysokoškolských studentů nad a pod 25 let, v letech 1972 až 1976. Zkreslení • Graf by neměl zobrazovat zkreslenou skutečnost (ať už účelově nebo náhodou) Zkreslení škálou I. • Každý automaticky předpokládá, že osa Y začíná nulou! Skóre klinické deprese v čase Zkreslení škálou I. • Každý automaticky předpokládá, že osa Y začíná nulou! Skóre klinické deprese v čase Skóre klinické deprese v čase Klinická deprese nastává při skóre >70 Zkreslení škálou II. Zkreslení škálou II. • Zkrácení osy y vyvolává dojem velkého rozdílu http://www.exercisebiology.com/index.php/site/articles/how_graphs_can_fool_you/ Zkreslení škálou II • Prezidentské volby ve Venezuele Takto rozdíl prezentován v novinách http://www.stat.auckland.ac.nz/~ihaka/120/Lectures/lecture03.pdf Počty studentů na různých fakultách a podíl mužů a žen http://www.stat.auckland.ac.nz/~ihaka/120/Lectures/lecture03.pdf Počty studentů na různých fakultách a podíl mužů a žen Zkreslení škálou III. • Transformace osy logaritmem Zkreslení škálou III. • … to samé bez transformace http://www.stat.auckland.ac.nz/~ihaka/120/Lectures/lecture03.pdf Zkreslení škálou IV. Chybějící body na ose x – zkreslení linearity By Smallman12q - Own work, CC0, https://commons.wikimedia.org/w/index.php?curid=20059374 Zkreslení škálou IV. Chybějící body na ose x – zkreslení linearity By Smallman12q - Own work, CC0, https://commons.wikimedia.org/w/index.php?curid=20059374 Zkreslení škálou V Chybějící body na ose x – zkreslení linearity Změny týdenního příjmu http://www.exercisebiology.com/index.php/site/articles/how_graphs_can_fool_you/ Zkreslení škálou V Chybějící body na ose x – zkreslení linearity Změny týdenního příjmu http://www.exercisebiology.com/index.php/site/articles/how_graphs_can_fool_you/ Zkreslení škálou VI Nesprávné zobrazení jednorozměrného násobného rozdílu pomocí plochy Zkreslení škálou VI Nesprávné zobrazení jednorozměrného násobného rozdílu pomocí plochy Trojnásobný rozdíl působí jako devítinásobný Zkreslení škálou VI Nesprávné zobrazení jednorozměrného násobného rozdílu pomocí plochy Trojnásobný rozdíl působí jako devítinásobný Správné zobrazení Zkreslení škálou VI. Zkreslení úhlem pohledu a 3D efekty By Smallman12q - Own work, CC0, https://commons.wikimedia.org/w/index.php?curid=20059374 Item C > Item A ? Zkreslení úhlem pohledu a 3D efekty By Smallman12q - Own work, CC0, https://commons.wikimedia.org/w/index.php?curid=20059374 Item C > Item A ? Item C < Item A ! Figure 1. Source: Erickson Times https://www.forbes.com/sites/naomirobbins/2012/02/16/misleading-graphs-figures-not-drawn-to-scale/#7ea98afa15ef Figure 1. Source: Erickson Times https://www.forbes.com/sites/naomirobbins/2012/02/16/misleading-graphs-figures-not-drawn-to-scale/#7ea98afa15ef 0 500 1000 1500 2000 2500 Germany France Britain Russia USA Series 1 Faktor klamu 𝐹𝑎𝑘𝑡𝑜𝑟 𝑘𝑙𝑎𝑚𝑢 = 𝑉𝑒𝑙𝑖𝑘𝑜𝑠𝑡 𝑒𝑓𝑒𝑘𝑡𝑢 𝑣 𝑔𝑟𝑎𝑓𝑢 𝑉𝑒𝑙𝑖𝑘𝑜𝑠𝑡 𝑒𝑓𝑒𝑘𝑡𝑢 𝑣 𝑑𝑎𝑡𝑒𝑐ℎ Faktor klamu >1 => změna v grafu je přehnaná Faktor klamu mezi 0 a 1 => změna v grafu není dostatečně viditelná Faktor klamu = 1 => perfektní reprezentace skutečného rozdílu Nesprávný graf – zkreslení významu Průměrná tělesná teplota ve dvou skupinách http://www.exercisebiology.com/index.php/site/articles/how_graphs_can_fool_you/ Nesprávný graf – zkreslení významu Nesprávné zobrazení výsledků dává pocit, že jde o nevýznamný rozdíl Průměrná tělesná teplota ve dvou skupinách Podíl pacientů se zvýšenou teplotou (>37C) http://www.exercisebiology.com/index.php/site/articles/how_graphs_can_fool_you/ Výběr správného grafu Grafy zobrazující rozložení spojitých proměnných • Histogram • Krabicový graf • Jednorozměrný bodový graf • Průměr a chyba Krabicový graf (box and whisker plot) Speciální případ – sloupcový graf s chybou Průměr měření skupiny A (25 vzorků) a B (18 vzorků) s indikací směrodatné odchylky každé skupiny; byl aplikován oboustranný dvouvýběrový T-test. Sloupcový graf s chybou – ale kterou? Popisná chyba: SD - směrodatná odchylka Inferenční (odvozovací) chyba: SE - standardní chyba CI - interval spolehlivosti Sloupcový graf s chybou – ale kterou? SD SD Grafy zobrazující frekvenci kategoriálních proměnných • Koláčový graf • Sloupcový graf Grafy zobrazující asociaci kategoriální a spojité proměnné • Krabicové grafy v kategoriích • Kategorizovaný sloupcový graf Grafy zobrazující asociaci dvou kategoriálních proměnných • Mozaikový graf Grafy zobrazující asociaci dvou spojitých proměnných • Dvouroměrný x-y graf Cvičení • Různé datové soubory vs. 4 metody zobrazení: - Jednorozměrné individuální body (s rozptylem na ose y) - Histogram s hustotou - Průměr +/- směrodatná odchylka - Boxplot Vyberte nejvíce a nejméně informativní graf co se týká rozložení hodnot, u každého datového souboru. Příklad 1. Náhodné rozložení, N=400 Příklad 2. N=37 Příklad 3. N=100 Příklad 4. N=4 Proč se vyhýbat sloupcovým grafům s chybou Proč se vyhýbat sloupcovým grafům s chybou Proč se vyhýbat sloupcovým grafům s chybou Mají příliš nízký poměr data/atrament Alternativa bez sloupce Proč se vyhýbat sloupcovým grafům s chybou Často trpí neduhem – zkreslení škálou Krzywinski M, Altman N. (2014) Visualizing samples with box plots. Nat Methods. 2014 Feb;11(2):119-20. Proč se vyhýbat sloupcovým grafům s chybou Proč se vyhýbat sloupcovým grafům s chybou Průměr+-SD Proč se vyhýbat sloupcovým grafům s chybou Průměr+-SD Proč se vyhýbat sloupcovým grafům s chybou Průměr+-SD Proč se vyhýbat sloupcovým grafům s chybou Průměr+-SD Proč se vyhýbat sloupcovým grafům s chybou Průměr+-SD Proč se vyhýbat sloupcovým grafům s chybou Průměr+-SD Proč se vyhýbat sloupcovým grafům s chybou Průměr+-SD Kdy nejsou vhodné ani krabicové grafy Když je jen málo bodů na zobrazení, krabicové grafy postrádají význam, jsou degenerované From Moritz et al., Anal. Chem. 2004 Aug 15; 76(16):4811-24 Další čtení • https://eagereyes.org • http://www.biostat.wisc.edu/~kbroman/topten_worstgraphs/mykland_disc.html • http://www.exercisebiology.com/index.php/site/articles/how_graphs_can_fool_you/ • https://www.eea.europa.eu/data-and-maps/daviz/learn-more/chart-dos-and-donts#toc-2 • http://www.radford.edu/jkell/statsgraphs.pdf • http://www.stat.auckland.ac.nz/~ihaka/120/Lectures/lecture03.pdf • http://people.stat.sfu.ca/~cschwarz/Stat650/Notes/PDF/ChapterBadgraphs.pdf • http://www.datavis.ca/gallery/index.php • http://www.doc.govt.nz/documents/science-and-technical/docts32.pdf • http://www.edwardtufte.com/tufte/ • Geoff Cumming, Fiona Fidler, David L. Vaux (2007). Error bars in experimental biology. JCB Hom. 177 (1): 7e