Detekce biomarkerů z omics experimentů •Mgr. Eva Budinská, PhD •RECETOX •budinska@recetox.muni.cz •Podzim 2019 Biomarkery z omicsových dat Nejčastější “čestné chyby” (honest errors) > > > > Jak vznikají čestné chyby? Nedostatek znalostí Nedostatek kontroly Nedostatek času (konkurence) Nedostatek financí Čestná chyba (honest error) – jak ji minimalizovat Návrh experimentu Centrální dogma statistiky Populace Výběr Popisná statistika Inference Pravděpodobnost Kolik vzorků??? Replikáty Replikáty Replikáty Replikáty Replikáty jsou nutné pro odhad variability a statistické významnosti Technické replikáty nezastupují replikáty biologické!!! Technické replikáty pouze popisují přesnost postupu a techniky, ne však variabilitu v cílové populaci > From: False discovery rate, sensitivity and sample size for microarray studies Bioinformatics. 2005;21(13):3017-3024. doi:10.1093/bioinformatics/bti448 Bioinformatics | © The Author 2005. Published by Oxford University Press. All rights reserved. For Permissions, please email: journals.permissions@oupjournals.org Vliv počtu vzorků na falešně pozitivní výsledky p0: podíl skutečně neodlišně exprimovaných genů (beze změny exprese mezi skupinami) Za všechno mohou matoucí vlivy (confounding effects)? Co je to matoucí faktor a efekt dávky •Matoucí faktor (confounding factor) je (neznámá) vnější proměnná, která ovlivňuje závislou proměnnou i nezávislou proměnnou v statistické analýze, což způsobuje jejich falešnou asociaci. • •Efekt dávky (batch effect) se objevuje vždy, když externí faktory spojené s laboratorní prací ovlivňují výsledky, které měříte ve studii. • •Efekt dávky je speciální typ matoucího faktoru Matoucí vliv Více fyzické aktivity Věk Méně rakoviny Efekt dávky > Pozorovaná proměnná (zdraví vs nemoc) se překrývá s jinou technickou proměnnou, např: 1. a 2. den analýza zdravé tkáně 3. a 4. den analýza nádorové tkáně Nebo Laborant 1 – zdravá tkáň, laborant 2 – nádorová tkáň Nebo Illumina primery (pro sekvenaci) 1-6 pro vzorky stolice, Illumina primery 7-12 pro bukální stěry Efekt dávky > > Pozorovaná proměnná (zdraví vs nemoc) se překrývá s jinou technickou proměnnou, např: 1. a 2. den analýza zdravé tkáně 3. a 4. den analýza nádorové tkáně Nebo Laborant 1 – zdravá tkáň, laborant 2 – nádorová tkáň Nebo Illumina primery (pro sekvenaci) 1-6 pro vzorky stolice, Illumina primery 7-12 pro bukální stěry NENÍ MOŽNÉ STATISTICKY ODDĚLIT TECHNICKÝ EFEKT OD BIOLOGICKÉHO!!! Příklady efektu dávky z praxe • Sekvencování mikrobiomu – efekt primeru Illumina • Experiment: Sekvenace genu pro 16S rRNA Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici Porovnání 3 odběrových kitů (S1, S2, S3) a 2 DNA izolačních kitů (1,2) 16 dobrovolníků použilo všechny odběrové kity na odběr stolice, z každého odběru izolace DNA dvěma kity => sekvenační analýza genu pro 16S rRNA Experiment: Sekvenace genu pro 16S rRNA Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici Nalezen vliv odběrového a izolačního kitu na kvalitu a kvantitu DNA a také na složení mikrobiomu! Experiment: Sekvenace genu pro 16S rRNA Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici Nalezen vliv odběrového a izolačního kitu na kvalitu a kvantitu DNA a také na složení mikrobiomu! Experiment: Sekvenace genu pro 16S rRNA Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici > Odběrové a izolační kity Každý účastník měl vždy stejný primer. Počet sekvencí je statisticky významně vyšší u primerů I1-I9 v porovnání s primery I10-I16!!! Experiment: Sekvenace genu pro 16S rRNA Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici PROBLÉM: primer může mít efekt na složení mikrobiomu ŘEŠENÍ: primer (nebo lépe řečeno skupina I1-I9 vs I10-I16) jako nová proměnná ve statistické analýze, odhad efektu skupiny primerů: VÝSLEDEK: zdá se, že primer ovlivňuje pouze počet sekvencí, ne složení mikrobiomu (?). > Odběrové a izolační kity Mikrobiální kontaminace v NGS • Mikrobiální kontaminace Border Dash •Velký problém zejména u metagenomických studií a u vzorků s nízkým obsahem bakteriální DNA •Figure 1. The contents of non-aligning reads from 57 human whole genome sequencing runs. Laurence M, Hatzis C, Brash DE (2014) Common Contaminants in Next-Generation Sequencing That Hinder Discovery of Low-Abundance Microbes. PLOS ONE 9(5): e97876. https://doi.org/10.1371/journal.pone.0097876 https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0097876 Baylor College of Medicine (BCM), the Broad Institute (BI), Illumina (ILLUM), the Max Planck Institute for Molecular Genetics (MPIMG), the Sanger Center (SC), Washington University Genome Sequencing Center (WUGSC). de Goffau, MC; Lager, S; Salter, SJ; Wagner, J; Kronbichler, A; Charnock-Jones, DS; Peacock, SJ; Smith, GCS; Parkhill, J; (2018) Recognizing the reagent microbiome. Nature microbiology, 3 (8). pp. 851-853. ISSN 2058-5276 DOI: https://doi.org/10.1038/s41564-018-0202-y Fig. 1: Reagent contamination recognition strategies. a, Between-batch variation allows for rapid identification of reagent contamination. This example is from a 16S analysis of placental tissues… FastDNA SPIN kits with different lot numbers were used for batches 1 and 2. … b, Spearman’s rho correlation coefficient heatmap of a subset of the most common species detected (x- and y-axes) during a study of necrotizing enterocolitis in pre-term infants … c,… Reagent contaminants are especially abundant in samples with low biomass that failed 16S amplification, and in negative controls; both of which cluster together in the lower left corner. This dataset is from a study where bacterial DNA was enriched from nasal swabs and sequenced with an ILLUMINA HiSeq v4 sequencing kit. … d, Genuine signals are reproducible and separate measurements from the same sample using different DNA isolation kits should correlate with one another while reagent contamination signals do not. The genuine Moraxella signal is from a reanalysis of the 16S data of Salter et al.1, whereas the reagent contamination example, Thiohalocapsa halophila, is from an analysis of placental tissues. a, Between-batch variation allows for rapid identification of reagent contamination. This example is from a 16S analysis of placental tissues (unpublished data, European Nucleotide Archive (ENA) accession no. ERP109246). Colours indicate various microbial genera, of which the most prevalent ones are named (all are contaminants). FastDNA SPIN kits with different lot numbers were used for batches 1 and 2. Batch 1 contained several Salmonella bongori spiked samples (red). b, Spearman’s rho correlation coefficient heatmap of a subset of the most common species detected (x- and y-axes) during a study of necrotizing enterocolitis in pre-term infants^12. The named reagent-derived species are shown to form a matrix of highly intercorrelated species as they are invariably present within samples in similar ratios. c, Hierarchical clustering analyses of both samples (x-axis) and microbial groups (y-axis) in a heatmap representing the abundances of these microbial groups per sample on a logarithmic scale. Reagent contaminants are especially abundant in samples with low biomass that failed 16S amplification, and in negative controls; both of which cluster together in the lower left corner. This dataset is from a study where bacterial DNA was enriched from nasal swabs and sequenced with an ILLUMINA HiSeq v4 sequencing kit (unpublished data, ENA accession no. ERP016546). 125-base-pair paired-end shotgun metagenomics reads were quality filtered and analysed by Kraken, and a heatmap was generated using MetaPhlAn of the top 100 species using the complete-linkage method. d, Genuine signals are reproducible and separate measurements from the same sample using different DNA isolation kits should correlate with one another while reagent contamination signals do not. The genuine Moraxella signal is from a reanalysis of the 16S data of Salter et al.^1, whereas the reagent contamination example, Thiohalocapsa halophila, is from an analysis of placental tissues. The Spearman’s rho correlation coefficient of Moraxella with itself is 0.89 while T. halophila has an autocorrelation score of –0.03. Fig. 3 Wrestling with kit contamination—similar bacterial composition in placental samples and negative controls. Kim D, Hofstaedter CE, Zhao C, Mattei L, Tanes C, Clarke E, Lauder A, Sherrill-Mix S, Chehoud C, Kelsen J, et al. Optimizing methods and dodging pitfalls in microbiome research. Microbiome. 2017;5(1):52. Fig. 1 Example of cage effects dominating a mouse study of fungal communities. … The three conditions studied were continuous exposure to antibiotics (Condition 1), short-term exposure to antibiotics (Condition 2), and no exposure to antibiotics (Condition 3). Kim D, Hofstaedter CE, Zhao C, Mattei L, Tanes C, Clarke E, Lauder A, Sherrill-Mix S, Chehoud C, Kelsen J, et al. Optimizing methods and dodging pitfalls in microbiome research. Microbiome. 2017;5(1):52. Fungal lineages in the murine gut were inferred from ITS rRNA gene sequencing of pellets [87]. The heat maps summarize taxonomic assignments derived from the sequence data. The color scale to the right indicates the proportions of each lineage; white indicates not detected. Caging dominated over treatment in this study. The three conditions studied were continuous exposure to antibiotics (Condition 1), short-term exposure to antibiotics (Condition 2), and no exposure to antibiotics (Condition 3). Efekt dávky - platforma • Lidé a myši na mikročipech •Yanai I, Graur D, Ophir R. Incongruent expression profiles between human and mouse orthologous genes suggest widespread neutral evolution of transcription control. OMICS. 2004 Spring;8(1):15-24. V článku z roku 2004, mikročipová analýza genové exprese několika různých tkání u lidí a myší vedla autory k závěru, že „jakákoli lidská tkáň je více podobná jakékoli jiné vyšetřované lidské tkáni než její odpovídající tkáni myší“. • page6image3832224 Lidé a myši na mikročipech Následují články (2006, 2007, 2010), které dokazují, že tyto rozdíly jsou založeny pouze na faktu, že se jednalo o dva různé mikročipy. 1.sondy jsou navrženy odděleně pro lidské a myší ortologické geny a necílí na stejné sekvence. Proto mají lidské sondy a myší sondy různé afinity k jejich cílovým RNA 2.Signál (S) detekovaný mikročipem je přibližně lineární se skutečným množstvím cílové RNA v rozumných rozsazích měření (Affymetrix 2001), hodnoty S transformované log2 mají tendenci přeceňovat rozdíl mezi dvěma nízkými hodnotami exprese, ale podceňují rozdíl mezi dvěma vysokými hodnotami exprese. Lidé a myši na mikročipech •Ben-Yang Liao, Jianzhi Zhang (2006) Evolutionary Conservation of Expression Profiles Between Human and Mouse Orthologous Genes . Molecular Biology and Evolution, Volume 23, Issue 3, March 2006, Pages 530-540 FIG. 5.— Dendrograms of 26 human and 26 mouse tissues based on (a) 1 − Pearson's correlation coefficient r and (b) Euclidean distance d of tissues.. Lidé a myši na RNAseq Navzdory tomu se problém v roce 2014 opakuje!! Lidé a myši na RNAseq „V této studii velkého počtu tkání mezi lidmi a myšmi odhalila vysoce výkonná transkriptomická a epigenomická sekvenace, že obecně dominují rozdíly mezi těmito dvěma druhy.“ Tentokrát byla RNAseq použita pro oba druhy, a proto to vypadalo, že není žádný problém s rozdílnou platformou…. Fig. 1. Loading plots from PCA on human and mouse gene expression data. Lidé a myši na RNAseq •Následná reanalýza z roku 2015 ukázala, že rozdíly jsou způsobeny efektem dávky flow cell a ranu! Figure 1. Study design. Sequencing batches as inferred based on the sequence identifiers of the RNA-Seq reads Lidé a myši na RNAseq •… po korekci efektu dávky to vypadá tak jak má Figure 3. Clustering of data once batch effects are accounted for Figure 2. Recapitulating the patterns reported by the mouse ENCODE papers. Lidé a myši na RNAseq Error •Ovšem pozor, v čem je problém? • •Protože šlo v tomto případě o téměř perfektní batch efekt – tedy téměř 100% překryv etektu lane a ranu vs organizmus, odstraněné rozdíly batch efektu mohou být také ty biologické. • •Jinak řečeno - tyto data nemohou odpovědět na otázku která byla položena. • •Doporučuji diskuzi pod článkem z F1000research… The 1000 genomes project •Zahájen v lednu 2008, cílem bylo vytvoření co nejpodrobnějšího katalogu lidských genetických variací •Založen na sekvencování technologií Solexa sequencing Jaký je vliv data sekvencování na genetickou variabilitu mezi sekvencemi? Zjistili, že se studovanými biologickými rozdíly bylo spojeno pouze 17% variability sekvencí, zatímco neuvěřitelných 32% bylo možné vysvětlit datem, kdy byly vzorky zpracovány. Ani jeden z těchto článků nebyl stažen z tisku…. Jak odstranit efekt dávky Jak odstranit efekt dávky Randomizace pomáhá minimalizovat efekt dávky Forshed J. (2017) Experimental design in clinical ‘omics biomarker discovery. Journal of Proteome Research 16, 3954-3960 U ‘omics dat je randomizace obtížná Co když je randomizace nemožná (nebo ohrožena) •Někdy všechno nejde naplánovat a něco se změní – experimenty můžou být dlouhodobé a spolupracovat může více stran, laboratoří, každá s vlastními postupy. • •Spolupráce více laboratoří – možnost randomizace na všech úrovních. • •Problematické bývá znovuoživení experimentu, který byl “u ledu” kvůli nedostatku financí (mezitím se změnili postupy). • • •Další změny běžně ohrožující plánovanou randomizaci. •výměna laboranta… •pokazení stroje a nutná oprava nebo výměna •staré kity pro izolaci DNA už nevyrábějí, nutno použít jiné •... Preventivní minimalizace chyb Presentation with Checklist 1. Protože vždy nevíme, co všechno může mít vliv, je důležité vést PODROBNÉ ZÁZNAMY – všechno co nás napadne! •přesný záznam postupu, včetně uskladnéní vzorku a jeho pozice v lednici •kdo prováděl který typ analýzy a KDY •každá změna v protokolu •zaznamenáme všechny identifikační čísla jednotlivých kitů, primerů, čehokoliv •všechny změny v kalibraci přístrojů, nebo informace o jejich čištění •změny v teplotách •způsob odběru vzorku (ležel materiál někde několik hodin mimo mrazák?) • … • 2. Provádíme po konzultaci se statistikem – randomizaci a dizajn experimentu. • 3. V případě změn znovu konzultujeme další postup. Co když je randomizace nemožná (nebo ohrožena) •KAŽDOU ZMĚNU KONZULTUJTE SE STATISTIKEM! • •ŘEŠENÍ (OBVYKLE) EXISTUJE ! • •Efekt dávky se dá odstranit, máme-li dostatek stejných vzorků analyzovaných před i po změně – vhodnými metodami se odhadne efekt a ten se pak z dat odstraní. • •POZOR – je to nákladné a není to dokonalé, takže lépe je tyto efekty minimalizovat. Jak odstranit efekt dávky Regresní strategie Doporučená literatura a další zdroje • TCGA Batch Effects Viewer •https://bioinformatics.mdanderson.org/BatchEffectsViewer/