Detekce biomarkerů z omics experimentů
•Mgr. Eva Budinská, PhD
•RECETOX
•budinska@recetox.muni.cz
•Podzim 2019

Biomarkery z omicsových dat



Nejčastější “čestné chyby” (honest errors)



> > > >
Jak vznikají čestné chyby?
Nedostatek
znalostí
Nedostatek
kontroly
Nedostatek času
(konkurence)
Nedostatek
financí

Čestná chyba (honest error) – jak ji minimalizovat



Návrh experimentu



Centrální dogma statistiky
Populace
Výběr
Popisná statistika
Inference
Pravděpodobnost

Kolik vzorků???



Replikáty



Replikáty



Replikáty



Replikáty
Replikáty jsou nutné pro odhad variability a statistické významnosti
Technické replikáty nezastupují replikáty biologické!!!
Technické replikáty pouze popisují přesnost postupu a techniky, ne však variabilitu v cílové
populaci

>
From: False discovery rate, sensitivity and sample size for microarray studies
Bioinformatics. 2005;21(13):3017-3024. doi:10.1093/bioinformatics/bti448
Bioinformatics | © The Author 2005. Published by Oxford University Press. All rights reserved. For
Permissions, please email: journals.permissions@oupjournals.org
Vliv počtu vzorků na falešně pozitivní výsledky
p0: podíl skutečně neodlišně exprimovaných genů
 (beze změny exprese mezi skupinami)

Za všechno mohou matoucí vlivy (confounding effects)?



Co je to matoucí faktor a efekt dávky
•Matoucí faktor (confounding factor) je (neznámá) vnější proměnná, která ovlivňuje závislou
proměnnou i nezávislou proměnnou v statistické analýze, což způsobuje jejich falešnou asociaci.
•
•Efekt dávky (batch effect)  se objevuje vždy, když externí faktory spojené s laboratorní prací
ovlivňují výsledky, které měříte ve studii.
•
•Efekt dávky je speciální typ matoucího faktoru

Matoucí vliv
Více fyzické aktivity
Věk
Méně rakoviny

Efekt dávky
>
Pozorovaná proměnná (zdraví vs nemoc)
 se překrývá s jinou technickou proměnnou, např:
1. a 2. den analýza zdravé tkáně
3. a 4. den analýza nádorové tkáně
Nebo
Laborant 1 – zdravá tkáň, laborant 2 – nádorová tkáň
Nebo
Illumina primery (pro sekvenaci) 1-6 pro vzorky stolice,
Illumina primery 7-12 pro bukální stěry

Efekt dávky
> >
Pozorovaná proměnná (zdraví vs nemoc)
 se překrývá s jinou technickou proměnnou, např:
1. a 2. den analýza zdravé tkáně
3. a 4. den analýza nádorové tkáně
Nebo
Laborant 1 – zdravá tkáň, laborant 2 – nádorová tkáň
Nebo
Illumina primery (pro sekvenaci) 1-6 pro vzorky stolice,
Illumina primery 7-12 pro bukální stěry
NENÍ MOŽNÉ STATISTICKY ODDĚLIT TECHNICKÝ EFEKT OD BIOLOGICKÉHO!!!

Příklady efektu dávky z praxe
•


Sekvencování mikrobiomu
– efekt primeru Illumina
•

Experiment: Sekvenace genu pro 16S rRNA
Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici
Porovnání 3 odběrových kitů (S1, S2, S3) a 2 DNA izolačních kitů (1,2)
16 dobrovolníků použilo všechny odběrové kity na odběr stolice,
 z každého odběru izolace DNA dvěma kity
=> sekvenační analýza genu pro 16S rRNA

Experiment: Sekvenace genu pro 16S rRNA
Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici
Nalezen vliv odběrového a izolačního kitu na kvalitu a kvantitu DNA a také na složení mikrobiomu!

Experiment: Sekvenace genu pro 16S rRNA
Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici
Nalezen vliv odběrového a izolačního kitu na kvalitu a kvantitu DNA a také na složení mikrobiomu!

Experiment: Sekvenace genu pro 16S rRNA
Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici
>
Odběrové a izolační kity
Každý účastník měl vždy stejný primer.
Počet sekvencí je statisticky významně vyšší u primerů I1-I9 v porovnání s primery I10-I16!!!

Experiment: Sekvenace genu pro 16S rRNA
Cíl: Porovnat vliv odběrových a izolačních kitů na složení mikrobiomu ve stolici
PROBLÉM: primer může mít efekt na složení mikrobiomu
ŘEŠENÍ: primer (nebo lépe řečeno skupina I1-I9 vs I10-I16) jako nová proměnná ve statistické
analýze, odhad efektu skupiny primerů:
VÝSLEDEK:  zdá se, že primer ovlivňuje pouze počet sekvencí, ne složení mikrobiomu (?).
>
Odběrové a izolační kity

Mikrobiální kontaminace v NGS
•


Mikrobiální kontaminace
Border Dash
•Velký problém zejména u metagenomických studií a u vzorků s nízkým obsahem bakteriální DNA

•Figure 1. The contents of non-aligning reads from 57 human whole genome sequencing runs.
Laurence M, Hatzis C, Brash DE (2014) Common Contaminants in Next-Generation Sequencing That Hinder
Discovery of Low-Abundance Microbes. PLOS ONE 9(5): e97876.
https://doi.org/10.1371/journal.pone.0097876
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0097876
Baylor College of Medicine (BCM),
the Broad Institute (BI),
Illumina (ILLUM),
the Max Planck Institute for Molecular Genetics (MPIMG),
the Sanger Center (SC),
Washington University Genome Sequencing Center (WUGSC).

de Goffau, MC; Lager, S; Salter, SJ; Wagner, J; Kronbichler, A; Charnock-Jones, DS; Peacock,
SJ; Smith, GCS; Parkhill, J; (2018) Recognizing the reagent microbiome. Nature microbiology, 3 (8).
pp. 851-853. ISSN 2058-5276 DOI: https://doi.org/10.1038/s41564-018-0202-y
Fig. 1: Reagent contamination recognition strategies.
a, Between-batch variation allows for rapid identification of reagent contamination. This example
is from a 16S analysis of placental tissues… FastDNA SPIN kits with different lot numbers were used
for batches 1 and 2.
…
b, Spearman’s rho correlation coefficient heatmap of a subset of the most common species detected
(x- and y-axes) during a study of necrotizing enterocolitis in pre-term infants
…
c,… Reagent contaminants are especially abundant in samples with low biomass that failed 16S
amplification, and in negative controls; both of which cluster together in the lower left corner.
This dataset is from a study where bacterial DNA was enriched from nasal swabs and sequenced with
an ILLUMINA HiSeq v4 sequencing kit.
…
 d, Genuine signals are reproducible and separate measurements from the same sample using different
DNA isolation kits should correlate with one another while reagent contamination signals do not.
The genuine Moraxella signal is from a reanalysis of the 16S data of Salter et al.1, whereas the
reagent contamination example, Thiohalocapsa halophila, is from an analysis of placental tissues.

a, Between-batch variation allows for rapid identification of reagent contamination. This example
is from a 16S analysis of placental tissues (unpublished data, European Nucleotide Archive (ENA)
accession no. ERP109246). Colours indicate various microbial genera, of which the most prevalent
ones are named (all are contaminants). FastDNA SPIN kits with different lot numbers were used for
batches 1 and 2. Batch 1 contained several Salmonella bongori spiked samples (red). b, Spearman’s
rho correlation coefficient heatmap of a subset of the most common species detected (x- and y-axes)
during a study of necrotizing enterocolitis in pre-term infants^12. The named reagent-derived
species are shown to form a matrix of highly intercorrelated species as they are invariably present
within samples in similar ratios. c, Hierarchical clustering analyses of both samples (x-axis) and
microbial groups (y-axis) in a heatmap representing the abundances of these microbial groups per
sample on a logarithmic scale. Reagent contaminants are especially abundant in samples with low
biomass that failed 16S amplification, and in negative controls; both of which cluster together in
the lower left corner. This dataset is from a study where bacterial DNA was enriched from nasal
swabs and sequenced with an ILLUMINA HiSeq v4 sequencing kit (unpublished data, ENA accession
no. ERP016546). 125-base-pair paired-end shotgun metagenomics reads were quality filtered and
analysed by Kraken, and a heatmap was generated using MetaPhlAn of the top 100 species using the
complete-linkage method. d, Genuine signals are reproducible and separate measurements from the
same sample using different DNA isolation kits should correlate with one another while reagent
contamination signals do not. The genuine Moraxella signal is from a reanalysis of the 16S data of
Salter et al.^1, whereas the reagent contamination example, Thiohalocapsa halophila, is from an
analysis of placental tissues. The Spearman’s rho correlation coefficient of Moraxella with itself
is 0.89 while T. halophila has an autocorrelation score of –0.03.

Fig. 3 Wrestling with kit contamination—similar bacterial composition in placental samples and
negative controls.
Kim D, Hofstaedter CE, Zhao C, Mattei L, Tanes C, Clarke E, Lauder A, Sherrill-Mix S, Chehoud C,
Kelsen J, et al. Optimizing methods and dodging pitfalls in microbiome research. Microbiome.
2017;5(1):52.

Fig. 1 Example of cage effects dominating a mouse study of fungal communities.
…
The three conditions studied were continuous exposure to antibiotics (Condition 1), short-term
exposure to antibiotics (Condition 2), and no exposure to antibiotics (Condition 3).
Kim D, Hofstaedter CE, Zhao C, Mattei L, Tanes C, Clarke E, Lauder A, Sherrill-Mix S, Chehoud C,
Kelsen J, et al. Optimizing methods and dodging pitfalls in microbiome research. Microbiome.
2017;5(1):52.

Fungal lineages in the murine gut were inferred from ITS rRNA gene sequencing of pellets [87]. The
heat maps summarize taxonomic assignments derived from the sequence data. The color scale to
the right indicates the proportions of each lineage; white indicates not detected. Caging dominated
over treatment in this study. The three conditions studied were continuous exposure to antibiotics
(Condition 1), short-term exposure to antibiotics (Condition 2), and no exposure to antibiotics
(Condition 3).

Efekt dávky - platforma
•


Lidé a myši na mikročipech
•Yanai I, Graur D, Ophir R. Incongruent expression profiles between human and mouse orthologous
genes suggest widespread neutral evolution of transcription control. OMICS. 2004 Spring;8(1):15-24.
V článku z roku 2004, mikročipová analýza genové exprese několika různých tkání u lidí a myší vedla
autory k závěru, že „jakákoli lidská tkáň je více podobná jakékoli jiné vyšetřované lidské tkáni
než její odpovídající tkáni myší“.
•
page6image3832224

Lidé a myši na mikročipech
Následují články (2006, 2007, 2010), které dokazují, že tyto rozdíly jsou založeny pouze na faktu,
že se jednalo o dva různé mikročipy.
1.sondy jsou navrženy odděleně pro lidské a myší ortologické geny a necílí na stejné sekvence.
Proto mají lidské sondy a myší sondy různé afinity k jejich cílovým RNA
2.Signál (S) detekovaný mikročipem je přibližně lineární se skutečným množstvím cílové RNA v
rozumných rozsazích měření (Affymetrix 2001), hodnoty S transformované log2 mají tendenci
přeceňovat rozdíl mezi dvěma nízkými hodnotami exprese, ale podceňují rozdíl mezi dvěma vysokými
hodnotami exprese.

Lidé a myši na mikročipech
•Ben-Yang Liao,  Jianzhi Zhang (2006) Evolutionary Conservation of Expression Profiles Between
Human and Mouse Orthologous Genes . Molecular Biology and Evolution, Volume 23, Issue 3, March
2006, Pages 530-540
FIG. 5.— Dendrograms of 26 human and 26 mouse tissues based on (a) 1 − Pearson's correlation
coefficient r and (b) Euclidean distance d of tissues..

Lidé a myši na RNAseq
Navzdory tomu se problém v roce 2014 opakuje!!


Lidé a myši na RNAseq
„V této studii velkého počtu tkání mezi lidmi a myšmi odhalila vysoce výkonná transkriptomická a
epigenomická sekvenace, že obecně dominují rozdíly mezi těmito dvěma druhy.“
Tentokrát byla RNAseq použita pro oba druhy, a proto to vypadalo, že není žádný problém s rozdílnou
platformou….
Fig. 1. Loading plots from PCA on human and mouse gene expression data.

Lidé a myši na RNAseq
•Následná reanalýza z roku 2015 ukázala, že rozdíly jsou způsobeny efektem dávky flow cell a ranu!
Figure 1. Study design.
Sequencing batches as inferred based on the sequence identifiers of the RNA-Seq reads

Lidé a myši na RNAseq
•… po korekci efektu dávky to vypadá tak jak má
Figure 3. Clustering of data once batch effects are accounted for
Figure 2. Recapitulating the patterns reported by the mouse ENCODE papers.

Lidé a myši na RNAseq
Error
•Ovšem pozor, v čem je problém?
•
•Protože šlo v tomto případě o téměř perfektní batch efekt – tedy téměř 100% překryv etektu lane a
ranu vs organizmus, odstraněné rozdíly batch efektu mohou být také ty biologické.
•
•Jinak řečeno -  tyto data nemohou odpovědět na otázku která byla položena.
•
•Doporučuji diskuzi pod článkem z F1000research…

The 1000 genomes project
•Zahájen v lednu 2008, cílem bylo vytvoření co nejpodrobnějšího katalogu lidských genetických
variací
•Založen na sekvencování technologií Solexa sequencing

Jaký je vliv data sekvencování na genetickou variabilitu mezi sekvencemi?
Zjistili, že se studovanými biologickými rozdíly bylo spojeno pouze 17% variability sekvencí,
zatímco neuvěřitelných 32% bylo možné vysvětlit datem, kdy byly vzorky zpracovány.

Ani jeden z těchto článků nebyl stažen z tisku….



Jak odstranit efekt dávky



Jak odstranit efekt dávky



Randomizace pomáhá minimalizovat efekt dávky



Forshed J. (2017) Experimental design in clinical ‘omics biomarker discovery. Journal of Proteome
Research 16, 3954-3960
U ‘omics dat je randomizace obtížná

Co když je randomizace nemožná (nebo ohrožena)
•Někdy všechno nejde naplánovat a něco se změní – experimenty můžou být dlouhodobé a spolupracovat
může více stran, laboratoří, každá s vlastními postupy.
•
•Spolupráce více laboratoří – možnost randomizace na všech úrovních.
•
•Problematické bývá znovuoživení experimentu, který byl “u ledu” kvůli nedostatku financí (mezitím
se změnili postupy).
•
•
•Další změny běžně ohrožující plánovanou randomizaci.
•výměna laboranta…
•pokazení stroje a nutná oprava nebo výměna
•staré kity pro izolaci DNA už nevyrábějí, nutno použít jiné
•...

Preventivní minimalizace chyb
Presentation with Checklist
1. Protože vždy nevíme, co všechno může mít vliv, je důležité vést PODROBNÉ ZÁZNAMY – všechno co
nás napadne!
•přesný záznam postupu, včetně uskladnéní vzorku a jeho pozice v lednici
•kdo prováděl který typ analýzy a KDY
•každá změna v protokolu
•zaznamenáme všechny identifikační čísla jednotlivých kitů, primerů, čehokoliv
•všechny změny v kalibraci přístrojů, nebo informace o jejich čištění
•změny v teplotách
•způsob odběru vzorku (ležel materiál někde několik hodin mimo mrazák?)
• …
•
2. Provádíme po konzultaci se statistikem – randomizaci a dizajn experimentu.
•
3. V případě změn znovu konzultujeme další postup.

Co když je randomizace nemožná (nebo ohrožena)
•KAŽDOU ZMĚNU KONZULTUJTE SE STATISTIKEM!
•
•ŘEŠENÍ (OBVYKLE) EXISTUJE !
•
•Efekt dávky se dá odstranit, máme-li dostatek stejných vzorků analyzovaných před i po změně –
vhodnými metodami se odhadne efekt a ten se pak z dat odstraní.
•
•POZOR – je to nákladné a není to dokonalé, takže lépe je tyto efekty minimalizovat.

Jak odstranit efekt dávky



Regresní strategie



Doporučená literatura a další zdroje
•


TCGA Batch Effects Viewer
•https://bioinformatics.mdanderson.org/BatchEffectsViewer/