Specializace
Biomedicínská bioinformatika
přednáška 18.11.2019
Eva Budinská (budinska@recetox.muni.cz)
Biomedicína
• … odvětví lékařské vědy
využívající přírodovědecké
principy především fyziologie a
biologie v klinické praxi.
• Jedná se o interdisciplinární obor,
který kombinuje obsah a
problémy experimentální
medicíny s metodami molekulární
biologie a buněčné biologie.
• Zaměřuje se na molekulární a
buněčné základy života a
patologické změny, dále zkoumá
příčiny nemocí, prevenci a
kauzální léčbu.
Moderní biomedicína a molekulární data
Omicsové experimenty …
The Human Cancer Genome
Atlas (TCGA) projekt
Data z omicsových experimentů
§ Moderní vysocepokryvné molekulární technologie produkují obrovské tabulky
komplexních dat
Mikročipy
þ Desítky až tisíce
genů nebo
transkriptů na vzorek
Hmotnostní spektrometrie
þ Tisíce spekter
proteinů, metabolitů
nebo malých molekul
na vzorek
Sekvenace DNA
þGenom s
biliony
nukleotidů na
vzorek
Sekvenace nové generace
þ Miliony
krátkých čtení
DNA na vzorek
http://melgen.org/multi-omics-approach/
Co je to
biomarker?
Biologický marker (biomarker):
Charakteristika, která je objektivně měřena a
hodnocena jako indikátor normálních
biologických procesů, patogenních procesů nebo
farmakologických odpovědí na terapeutický
zásah.
Biomarkers Definitions Working Group (March 2001). "Biomarkers and surrogate endpoints: preferred
definitions and conceptual framework". Clin. Pharmacol. Ther. (Review). 69 (3): 89–95.
Biomarkerem
může být Molekula a její stav
(mutace DNA,
hodnota exprese
miRNA, zvýšená
hladina proteinu…)
Aktivita buněk v
konkrétních
oblastech (lymfocyty
v invazivním frontu
nádoru)
Přítomnost
mikroorganizmu
Proces (zvýšená
proliferace,
přítomnost stromální
reakce v nádoru, …)
.... Využití jednotlivých
biomarkerů v
rozhodovacím
PRAVIDLE
(modelu/testu)
Jaká je to nemoc?
Jaké je riziko
onemocnění u
zdravého jedince?
Jak bude nemoc
probíhat?
Zhoršuje se
nemoc?
Jaká je šance, že se
nemoc vrátí?
Bude terapie
úspěšná?
Biomarkery a modely
• Biomarker může být založen na jediném
analytu, nebo na jejich kombinaci v modelu
(klasifikátoru)
• Je to právě kombinace více analytů (genů,
proteinů, metabolitů…), která je typická pro
biomarkery z omicsových dat
Co musí biomarker
(nebo model) splňovat
Musí být použitelný rutinně v praxi:
• přesný (dostatečně citlivý a dostatečně
specifický)
• robustní (co nejméně omezen technologií
měření)
• reproducibilní (obecně platný)
Jak se hledá
potenciální
biomarker v
omics datech
Kontrola kvality
Normalizace
Sumarizace
Biologická otázka
(hypotéza)
N matic základních dat
(jedna pro každý z N vzorků)
Provedení experimentu
(hybridizace mikročipů,
hmotnostní spektrometrie...)
Dizajn experimentu
Objevování skupin?
(Shlukování)
Porovnání skupin?
(Testování)
Predikce skupin?
(Klasifikace)
Analýza přežití
Analýza časových řad
Charakterizace nových
skupin
List genů
se stejným profilem
změn exprese v čase
Interpretace Validace Publikace
Matice informací o vzorcích
N x P
(např. klinická data v medicíně)
Finální datová matice
N vzorků a K genů
(proteinů)
Nové skupiny
genů nebo vzorků
List genů
s odlišnou expresí
mezi skupinami vzorků
Klasifikační pravidlo
využívající
genovou expresi
Seznam
prognostických genů
Pathway analýza
Proč jsou
omicsová data
problematická?
Specifika dat z omics experimentů
Obsahují množství šumu (technická i biologická variabilita)
Nereprezentují skutečné hodnoty (koncentrace, počty) sledovaných molekul
Pocházejí z komplexních technologií, které bývají velice citlivé na vnější vlivy
Jejich předzpracování je náročné a vysoce specifické pro daný typ platformy
Počet vzorků je mnohem menší než počet sledovaných proměnných.
Zkoumané proměnné jsou často korelované a mají mezi sebou komplexní vztahy (geny, proteiny…)
… analýza těchto dat a
vytváření omics
biomarkerových modelů
má svá specifika!
Skandál na
Duke university
Severní Karolína, USA
Obrovský ohlas, v roce 2006 článek zařazen mezi
“The Top 6 Genetic Stories of 2006”
Genomické signatury byly odvozeny z analýzy exprese
(mikročipy) senzitivních a rezistentních buněčných linií,
výsledky validovány na pacientech.
2006 – Anil Potti, nadějný vědec z Duke University publikuje
v Nature Medicine s kolegy článek o biomarkerech
rezistence na chemoterapeutika v onkologii.
2006 – Biostatistici K. Coombes, J. Wang
and K.A. Baggerly se snaží o aplikaci
signatur na data výzkumníků z jejich
univerzity, ovšem bez úspěchu.
Aktivně konzultují s autory článku.
Čím více se noří do dat, tím více mají
pochybností o validitě závěrů a
správnosti samotných dat!
Reportují tyto chyby:
označení senzitivních a
rezistentních buněčných linií
nesedí!
tabulka se seznamem
významných genů a jejich
sond obsahuje
systematickou chybu (posun
o políčko) – geny nesedí se
sondami, po korekci tabulky
se podařilo reprodukovat
pouze 3 ze 7 seznamů a
výsledků senzitivity
Model rezistence na doxacel
– podařilo se zreprodukovat
pouze 31 z 50 genů
publikovaných v článku,
ostatních 19 bylo zřejmě
přidáno ručně “aby byla
validace úspěšná”
Autorský SW (algoritmus),
který Potti používá, pracuje s
validačními a testovacími
daty společně. Po korekci
této chyby jsou výsledky
validace klasifikátorů špatné
– na validačních datech
téměř rovné náhodě.
2007 – Coombes a kol. publikují v Nature Medicine dopis zpochybňující Pottiho
výzkum
(Coombes, Wang, Baggerly. Microarrays: retracing steps, Nature Medicine, 2007)
Mezitím vycházejí další články:
Blood (2006), NEJM (2006), JCO (2007), Lancet Oncology
(2007), JAMA (2008), PLOS (2008), PNAS (2008), Clin Can Res
(2009)
V roce 2009 již 212 citací, několik klinických studií, stovky
léčených pacientů
V roce 2010 – Anil Potti obviněn z falzifikace výsledků a
vyšetřován
Trvá 4 roky a mnoho úsilí, než jsou chyby uznány a články
staženy!
• Anil Potti Více
info: https://ori.hhs.gov/content/case-summary-potti-anil
Jak skandál změnil svět biomedicínského
výzkumu založeného na omicsových datech
Červenec 2010 – ředitel National Cancer
Institute (NCI) Harold Varmus obdržel
dopis od více než 30 statistiků a
bioinformatiků, ve kterém vyjádřili své
obavy nad použitím několika testů
založených na genové expresi, které se
používali v již probíhajících klinických
studiích na Duke University k predikci
odpovědi na chemoterapii.
V důsledku vznikla komise Institutu
medicíny (IOM), cílem které bylo sepsání
doporučení pro vývoj testů z
omicsových studií
IOM (Institute of Medicine). 2012. Evolution of Translational Omics: Lessons Learned and the
Path Forward. Washington, DC: The National Academies Press.
IOM komise:
Specifika
testů
založených na
omics
Testy na bázi omics a ve skutečnosti
všechny klinické laboratorní testy podléhají
odlišnému regulačnímu rámci než léky
Absence jasného biologického
zdůvodnění na rozdíl od většiny ostatních
klinických laboratorních testů založených
na jediném analytu
Složitost omicsového výzkumu ztěžuje
sdílení komplexních datových souborů a
výpočetních modelů, což omezuje
schopnost ostatních vědců replikovat a
ověřovat zjištění a závěry těchto studií
Absence jasného
biologického
odůvodnění testů
omics biomarkerů
Příklady:
Testování karcinomu prsu lidským
epidermálním růstovým faktorem 2
(HER2)
Měření hladiny cholesterolu
lipoproteinů s nízkou hustotou (LDL)
pro hodnocení srdečního rizika
Biologické zdůvodnění testu s jedním analytem je často
zcela zřejmé: Test je užitečný, protože gen, RNA, protein
nebo metabolit hraje pochopitelnou roli v patologii
onemocnění nebo jiném vyšetřovaném biologickém
procesu.
Absence
jasného
biologického
odůvodnění
testů omics
biomarkerů –
proč je to
problém
Když se nedá test založený na omics
biomarkerech biologicky odůvodnit, je o to
důležitější ho správně VYTVOŘIT a poté
správně VALIDOVAT, aby byla zajištěna
vědecká spolehlivost!
Z důvodů vyššího rizika „přetrénování“
těchto testů je potřeba přísných kritérií,
validace a odpovědnosti ještě vyšší než u
samostatných testů založených na
biomarkerech.
Problém (ne)
sdílení
komplexních
datových
souborů a
výpočetních
modelů
K dispozici jsou databázové úložiště pro soubory
omicsových dat, ale sdílení dat není rutinní a bez
přístupu k datům a přesně definovanému
výpočetnímu modelu je replikace a ověření obtížnější
než pro biomarkery založené na jednotlivých
analytech.
I když nezávislé validační studie jsou drahé, potřeba
replikace v omicsových studiích je nutná vzhledem ke
složitosti dat, které mohou vést k chybám (od
jednoduchých chyb správy dat až po nesprávně
navržené výpočetní modely).
Tato úroveň složitosti neexistuje pro výzkum, vývoj a
validaci testů s jedním biomarkerem.
Doporučení IOM komise pro vývoj testů založených na omicsových
datech
Jak se hledá
potenciální
biomarker v
omics datech
Kontrola kvality
Normalizace
Sumarizace
Biologická otázka
(hypotéza)
N matic základních dat
(jedna pro každý z N vzorků)
Provedení experimentu
(hybridizace mikročipů,
hmotnostní spektrometrie...)
Dizajn experimentu
Objevování skupin?
(Shlukování)
Porovnání skupin?
(Testování)
Predikce skupin?
(Klasifikace)
Analýza přežití
Analýza časových řad
Charakterizace nových
skupin
List genů
se stejným profilem
změn exprese v čase
Interpretace Validace Publikace
Matice informací o vzorcích
N x P
(např. klinická data v medicíně)
Finální datová matice
N vzorků a K genů
(proteinů)
Nové skupiny
genů nebo vzorků
List genů
s odlišnou expresí
mezi skupinami vzorků
Klasifikační pravidlo
využívající
genovou expresi
Seznam
prognostických genů
Pathway analýza
Úprava
omicsových
dat do podoby,
kdy je možná
derivace
biomarkerů
trvá podstatně
déle než u
jiných dat
Data obsahují velké množství technického i
biologického šumu, který je nutné odstranit
Protože jedno spuštění přístroje obvykle není
schopno analyzovat všechny vzorky, vytváří se
nežádoucí matoucí efekty (efekty dávky), které je
nutno odstranit
Technologie jsou velice nové (a vznikají stále!) a
algoritmy pro optimální zpracování jejich dat se
vytvářejí a testují i 5-10 let - neexistují zlaté
standardy a mnohé implementace jsou plné chyb
Vědecké časopisy jsou (přesto) plné odpadu
Podíl článků stažených
z tisku se zvyšuje
Za analyzovanou dekádu vzrostl počet článků pouze o 44%,
počet retrakcí článků se zvýšil desetinásobně!
Pouze 0.02% článků je staženo z tisku!
Van Noorden, R. (2011) Science publishing: The trouble with retractions. Nature. 2011 Oct 5;478(7367):26-8.
Důvody stažení publikací
Analýza 2,047 stažených biomedicínských a přírodovědných
vědeckých článků
Nejčastější důvod: podvod (nebo podezření z podvodu):
43.4%
21.3% článků bylo staženo kvůli čestné chybě (honest
error)
Až 31.8% článků, které byly staženy zůstali neoznačeny
Většina autorů své stažené články stále cituje...
Adapted Figure 1 from Fang et al. (2012) Misconduct accounts for the majority of retracted scientific publications. PNAS 2012 Oct 16; 109(42):17028-170
Bylo analyzováno 180 primárních a 851 odvozených klinických studií, které
byly provedeny na základě výzkumu ze stažených publikací.
U 180 primárních studií bylo léčeno 9189 pacientů (z více než 28 tisíc)
U 851 odvozených studií bylo léčeno 70 501 pacientů (z více než 400 tisíc)
Studie, které byly staženy pro podvod, léčily statisticky významně více pacientů,
než studie, které byly staženy pro chybu.
Biomarkery z
omicsových
dat
• Složené z více charakteristik (více genů,
proteinů…)
• Bez jasně definovaného biologického
zdůvodnění
Jsou často komplexní:
• zatížených významným technickým šumem z
různých zdrojů
• analyzovaných metodami, které nejsou
standardizované
• které jsou pouze korelované s měřenou
proměnnou (např. nejsou koncentrace ani počty
molekul)
• které jsou komplexní a obtížně se sdílejí
Pocházejí z dat:
Bez bioinformatika není biomarker!
• Svět biomedicínského výzkumu se podstatně změnil
• Hledání molekulárních biomarkerů se provádí ve vysoce
specializovaných experimentech které produkují velká data
• …. nikdo se neobejde bez bioinformatika!