Specializace Biomedicínská bioinformatika přednáška 18.11.2019 Eva Budinská (budinska@recetox.muni.cz) Biomedicína • … odvětví lékařské vědy využívající přírodovědecké principy především fyziologie a biologie v klinické praxi. • Jedná se o interdisciplinární obor, který kombinuje obsah a problémy experimentální medicíny s metodami molekulární biologie a buněčné biologie. • Zaměřuje se na molekulární a buněčné základy života a patologické změny, dále zkoumá příčiny nemocí, prevenci a kauzální léčbu. Moderní biomedicína a molekulární data Omicsové experimenty … The Human Cancer Genome Atlas (TCGA) projekt Data z omicsových experimentů § Moderní vysocepokryvné molekulární technologie produkují obrovské tabulky komplexních dat Mikročipy þ Desítky až tisíce genů nebo transkriptů na vzorek Hmotnostní spektrometrie þ Tisíce spekter proteinů, metabolitů nebo malých molekul na vzorek Sekvenace DNA þGenom s biliony nukleotidů na vzorek Sekvenace nové generace þ Miliony krátkých čtení DNA na vzorek http://melgen.org/multi-omics-approach/ Co je to biomarker? Biologický marker (biomarker): Charakteristika, která je objektivně měřena a hodnocena jako indikátor normálních biologických procesů, patogenních procesů nebo farmakologických odpovědí na terapeutický zásah. Biomarkers Definitions Working Group (March 2001). "Biomarkers and surrogate endpoints: preferred definitions and conceptual framework". Clin. Pharmacol. Ther. (Review). 69 (3): 89–95. Biomarkerem může být Molekula a její stav (mutace DNA, hodnota exprese miRNA, zvýšená hladina proteinu…) Aktivita buněk v konkrétních oblastech (lymfocyty v invazivním frontu nádoru) Přítomnost mikroorganizmu Proces (zvýšená proliferace, přítomnost stromální reakce v nádoru, …) .... Využití jednotlivých biomarkerů v rozhodovacím PRAVIDLE (modelu/testu) Jaká je to nemoc? Jaké je riziko onemocnění u zdravého jedince? Jak bude nemoc probíhat? Zhoršuje se nemoc? Jaká je šance, že se nemoc vrátí? Bude terapie úspěšná? Biomarkery a modely • Biomarker může být založen na jediném analytu, nebo na jejich kombinaci v modelu (klasifikátoru) • Je to právě kombinace více analytů (genů, proteinů, metabolitů…), která je typická pro biomarkery z omicsových dat Co musí biomarker (nebo model) splňovat Musí být použitelný rutinně v praxi: • přesný (dostatečně citlivý a dostatečně specifický) • robustní (co nejméně omezen technologií měření) • reproducibilní (obecně platný) Jak se hledá potenciální biomarker v omics datech Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza Proč jsou omicsová data problematická? Specifika dat z omics experimentů Obsahují množství šumu (technická i biologická variabilita) Nereprezentují skutečné hodnoty (koncentrace, počty) sledovaných molekul Pocházejí z komplexních technologií, které bývají velice citlivé na vnější vlivy Jejich předzpracování je náročné a vysoce specifické pro daný typ platformy Počet vzorků je mnohem menší než počet sledovaných proměnných. Zkoumané proměnné jsou často korelované a mají mezi sebou komplexní vztahy (geny, proteiny…) … analýza těchto dat a vytváření omics biomarkerových modelů má svá specifika! Skandál na Duke university Severní Karolína, USA Obrovský ohlas, v roce 2006 článek zařazen mezi “The Top 6 Genetic Stories of 2006” Genomické signatury byly odvozeny z analýzy exprese (mikročipy) senzitivních a rezistentních buněčných linií, výsledky validovány na pacientech. 2006 – Anil Potti, nadějný vědec z Duke University publikuje v Nature Medicine s kolegy článek o biomarkerech rezistence na chemoterapeutika v onkologii. 2006 – Biostatistici K. Coombes, J. Wang and K.A. Baggerly se snaží o aplikaci signatur na data výzkumníků z jejich univerzity, ovšem bez úspěchu. Aktivně konzultují s autory článku. Čím více se noří do dat, tím více mají pochybností o validitě závěrů a správnosti samotných dat! Reportují tyto chyby: označení senzitivních a rezistentních buněčných linií nesedí! tabulka se seznamem významných genů a jejich sond obsahuje systematickou chybu (posun o políčko) – geny nesedí se sondami, po korekci tabulky se podařilo reprodukovat pouze 3 ze 7 seznamů a výsledků senzitivity Model rezistence na doxacel – podařilo se zreprodukovat pouze 31 z 50 genů publikovaných v článku, ostatních 19 bylo zřejmě přidáno ručně “aby byla validace úspěšná” Autorský SW (algoritmus), který Potti používá, pracuje s validačními a testovacími daty společně. Po korekci této chyby jsou výsledky validace klasifikátorů špatné – na validačních datech téměř rovné náhodě. 2007 – Coombes a kol. publikují v Nature Medicine dopis zpochybňující Pottiho výzkum (Coombes, Wang, Baggerly. Microarrays: retracing steps, Nature Medicine, 2007) Mezitím vycházejí další články: Blood (2006), NEJM (2006), JCO (2007), Lancet Oncology (2007), JAMA (2008), PLOS (2008), PNAS (2008), Clin Can Res (2009) V roce 2009 již 212 citací, několik klinických studií, stovky léčených pacientů V roce 2010 – Anil Potti obviněn z falzifikace výsledků a vyšetřován Trvá 4 roky a mnoho úsilí, než jsou chyby uznány a články staženy! • Anil Potti Více info: https://ori.hhs.gov/content/case-summary-potti-anil Jak skandál změnil svět biomedicínského výzkumu založeného na omicsových datech Červenec 2010 – ředitel National Cancer Institute (NCI) Harold Varmus obdržel dopis od více než 30 statistiků a bioinformatiků, ve kterém vyjádřili své obavy nad použitím několika testů založených na genové expresi, které se používali v již probíhajících klinických studiích na Duke University k predikci odpovědi na chemoterapii. V důsledku vznikla komise Institutu medicíny (IOM), cílem které bylo sepsání doporučení pro vývoj testů z omicsových studií IOM (Institute of Medicine). 2012. Evolution of Translational Omics: Lessons Learned and the Path Forward. Washington, DC: The National Academies Press. IOM komise: Specifika testů založených na omics Testy na bázi omics a ve skutečnosti všechny klinické laboratorní testy podléhají odlišnému regulačnímu rámci než léky Absence jasného biologického zdůvodnění na rozdíl od většiny ostatních klinických laboratorních testů založených na jediném analytu Složitost omicsového výzkumu ztěžuje sdílení komplexních datových souborů a výpočetních modelů, což omezuje schopnost ostatních vědců replikovat a ověřovat zjištění a závěry těchto studií Absence jasného biologického odůvodnění testů omics biomarkerů Příklady: Testování karcinomu prsu lidským epidermálním růstovým faktorem 2 (HER2) Měření hladiny cholesterolu lipoproteinů s nízkou hustotou (LDL) pro hodnocení srdečního rizika Biologické zdůvodnění testu s jedním analytem je často zcela zřejmé: Test je užitečný, protože gen, RNA, protein nebo metabolit hraje pochopitelnou roli v patologii onemocnění nebo jiném vyšetřovaném biologickém procesu. Absence jasného biologického odůvodnění testů omics biomarkerů – proč je to problém Když se nedá test založený na omics biomarkerech biologicky odůvodnit, je o to důležitější ho správně VYTVOŘIT a poté správně VALIDOVAT, aby byla zajištěna vědecká spolehlivost! Z důvodů vyššího rizika „přetrénování“ těchto testů je potřeba přísných kritérií, validace a odpovědnosti ještě vyšší než u samostatných testů založených na biomarkerech. Problém (ne) sdílení komplexních datových souborů a výpočetních modelů K dispozici jsou databázové úložiště pro soubory omicsových dat, ale sdílení dat není rutinní a bez přístupu k datům a přesně definovanému výpočetnímu modelu je replikace a ověření obtížnější než pro biomarkery založené na jednotlivých analytech. I když nezávislé validační studie jsou drahé, potřeba replikace v omicsových studiích je nutná vzhledem ke složitosti dat, které mohou vést k chybám (od jednoduchých chyb správy dat až po nesprávně navržené výpočetní modely). Tato úroveň složitosti neexistuje pro výzkum, vývoj a validaci testů s jedním biomarkerem. Doporučení IOM komise pro vývoj testů založených na omicsových datech Jak se hledá potenciální biomarker v omics datech Kontrola kvality Normalizace Sumarizace Biologická otázka (hypotéza) N matic základních dat (jedna pro každý z N vzorků) Provedení experimentu (hybridizace mikročipů, hmotnostní spektrometrie...) Dizajn experimentu Objevování skupin? (Shlukování) Porovnání skupin? (Testování) Predikce skupin? (Klasifikace) Analýza přežití Analýza časových řad Charakterizace nových skupin List genů se stejným profilem změn exprese v čase Interpretace Validace Publikace Matice informací o vzorcích N x P (např. klinická data v medicíně) Finální datová matice N vzorků a K genů (proteinů) Nové skupiny genů nebo vzorků List genů s odlišnou expresí mezi skupinami vzorků Klasifikační pravidlo využívající genovou expresi Seznam prognostických genů Pathway analýza Úprava omicsových dat do podoby, kdy je možná derivace biomarkerů trvá podstatně déle než u jiných dat Data obsahují velké množství technického i biologického šumu, který je nutné odstranit Protože jedno spuštění přístroje obvykle není schopno analyzovat všechny vzorky, vytváří se nežádoucí matoucí efekty (efekty dávky), které je nutno odstranit Technologie jsou velice nové (a vznikají stále!) a algoritmy pro optimální zpracování jejich dat se vytvářejí a testují i 5-10 let - neexistují zlaté standardy a mnohé implementace jsou plné chyb Vědecké časopisy jsou (přesto) plné odpadu Podíl článků stažených z tisku se zvyšuje Za analyzovanou dekádu vzrostl počet článků pouze o 44%, počet retrakcí článků se zvýšil desetinásobně! Pouze 0.02% článků je staženo z tisku! Van Noorden, R. (2011) Science publishing: The trouble with retractions. Nature. 2011 Oct 5;478(7367):26-8. Důvody stažení publikací Analýza 2,047 stažených biomedicínských a přírodovědných vědeckých článků Nejčastější důvod: podvod (nebo podezření z podvodu): 43.4% 21.3% článků bylo staženo kvůli čestné chybě (honest error) Až 31.8% článků, které byly staženy zůstali neoznačeny Většina autorů své stažené články stále cituje... Adapted Figure 1 from Fang et al. (2012) Misconduct accounts for the majority of retracted scientific publications. PNAS 2012 Oct 16; 109(42):17028-170 Bylo analyzováno 180 primárních a 851 odvozených klinických studií, které byly provedeny na základě výzkumu ze stažených publikací. U 180 primárních studií bylo léčeno 9189 pacientů (z více než 28 tisíc) U 851 odvozených studií bylo léčeno 70 501 pacientů (z více než 400 tisíc) Studie, které byly staženy pro podvod, léčily statisticky významně více pacientů, než studie, které byly staženy pro chybu. Biomarkery z omicsových dat • Složené z více charakteristik (více genů, proteinů…) • Bez jasně definovaného biologického zdůvodnění Jsou často komplexní: • zatížených významným technickým šumem z různých zdrojů • analyzovaných metodami, které nejsou standardizované • které jsou pouze korelované s měřenou proměnnou (např. nejsou koncentrace ani počty molekul) • které jsou komplexní a obtížně se sdílejí Pocházejí z dat: Bez bioinformatika není biomarker! • Svět biomedicínského výzkumu se podstatně změnil • Hledání molekulárních biomarkerů se provádí ve vysoce specializovaných experimentech které produkují velká data • …. nikdo se neobejde bez bioinformatika!