Analýza genomických a proteomických dat Mgr. Eva Budinská, Ph.D. Jaro 2023 Technologie studující genomiku a proteomiku Mikročipy (microarrays) Průběh genomického experimentu 1. Příprava a provedení experimentu v laboratoři 2. Extrakce a úprava dat 3. Statistická analýza dát4. Biologická a klinická interpretace Technologie mikročipů • Mikročipy– biotechnologie simultánně srovnávající biologické objekty (molekuly, tkáně) na základě jejich imobilizace na jediný podklad do oblastí (spotů) které jsou pravidelně uspořádány do řádků a sloupců • Podklad: sklo, gel, parafin, ... • Mikročipy v genomice a proteomice: • DNA mikročipy • Proteinové mikročipy DNA mikročipy • Serie krátkých DNA sekvencí imobilizovaných rovnoměrně na podklad, používaná k detekci DNA nebo RNA (obvykle jako cDNA) ve vzorcích. • Využití • Měření změn v hladinách genové exprese (gene expression profiling, detekcia RNA - cDNA) - expresní mikročipy • detekce strukturních změn v genomu (SNPs- jednonukleotidové polymorfismy nebo změny v počtu kopií genů) – arrayCGH, SNP arrays • detekci vazebních míst proteinů na genomu (ChIP-on-chip) • detekci alternativního sestřihu (exon junction arrays) • přesná detekce neznámých a nepredikovaných transkriptů (tiling arrays) Sonda (probe) • Krátké sekvence DNA (oligonukleotidy) na mikročipu se nazývají sondy, anglicky probes • Každá oblast DNA (obvykle gen), kterou chceme zkoumat • Sondy jsou navrženy tak, aby byly pro daný gen / oblast co nejspecifičtější Základní princip 1. Fragmenty DNA / cDNA ze vzorku se spárují s komplementárními sondami na mikročipu a tím se mobilizují. 2. Imobilizované molekuly DNA, které byly dříve označeny fluorescenčním barvivem se pak dají detekovat pomocí UV skeneru a kvantifikovat tak množství mRNA / DNA s danou sekvencí přítomné ve vzorku. Postup mikročipového experimentu 1. Výroba mikročipového sklíčka 2. Příprava vzorků 3. Hybridizace 4. Skenování 5. Analýza obrazu (kvantifikace signálu, vznik expresních dat) Příprava čipu a vzorků Vznik dat Postup mikročipového experimentu 1. Výroba mikročipového sklíčka 2. Příprava vzorků 3. Hybridizace 4. Skenování 5. Analýza obrazu (kvantifikace signálu, vznik expresních dat) Příprava čipu a vzorků Vznik dat Princip výroby DNA mikročipu • Výroba sklíčka spočívá v připojení sond na podložné sklíčko do oblastí spotů • Dvě hlavní metody: • Spotting – sondy jsou syntetizované PŘED umístěním na microarray sklíčko, potom umístěné na sklíčko pomocí speciálního robota Spotovací robot J. Vallon-Christersson, Dept Oncology, Lund Univ. Princip spotování http://www.youtube.com/watch?v=Pjr1Oyc0KrY&feature=relate d Princip výroby DNA mikročipu • Výroba sklíčka spočívá v připojení sond na podložné sklíčko do oblastí spotů • Dvě hlavní metody: • Spotting – sondy jsou syntetizované PŘED umístěním na microarray sklíčko, potom umístěné na sklíčko pomocí speciálního robota • In-situ syntéza – sondy jsou syntetizované přímo na podklad, fotolitografickou syntézou • http://www.youtube.com/watch?v=ui4BOtwJEXs&feature=related • Spotting – u delších cDNA sekvencí • In-situ syntéza – pro krátké oligonukleotidy Typy sond • cDNA sondy - 500-5000 párů bazí dlouhé cDNA klony cílového genu nebo známé sekvence. Obvykle syntetizované před umístěním na microarray sklíčko pomocí spotovacího robota • Výhoda: jsou více specifické, a v případě úspěšné hybridizace s cílovou DNA můžeme téměř s jistotou říct, že se spojily právě s daným genem • Oligonukleotidové sondy – maximálně 25 párů bazí dlouhé sekvence, které jsou designované tak, aby odpovídaly jen částem sekvence známých kódujících genových ORF (open reading frames). Typ mikročipů dle typu sondy • Podle typu sondy rozlišujeme: • cDNA mikročipy – používají cDNAsondu • hybridizace závislá na délce sond • neznáme přesný počet klonů v každém spotu • hybridizaci nutno stanovit relativně (k referenci). Tato relativní informace je robustnější než absolutní informace o intenzitě každého spotu. Proto jsou tyto experimenty obvykle dvoukanálové (jeden kanál pro DNA, kterou zkoumáme, druhý kanál pro referenční DNA). • Oligonukleotidovémikročipy – oligonukleotidové sondy, obvykle syntetizované in- situ • známe přesný počet klonů • stejná délka sondy • není nutná reference, proto jsou jednokanálové (jeden vzorek na čip bez reference). Postup mikročipového experimentu 1. Výroba mikročipového sklíčka 2. Příprava vzorků 3. Hybridizace 4. Skenování 5. Analýza obrazu (kvantifikace signálu, vznik expresních dat) Příprava čipu a vzorků Vznik dat Příprava vzorků 1. Izolace DNA/RNA: molekuly které chceme zkoumat (DNA či mRNA) jsou extrahované ze vzorku. 2. Přepis a amplifikace: mRNA se přepisuje do cDNA a amplifikuje se pomocí RT-PCR. DNA zas pomocí PCR. mRNA A G C U RT-PCR A G C T cDNA DNA A G C T PCR A G C T DNA Příprava vzorků 3. Značení: Amplifikovaná DNA (cDNA) je obarvená fluorescenčním barvivem (nejčastěji Cy3 nebo Cy5). Toto s nazývá přímé označení. U nepřímého značení nejdříve skupina, většinou primární amin je inkorporovaná do cDNA a Cy3/Cy5 jsou potom inkorporované do cDNA při následné reakci. Postup mikročipového experimentu 1. Výroba mikročipového sklíčka 2. Příprava vzorků 3. Hybridizace 4. Skenování 5. Analýza obrazu (kvantifikace signálu, vznik expresních dat) Příprava čipu a vzorků Vznik dat Hybridizace DNA • DNA mikročipová technologie je založená na hybridizaci • Hybridizace je proces komplementárního párování dvou jednořetězcových nukleových kyselin do dvouřetězcové molekuly (duplexu) na základě párování bazí. Hybridizace na mikročipu 1. Fragmentovaná a namnožená cDNA(DNA) vzorku se nanese na mikročipové sklíčko,kde už jsou předem navázané jednořetězcové sondy. 2-. Zahřátím na určitou teplotu se zruší vodíkové vazby mezi řetězci a DNA vzorku se rozplétá na dva samostatné řetězce – tento proces nazýváme denaturace. 3. Teplotase zase sníží a jednořetězcové molekuly se snaží znovu spárovat se svými komplementárnímiřetězci 4. Nastává komplementární párování mezi: - původním párem DNA řetězců - DNA a sondou – vzniká hybrid 5. Sklíčko se nakonec omyje a zůstanou pouze hybridizované řetězce. Zdroj: http://pubs.rsc.org/en/content/articlehtml/2008/mb/b713259j Vznik a vlastnosti mikročipových dat Postup mikročipového experimentu 1. Výroba mikročipového sklíčka 2. Příprava vzorků 3. Hybridizace 4. Skenování 5. Analýza obrazu (kvantifikace signálu, vznik expresních dat) Příprava čipu a vzorků Vznik dat Vznik a charakter dat Každá technologie má svůj vlastní způsob kvantifikace signálu (teda proměny signálu na čísla – data). Mnohé principy jsou společné. 1. Fluorescenčnísignál je excitován s pomocí laseru 2. Elektrony jsou zachycené mikroskopem přes filtry do obrazu 3. Tyto obrazová data se kvantifikují Vznik a vlastnosti mikročipových dat -> cDNA mikročipy F. Analýza obrazu (snímání intenzit jednotlivých kanálů) Datový soubor: tisíce řádků (genů) X desítky sloupců - číselné hodnoty intenzit testované a referenční RNA (+ hodnoty pozadí... ) - kontrola kvality spotů - ... spot Další analýza 1. úpravy datového souboru 2. určení odlišných genů 3. klasifikace, predikce.... Jak získáváme základní data z cDNA Dvoukanálové skenování Po hybridizaci vkládáme sklíčko do skeneru abychom vytvořili obrázek mikročipu.  Vyšší frekvence, více energie  Nižší frekvence, méně energie Ozáření „zelená“ vlnová délka fluorescence Překrytí obrazů „červená“ vlnová délka Vlnová délka (, nm) Excitační a emisní spektra Cy3 a Cy5 Analýza obrazu Kroky kvantifikace: 1. Lokalizace center spotů Automaticky pomocí grid (síťky), a manuální úpravou 2. Segmentace Klasifikace spotů, odlišené intenzity pozadí od popředí (pomocí kruhů, etc...). 3. Kvantifikace signálu V popředí i v pozadí spotu Terry Speed et al. Po skenování se uloží obrázek mikročipového sklíčka ve formátu .tiff, který se vloží do programu pro analýzu obrazu. Následuje kvantifikace signálu. Lokalizace center spotů Terry Speed et al. Automaticky pomocí speciálního souboru grid (od výrobců mikročipu), který obsahuje informaci o: • Počtu a umístění spotů na mikročipu • Průměru spotů v pixelech Segmentace ▪ V tomto kroku jsou programem pro analýzu obrazu rozpoznávané oblasti spotů a pozadí ▪ Nastavení velikosti a pozice spotů – probíhá nejprve automaticky ▪ Obvykle nutná vizuální inspekce a další přizpůsobení ručně ▪ Navíc – nutné manuální označování špatných, případně prázdných spotů ▪ Nejčastější algoritmy vyhledávání spotů: ▪ Fixed circles ▪ Adaptive circles ▪ Histogram adaptive ▪ Různé programy různě definují pozadí spotu GenePix QuantArray ScanAlyse Kvantifikace signálu ▪ V této fázi se kvantifikuje signál spotu, používají se různé charakteristiky (průměr, medián, modus, kvantily) Průměr Medián Modus 75% kvantil Logaritmus intensity signálu v pixelech spotu Kvantifikace signálu pozadí GenePix QuantArray ScanAlyse • Tři druhy metod: 1. Lokální metoda(local background) 2. Morfologické otevření (morphological opening) 3. Konstantní/globálnímetoda (constant/global background) Vizualizace oblastí lokálního odhadu intenzity pozadí u tří různých programů analýzy obrazu cDNA mikročipu Kvantifikace signálu pozadí 2. Čtvercový element Nový obraz s odhadnutým signálem pozadí Schematické znázornění Center spotů, ze kterých je odhadnutý signál pozadí pro spot • Tři druhy metod: 1. Lokální metoda (local background) 2. Morfologické otevření (morphological opening) 3. Konstantní/globálnímetoda (constant/global background) Kvantifikace signálu pozadí 3. • Tři druhy metod: 1. Lokální metoda (local background) 2. Morfologické otevření (morphological opening) 3. Konstantní/globální metoda (constant/global background) Signál je odhadnutý jako jediná hodnota pro všechny spoty: • Jako průměr intenzit signálů negativních kontrol (sondy jiného organismu, které by neměly hybridizovat se vzorkem) • Nebo jako 3% kvantil rozdělení signálu všech spotů Kontrola kvality spotů I. • Po dobu kvantifikace intenzit probíhá ještě inspekce kvality spotů na základě parametrů zadaných do algoritmu • I po kvantifikaci je možné manuálně označit spoty, které považujeme za nekvalitní • Spotům, které neprojdou kontrolou kvality je přiřazená příslušná hodnota v proměnné Flags: • Např. • 100 ~ good ; • -100 ~ bad ; • -75 ~ absent; • -50 ~ not found; • 0 ~ unflagged; Source: http://probes.invitrogen.com/lit/catalog/2/images/g002230.gif Kontrola kvality spotů II. Charakteristiky kontroly kvality: • Velikost a tvar spotu • Příliš malé spoty neposkytují věrohodné odhady intensity hybridizace (Simon et al., 2003) (spoty menší než < 25 pixelů by měly být odstraněné) • Spoty s nepravidelným tvarem, případně "koblihové spoty" by měly být označené jako nekvalitní • Intensitasignálu • Spoty s příliš malou intenzitou signálu v obou kanálech • log2(610/590) = 0.048, ale log2(30/10) = 1.58 • Poměr signál/šum by měl být dostatečně velký • Nasycení (saturace) spotu • Spoty by neměly obsahovat nasycené pixely! Kontrola kvality spotů III. Příklady nekvalitních spotů (A-C) v porovnání s ideálním spotem (D) A) nasycený (saturovaný) spot, B) koblihový spot, C) spot s nepravidelnou strukturou, D) dobrý spot Ukázka základních cDNA mikročipových dat Data z jednoho cDNAmikročipového sklíčka Po kvantifikaci a kontrole získáváme základní datový soubor. Základní datový soubor Obsahuje (příklad GenePix 6.0) • Pozice spotu • Jméno a další identifikátory sondy na spotu • Další charakteristiky spotu: (průměr, tvar, cirkularita, saturace, ...) • Informace o intenzitě signálu pozadí, popředí (medián, průměr, suma, SD) • Počet saturovaných pixelů • Odvozené charakteristiky • i) % pixelů signálu s intenzitami většími než 1SD (2SD) intenzity pozadí • ii) intenzita signálu mínus intenzita pozadí • iii) poměr mediánů/průměrů obou kanálů • iv) logaritmus báze 2 tohoto poměru • Informace o kvalitě spotu • Proměnnou Flags Základní data • Data v základním souboru NEJSOU koncentrace mRNA! • Hodnoty získané z microarray experimentu jsou pozitivně korelované s množstvím přítomné mRNA, ale navíc v sobě nesou ŠUM, související s: • Kontaminací tkaniva • RNA degradací • Efektivitou • amplifikace DNA • reverzní transkripce • hybridizace a specificitou sond • Výběrem a identifikací sond • PCR výsledkem • NUTNÁ KONTROLAKVALITYA ÚPRAVA DAT • Efektivitou spotování • Dalšími technickými vlivy při zpracování • Segmentací obrazu • Kvantifikací signálu • Korekcí na pozadí Podívejme se na reálná data! V učebních materiálech k předmětu naleznete soubor cDNApriklad.zip Soubor stáhněte a rozbalte. Struktura adresáře: raw/ cDNA.R E-GEOD-45596.idf.txt E-GEOD-45596.sdrf.txt SampleInfo.txt Vyberte jeden ze souborů z adresáře raw/ a otevřete ho v EXCELu GSM1110303_Texas_Tech_251485034901_S01_GE2-v5_91_0806_1_1.txt GSM1110304_Texas_Tech_251485036824_S01_GE2-v5_91_0806_1_1.txt GSM1110305_Texas_Tech_251485034901_S01_GE2-v5_91_0806_1_2.txt GSM1110306_Texas_Tech_251485036824_S01_GE2-v5_91_0806_1_2.txt ...