Kapitola II Technologie studující genomiku a proteomiku M i kročipy (microarrays) MU f Výuka IBA Průběh genomického experimentu 1. Příprava a provedení experimentu 2. Extrakce a úprava dat v laboratoři | .... :,- i^r^m. Chi 4. Biologická a klinická interpretace Cytotoxic T Lymphocyte Oxidative signal DN A N«č ks ChrärTrttfn sCruclura. ONA repair, trnnscriplional regulation □NA *\ Fragmentation 3. Statistická analýza dát H -í ď o íl brät íirŕŕ by Hw TirrrSciCTi P,' r*ran md Mitrv - ■- É.l- H-I....I. O IHMI»|IS5 »fr. ■^■COTOTIIII — Bi>Jrt<.';iíP?iii*rf™ ■ (iJ MIMř" IM! ^*í. nm Tree Control I Gene Lisi Control Technika mikročipů Mikročipy- biotechnologie simultánne srovnávající biologické objekty (molekuly, tkanivá) na základě jejich imobilizace na jediný podklad do oblastí (spotů) které jsou pravidelně uspořádány do řádků a sloupců Podklad: sklo, gel, parafin, kročipy v genomice a proteomice CDNAmi Proteinové mikročipy Kapitola II.1 Princip a rozdělení DNA mikročipů Výuka IBA DNA mikročipy ■ Séria krátkych DNA sekvencií imobilizovaných rovnomerne na podklad, používaná na detekciu DNA alebo RNA (obvykle vo forme cDNA) vo vzorkách. Najčastejšie aplikovaná na: ■ meranie zmien v hladinách génovej expresie (gene expression profiling, detekcia RNA - cDNA) - expresné arraye ■ detekciu štruktúrnych zmien genómu (SNPs-jednonukleotidové polymorfizmy alebo zmeny v počte kópií génov) - arrayCGH, SNP arrays ■ Taktiež sa úspešne používa na detekciu väzbových miest proteínov na genóme (ChlP-on-chip), detekciu alternatívneho zostrihu (exon junction arrays) a takisto na presnú detekciu neznámych a nepredikovaných transkriptov alebo alternatívnych foriem zostrihu (tiling arrays) MU IBA Sonda (probe) Krátke DNA sekvencie (oligonukleotidy) na microarray sklíčku sa nazývajú sondy, anglicky probes Každá oblasť DNA (obvykle gén), ktorú chceme skúmať Sondy sú navrhnuté tak, aby boli pre daný gén/oblasť čo najšpecifickejšie Microarray slide oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo 00000000000 OOOOOOOCOOO oooooooqooo OOOOOoocnno ooooooooopo 0000000001 ooooooooooo" ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo Short one-stranded DNA sequences {probes) spot M— IBA Základný princíp Fragmenty DNA/cDNA zo vzorky sa spárujú s komplementárnymi sondami na microarray sklíčku a tým sa imobilizujú. Imobilizované molekuly DNA, ktoré boli predtým označené fluorescenčným farbivom sa potom dajú detekovať pomocou UV skenera a kvantifikovat tak množstvo mRNA/DNA s danou sekvenciou prítomnej vo vz A.DNAlsolation D.Madns ^ Sample ,\ ? H O Samplt U > A B. Labeling of probe Ť Mikročipy mu A_ IBA Postup mikročipového experimentu 1. Výroba mikročipového sklíčka 2. Příprava VZOrkU Příprava čipu a vzorků 3. Hybridizace 4. Skenování vznik dat 5. Analýza obrazu (kvantifikace signálu, vznik expresních dat) mu M_ IBA Postup mikročipového experimentu 1. Výroba mikročipového sklíčka 2 Příprava čipu a vzorku 3 4. Skenovain vznik dat 5 Anslvzs obľ3zu fkvsntifikscp sinnáilij \iv mu M_ IBA Princip výroby DNA mikročipu ■ Výroba sklíčka spočívá v připojení sond na podložné sklíčko do oblastí spotů Dvě hlavní metody: ■ Spott/ng- sondy jsou syntetizované PŘED umístěním na microarray sklíčko, potom umístěné na sklíčko pomocí speciálního robota MU M— IBA Spotovaci robot ml A_ IB A Princip spotování BA Princip výroby DNA mikročipu ■ Výroba sklíčka spočívá v připojení sond na podložné sklíčko do oblastí spotů ■ Dvě hlavní metody: ■ Spotting- sondy jsou syntetizované PŘED umístěním na microarray sklíčko, potom umístěné na sklíčko pomocí speciálního robota ■ In-situ syntéza - sondy jsou syntetizované přímo na podklad, fotolitografickou syntézou http://www.youtube.com/watch?v=ui4BOtwJEXs&feature=r elated Spotting - u delších cDNA sekvencí In-situ syntéza - pro krátke oligonukleotidy M— IBA Typy sond cDNA sondy - 500-5000 párů bazí dlouhé cDNA klony cílového genu nebo známé sekvence. Obvykle syntetizované před umístěním na microarray sklíčko pomocí spotovacího robota ■ Výhoda: jsou více specifické, a v prípade uspesne hybridizace s cílovou DNA můžeme téměř s jistotou říct, že se spojily právě s daným genem Oligonukleotidové sondy - maximálně 25 párů bazí dlouhé sekvence, které jsou designované tak, aby odpovídaly jen částem sekvence známých kódujících genových ORF (open reading frames) i/z / mRNA referenční sekvence 3' Referenční sekvence ...TGTGATGGTGGGAATGGGTCAGA A|G T TACCCAGT CT T T TACCCAGTCT TG páry DNA sond GACTCCTATGTGGGTGACGAGGCC... CTGAGGATACAC Sonda perfektní shody CT GAG G ATAC AC Sonda s jiným nukleotidem Obraz fluorescenční intenzity / Sonda perfektní shody Sonda s jiným nukleotidem M— IBA Typ mikročipů dle typu sondy ■ Podle typu sondy rozlišujeme: ■ cDNA mikročipy - používají cDNA sondu - hybridizace závislá na délce sond - neznáme přesný počet klonů v každém spotu Hybridizaci nutno stanovit relativně (k referenci). Tato relativní informace je robustnější než absolutní informace o intenzitě každého spotu. Proto jsou tyto experimenty obvykle dvoukanálové (jeden kanál pro DNA, kterou zkoumáme, druhý kanál pro referenční DNA). ■ Oligonukleotidové mikročipy - oligonukleotidové sondy, obvykle syntetizované in-situ - známe přesný počet klonů - stejná délka sondy Není nutná reference, proto jsou jednokanálové (jeden vzorek na čip bez reference). MU M— IBA Postup mikročipového experimentu 1. Výroba mikročipového sklíčka 2 Příprava čipu a vzorku 3 4. Skenovain vznik dat 5 Anslvzs obľ3zu fkvsntifikscp sinnáilij \iv mu M_ IBA Příprava vzorků Izolace DNA/RNA: molekuly které chceme zkoumat (DNA či mRNA) jsou extrahované ze vzorku. Přepis a amplifikace: mRNA se přepisuje do cDNA a amplifikuje se pomocí RT-PCR. DNA zas pomocí PCR. Příprava vzorků: 3. značení 3. Značení: Amplifikovaná DNA (cDNA) je obarvená fluorescenčním barvivem (nejčastěji Cy3 nebo Cy5). Toto s nazývá přímé označení. U nepřímého značení nejdříve skupina, většinou primární amin je inkorporovaná do cDNA a Cy3/Cy5 jsou potom inkorporované do cDNA při následné reakci. Control I 5' i AAAAAAAA Oligoďľ primer -AAAAAAAA Reverse Transcriptase Cy3-labeJeddCTP 35/ywyv\j^^ Cy3 Cy3 Cy3 Q£ AAAAAAAA TTTTTTTTT 1 Degrade mRNA 3' /ywyvyvvyvN Tttttt ttt Cy3 Cy3 Cy3 Cy3 Test 1 AAAAAAAA J OligodT primer 5" NH, NH, NU, NH2 i r/ywyvyvvYVN NH NU NH NH I I I I Cy5 Cy5 Cy5 Cy5 . AAAAAAAA TTTTTTTTT Reverse Transcriptase. aa-dUTP AAAAAAAA Degrade mRNA. Add N-hydimysuccinimide-Cy5 TTTTTTTTT M— IBA Postup mikročipového experimentu 1. Výroba mikročipového sklíčka 2. Příprava vzorku 3. Hybridizace 4. Skenování 5. Analýza obrazu 6. Kvantifikace obrázku na hodnoty exprese mu M_ IBA Hybridizace DNA DNA Is denatured by heating [to) (c) Dlí A G A CT G C AU DNA/RNA byli ríd 5' Ren at u rat la n on cooling 5ŕ Hybridization (d) RKA strand DNA Strand DNA mikročipová technologie je založená na hybrid izaci Hybridizace je proces komplementárního párování dvou jednořetězcových nukleových kyselin do dvouřetězcové molekuly (duplexu) na základě párování bazí. M— IBA Hybridizace na mikročipu 1. Fragmentovaná a namnožená cDNA(DNA) vzorku se vylije na microarray sklíčko, kde už jsou navázané jednořetězcové sondy. 2-. Zahřátím na určitou teplotu se zruší vodíkové vazby mezi řetězci a DNA vzorku se rozplétá na dva samostatné řetězce - tento proces nazýváme denaturace. 3. Teplota se zase sníží a jednořetězcové molekuly se snaží znovu spárovat se svými komplementárními řetězci 4. Nastává komplementární párování n - původním párem DNA řetězců - DNA a sondou - vzniká hybrid 1. Two-digcmuclecitides wilh different sequences are immobilized tin a DNA chip. 2. H^briůizatic-n of (he fluarophone-laUeiieu ONA with, me Immobilized oligonucleotides. 5. Sklíčko se nakonec omyje a zůstano pouze hybridizované řetězce. 5. FluorůĎtůntů detection úf the hybrid oři the chip surface. 3. One oligonudlEolidE is petfeclly hound while Ihe other forms a mispair. I 4. Strinfletf wash of ľie -chip. Zdroj: http://pubs.rsc.org/en/content/articlehtml/2008/mb/b713259j IBA Kapitola II.1 Vznik a charakter dat Výuka IBA Postup mikročipového experimentu 1. Výroba mikročipového sklíčka 2. Příprava VZOrkU Příprava čipu a vzorků 3 4. Skenovani vznik dat 5. Analýza obrazu (kvantifikace signálu, vznik expresních dat) mu A_ IBA Vznik a charakter dat Každá technologie má svůj vlastní způsob kvantifikace signálu (teda proměny signálu na čísla - data). Mnohé principy jsou společné. 1. Fluorescenční signál je excitován s pomoci laseru 2. Elektrony jsou zachycené mikroskopem přes filtry do obrazu 3. Tyto obrazová data se kvantifikují MU IBA Kapitola II.1.1 Vznik a charakter dat -> cDNA mikročipy MU Výuka IBA Jak získáváme základní data z cDNA A, RNA Isolation ŕijmpk II B. cDNA Generation C. Labeling of Probe Rŕvŕrsí; TmnK-riptuse t I V FluoKserj: í \ f Tm* | % t. S S 'V D. Hybridization to Array spot E. Imaging Sample A> tí S;L«l|>lŕ B > A Vim A = lí o o • o o o o o • • 1 • F. Analýza obrazu (snímání intenzit jednotlivých kanálů) Datový soubor: tisíce řádků (genů) X desítky sloupců - číselné hodnoty intenzit testované a referenční RNA (+ hodnoty pozadí... ) kontrola kvality spotů Další analýza 1. úpravy datového souboru 2. určení odlišných genů 3. klasifikace, predikce... IBA Dvoukanálové skenování Po hybridizaci vkládáme sklíčko do skeneru abychom vytvořili obrázek mikročipu. Ozáření Excitační a emisní spektra Cy3 a Cy5 EDD Vlnová délka (X, nm) „zelená " vlnová délka „červena vlnová délka Vyšší frekvence, více energie Nižší frekvence, méně energie \ / Překrytí obrazů \ / ÍBA Analýza obrazu Po skenování se uloží obrázek mikročipového sklíčka ve formátu .tiff, který se vloží do programu pro analýzu obrazu Následuje kvantifikace signálu. Kroky kvantifikace: 1. Lokalizace center spotů Automaticky pomocí grid (síťky), a manuální úpravou 2. Segmentace Klasifikace spotů, odlišené intenzity pozadí od popředí (pomocí kruhů, etc...). 3. Kvantifikace signálu V popředí i v pozadí spotu iBň Lokalizace center spotů Automaticky pomocí speciálního souboru grid (od výrobců mikročipu), který obsahuje informaci o: Poctu a umístěni spotu na mikrocipu| Průměru spotů v pixelech Segmentace V tomto kroku jsou programem pro analýzu obrazu rozpoznávané oblasti spotů a pozadí Nastavení velikosti a pozice spotů - probíhá nejprve automaticky Obvykle nutná vizuální inspekce a další přizpůsobení ručně Navíc - nutne manuálni označovaní spatných, pripadne prázdných spotů Nejčastější algoritmy vyhledávání spc ■ Fixed circles ■ Adaptive circles ■ Histogram adaptive Různé programy různě definují pozadí spo| GenePix QuantArray ScanAlyse IBA Kvantifikace signálu V této fázi se kvantifikuje signál spotu, používají se různé charakteristiky (průměr, medián, modus, kvantily) 0 1 o o OJ o □ 6 o ■10 Logaritmus intensity signálu v pixelech spotu Průměr Medián Modus 75% kvantil M— IBA Kvantifikace signálu pozadí Tri druhy metod: 1. Lokální metoda (local background) 2. Morfologické otevření (morphological opening) 3. Konstantní/globální metoda (constant/global background) GenePix QuantArray ScanAlyse Vizualizace oblastí lokálního odhadu intenzity pozadí u tří různých programů analýzy obrazu cDNA mikročipu MU *_ IBA Kvantifikace signálu pozadí 2. Tri druhy metod: 1. Lokální metoda (local background) 2. Morfologické otevření (morphological opening) 3. Konstantní/globální metoda (constant/global background) Čtvercový element Nový obraz Schematické znázornění s odhadnutým Center spotů, ze kterých signálem pozadí je odhadnutý signál pozadí pro spot MU M— IBA Kvantifikace signálu pozadí 3. Tri druhy metod: 1. Lokální metoda (local background) 2. Morfologické otevření (morphological opening) 3. Konstantní/globální metoda (constant/global background) Signál je odhadnutý jako jediná hodnota pro všechny spoty: ■ Jako průměr intenzit signálů negativních kontrol (sondy jiného organismu, které by neměly hybridizovat se vzorkem) ■ Nebo jako 3% kvantil rozdělení signálu všech spotů MU M— IBA Kontrola kvality spotů I. Po dobu kvantifikace intenzit probíhá ještě inspekce kvality spotů na základě parametrů zadaných do algoritmu I po kvantifikaci je možné manuálně označit spoty, které považujeme za nekvalitní Spotem, které neprojdou kontrolou kvality je přiřazená příslušná hodnota v proměnné Flags: Např. ■ 100 - good ; ■ -100 ~ bad ; ■ -75 - absent; ■ -50 - not found; ■ 0 - unflagged; Mil M— IBA Kontrola kvality spotů Charakteristiky kontroly kvality: ■ Velikost a tvar spotu ■ Príliš malé spoty neposkytují věrohodné odhady intensity hybridizace (Simon et al., 2003) (spoty menší než < 25 pixelů by měly být odstraněné) ■ Spoty s nepravidelným tvarem, případně "koblihové spoty by měly být označené jako nekvalitní ■ Intenzita signálu ■ Spoty s příliš malou intenzitou signálu v obou kanálech ■ Iog2(610/590) = 0.048, ale Iog2(30/10) = 1.58 ■ Poměr signál/šum by měl být dostatečně ■ Nasycení (saturace) spotu ■ Spoty by neměly obsahovat nasycené pix< Source: http://probes.invitrogen.eom/lit/catalog/2/images/g002 230.gif §SA Kontrola kvality spotů Príklady nekvalitních spotů (A-C) v porovnání s ideálním spotem (D) A) nasycený (saturovaný) spot, B) koblihový spot, C) spot s nepravidelnou strukturou, D) dobrý spot IBA Ukázka základních cDNA _mikročipových dat_ Po kvantifikaci a kontrole získáváme základní datový soubor. Data z jednoho cDNA mikročipovéhp sklíčka A B C D E F G H i J K t M ft 1 Unique position ID Chromosome Mb positio SES end Plate info Block Column Row Name X Y Dia. 2 44 RP11-195a8 1 37581779 37726637 NKI2C1 26 11 19 44 8600 35890 •Kljl 3 44 RP11-195a8 1 37581779 37726637 NKI2C1 26 10 19 44 8370 35890 140 4 44 RP11-195a8 1 37581779 37726637 NKI2C1 26 12 19 44 8820 35890 140 5 102 RP11-124d4 1 87374825 87558032 NKI2B12 4 7 19 102 16600 8970 120 6 102 RP11-124d4 1 87374825 87558032 NKI2B12 4 9 19 102 17060 8970 130 T_ 102 RP11-124d4 1 87374825 87558032 NKI2B12 41 8 19 102 16830 8970 120 8 154 RP11-145H4 1 1.52E-KB 1.52E-KJG NKI2G5 26 11 20 154 8600 36110 150 9 154 RP11-145H4 1 1.52E-KB 1.52E-KJG NKI2G5 26 13 20 154 9040 36110 140 10 154 RP11-145H4 1 1.52E-KB 1.52E-KB NKI2G5 26 12 20 154 8820 36110 150 11 187 RP11-1122M 1 1.83E-KB 1.83E-KJ8 NKI2F10 20 7 20 187 16690 27120 130 12 187 RP11-1122M 1 1.83E-KB 1.83E-KJ8 NKI2F10 20 6 20 187 16460 27120 130 13 187 RP11-1122M 1 1.83E-KB 1.83E-KJ8 NKI2F10 20 5 20 187 16240 27120 130 14 196 RP11-6618 1 1.89E-KB 1.9E-KJ8 NKI2C2 18 10 19 196 8330 26880 130 15 196 RP11-6618 1 1.89E-KB 1.9E-KJ8 NKI2C2 18 11 19 196 8560 26890 130 16 196 RP11-6618 1 1.89E-KB 1.9E-KB NKI2C2 18 12 19 196 8780 26880 130 17 236 RP11-845b6 1 2.27E4CI8 2.27E-KJ8 NKI2C3 10 10 19 236 8330 17960 140 18 236 RP11-845b6 1 2.27E+CI8 2.27E-KJB NKI2C3 10 10 19 236 8330 17960 140 19 236 RP11-845b6 1 2.27E-KB 2.27E-KJB NKI2C3 10 12 19 236 87B0 17960 150 20 236 RP11-845b6 1 2.27E-KB 2.27E-KJB NKI2C3 10 12 19 236 87B0 17960 150 21 236 RP11-845b6 1 2.27E-KB 2.27E-KJB NKI2C3 10 11 19 236 B550 17960 140 22 236 RP11-845b6 1 2.27E+08 2.27E-KJB NKI2C3 10 11 19 236 B550 17960 140 23 320 RP11-1084a2 2 47485695 47697380 NKI1F10 24 7 20 320 16660 31610 130 24 320 RP11-1084a2 2 47485695 47697380 NKI1F10 24 6 20 320 16440 31610 130 25 320 RP11-1084a2 2 47485695 47697380 NKI1F10 24 5 20 320 16220 31610 130 26 323 RP11-460n15 2 47854784 48034160 NKI2H8 4 12 20 323 17720 9190 130 27 323 RP11-460n15 2 47854784 48034160 NKI2H8 4 11 20 323 17500 9190 130 28 323 RP11-460n15 2 47854784 48034160 NKI2H8 4 13 20 323 17940 9190 130 29 324 RP11-3g11 2 47946940 48102089 NKI2H7 12 11 20 324 17540 18150 130 30 324 RP11-3g11 2 47946940 48102089 NKI2H7 12 12 20 324 17760 18160 140 31 324 RP11-3g11 2 47946940 48102089 NKI2H7 12 13 20 324 17990 18160 140 32 361 RP11-232J18 2 71372264 71537932 NKI1F4 8 20 19 361 19530 13430 130 33 361 RP11-232J18 2 71372264 71537932 NKI1F4 8 1 20 361 15250 13660 130 34 361 RP11-232Í18 ? 7137??fi4 71537932 NKI1F4 8 19 =11 361 19290 13430 i3p_d H i ► n[\Nossek results vyradene komplet/ hi 1 Jjj IBA Podívejme se na reálná data!_ V učebních materiálech k předmětu naleznete soubor cDNApriklad.zi Soubor stáhneme a rozbalíme. Struktura adresáře: raw/ cDNA.R E-GE0D-45596.idf.txt E-GE0D-45596.sdrf.txt Samplelnfo.txt Vyberte jeden ze souborů nachádzejících se v adresáři raw/ a otevřete v EXCELu GSM1110303_Texas_Tech_251485034901_S01_GE2-v5_91_0806_l_l.txt GSM1110304_Texas_Tech_251485036824_S01_GE2-v5_91_0806_l_l.txt GSM1110305_Texas_Tech_251485034901_S01_GE2-v5_91_0806_l_2.txt GSM1110306_Texas_Tech_251485036824_S01_GE2-v5_91_0806_l_2.txt MU 1ĚA Základní datový soubor Obsahuje (příklad GenePix 6.0) ■ Pozice spotu ■ Jméno a další identifikátory sondy na spotu ■ Další charakteristiky spotu: (průměr, tvar, cirkularita, saturace, ...) ■ Informace o intenzitě signálu pozadí, popředí (medián, průměr, suma, SD) ■ Počet saturovaných pixelů ■ Odvozené charakteristiky i) % pixelů signálu s intenzitami většími než 1SD (2SD) intenzity pozadí ii) intenzita signálu mínus intenzita pozadí iii) poměr mediánů/průměrů obou kanálů iv) logaritmus báze 2 tohoto poměru ■ Informace o kvalitě spotu mi ■ Proměnnou Flags Základní data Data v základním souboru NEJSOU koncentrace mRNA! Hodnoty získané z microarray experimentu jsou pozitivně korelované s množstvím přítomné mRNA, ale navíc v sobě nesou ŠUM, související s: ■ Efektivitou spotování Kontaminací tkaniva „ ^ ,v, . , , . , , . ,. ■ Dalšími technickými vlivy pn RNA degradací zpracování Efektlvltou ■ Segmentací obrazu ■ amplifikace DNA ■ Kvantifikaci signálu ■ reverzní transkripce ■ Korekci na pozadí ■ hybridizace a specificitou sond Výběrem a identifikací sond PCR výsledkem NUTNÁ KONTROLA KVALITY A ÚPRAVA DAT Podívejme se na reálná data! V učebních materiálech k předmětu naleznete soubor cDNApriklad.zip Soubor stáhneme a rozbalíme. Struktura adresáře: raw/ CDNA.R E-GE0D-45596.idf.txt E-GE0D-45596.sdrf.txt Samplelnfo.txt Vyberte jeden ze souborů nachádzejících se v adresáři raw/ a otevřete ho v EXCELu GSM1110303_Texas_Tech_251485034901_S01_GE2-v5_91_0806_l_l.txt GSM1110304_Texas_Tech_251485036824_S01_GE2-v5_91_0806_l_l.txt GSM1110305_Texas_Tech_251485034901_S01_GE2-v5_91_0806_l_2.txt GSM1110306 Texas Tech 251485036824 S01 GE2-V5 91 0806 1 2.txt Úrovne kontroly kvality Úroveň mikročipu (zá kla d n í d a tová ma ti c e) _\_ í \ Kvalita sondy Kvalita mikročipi o Úroveň experimentu (finálnídatová matice) Kvalita experimentu "C "C t: TJ Mikročipy 1 ... n Úroveň sondy: Kvalita jednoho spotu na mikročipu Úroveň mikročipu: Kvalita celého mikročipu Úroveň experimentu: Kvalita měření transkriptu všech mikročipu v experimentu IBA Úrovne úpravy datových souborů Úroveň mikročipu (zá kia d n í d a to v á ma ti c e) f 1 1 Kvalita sondy Kvalita mikročipi Kvalita experimentu Odstranění nekvalitních spotů Sumarizace duplikátů Normalizace uvnitř mikročipu Úroveň experimentu (finálnídatová matice) Normalizace mezi mikročipy m i m uLi \jy jt TT Úroveň sondy: Kvalita jednoho spotu na mikročipu Úroveň mikročipu: Kvalita celého mikročipu Úroveň experimentu: Kvalita měření transkriptu všech mikročipu v experimentu M— IBA Úrovne úpravy datových souborů Úroveň mikročipu (zá kia d n í d a to v á ma ti c e) f 1 1 Kvalita sondy Kvalita mikročipi Kvalita experimentu Odstranění nekvalitních spotů Sumarizace duplikátů Normalizace uvnitř mikročipu Úroveň experimentu (finálnídatová matice) Normalizace mezi mikročipy m i m uLi \jy jt TT Úroveň sondy: Kvalita jednoho spotu na mikročipu Úroveň mikročipu: Kvalita celého mikročipu Úroveň experimentu: Kvalita měření transkriptu všech mikročipu v experimentu M— IBA Kontrola dat v rámci mikročipového sklíčka ■ Replikáty sond ■ Sumární statistiky replikátů spotů (nekvalitní spoty už vyloučené) Replicate ^ en N9r 0f nC mean median SD flagget re pi feat i clone 1 2 3 A_23_P347643 -0.186 -0.265 -0.313 -0.254 -0.265 0.052 3 A_23_P60243 0.523 flagged flagged 0.523 0.523 0 1 A_23_P116057 0.039 -0.978 flagged -0.495 -0.495 0.5 2 A 23 P203743 -0.614 0.537 1.589 0.504 0.537 0.899 3 ■ Buďodstranit sondy s príliš velkou variabilitou mezi replikáty... - ...nebo si uschovat informaci o počtu validních replikátů (a vyhodit klony jen s jedním replikátem) Kvalita mikročipového sklíčka - Procento nekvalitních spotů nesmí být příliš velké (<25 %) ■ Systematické odchylky odstraníme procesem NORMALIZACE Úrovne úpravy datových souborů Úroveň mikročipu (zá kia d n í d a to v á ma ti c e) f 1 1 Kvalita sondy Kvalita mikročipi Kvalita experimentu Odstranění nekvalitních spotů Sumarizace duplikátů Normalizace uvnitř mikročipu Úroveň experimentu (finálnídatová matice) Normalizace mezi mikročipy m i m uLi \jy jt TT Úroveň sondy: Kvalita jednoho spotu na mikročipu Úroveň mikročipu: Kvalita celého mikročipu Úroveň experimentu: Kvalita měření transkriptu všech mikročipu v experimentu IBA Systematické odchylky uvnitř mikročipu Nerovnoměrná hybridizace (prostorové odchylky) ■ Pncina: nerovnomerne umyty cíp, nerovnomerne distribuovaný vzorek, print-tip efekt (defektní jehla) Signál pozadí ■ Může být velmi silný, buďšpatně umytý čip, nebo špatná segmentace (část popředí je kvantifikovaná jako pozadí) Efekt barviva (rozdíly intenzit mezi kanály) ■ Příčina: odlišná schopnost inkorporace molekul barviva (Cy3, Cy5) odlišná reakce na excitaci (slabší intenzita UV, ...) ODHALUJEME GRAFICKOU REPREZENTACÍ DAT Diagnostika nerovnoměrné hybridizace Virtuální rekonstrukce mikročipu, vykreslení heatmapy log2 poměru Cy5/Cy3 intenzit na základě jejich pozice na sklíčku Color Key -2-10 1 Value Box-ploty jednotlivých oblastí (najčastejší print-tip) A) n - CD CĽ "-Ti 8* o — i 1 Tí Ů A ' M I .1 i I I 1 3 5 I ľ ľ I I 9 Print lip I í I I i E 11 13 15 Diagnostika efektu barviva Často je efekt barviva větší u sond s nízkou expresí n UJ Graf intensit kanálu 2000 4000 6000 0000 T 10000 Cy5 Cy3 = B0 + Bl*Cy5 (Cy3-B0)/Bl=Cy5' Neukáže nelineární trendy MA graf ~~r 4 10 = log (R/G) A = 1/2 (log(R) + log(G)) Ukáže nelineární trendy! ISA Cvičení! ■ Budeme pracovat v programu R-Studio ■ 10 minutový krátký úvod do R - SW pro analýzu dat ■ Ukážeme si jak instalovat baliky pro specifické analýzy genomických a proteomických dat ■ Na příkladových datech uděláme diagnostiku kvality sklička MU IBA Balík marray ■ Balík marray poskytuje sadu funkcí pro analýzu cDNA čipu Instalace': source(" http://www.bioconductor.org/biocLite. R") biocLite("marray") ■ Základní strukturou, s kterou pracuje a která obsahuje základní data všech matic experimentu je třída marrayRaw new(1marrayRaw1, maRf = # matice intensit spotů červeného kanálu maGf = # matice intensit spotů zeleného kanálu maRb = ...., # matice intensit pozadí červeného kanálu maGb = . . . ., # matice intensit pozadí zeleného kanálu maLayout = # objekt třídy marrayLayout, popis mikročipu maGnames = # objekt třídy marraylnfo, popis sond maTargets = # objekt třídy marraylnfo, popis vzorků maNotes = ...., # text - poznámky ) MU IBA Další objekty balíku marray ■ marrayLayout - popisuje mikročip, umístění spotů a jejich sondy new(1marrayLayout', #počet řádků matic #počet sloupců matic #počet řádků v matici #počet sloupců v matici ., # maNgr x maNgc x maNsr maNgr = ... maNgc = ... maNsr = ... maNsc = ... maNspots = maNsc maSub = # vektor TRUE/FALSE, které spoty se používají maPlate = # faktor - print tip maControls = # faktor - status sondy (kontrolná nebo ne?) maNotes = # Object of class character) maNsr maNgr maNsc _A_ maNgc oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo oooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo ooooooooooo Další objekty balíku marray ■ marraylnfo - popisuje vzorky nebo sondy new(1marraylnfo1, maLabels = # vektor jmen/názvů malnfo = # datová tabulka s dalšími charakteristikami maNotes = . . . ., # text s poznámkami ) MU M— IBA Příklad I Načtěme si data swirl, které představují mikročipový experiment, porovnávající genovou expresi divokého druhu rybky Dánio pruhované a jejího mutanta v genu BMP2. Experiment byl proveden v dye swap designu, dohromady jsou k dispozici 4 mikročipy: library(marray) data(swirl) str(swirl) ■ Vytvořme si paletu barev a provedeme kontrolu kvality čipů Gcol <- maPalette(low = "white", high = "green", k = 50) Rcol <- maPalette(low = "white", high = "red", k = 50) RGcol <- maPalette(low = "green", high = "red", k = 50) inu IBA Příklad II - kontrola prostorových efektů ■ Vykreslíme si heatmapu třetího mikročipu s pomocí funkce malmage malmage(swirl[, 3], x = "maRb") # vykreslíme pozadí červeného kanálu malmage(swirl[, 3], x = "maGb") # vykreslíme pozadí zeleného kanálu malmage(swirl[, 3], x = "maM") # vykreslíme poměr intensit spotů obou kanálů (M hodnoty) ■ Funkce malmage dokáže vykreslit i efekt print-tipu: malmage(swirl[, 1],x="maPrintTip") ■ Funkce maBoxplot vykreslí krabicové grafy maBoxplot(swirl[,1]) Ml IBA Příklad III - efekt barviva ■ Vykreslíme jednoduše pomocí základní funkce plot, a dvou funkcí, kterými z marrayRaw objektu extrahujeme intensity spotů červeného a zeleného kanálu: R = maRf(swirl[, 1]) G = maGf(swirl[, 1]) plot(R,G) abline(a=0, b=l) # vykreslíme diagonálu ■ Funkce plot aplikována přímo na objekt třídy marrayRaw vykreslí MA graf, s odhadem křivek podle jednotlivých print-tipů plot(swirl[,1]) ■ Jiným způsobem je prvně vypočítat hodnoty A 3 M, a pak je vykreslit A = maA(swirl[,3]) M = maM(swirl[,3]) plot(A,M) Normalizace uvnitř mikročipu Cíl: Upravit hodnoty signálu tak, abychom odstráni sytematické odchylky uvnitř mikročipu Princip: Centrovánía/nebo š kál ování hodnot exprese M M-l M. norm kde /a s jsou normalizační hodnoty centra (I) a škály (s) M— IBA Normalizace uvnitř mikročipu I - metody Typy normalizace: 1) Logaritmická transformace - většinou používaná z důvodu transformace dat na normální rozdělení Mnorm = log2(Af) Normalizace uvnitř mikročipu I - metody ■ Typy normalizace: 1) Logaritmická transformace - většinou používaná z důvodu transformace dat na normální rozdělení Mnorm = log2(M) 2) Korekce na pozadí - odstraňuje efekt pozadí - odlišné přístupy: 1) odpočítá se odhadnuty signál pozadí - založené na předpokladu aditivity signálu Pozorovaný signál (OS) = Signál pozadí (BS) + Signál sondy (TS) TS = OS - BS - buď pro každý spot zvlášť, nebo globálně Mnorm = M~l \ , , odhadnuty signál pozadí mu 2) bez korekce! IBA Normalizace uvnitř mikročipu I - metody 3) Normalizace prostorového efektu a rozdílů intenzit mezi kanály ■ Centrování mediánem ■ odčítá medián od intenzit všech spotů ■ neiiednodušší, ale není schopný zkorigovat nelinearitu co X ,. T I BňňS i ~i-1-1-1-1-1-1-1-1-1-1-r~ 1 2 3 4 5 6 7 8 9 10 11 12 M norm - M - l, I je medián intenzit všech spotů MU M— IBA Problémy s mediánovým centrováním Jedná sa o globální metodu, není schopná vyrovnat lokální efekty, problémy odlišných intenzit, print-tip efekty atd. Graf intensit kanálů MA graf "~i-1-1-1-1-1- i i i i i i r -1.0 -0.5 0.0 0.5 1.0 1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 Log2(Cy3) A S nelinearitou si umí poradit lokálně regresní metody (lo(w)ess) Lowess normalizace Princip: 1.Odhad křivky pomocí neparametrické lokální vážené regrese (lowess locally weighted scatterplot smoothing) 2.Odečtení odhadnuté křivky od naměřených hodnot Výhoda : není nutné znát funkci křivky, je odhadnuta z dat! Před lowess normalizací Po lowess normalizaci Lokální odhad "T" 4 "T" 6 10 Lowess normalizace II Princip lowess •V každém kroku se určí lokální množina dat, na které se odhadne křivka s pomocí polynomiálu a metody nejmenších čtverců •Parameter X určuje stupeň polynomiálu {X=0 půměr, X= 1 lineární regrese, X=2 kvadratická regrese) •Množina dat na které se pracuje se určuje pomocí algoritmu nejbližšího souseda •Vyhlazovací parameter a určuje velikost této množiny {na bodů v okolí odhadovaného bodu) •a nabývá hodnot mezi (X + l)/n a 1 MU M— IBA Normalizace uvnitř mikročipu II. ■ Křivky odhadujeme: ■ na základě signálů všech sond na mikročipu Předpoklad: exprese většiny genů, které sondy představují, není změněná mezi porovnávanými skupinami1 (závisí od mikročipu a od testované hypotézy) ■ na základě signálu skupiny sond: i) skupina sond by měla mít přibližně stejnou expresi ve všech vzorcích (aby jsme neodstranili reálné biologické rozdíly) ii) množina by měla být dostatečně velká, aby zachytila variabilitu sklíčka Napr. housekeeping geny MU M— IBA Příklad IV - normalizace uvnitř mikročipu ■ Aplikujme centrování mediánem na M hodnoty prvního mikročipu z příkladu a zkontrolujme, jak se normalizace (ne)poprala s nelineárními efekty: plot(swirl[,1]) swirl.norm <- maNormMain(swirl[,1], f.loc = list(maNormMed(x=NULL/y="maM"))) plot(swirl.norm) ■ A teď apli kujme normalizaci pomocí loess: swirl.norm.loess <- maNormMain(swirl[,1], f.loc = list (maNorml_oess())) plot(swirl.norm.loess) Mil M— IBA Úrovne úpravy datových souborů Úroveň mikročipu (zá kia d n í d a to v á ma ti c e) f 1 1 Kvalita sondy Kvalita mikročipi Kvalita experimentu Odstranění nekvalitních spotů Sumarizace duplikátů Normalizace uvnitř mikročipu Úroveň experimentu (finálnídatová matice) Normalizace mezi mikročipy m i m uLi \jy jt TT Úroveň sondy: Kvalita jednoho spotu na mikročipu Úroveň mikročipu: Kvalita celého mikročipu Úroveň experimentu: Kvalita měření transkriptu všech mikročipu v experimentu M— IBA Normalizace mezi mikročipy ■ Když jsou všechny datové matice mikročipů znormalizované, tak vytváříme finální datovou matici, kterou použijeme pro následnou analýzu řádky ~ vzorky, sloupce ~ geny ■ Jednotlivé soubory musíme normalizovat navzájem, abychom odstranili efekty mezi sklíčky, způsobené rozdílnou hybridizací, rozdílným množstvím vzorku (mRNA), rozdílným efektem skenování, chybami v segmentaci... apod. ■ Princip - sjednocení rozložení (průměr, směrodatná odchylka, případně kvantily) MU M— IBA Metody normalizace mezi mikročipy ■ Globální centrování Nastaví průměr a škálu všech sklíček na jednu hodnotu (medián, průměr, ořezaný průměr... všech čipů nebo hodnoty referenčního čipu) Nevýhoda: předpokládá, že rozdíly jsou jen posunové, lineární ■ Škálování Tato metoda sjednocuje variabilitu jednotlivých mikročipů, například podělením hodnot mediánovou absolutní odchylkou jejich intenzit. Obvykle se kombinuje s centrováním. ■ Loess Probíhá cyklickým způsobem - vždy mezi páry mikročipů až do konvergence. Také je možné vybrat množinu sond na kterých se udělá odhad loess křivky • Kvantilová normalizace MU M— IBA Kvantilová normalizace Je založena na pořadí pozorování, je tedy neparametrická. Buď na skupině všech sond, nebo jen na skupině vybraných sond. Princip: U každého mikročipu se geny seřadí dle hodnoty exprese a tyto hodnoty se potom nahradí průměrnou hodnotou kvantilu, který představuje v celém čipu Seřazené hodnoty pořadí hodnoty Gen čipl čip2 čip3 čipl čip2 čip3 A 5 4 3 B 2 1 4 C 3 4 6 D 4 2 8 * B C D 2 13 3 2 4 4 4 6 5 4 8 ■ IBA Kvantilová normalizace Je založena na pořadí pozorování, je tedy neparametrická. Buď na skupině všech sond, nebo jen na skupině vybraných sond. Princip: U každého mikročipu se geny seřadí dle hodnoty exprese a tyto hodnoty se potom nahradí průměrnou hodnotou kvantilu, který představuje v celém čipu Seřazené hodnoty pořadí hodnoty Gen čipl čip2 čip3 čipl čip2 čip3 A 5 4 3 B 2 1 4 C 3 4 6 D 4 2 8 * B C D 2 13 3 2 4 4 4 6 5 4 8 prumer (2 + l+3)/3 (3+2+4)/3 (4+4+6)/3 (5+4+8)/3 2.00 = pořadí 3.00 = pořadí 4.67 = pořadí 5.67 = pořadí v n ■ IBA Kvantilová normalizace Je založena na pořadí pozorování, je tedy neparametrická. Buď na skupině všech sond, nebo jen na skupině vybraných sond. Princip: U každého mikročipu se geny seřadí dle hodnoty exprese a tyto hodnoty se potom nahradí průměrnou hodnotou kvantilu, který představuje v celém čipu hodnoty Gen čipl čip2 čip3 A 5 ® 3 C Aid)® D (4j 2 8 pořadí Gen čipl čip2 čip3 A B IV v hodnoty čipl Čip2 čip3 2 13 3 2 4 4 4 6 5 4 8 prumer (2 + l+3)/3 (3+2+4)/3 (4+4+6)/3 (5+4+8)/3 2.00 3 na pořadí i ' 17 ■ •arh i normalizované hodnoty čip3 2.00 3.00 5.67 M— IBA Příklad V - normalizace mezi čipy ■ Provedeme normalizaci pomocí loess a následně škálovou normalizaci mezi čipy a znovu vykreslíme krabicové grafy. swirl.norm <- maNormMain(swirl) swirl.norm.scale = maNormScale(swirl.norm) maBoxplot(swirl.norm.scale) _ «U TEX Shrnutí ■ Základní data nejsou mRNA koncentrace ■ Musíme zkontrolovat kvalitu dat na různých úrovních ■ Úroveň sondy ■ Úroveň sklíčka (všechny sondy na sklíčku) ■ Úroveň genu (gen mezi sklíčky) ■ Data vždy transformujeme logaritmem, abychom zabezpečili normální rozložení hodnot ■ Data normalizujeme aby jsme odstranili systematické (technické) chyby MU M— IBA Příklad Podívame se do našeho adresáře s cDNA příkladem a otevřeme cDNA.R v programu Rstudio. Postupujeme dle instrukci, na konci je dobrovolný ukol Do konce hodiny máte čas na práci na projektu M— IBA