Kapitola II Technologie studující genomiku a proteomiku Mikročipy (microarrays) Výuka IBA Průběh genomického experimentu 1.Příprava a provedení experimentu v laboratoři 2. Extrakce a úprava dat 3. Statistická analýza dát 4. Biologická a klinická interpretace Technika mikročipů §Mikročipy– biotechnologie simultánně srovnávající biologické objekty (molekuly, tkanivá) na základě jejich imobilizace na jediný podklad do oblastí (spotů) které jsou pravidelně uspořádány do řádků a sloupců §Podklad: sklo, gel, parafin, ... §Mikročipy v genomice a proteomice: §DNA mikročipy §Proteínové mikročipy Kapitola II.1 Princip a rozdělení DNA mikročipů Výuka IBA DNA mikročipy §Serie krátkých DNA sekvencí imobilizovaných rovnoměrně na podklad, používaná k detekci DNA nebo RNA (obvykle jako cDNA) ve vzorcích. Nejčastěji aplikována na: §Měření změn v hladinách genové exprese (gene expression profiling, detekcia RNA - cDNA) - expresní mikročipy §detekci strukturních změn v genomu (SNPs- jednonukleotidové polymorfismy nebo změny v počtu kopií genů) – arrayCGH, SNP arrays §Také se úspěšně používá k detekciu väzbových miest proteínov na genóme (ChIP-on-chip), detekciu alternatívneho zostrihu (exon junction arrays) a takisto na presnú detekciu neznámych a nepredikovaných transkriptov alebo alternatívnych foriem zostrihu (tiling arrays) > Sonda (probe) §Krátké sekvence DNA (oligonukleotidy) na mikročipu se nazývají sondy, anglicky probes §Každá oblast DNA (obvykle gen), kterou chceme zkoumat §Sondy jsou navrženy tak, aby byly pro daný gen / oblast co nejspecifičtější Základní princip 1. Fragmenty DNA / cDNA ze vzorku se spárují s komplementárními sondami na mikročipu a tím se mobilizují. 2. Imobilizované molekuly DNA, které byly dříve označeny fluorescenčnímbarvivem se pak dají detekovat pomocí UV skeneru a kvantifikovat tak množství mRNA / DNA s danou sekvencí přítomné ve vzorku. Mikročipy Postup mikročipového experimentu 1.Výroba mikročipového sklíčka 2.Příprava vzorků 3.Hybridizace 4.Skenování 5.Analýza obrazu (kvantifikace signálu, vznik expresních dat) Příprava čipu a vzorků Vznik dat Postup mikročipového experimentu 1.Výroba mikročipového sklíčka 2.Příprava vzorků 3.Hybridizace 4.Skenování 5.Analýza obrazu (kvantifikace signálu, vznik expresních dat) Příprava čipu a vzorků Vznik dat Princip výroby DNA mikročipu §Výroba sklíčka spočívá v připojení sond na podložné sklíčko do oblastí spotů §Dvě hlavní metody: §Spotting – sondy jsou syntetizované PŘED umístěním na microarray sklíčko, potom umístěné na sklíčko pomocí speciálního robota Spotovací robot J. Vallon-Christersson, Dept Oncology, Lund Univ. Princip spotování http://www.youtube.com/watch?v=Pjr1Oyc0KrY&feature=related Princip výroby DNA mikročipu §Výroba sklíčka spočívá v připojení sond na podložné sklíčko do oblastí spotů §Dvě hlavní metody: §Spotting – sondy jsou syntetizované PŘED umístěním na microarray sklíčko, potom umístěné na sklíčko pomocí speciálního robota §In-situ syntéza – sondy jsou syntetizované přímo na podklad, fotolitografickou syntézou http://www.youtube.com/watch?v=ui4BOtwJEXs&feature=related §Spotting – u delších cDNA sekvencí §In-situ syntéza – pro krátke oligonukleotidy Typy sond §cDNA sondy - 500-5000 párů bazí dlouhé cDNA klony cílového genu nebo známé sekvence. Obvykle syntetizované před umístěním na microarray sklíčko pomocí spotovacího robota §Výhoda: jsou více specifické, a v případě úspěšné hybridizace s cílovou DNA můžeme téměř s jistotou říct, že se spojily právě s daným genem §Oligonukleotidové sondy – maximálně 25 párů bazí dlouhé sekvence, které jsou designované tak, aby odpovídaly jen částem sekvence známých kódujících genových ORF (open reading frames). Typ mikročipů dle typu sondy §Podle typu sondy rozlišujeme: §cDNA mikročipy – používají cDNA sondu - hybridizace závislá na délce sond - neznáme přesný počet klonů v každém spotu Hybridizaci nutno stanovit relativně (k referenci). Tato relativní informace je robustnější než absolutní informace o intenzitě každého spotu. Proto jsou tyto experimenty obvykle dvoukanálové (jeden kanál pro DNA, kterou zkoumáme, druhý kanál pro referenční DNA). nOligonukleotidové mikročipy – oligonukleotidové sondy, obvykle syntetizované in-situ - známe přesný počet klonů - stejná délka sondy Není nutná reference, proto jsou jednokanálové (jeden vzorek na čip bez reference). Postup mikročipového experimentu 1.Výroba mikročipového sklíčka 2.Příprava vzorků 3.Hybridizace 4.Skenování 5.Analýza obrazu (kvantifikace signálu, vznik expresních dat) Příprava čipu a vzorků Vznik dat Příprava vzorků 1. Izolace DNA/RNA: molekuly které chceme zkoumat (DNA či mRNA) jsou extrahované ze vzorku. 2. Přepis a amplifikace: mRNA se přepisuje do cDNA a amplifikuje se pomocí RT-PCR. DNA zas pomocí PCR. mRNA A G C U RT-PCR A G C T cDNA DNA A G C T PCR A G C T DNA > Příprava vzorků 3. Značení: Amplifikovaná DNA (cDNA) je obarvená fluorescenčním barvivem (nejčastěji Cy3 nebo Cy5). Toto s nazývá přímé označení. U nepřímého značení nejdříve skupina, většinou primární amin je inkorporovaná do cDNA a Cy3/Cy5 jsou potom inkorporované do cDNA při následné reakci. Postup mikročipového experimentu 1.Výroba mikročipového sklíčka 2.Příprava vzorků 3.Hybridizace 4.Skenování 5.Analýza obrazu 6.Kvantifikace obrázku na hodnoty exprese Hybridizace DNA §DNA mikročipová technologie je založená na hybridizaci §Hybridizace je proces komplementárního párování dvou jednořetězcových nukleových kyselin do dvouřetězcové molekuly (duplexu) na základě párování bazí. Hybridizace na mikročipu 1. Fragmentovaná a namnožená cDNA(DNA) vzorku se vylije na microarray sklíčko, kde už jsou navázané jednořetězcové sondy. 2-. Zahřátím na určitou teplotu se zruší vodíkové vazby mezi řetězci a DNA vzorku se rozplétá na dva samostatné řetězce – tento proces nazýváme denaturace. 3. Teplota se zase sníží a jednořetězcové molekuly se snaží znovu spárovat se svými komplementárními řetězci 4. Nastává komplementární párování mezi: - původním párem DNA řetězců - DNA a sondou – vzniká hybrid 5. Sklíčko se nakonec omyje a zůstanou pouze hybridizované řetězce. Zdroj: http://pubs.rsc.org/en/content/articlehtml/2008/mb/b713259j Kapitola II.2 Vznik a charakter mikročipových dat Výuka IBA Postup mikročipového experimentu 1.Výroba mikročipového sklíčka 2.Příprava vzorků 3.Hybridizace 4.Skenování 5.Analýza obrazu (kvantifikace signálu, vznik expresních dat) Příprava čipu a vzorků Vznik dat Vznik a charakter dat Každá technologie má svůj vlastní způsob kvantifikace signálu (teda proměny signálu na čísla – data). Mnohé principy jsou společné. 1. Fluorescenční signál je excitován s pomocí laseru 2. Elektrony jsou zachycené mikroskopem přes filtry do obrazu 3. Tyto obrazová data se kvantifikují Kapitola II.2.1 Vznik a charakter mikročipových dat -> cDNA mikročipy Výuka IBA F. Analýza obrazu (snímání intenzit jednotlivých kanálů) Datový soubor: tisíce řádků (genů) X desítky sloupců -číselné hodnoty intenzit testované a referenční RNA (+ hodnoty pozadí... ) -kontrola kvality spotů -... spot Další analýza 1.úpravy datového souboru 2.určení odlišných genů 3.klasifikace, predikce.... Jak získáváme základní data z cDNA Dvoukanálové skenování Po hybridizaci vkládáme sklíčko do skeneru abychom vytvořili obrázek mikročipu.  Vyšší frekvence, více energie  Nižší frekvence, méně energie Ozáření „zelená“ vlnová délka fluorescence Překrytí obrazů „červená“ vlnová délka Vlnová délka (, nm) Excitační a emisní spektra Cy3 a Cy5 Analýza obrazu Kroky kvantifikace: 1. Lokalizace center spotů Automaticky pomocí grid (síťky), a manuální úpravou 2. Segmentace Klasifikace spotů, odlišené intenzity pozadí od popředí (pomocí kruhů, etc...). 3. Kvantifikace signálu V popředí i v pozadí spotu Terry Speed et al. Po skenování se uloží obrázek mikročipového sklíčka ve formátu .tiff, který se vloží do programu pro analýzu obrazu. Následuje kvantifikace signálu. Lokalizace center spotů Terry Speed et al. Automaticky pomocí speciálního souboru grid (od výrobců mikročipu), který obsahuje informaci o: • Počtu a umístění spotů na mikročipu • Průměru spotů v pixelech Segmentace §V tomto kroku jsou programem pro analýzu obrazu rozpoznávané oblasti spotů a pozadí §Nastavení velikosti a pozice spotů – probíhá nejprve automaticky §Obvykle nutná vizuální inspekce a další přizpůsobení ručně §Navíc – nutné manuální označování špatných, případně prázdných spotů §Nejčastější algoritmy vyhledávání spotů: §Fixed circles §Adaptive circles §Histogram adaptive §Různé programy různě definují pozadí spotu GenePix QuantArray ScanAlyse Kvantifikace signálu §V této fázi se kvantifikuje signál spotu, používají se různé charakteristiky (průměr, medián, modus, kvantily) Průměr Medián Modus 75% kvantil Logaritmus intensity signálu v pixelech spotu Kvantifikace signálu pozadí GenePix QuantArray ScanAlyse §Tři druhy metod: 1.Lokální metoda (local background) 2.Morfologické otevření (morphological opening) 3.Konstantní/globální metoda (constant/global background) Vizualizace oblastí lokálního odhadu intenzity pozadí u tří různých programů analýzy obrazu cDNA mikročipu Kvantifikace signálu pozadí 2. Čtvercový element Nový obraz s odhadnutým signálem pozadí Schematické znázornění Center spotů, ze kterých je odhadnutý signál pozadí pro spot §Tři druhy metod: 1.Lokální metoda (local background) 2.Morfologické otevření (morphological opening) 3.Konstantní/globální metoda (constant/global background) Kvantifikace signálu pozadí 3. §Tři druhy metod: 1.Lokální metoda (local background) 2.Morfologické otevření (morphological opening) 3.Konstantní/globální metoda (constant/global background) Signál je odhadnutý jako jediná hodnota pro všechny spoty: §Jako průměr intenzit signálů negativních kontrol (sondy jiného organismu, které by neměly hybridizovat se vzorkem) §Nebo jako 3% kvantil rozdělení signálu všech spotů Kontrola kvality spotů I. §Po dobu kvantifikace intenzit probíhá ještě inspekce kvality spotů na základě parametrů zadaných do algoritmu §I po kvantifikaci je možné manuálně označit spoty, které považujeme za nekvalitní §Spotem, které neprojdou kontrolou kvality je přiřazená příslušná hodnota v proměnné Flags: §Např. §100 ~ good ; §-100 ~ bad ; §-75 ~ absent; §-50 ~ not found; §0 ~ unflagged; Source: http://probes.invitrogen.com/lit/catalog/2/images/g002230.gif Kontrola kvality spotů II. Charakteristiky kontroly kvality: §Velikost a tvar spotu §Příliš malé spoty neposkytují věrohodné odhady intensity hybridizace (Simon et al., 2003) (spoty menší než < 25 pixelů by měly být odstraněné) §Spoty s nepravidelným tvarem, případně "koblihové spoty" by měly být označené jako nekvalitní §Intenzita signálu §Spoty s příliš malou intenzitou signálu v obou kanálech §log2(610/590) = 0.048, ale log2(30/10) = 1.58 §Poměr signál/šum by měl být dostatečně velký §Nasycení (saturace) spotu §Spoty by neměly obsahovat nasycené pixely! Kontrola kvality spotů III. Příklady nekvalitních spotů (A-C) v porovnání s ideálním spotem (D) §A) nasycený (saturovaný) spot, B) koblihový spot, C) spot s nepravidelnou strukturou, D) dobrý spot Ukázka základních cDNA mikročipových dat §Data z jednoho cDNA mikročipového sklíčka Po kvantifikaci a kontrole získáváme základní datový soubor. Základní datový soubor Obsahuje (příklad GenePix 6.0) §Pozice spotu §Jméno a další identifikátory sondy na spotu §Další charakteristiky spotu: (průměr, tvar, cirkularita, saturace, ...) §Informace o intenzitě signálu pozadí, popředí (medián, průměr, suma, SD) §Počet saturovaných pixelů §Odvozené charakteristiky i) % pixelů signálu s intenzitami většími než 1SD (2SD) intenzity pozadí ii) intenzita signálu mínus intenzita pozadí iii) poměr mediánů/průměrů obou kanálů iv) logaritmus báze 2 tohoto poměru §Informace o kvalitě spotu §Proměnnou Flags Základní data §Data v základním souboru NEJSOU koncentrace mRNA! §Hodnoty získané z microarray experimentu jsou pozitivně korelované s množstvím přítomné mRNA, ale navíc v sobě nesou ŠUM, související s: §Kontaminací tkaniva §RNA degradací §Efektivitou §amplifikace DNA §reverzní transkripce §hybridizace a specificitou sond §Výběrem a identifikací sond §PCR výsledkem NUTNÁ KONTROLA KVALITY A ÚPRAVA DAT § Efektivitou spotování § Dalšími technickými vlivy při zpracování § Segmentací obrazu § Kvantifikací signálu § Korekcí na pozadí Podívejme se na reálná data! V učebních materiálech k předmětu naleznete soubor cDNApriklad.zip Soubor stáhněte a rozbalte. Struktura adresáře: raw/ cDNA.R E-GEOD-45596.idf.txt E-GEOD-45596.sdrf.txt SampleInfo.txt Vyberte jeden ze souborů nachádzejících se v adresáři raw/ a otevřete ho v EXCELu GSM1110303_Texas_Tech_251485034901_S01_GE2-v5_91_0806_1_1.txt GSM1110304_Texas_Tech_251485036824_S01_GE2-v5_91_0806_1_1.txt GSM1110305_Texas_Tech_251485034901_S01_GE2-v5_91_0806_1_2.txt GSM1110306_Texas_Tech_251485036824_S01_GE2-v5_91_0806_1_2.txt ... Úrovně kontroly kvality Úroveň sondy: Kvalita jednoho spotu na mikročipu Úroveň mikročipu: Kvalita celého mikročipu Úroveň experimentu: Kvalita měření transkriptu všech mikročipů v experimentu Mikročipy 1 ... n Kvalita mikročipu Kvalita experimentu Kvalita sondy Úroveň mikročipu (základní datová matice) Úroveň experimentu (finální datová matice) Úrovně úpravy datových souborů Úroveň sondy: Kvalita jednoho spotu na mikročipu Úroveň mikročipu: Kvalita celého mikročipu Úroveň experimentu: Kvalita měření transkriptu všech mikročipů v experimentu Mikročipy 1 ... n Kvalita mikročipu Kvalita experimentu Kvalita sondy Úroveň mikročipu (základní datová matice) Úroveň experimentu (finální datová matice) Odstranění nekvalitních spotů Sumarizace duplikátů Normalizace uvnitř mikročipu Normalizace mezi mikročipy Úrovně úpravy datových souborů Úroveň sondy: Kvalita jednoho spotu na mikročipu Úroveň mikročipu: Kvalita celého mikročipu Úroveň experimentu: Kvalita měření transkriptu všech mikročipů v experimentu Mikročipy 1 ... n Kvalita mikročipu Kvalita experimentu Kvalita sondy Úroveň mikročipu (základní datová matice) Úroveň experimentu (finální datová matice) Odstranění nekvalitních spotů Sumarizace duplikátů Normalizace uvnitř mikročipu Normalizace mezi mikročipy Kontrola dat v rámci mikročipového sklíčka §Replikáty sond §Sumární statistiky replikátů spotů (nekvalitní spoty už vyloučené) Buď odstranit sondy s příliš velkou variabilitou mezi replikáty… –…nebo si uschovat informaci o počtu validních replikátů (a vyhodit klony jen s jedním replikátem) Kvalita mikročipového sklíčka –Procento nekvalitních spotů nesmí být příliš velké (<25 %) §Systematické odchylky odstraníme procesem NORMALIZACE Úrovně úpravy datových souborů Úroveň sondy: Kvalita jednoho spotu na mikročipu Úroveň mikročipu: Kvalita celého mikročipu Úroveň experimentu: Kvalita měření transkriptu všech mikročipů v experimentu Mikročipy 1 ... n Kvalita mikročipu Kvalita experimentu Kvalita sondy Úroveň mikročipu (základní datová matice) Úroveň experimentu (finální datová matice) Odstranění nekvalitních spotů Sumarizace duplikátů Normalizace uvnitř mikročipu Normalizace mezi mikročipy Systematické odchylky uvnitř mikročipu §Nerovnoměrná hybridizace (prostorové odchylky) §Příčina: nerovnoměrně umytý čip, nerovnoměrně distribuovaný vzorek, print-tip efekt (defektní jehla) §Signál pozadí §Může být velmi silný, buď špatně umytý čip, nebo špatná segmentace (část popředí je kvantifikovaná jako pozadí) §Efekt barviva (rozdíly intenzit mezi kanály) §Příčina: odlišná schopnost inkorporace molekul barviva (Cy3, Cy5) odlišná reakce na excitaci (slabší intenzita UV, ...) ODHALUJEME GRAFICKOU REPREZENTACÍ DAT Virtuální rekonstrukce mikročipu, vykreslení heatmapy log2 poměru Cy5/Cy3 intenzit na základě jejich pozice na sklíčku Box-ploty jednotlivých oblastí (najčastejší print-tip) Diagnostika nerovnoměrné hybridizace Graf intensit kanálů Cy5 MA graf M = log (R/G) A = 1/2 (log(R)+log(G)) Neukáže nelineární trendy Diagnostika efektu barviva Ukáže nelineární trendy! §Často je efekt barviva větší u sond s nízkou expresí Cy3 = B0 + B1*Cy5 (Cy3-B0)/B1=Cy5’ Cvičení! §Budeme pracovat v programu R-Studio §10 minutový krátký úvod do R – SW pro analýzu dat §Ukážeme si jak instalovat balíky pro specifické analýzy genomických a proteomických dat §Na příkladových datech uděláme diagnostiku kvality sklíčka Balík marray §Balík marray poskytuje sadu funkcí pro analýzu cDNA čipů Instalace‘: source("http://www.bioconductor.org/biocLite.R") biocLite("marray") §Základní strukturou, s kterou pracuje a která obsahuje základní data všech matic experimentu je třída marrayRaw new('marrayRaw', maRf = ...., # matice intensit spotů červeného kanálu maGf = ...., # matice intensit spotů zeleného kanálu maRb = ...., # matice intensit pozadí červeného kanálu maGb = ...., # matice intensit pozadí zeleného kanálu maLayout = ...., # objekt třídy marrayLayout, popis mikročipu maGnames = ...., # objekt třídy marrayInfo, popis sond maTargets = ...., # objekt třídy marrayInfo, popis vzorků maNotes = ...., # text - poznámky ) Další objekty balíku marray §marrayLayout - popisuje mikročip, umístění spotů a jejich sondy new('marrayLayout', maNgr = ... , #počet řádků matic maNgc = ..., #počet sloupců matic maNsr = ..., #počet řádků v matici maNsc = ..., #počet sloupců v matici maNspots = ..., # maNgr x maNgc x maNsr x maNsc maSub = ..., # vektor TRUE/FALSE, které spoty se používají maPlate = ..., # faktor – print tip maControls = ..., # faktor – status sondy (kontrolná nebo ne?) maNotes = ..., # Object of class character) maNsr maNsc maNgr maNgc Další objekty balíku marray §marrayInfo - popisuje vzorky nebo sondy new('marrayInfo', maLabels = ...., # vektor jmen/názvů maInfo = ...., # datová tabulka s dalšími charakteristikami maNotes = ...., # text s poznámkami ) Příklad I §Načtěme si data swirl, které představují mikročipový experiment, porovnávající genovou expresi divokého druhu rybky Dánio pruhované a jejího mutanta v genu BMP2. Experiment byl proveden v dye swap designu, dohromady jsou k dispozici 4 mikročipy: library(marray) data(swirl) str(swirl) §Vytvořme si paletu barev a provedeme kontrolu kvality čipů Gcol <- maPalette(low = "white", high = "green", k = 50) Rcol <- maPalette(low = "white", high = "red", k = 50) RGcol <- maPalette(low = "green", high = "red", k = 50) Příklad II – kontrola prostorových efektů §Vykreslíme si heatmapu třetího mikročipu s pomocí funkce maImage maImage(swirl[, 3], x = "maRb") # vykreslíme pozadí červeného kanálu maImage(swirl[, 3], x = "maGb") # vykreslíme pozadí zeleného kanálu maImage(swirl[, 3], x = "maM") # vykreslíme poměr intensit spotů obou kanálů (M hodnoty) §Funkce maImage dokáže vykreslit i efekt print-tipu: maImage(swirl[, 1],x="maPrintTip") §Funkce maBoxplot vykreslí krabicové grafy maBoxplot(swirl[,1]) Příklad III – efekt barviva §Vykreslíme jednoduše pomocí základní funkce plot, a dvou funkcí, kterými z marrayRaw objektu extrahujeme intensity spotů červeného a zeleného kanálu: R = maRf(swirl[,1]) G = maGf(swirl[,1]) plot(R,G) abline(a=0, b=1) # vykreslíme diagonálu §Funkce plot aplikována přímo na objekt třídy marrayRaw vykreslí MA graf, s odhadem křivek podle jednotlivých print-tipů plot(swirl[,1]) §Jiným způsobem je prvně vypočítat hodnoty A a M, a pak je vykreslit A = maA(swirl[,3]) M = maM(swirl[,3]) plot(A,M) Normalizace uvnitř mikročipu I. §Cíl: Upravit hodnoty signálu tak, abychom odstranili sytematické odchylky uvnitř mikročipu §Princip: Centrování a/nebo škálování hodnot exprese M kde l a s jsou normalizační hodnoty centra (l) a škály (s) Normalizace uvnitř mikročipu I - metody §Typy normalizace: 1) Logaritmická transformace – většinou používaná z důvodu transformace dat na normální rozdělení Normalizace uvnitř mikročipu I - metody §Typy normalizace: 1) Logaritmická transformace – většinou používaná z důvodu transformace dat na normální rozdělení 2) Korekce na pozadí - odstraňuje efekt pozadí - odlišné přístupy: 1) odpočítá se odhadnutý signál pozadí – založené na předpokladu aditivity signálu Pozorovaný signál (OS) = Signál pozadí (BS) + Signál sondy (TS) TS = OS - BS - buď pro každý spot zvlášť, nebo globálně odhadnutý signál pozadí 2) bez korekce! Normalizace uvnitř mikročipu I - metody 3) Normalizace prostorového efektu a rozdílů intenzit mezi kanály §Centrování mediánem §odčítá medián od intenzit všech spotů §nejjednodušší, ale není schopný zkorigovat nelinearitu l je medián intenzit všech spotů Problémy s mediánovým centrováním Log2(Cy3) Graf intensit kanálů A MA graf Jedná sa o globální metodu, není schopná vyrovnat lokální efekty, problémy odlišných intenzit, print-tip efekty atd. S nelinearitou si umí poradit lokálně regresní metody (lo(w)ess) Lowess normalizace I Lokální odhad Před lowess normalizací Po lowess normalizaci Princip: 1.Odhad křivky pomocí neparametrické lokální vážené regrese (lowess - locally weighted scatterplot smoothing) 2.Odečtení odhadnuté křivky od naměřených hodnot Výhoda : není nutné znát funkci křivky, je odhadnuta z dat! Lowess normalizace II Princip lowess •V každém kroku se určí lokální množina dat, na které se odhadne křivka s pomocí polynomiálu a metody nejmenších čtverců •Parameter  určuje stupeň polynomiálu (půměrlineární regresekvadratická regrese) •Množina dat na které se pracuje se určuje pomocí algoritmu nejbližšího souseda •Vyhlazovací parameter určuje velikost této množiny (n bodů v okolí odhadovaného bodu) •nabývá hodnot mezi + 1)/n a 1 §Křivky odhadujeme: §na základě signálů všech sond na mikročipu Předpoklad: exprese většiny genů, které sondy představují, není změněná mezi porovnávanými skupinami! (závisí od mikročipu a od testované hypotézy) §na základě signálu skupiny sond: i) skupina sond by měla mít přibližně stejnou expresi ve všech vzorcích (aby jsme neodstranili reálné biologické rozdíly) ii) množina by měla být dostatečně velká, aby zachytila variabilitu sklíčka Napr. housekeeping geny Normalizace uvnitř mikročipu II. Příklad IV – normalizace uvnitř mikročipu §Aplikujme centrování mediánem na M hodnoty prvního mikročipu z příkladu a zkontrolujme, jak se normalizace (ne)poprala s nelineárními efekty: plot(swirl[,1]) swirl.norm <- maNormMain(swirl[,1], f.loc = list(maNormMed(x=NULL,y="maM"))) plot(swirl.norm) §A teď aplikujme normalizaci pomocí loess: swirl.norm.loess <- maNormMain(swirl[,1], f.loc = list(maNormLoess())) plot(swirl.norm.loess) Úrovně úpravy datových souborů Úroveň sondy: Kvalita jednoho spotu na mikročipu Úroveň mikročipu: Kvalita celého mikročipu Úroveň experimentu: Kvalita měření transkriptu všech mikročipů v experimentu Mikročipy 1 ... n Kvalita mikročipu Kvalita experimentu Kvalita sondy Úroveň mikročipu (základní datová matice) Úroveň experimentu (finální datová matice) Odstranění nekvalitních spotů Sumarizace duplikátů Normalizace uvnitř mikročipu Normalizace mezi mikročipy Normalizace mezi mikročipy §Když jsou všechny datové matice mikročipů znormalizované, tak vytváříme finální datovou matici, kterou použijeme pro následnou analýzu řádky ~ vzorky, sloupce ~ geny §Jednotlivé soubory musíme normalizovat navzájem, abychom odstranili efekty mezi sklíčky, způsobené rozdílnou hybridizací, rozdílným množstvím vzorku (mRNA), rozdílným efektem skenování, chybami v segmentaci... apod. §Princip – sjednocení rozložení (průměr, směrodatná odchylka, případně kvantily) Metody normalizace mezi mikročipy §Globální centrování Nastaví průměr a škálu všech sklíček na jednu hodnotu (medián, průměr, ořezaný průměr... všech čipů nebo hodnoty referenčního čipu) Nevýhoda: předpokládá, že rozdíly jsou jen posunové, lineární §Škálování Tato metoda sjednocuje variabilitu jednotlivých mikročipů, například podělením hodnot mediánovou absolutní odchylkou jejich intenzit. Obvykle se kombinuje s centrováním. §Loess Probíhá cyklickým způsobem – vždy mezi páry mikročipů až do konvergence. Také je možné vybrat množinu sond na kterých se udělá odhad loess křivky •Kvantilová normalizace Kvantilová normalizace Je založena na pořadí pozorování, je tedy neparametrická. Buď na skupině všech sond, nebo jen na skupině vybraných sond. Princip: U každého mikročipu se geny seřadí dle hodnoty exprese a tyto hodnoty se potom nahradí průměrnou hodnotou kvantilu, který představuje v celém čipu Gen čip1 čip2 čip3 A iv iii i B i i ii C ii iii iii D iii ii iv pořadí čip1 čip2 čip3 i 2 1 3 ii 3 2 4 iii 4 4 6 iv 5 4 8 Seřazené hodnoty Gen čip1 čip2 čip3 A 5 4 3 B 2 1 4 C 3 4 6 D 4 2 8 hodnoty > průměr (2+1+3)/3 = 2.00 = pořadí i (3+2+4)/3 = 3.00 = pořadí ii (4+4+6)/3 = 4.67 = pořadí iii (5+4+8)/3 = 5.67 = pořadí iv Kvantilová normalizace Je založena na pořadí pozorování, je tedy neparametrická. Buď na skupině všech sond, nebo jen na skupině vybraných sond. Princip: U každého mikročipu se geny seřadí dle hodnoty exprese a tyto hodnoty se potom nahradí průměrnou hodnotou kvantilu, který představuje v celém čipu Gen čip1 čip2 čip3 A iv iii i B i i ii C ii iii iii D iii ii iv pořadí čip1 čip2 čip3 i 2 1 3 ii 3 2 4 iii 4 4 6 iv 5 4 8 Seřazené hodnoty Gen čip1 čip2 čip3 A 5 4 3 B 2 1 4 C 3 4 6 D 4 2 8 hodnoty > průměr (2+1+3)/3 = 2.00 = pořadí i (3+2+4)/3 = 3.00 = pořadí ii (4+4+6)/3 = 4.67 = pořadí iii (5+4+8)/3 = 5.67 = pořadí iv Kvantilová normalizace Je založena na pořadí pozorování, je tedy neparametrická. Buď na skupině všech sond, nebo jen na skupině vybraných sond. Princip: U každého mikročipu se geny seřadí dle hodnoty exprese a tyto hodnoty se potom nahradí průměrnou hodnotou kvantilu, který představuje v celém čipu Gen čip1 čip2 čip3 A iv iii i B i i ii C ii iii iii D iii ii iv pořadí čip1 čip2 čip3 i 2 1 3 ii 3 2 4 iii 4 4 6 iv 5 4 8 Seřazené hodnoty Gen čip1 čip2 čip3 A 5 4 3 B 2 1 4 C 3 4 6 D 4 2 8 hodnoty Gen čip1 čip2 čip3 A 5.67 4.67 2.00 B 2.00 2.00 3.00 C 3.00 4.67 4.67 D 4.67 3.00 5.67 normalizované hodnoty > Příklad V – normalizace mezi čipy §Provedeme normalizaci pomocí loess a následně škálovou normalizaci mezi čipy a znovu vykreslíme krabicové grafy. swirl.norm <- maNormMain(swirl) swirl.norm.scale = maNormScale(swirl.norm) maBoxplot(swirl.norm.scale) Shrnutí §Základní data nejsou mRNA koncentrace §Musíme zkontrolovat kvalitu dat na různých úrovních §Úroveň sondy §Úroveň sklíčka (všechny sondy na sklíčku) §Úroveň genu (gen mezi sklíčky) §Data vždy transformujeme logaritmem, abychom zabezpečili normální rozložení hodnot §Data normalizujeme aby jsme odstranili systematické (technické) chyby Příklad §Podívame se do našeho adresáře s cDNA příkladem a otevřeme cDNA.R v programu Rstudio. §Postupujeme dle instrukcí, na konci je dobrovolný úkol.