LÉKAŘSKÁ FAKULTA MASARYKOVY UNIVERSITY Interní hematoonkologická klinika LF MU a FN Brno Centrum molekulární biologie a genové terapie Zpracování dat Boris Tichý 11.11.11 EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzdělávání mládeže a tělovýchovy pro konkurenceschopnost í Itjl INVESTICE DO ROZVOJE VZDĚLÁVANÍ Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Převod obrazové informace na numerická data Adresace Segmentace Extrakce intenzit Příprava dat Kontrola kvality Normalizace Filtry Analýza dat Class discovery vs. Class prediction Supervised vs. Unsupervised Integrace s dalšími zdroji informací Meta-analýza H!lf ^^^^Ä I MINISTERSTVO ŠKOLSTV EVROPSKÁ UNIE ^0 ■ mládeže a tělovýchovy INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ pro konkurenceschopnost 'Mna Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Zpracování obrazu Adresace (gridding) Určení pozice jednotlivých spotů Většinou úprava předem daných očekávaných pozic Pozice spotů bývají součástí anotace dodané výrobcem Různé automatické a poloautomatické algoritmy Většinou možnost manuální úpravy m mw rboooooooo* rDCcoooooo'c íÍDoooooogo □ULflUOUUGHUSaUUUBaUĹjl EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzdělávání mládeže a tělovýchovy pro konkurenceschopnost í Itjl INVESTICE DO ROZVOJE VZDĚLÁVANÍ Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Zpracování obrazu Segmentace Klasifikace jednotlivých pixelů Popředí Pozadí Různé algoritmy Fixed circle - velmi jednoduchý, neadaptivní Adaptive circle Histogram Adaptive shape - např. Watershed algoritmus Shluková analýza Spot default segmentation Segmentation using circles EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzdělávání mládeže a tělovýchovy pro konkurenceschopnost í Itjl INVESTICE DO ROZVOJE VZDĚLÁVANÍ Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Zpracování obrazu Extrakce intenzit Různé vyjádření Medián Průměr Poměr (červená/zelená) Průměr poměrů jednotlivých pixelů Výpočet parametrů kvality Poměr signál/šum Rozptyl intenzit pixelů (SD) Cirkularita Posun od očekávané pozice Affymetrix Probe sets = více sond pro jeden gen Speciální metody pro výpočet výsledné hodnoty EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzdělávání mládeže a tělovýchovy pro konkurenceschopnost í Itjl INVESTICE DO ROZVOJE VZDĚLÁVANÍ Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Příprava dat Normalizace Dovoluje porovnávat naměřené hodnoty mezi sebou V rámci jedné array Mezi arrays Jedna array Mezi kanály (červená/zelená) Mezi regiony Mezi arrays Dvoukanálové => poměry R/G Jednokanálové => intenzity Transformace Log2 (poměry, intenzity) Log 10 (intenzity) 0 .__ 01 1 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I * * * M cín o co 41 .............i.......i.............. After Normalization EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzdělávání mládeže a tělovýchovy pro konkurenceschopnost UMU INVESTICE DO ROZVOJE VZDĚLÁVANÍ Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Příprava dat Normalizace Metody Lineární vs. nelineární Vydělení průměrem Scaling Quantile LOESS 0.45 Density Plot 10 12 log2(PM) Scaling s využitím housekeeping genů/spike-in kontrol EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzdělávání mládeže a tělovýchovy pro konkurenceschopnost í Itjl INVESTICE DO ROZVOJE VZDĚLÁVANÍ Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Příprava dat Kontrola kvality Obecné Pozadí Distribuce intenzit Distribuce poměrů Specifické Negativní, pozitivní kontroly Spike-in 375' poměr Filtry Odstranění nekvalitních/nepotřebných dat 'C 4 8 5 e ■t O o £ •\í}'i'i O GAPDH Ratio 6 i i'' £ UHRFI EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzdělávání mládeže a tělovýchovy pro konkurenceschopnost í Itjl INVESTICE DO ROZVOJE VZDĚLÁVANÍ Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Analýza dat Class discovery Nalezení vztahů v datech - skupiny vzorků, genů Metody Shluková analýza Hierarchické shlukování, k-means, self organising maps,. Analýza hlavních komponent (PCA) Class prediction Klasifikace vzorků na základě expresních dat Metody Support vector machines K-nearest neighbor Neural networks Decision trees Nearest shrunken centroids r AM L with t(11q23)/MLL AM L with inv(16) AM L with t(8;21) AM L with t(15;17) AML with complex karyotype EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzdělávání mládeže a tělovýchovy pro konkurenceschopnost í Itjl INVESTICE DO ROZVOJE VZDĚLÁVANÍ Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Analýza dat Unsupervised Bez informace o vzorcích (genech) (= Class discovery) Supervised 1.08 East tumor libraries ;.*S 0.9S 0.93 0.3S- ^^^^ - - ' " -0.93 -0.71 -0r5> ^-0.3* 0,19^ — ~~0.30 0.53 0.71 0.09 ""^""'^ -■ ~~ ií ŕ - „ — ' -1.26 -i.se West tumor libraries Vzorky (geny) předem rozděleny do skupin Class prediction - algoritmy se učí na známých vzorcích Statistické testy 2 a více skupin (vzorků) - hledání rozdílů (dif. exprimovaných genů) t-test, ANOVA, neparametrické testy, SAM (significance analysis of microarrays) ! korekce mnohonásobného testování (Bonferoni,...), odhad chyby (FDR) EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzdělávání mládeže a tělovýchovy pro konkurenceschopnost í Itjl INVESTICE DO ROZVOJE VZDĚLÁVANÍ Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Analýza dat Integrace s dalšími daty Funkce genu Gene Ontology, KEGG, BioCarta Genové interakce, možné funkční vztahy Transkripční faktory, microRNA motivy, publikace Metody Testy vyššího výskytu termínů mezi zvolenými geny (GSEA) Sítě (Networks) Dráhy (Pathways) xtr»c ellular EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, mládeže a tělovýchovy 41 OP Vzdělávání pro konkurenceschopnost m INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky Analýza dat Metaanalýza Analýza více experimentů Úložiště dat GEO - gene expression omnibus (NCBI) ArrayExpress (EBI) Standardy MAGE-ML - formát dat flazyk) MIAME - Minimum Information About Microarray Experiment Informace umožňuje zopakování experimentu Nedostatek informací o vzorcích Porovnatelnost platforem, laboratoří INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky " Multiple Array Viewer File Adjust Data Metrics Analysis Display Utilities n 4 * Clustering I— HCl A SOTA Hierarchical Clustering Tree EASE ST HCL Support Trees Self Organizing Tree Algorithr □ ™ k Means/Medians Clustering KMC_ K MS KMC Support CvV Cluster Affinity Search Techn..—i n cast NsnpoR LL_ FOM Figure of Mei it W QT Cluster QTC Self Organizing Map Statistics Classification Pavlidis Template Matching PTM t Tests BRIDGE SAM m Significance Analysis for Mici Data Reduction «lh Support Vector Machines SVM >■_'< Uncorrelated Shrunken Centi U5C knn Nearest Neighbors Classifi Discriminant Analysis Classil * * s. Relevance Netwoi ks RN Meta Analysis Principal Component Anafysi! Gene set enrichment anatysi EASE EASE Cluster Analysis Vísuí alization Miscellaneous Linear Expression Map GDM Gene Distance Matrix Correspondence Analysis GSH Gene Shaving bn Bayesian Network I.M Literature Mining «- Expression Terrain Map TRN __ One-way ANOVA 3-fiA Two-factor ANOVA ANOUA Nonparametric Tests Bayesian Estimation of Temporal Regulation Linear Models for Microarray Data LIMMA ■ 1 J I Rank Products RP MultiExpei inient Viewer £ EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ, OPVzdělávání mládeže a tělovýchovy pro konkurenceschopnost í Itjl INVESTICE DO ROZVOJE VZDĚLÁVANÍ Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky