Výpočetní metody v bioinformatice a systémové biologii

Týden 9 - Data genové exprese a jejich integrace

K této lekci jsou relevantní slidy 28-38 z presentace:

I. Motivace

Najděte v databázi ArrayExpress experimenty relevantní podmínkám virové infekce typu SARS (zadejte "coronavirus infectious disease" do pole biological conditions, zbytek filtru ponechte volný).

V nejlevějším sloupci je vidět diferenční hodnota exprese (daný vzorek vůči kontrolnímu signálu, v případě těchto experimentů jde typicky o situaci infekce původním virem SARS vs. zdravá buňka). Vyhledejte interferon INFB1, je patrné, že je výrazně při infekci exprimován.  

Kliknutím na "SARS-CoV' vs 'none' at '48 hour'" ve sloupci "Comparison" se vám zobrazí detaily srovnání naměřených hodnot exprese genů v rámci daného (pod)experimentu. 

Existují geny s podobným profilem při těchto experimentech? Na záložce "Plots" lze zobrazit výsledky GO enrichment analysis (viz předchozí lekce s BINGO). Podobným způsobem je k dispozici i enrichment v databázi reactome. Bohužel pro tento případ není zatím veřejně k dispozici mnoho statisticky dobře zpracovaných dat. 

Na záložce "Experiment Design" je dobře vidět jednotlivé (pod)experimenty. Zejména je vidět, že byla realizována časová řada zahrnující situaci po 12h, 24h a 48h.

Záložka "Downloads" nabízí data experimentu ke stáhnutí (zejména normalizovaná data). Jedná se o affymetrix microarray data, která již jsou zpracována tak, že v tabulce vidíme ke každému genu normalizovanou hodnotu diferenční exprese vůči kontrolnímu vzorku. Tyto hodnoty můžeme vzájemně porovnávat (sloupce odpovídají jednotlivým podexperimentům). 

Prohlédněte si poměrně abstraktní síť signálních drah respiračních buněk: https://www.wikipathways.org/index.php/Pathway:WP4868

Podívejte se v experimentu na data o expresi proteinů OAS1, OAS2, OAS3. Při pohledu na tuto schematickou dráhu je patrné, že v daném vzorku patrně aktivní.

Jako další motivaci můžeme použít dráhy dostupné na wikipathways k problematice COVID19 (https://www.wikipathways.org/index.php/Portal:Disease/COVIDPathways).  Tyto dráhy postihují různé procesy související s nákazou a jsou popsané na velmi schematické úrovni. K těmto drahám si vezmeme nějaká zajímavá expresní data. Velmi high-level data jsou k dispozici např. na UCSC cell browseru (https://cells.ucsc.edu). My použijeme RAW data získaná sekvenací, která jsou k dispozici na https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE147507.

Budeme uvažovat dráhu https://www.wikipathways.org/index.php/Pathway:WP4876, která vysvětluje na vysoké úrovni abstrakce způsob, jakým virus ovlivňuje skrze protein ORF2 vznik cytokinové bouře v respirační tkáni. Stáhněte si soubor series matrix z https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE147507 a prozkoumejte tento experiment získání expresních dat. Prohlédněte si hodnoty proteinů obsažených v dráze (např. IL1B, TRAF3, CASP1, ...) a vztáhněte je k této dráze. 

Postup takovéto integrované analýzy by bylo vhodné automatizovat, zejména, pokud bychom měli k dispozici přesnou interakční mapu lidské buňky a viru. K tomuto účelu je veden zbytek lekce. Bohužel ne na "cool" datech, ale na datech z kvasinky (nemáme zatím k dispozici robustní sítě imunitního systému lidských buněk).

II. Integrace expresních dat v cytoscape

Tutoriál výše dává základní informace k využití vizualizačních schopností cytoscapu ke zobrazení expresních dat. Pracuje s následující sítí protein-protein interakcí (jedná se o výsek regulační sítě kvasinky).

V následujících bodech si procvičíte integraci v praxi na datech z E. Coli.

Najděte v databázi GenExpDB expresní profil zjištěný pro regulon flhD (centrální regulátor konstrukce filamentu).

Prohlédněte na barevné stupnici podmínky, při nichž byl gen nejvíce/nejméně vyjádřen.

Zaměřte se na experiment s registračním číslem GSE12006 a zobrazte grafy příslušných naměřených dat. Data tohoto experimentu byla naměřena na komerčních oligonukleotidových DNA array. Aby bylo možné data z GenExpDB použít, je nutno následující zpracování:

  1. stáhnout data z https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE12006 (zpracovaná data, jsou k dispozici i raw data pro jednotlivé experimenty)
  2. relevantní jsou formáty SOFT (obsahující anotaci zejména mapování z affymetrix do standardního kódování genů E.Coli pomocí b... notace) a series matrix file obsahující samotné hodnoty jednotlivých experimentů 
Pro účely tohoto cvičení jsem data předzpracoval, namapoval a normalizoval, jsou k dizpozici v následujícím souboru:

Otevřete Cytoscape a importujte do něj níže odkazovanou genovou regulační síť E.Coli.

Importujte (jako atributy uzlů) expresní data výše získaná z GenExpDB a vizualizujte je prostřednictvím VizMapperu.