11. Bioinformatika a proteiny II
David Potěšil
Proteomika, Podzim 2016
Core Facility – Proteomics
CEITEC-MU
Masaryk University
Kamenice 5, A26
phone: +420 54949 8426
email: david.potesil@ceitec.muni.cz
2
Obsah přednášky
5. Biologické sítě
6. Biologické sítě – biologické ontologie, KEGG
7. Biologické sítě – příklady použití
8. Vybrané on-line zdroje
9. Několik zamyšlení závěrem
10. Příklad využití bioinformatických nástrojů
5. Biologické sítě
3
Biologické sítě
• snaha o zachycení celého světa pomocí jeho jednotlivých složek (nodes) a
vztahů mezi nimi (edges) – vytváření sítí (networks)
• prvopočátky již v 18. století...
• biologická síť
• sada molekul, např. proteinů, geny, metabolity = nodes
• propojených pomocí definovaných, funkčních vztahů; např. proteinprotein
interakce = edges
4
5. Biologické sítě
Biologické sítě – příklady
• metabolické dráhy (metabolic pathways)
• spojují proteiny (nodes) skrze produkty a reaktanty (edges)
• produkt jednoho = substrát druhého
• např. KEGG; WikiPathways
5
část metabolické sítě –
metabolismus Phe (KEGG)
5. Biologické sítě
Biologické sítě – příklady (2)
• sítě regulace genů (gene regulatory networks; DNA-protein interaction
networks)
• edge = transkripční vztah mezi dvěma proteiny
• jeden protein ovlivňuje expresi genu druhého proteinu(ů)
6
5. Biologické sítě
Biologické sítě – příklady (3)
• protein-protein fyzické interakce – ze sítě samotné není přímá informace o
významu dané interakce...
• nodes – ?
• edges – ?
• příklady databází
• STRING
(www.string-db.org)
• MINT
• DIP
• BioGRID
• ...
7
5. Biologické sítě
6. Biologické sítě
Biologické ontologie, KEGG
8
Biologické ontologie
• ontologie = systém kategorií (termínů; terms) do kterých jsou zařazeny
jednotlivé informační jednotky, spolu s jejich vlastnostmi a vztahy
• biologické ontologie – příklady
• proteiny (gene products) – genová ontologie (GO); funkce, lokalizace, ...
• průběh buněčného dělení (Cell Cycle Ontology)
• vývoj rostliny A. thaliana (Arabidopsis development)
• OLS – Ontology Lookup Service
• http://www.ebi.ac.uk/ontology-lookup/
• jednotný přístup k více ontologiím
• možnost procházet celé ontologie, případně vyhledávat termíny
stále živý proces úprav/doplnění ontologií; není statické!
9
6. Biologické sítě
Biologické ontologie, KEGG
Genová ontologie (GO)
• nejvíce rozpracovaná biologická ontologie
• jak co do počtu termínů, tak co do počtu anotovaných položek (genů/prot.)
• společné termíny pro všechny organizmy
• tři GO domény
• buněčná komponenta (cellular component)
• informace o buněčné lokalizaci proteinu
• molekulární funkce (molecular function)
• informace o funkci proteinu
• biologický proces (biological process)
• informace o procesech, kterých se protein účastní
• GO Slims (podmnožina GO termínů; organizmus, specifická aplikace, ...)
• http://www.geneontology.org/ + AmiGO prohlížeč (online, offline)
10
6. Biologické sítě
Biologické ontologie, KEGG
Genová ontologie (GO) (2)
• kde se berou data pro GO?
• každá anotace obsahuje informaci o svém původu – evidence code
• http://geneontology.org/page/guide-go-evidence-codes
• A) manuálně přiřazené správcem (curator)
• experimental evidence codes  z reálného experimentu
• computational analysis evidence codes  z in silico analýzy
• author statement evidence codes  tvrzení autora + citace
• curatorial statement codes  tvrzení správce, nepatří do žádné
kategorie výše...
(všechny kategorie se dále dělí...)
• B) automaticky přiřazené (bez zásahu správce)
• automatically-assigned evidence code
• Inferred from Electronic Annotation (IEA)
11
6. Biologické sítě
Biologické ontologie, KEGG
KEGG
• KEGG = Kyoto Encyclopedia of Genes and Genomes
• http://www.genome.jp/kegg/
• manuální katalogizace znalostí biologických systémů v počítačově
zpracovatelné podobě
• čerpá z dosavadních znalostí v dané problematice
• z informací na nízké biologické úrovni nám umožní odvodit informace na
vyšší biologické úrovni
• například ze seznamu regulovaných genů/proteinů odvodí informaci o
ovlivněných metabolických drahách – KEGG Pathway
• obdobně i např. http://www.reactome.org
12
6. Biologické sítě
Biologické ontologie, KEGG
7. Biologické sítě
Příklady použití
14
Příklad 1: Vliv nízkomolekulární látky na rostlinu
• identifikace sady ovlivněných proteinů
• jsou tyto proteiny zahrnuty v odpovídající metabolické dráze? (KEGG)
• fungoval experiment dle předpokladu?
• jaké jiné metabolické dráhy byly „významně“ zastoupeny? (KEGG)
• objevili jsme i jiné, dosud nepotvrzené, ale související metabolické dráhy?
• jsou známy proteinové komplexy mezi nalezenými proteiny? (proteinprotein
interakční síť)
• dokáží nám tyto pomoci při interpretaci vlivu látky na rostlinu?
• je mezi proteiny zastoupeno více proteinů z konkrétního GO termínu? (GO)
• na základě daných GO termínů je možno odvodit souvislosti s funkcí či
lokalizací probíhajících (i sekundárních) dějů
15
7. Biologické sítě
Příklady použití
Příklad 2: Interakční partneři zvoleného proteinu
• vidíme již známé interakční partnery?
• pozitivní kontrola průběhu experimentu
• nově pozorované interakce
• studium biologických vlastností možných interakčních partnerů
(GO termíny, metabolické dráhy, ...)
• zapadají tyto do již známých informací o funkci, lokalizaci aj.
zvoleného proteinu?
• je možné predikovat nepotvrzenou funkci proteinu?
• jsou patrné souvislosti s lokalizací našeho proteinu?
16
7. Biologické sítě
Příklady použití
Příklad 3: Studium proteinu, se vztahem k onemocnění...
• jsou pro tento protein známy proteinové interakce?
• u interakčních partnerů zvýšená pravděpodobnost, že se tyto proteiny
aktivně nebo pasivně účastní daného onemocnění; GO analýza
• je známa lokalizace proteinu v buňce?
• lokalizace může souviset s funkcí (konkrétní funkce proteinu často vázána
na jeho buněčnou lokalizaci)
• je známa úloha proteinu v některé metabolické dráze?
• možná úloha (i nepřímá, ovlivňující např. „jen“ dostupnost klíčového
proteinu) dráhy v onemocnění – její proteinové i neproteinové komponenty
 potencionální cíle dalšího studia a nové léčby
17
7. Biologické sítě
Příklady použití
Příklad 4: „Zdraví versus nemocní“ – rozdílně
exprimované proteiny
• kterých metabolických drah se proteiny účastní?
• vysvětluje to důsledky, průběh, ... vlastní nemoci?
• jsou rozdílné proteiny převážně lokalizované v některé z organel?
• má tato informace souvislost se vznikem/průběhem nemoci v konkrétní
části buňky?
• je mezi proteiny „často“ přítomen konkrétní GO termín?
• má tento termín souvislost se vznikem, průběhem, projevem onemocnění?
18
7. Biologické sítě
Příklady použití
7. Biologické sítě
Analýza biologických sítí
19
Analýza sítí (network analysis) – na co si dát pozor?
• falešně pozitivní i negativní informace v biologických sítích
• častěji falešně negativní – absence příslušných proteinů v sítích
• mnoho dat v databázích z automatických analýz dostupných dat
• i přes kontrolu nemusí zcela odpovídat zdrojovým datům a skutečnosti
• někdy lze vyloučit z analýzy (např. automaticky anotované GO...)
• stále víme málo...
• důležitost sekvenčních a funkčních homologií u proteinů bez anotace
• rychlý vývoj v anotaci proteinů a vývoji bioinformatických nástrojů!
• volba vhodných otázek, na které nám biologické sítě dokážou dát odpověď
20
7. Biologické sítě
Analýza biologických sítí
Analýza sítí – jak se postavit k výstupům?
• manuální validace výstupů
• ověřením původních zdrojů
• pochybovat a ptát se
• nesnažit se proces analýzy a ověření výsledků urychlit
• experimentální ověření závěrů (např. buněčné linie s mutantní formou genu)
• drahé a časově náročné  důkladné ověření předchozích kroků!
21
7. Biologické sítě
Analýza biologických sítí
8. Vybrané on-line zdroje
22
8. Vybrané on-line zdroje
Universal Protein Resource (UniProt)
• http://www.uniprot.org
• bohatá anotace proteinů s odkazy na specializované databáze/zdroje
• široké možnosti využití v databázi přítomných informací
• převod (mapping) identifikátorů z různých databází (např. UniProt →
KEGG)
• tabulkový formát s vybranými informacemi o sadě proteinů (stažení...)
• možný pohled ze strany určité taxonomie, nemoci, buněčné
lokalizace...
• informace o přítomnosti sady proteinů v metabolických drahách, GO
23
Universal Protein Resource (UniProt) (2)
• odkud bere proteinové sekvence?
• většina (~98 %) z nukleotidových databází CDS (coding sequences)
• sekvence zadávány jednotlivými výzkumnými skupinami
• EMBL-Bank/GenBank/DDBJ
• pod International Nucleotide Sequence Databases (INSD)
• translace na proteinovou sekvenci
• automatické zpracování za účelem anotace a klasifikace proteinů
• na základě sekv. homologií
• takto zpracovaný protein je zaveden do UniProtKB/TrEMBL databáze
• je-li protein vybrán pro manuální zpracování, provede správce (curator)
jeho manuální zařazení do UniProtKB/SwissProt databáze
24
8. Vybrané on-line zdroje
Universal Protein Resource (UniProt) (3)
• UniProtKB/SwissProt – manuální zpracování (curation) správcem
• kontrola sekvence – není-li v původní sekvenci chyba
• sekvenční analýza – manuálně kontrolované predikce atd.
• studium literárních zdrojů – dodány biologicky relevantní informace k
proteinu na základě dostupných publikací; název genu, funkce
proteinu, enz. aktivita, subc. lokalizace, přiřazení GO termínů k
proteinu atd.
• získání informací o proteinové rodině – zjištění případných členů
proteinové rodiny a jejich společné zpracování
• přidání zdrojů – z jakého konkr. zdroje pochází ta které informace;
možnost ověření přítomných informací „u zdroje“
• kontrola kvality, integrace, aktualizace – všechna manuálně přidaná
data zkontrolována a zakomponována do nové verze SwissProt db.
25
8. Vybrané on-line zdroje
TrEMBL/SwissProt
26
„závazek“
high-throughput
8. Vybrané on-line zdroje
Universal Protein Resource (UniProt) (5)
• typy proteinových setů v UniProtKB proteinové databázi
• UniProtKB/TrEMBL – automaticky klasifikované a anotované
• i zde probíhají automaticky řízené opravy...
• UniProtKB/SwissProt – po manuální úpravě správcem (curation)
• (Complete) Proteome Set – pro kompletně sekv. organizmy (T+S)
• dnes již bez complete označení, rozděleno dle taxonomií
• Reference Proteome Set – vybrané modelové organizmy (T+S)
• “... The approach adopted by UniProt to meet this challenge is to
define a set of ‘reference proteomes’ which are ‘landmarks’ in
proteome space.”
• “Reference proteomes have been selected among all proteomes
(manually and algorithmically, according to a number of criteria)
to provide broad coverage of the tree of life.”
27
8. Vybrané on-line zdroje
Universal Protein Resource (UniProt) (6)
• typy proteinových setů v UniProtKB proteinové databázi
• UniRef – UniProt Reference Clusters
• seskupené primární sekvence do klastrů na základě sekv.
podobnosti
• umožňuje skrýt „redundantní“ proteinové sekvence
• UniRef100 – seskupeny záznamy se 100% identitou
• UniRef90; UniRef50
• snížení počtu sekvencí (o ~58 a 79%) – BLAST aj.
• seskupováno dle kritérií – SwissProt, jméno, organizmus, délka
• UniParc – databáze proteinových sekvencí
• unikátní identifikátor pro každou primární sekvenci (UNI)
• identifikátor se nikdy nemění, ani nemaže
• vedle sekvence informace o zdrojové databázi, identifikátoru atd.
28
8. Vybrané on-line zdroje
PubMed
• http://www.ncbi.nlm.nih.gov/pubmed
• více orientovaná na genomová data, ale...
• Protein Clusters – obdoba UniRef
• RefSeq – obdoba SwissProt; méně informačně „hodnotné“; oproti
SwissProt cca 4M RefSeq záznamů
• obdobně informace o jednotlivých organizmech, taxonomiích aj.
• nenabízí tak široké možnosti filtrování a práce s proteinovými
sekvencemi jako UniProt
• mimo to i indexace vědeckých publikací aj.
29
8. Vybrané on-line zdroje
Expasy
• http://expasy.org
• sada nástrojů pro práci s proteiny/geny
• převážně nástroje z dílny Swiss Institute of BioInformatics
(SIB; http://www.isb-sib.ch/)
• původně pouze proteomický portál
• rozšířen (2011) o genomické, transkriptomické aj. informace a nástroje
European Bioinformatics Institute (EBI)
• http://www.ebi.ac.uk/services
• opět sada bioinformatických nástrojů a databází pro studium proteinů a
souvisejících informací
• např. zmiňované InterPro; GeneOntology.org; OLS; ...
30
8. Vybrané on-line zdroje
bioinformatics.ca Links Directory
• http://bioinformatics.ca/links_directory/
• sady odkazů na různé kategorie on-line zdrojů
OMICtools
• http://omictools.com/; opět sada bioinformatických nástrojů
Reactome
• http://www.reactome.org
• obdoba KEGG, převážně pro lidské dráhy
Pax-DB
• http://pax-db.org/#!home
• databáze abundancí jednotlivých proteinů v organizmech či jejich částech
31
8. Vybrané on-line zdroje
9. Několik zamyšlení závěrem
32
9. Několik zamyšlení závěrem
Rychlý vývoj bioinformatických aplikací/databází
• vzniká hodně nástrojů/databází, které nejsou následně používané
• nepoužívané nástroje často dále nevyvíjené, neaktualizované (přítomnost
chyb, které se objeví až při masivním používání...), používají zastaralé
algoritmy, používají starší proteinové databáze...
• význam „zavedených“ zdrojů bioinformatických nástrojů/databází
(UniProt, Pubmed, EBI, Expasy)
• např. anotace proteinů, vytváření biologických sítí – lidské kapacity
• dlouholeté zkušenosti nutné k střednědobému směřování vývoje
• důležitá grafická stránka programu/databáze a prvotní „jednoduchost“
• důležité pro rychlé „rozkoukání“, user friendly uživatelské prostředí
• významná předchozí zkušenost s prací v aplikaci/s databází
• nové aplikace to nemají snadné...
• důvod proč i nápadité nástroje mohou zůstat nepoužívány
33
9. Několik zamyšlení závěrem
Rychlý vývoj bioinformatických aplikací/databází (2)
• několik let (nejen v bioinformatice) je velmi dlouhá doba
• aktualizace minimálně 1× ročně, optimálně měsíční, půlroční
• i přes to mohou starší nástroje fungovat lépe než novější...
• případně nic „lepšího“ není
• důležité celosvětové reference a citovanost/používání (recentní) daného
nástroje/databáze
• bioinformatické aplikace/databáze není možné nevyvíjet/neaktualizovat
• při vytváření nástroje/databáze nutno počítat s udržitelností jeho vývoje...
• školící programy/workshopy/stáže v bioinformatických centrech
• EBI, SIB aj.
• význam spoluprací – jeden tým často nedokáže pojmout celé spektrum
použitých nástrojů, přístupů včetně interpretace výstupů
34
10. Příklad využití bioinformatických
nástrojů
35
10. Příklad využití bioinformatických nástrojů
Zavedení problému
• studium proteinových komplexů vybraného proteinu
• imunoprecipitace proteinových komplexů (IP experiment)
• protilátka proti proteinu (bait), u kterého chceme zjistit jeho partnery
• např. protilátka imobilizovaná např. na kuličkách (magnetické, v kolonkách)
• nativní prostředí při experimentech – podmínky pro interakce jako in vivo
• výstupem pull-down roztoky – proteiny vázající se na bait a nespecificky
vázené proteiny
• paralelně experimenty bez bait – negativní kontrola pro nespecificky vázané
proteiny – bead proteome
• minimálně 3 biologické replikáty, lépe 5 od vzorku i negativní kontroly
36
LC-MS/MS analýza pull-down vzorků
• digesce proteinů  peptidy (např. trypsinem; peptidy končí R nebo K)
• LC-MS/MS analýza směsi peptidů
• peptidy vstupují do MS v pořadí rostoucí hydrofobicity (LC separace)
• MS zjistí MW peptidů a získá MS/MS spektra
(fragmentační spektrum vybraného peptidu)
37
např. peptid ANELLLNVK
(MW 1012,5917 Da)
1. MWexp = 1012,5923 Da
(0,6 ppm chyba)
2. změřené fragmentační
(MS/MS) spektrum 
(CID; collision induced dissociation)
10. Příklad využití bioinformatických nástrojů
Zpracování LC-MS/MS dat
• LC-MS/MS data z analýz pull-down vzorků po digesci = MS/MS spektra
• řádově 10 000 – 1 000 000 MS/MS spekter
• identifikace peptidů
• vycházíme z proteinové databáze, např. TAIR (Arabidopsis thaliana)
• in silico se vytvoří seznam možných peptidů
• >20 algoritmů pro automat. přiřazení MS spektra možným peptidům
(Sequest, Mascot, XTandem!, OMSSA, Phenyx, Andromeda, ...)
• jiný algoritmus  jiný přístup  různá citlivost  odlišné výsledky
 kombinace algoritmů
 zvýšení počtu pozitivních identifikací
38
9%
19% 7%
34%
5%
4%22%
SEQUEST
X!Tandem Mascot
10. Příklad využití bioinformatických nástrojů
Zpracování LC-MS/MS dat (2)
• falešná pozitivita a negativita ve výsledcích databázového hledání
• decoy proteinová databáze a FDR (false discovery rate)
• decoy databáze – např. obrácené sekvence, náhodné sekvence proteinů
• identifikace peptidů v cílové (např. TAIR) i decoy proteinové databázi
 jeden z možných přístupů jak určit FDR – peptidová úroveň
39
početMS/MSspekter
peptidové skóre (větší, lepší)
target = X
decoy = Y
FDR (%) = Y / X × 100
10. Příklad využití bioinformatických nástrojů
Zpracování LC-MS/MS dat (3)
• z identifikovaných peptidů k proteinům přítomným ve vzorku (protein
inference problem)
• problém u bottom-up přístupu (digesce proteinů, analýza až peptidů)
• v MS analýze vidíme jen část z např. tryptických peptidů proteinů (max.
kolem 60-70% sekvenčního pokrytí proteinu, min. 1 peptid na protein) a
navíc nevíme ze kterých proteinů pozorované peptidy původně pochází...
 problém s určením seznamu proteinů přítomných ve vzorku
(sadě peptidů může odpovídat více proteinů – isoformy, sekv. homology;
proteiny identifikované jen na jeden peptid?)
• peptid může teoreticky pocházet z jednoho i více proteinů
40
10. Příklad využití bioinformatických nástrojů
Pohled na seznamy identifikovaných proteinů
• dva seznamy identifikovaných proteinů v našem IP experimentu
• vzorek po IP experimentu s naším proteinem – sada proteinů A
• slepý vzorek; „bead proteome“ – sada proteinů B
• co nás zajímá v našem IP experimentu nejvíce?
• sada proteinů A, které zároveň nejsou v sadě proteinů B
41
10. Příklad využití bioinformatických nástrojů
Pohled na seznamy identifikovaných proteinů (2)
• proteiny „navíc“ v A
• 1) kvalitativní změny (A: „ano“, B: „ne“)
• citlivost použitého přístupu...
• proteiny identifikované relativně slabě v A mohou být v B také přítomny!
• 2) kvantitativní změny (A: „více“, B: „méně“)
• možno pracovat pouze s intenzitami A a B peptidů – label-free
• přesnost, správnost
• vzorky A a B byly zpracovány tak, že jsme pomocí MS schopni rozlišit
mezi A a B (např. SILAC – Stable Isotope Labeling by Amino acids in
Cell Cultures – komplikované u rostlin, nekompletní inkorporace
značených AA; dusík 15N)
42
10. Příklad využití bioinformatických nástrojů
Co se seznamem proteinů „navíc“? – vybrané možnosti
1. manuální prohledání dostupných informací v literatuře
2. www.UniProt.org (ID mapping; informace, další databáze; GO, pathways)
3. DAVID http://david.abcc.ncifcrf.gov/home.jsp
4. PANTHER http://go.pantherdb.org/
5. ANAP http://gmdd.shgmo.org/Computational-Biology/ANAP
• jen pro At
• Source database – čerpá známé informace z databáze interakcí
• Detection method – predikce možných protein-protein interakcí
(u predikované interakce uvádí důvod pro predikci)
6. R
7. Cytoscape
• ...
43
10. Příklad využití bioinformatických nástrojů
Děkuji za pozornost
44