10. Bioinformatika a proteiny I
David Potěšil
Core Facility - Proteomics
CEITEC-MU
Masaryk University
Kamenice 5, A26
phone: +420 54949 8426
email: david.potesil@ceitec.muni.cz
Proteomika, Podzim 2016
2	
Obsah přednášky	
1.   Co je to bioinformatika?	
2.   Taxonomie a fylogeneze	
3.   Evoluce proteinů, proteinové domény	
4.   BLAST, srovnávání sekvencí	
1. Co je to bioinformatika?
1. Co je to bioinformatika?
4
Co představuje „bioinformatika"?
•   vícero názorů...1
Bioinformatics is conceptualizing biology in terms of macromolecules (in the sense of physical-chemistry) and, then, applying "informatics" techniques (derived from disciplines such as applied math, computer science, and statistics) to understand and organize the information associated with these molecules, on a large scale. (Luscombe, 2001, p. 346)
The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related information. (Tekaia, n.d.)
Bioinformatics is the field of science in which biology, computer science, and information technology merge to form a single discipline. The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned. (National Center for Biotechnology Information, n.d.)
Computational biology is not a "field", but an "approach" involving the use of computers to study biological processes and hence it is an area as diverse as biology itself. (Schulte, n.d.) Biomedical informatics is the science underlying the acquisition, maintenance, retrieval and application of biomedical knowledge and information to improve patient care, medical education and health sciences research. (Friedman, n.d.)
1. Fenstermacher, D. Introduction to bioinformatics. Journal of the American Society for Information Science and Technology 56, 440-446 (2005).
1. Co je to bioinformatika?
Co predstavuje „bioinformatika"? (2)
•   „The enormous amount of data gathered by biologists - and the need to interpret it -requires tools that are in the realm of computer science. Thus, bioinformatics." 2
studium a aplikace metod pro uchování, zpětné vyvolání a analýzu biologických dat
• sekvence nukleových kyselin (NK) a proteinů
• proteinové struktury
• funkce proteinů
• metabolické a regulační dráhy (pathways)
• molekulární interakce (např. protein-protein, protein-NK, NK-NK)
2. Cohen, J. Bioinformatics - an introduction for computer scientists. ACM Comput. Surv. 36,122-158 (2004).
1. Co je to bioinformatika?
6
Příbuzné disciplíny
• data mining
• analýza dat z různých perspektiv a „dolování" shrnujících (zobecněných) informací
• matematická a teoretická biologie
• matematická prezentace, zpracování a modelování biol. procesů
• lékařská informatika
• tvorba databází medicínských informací a jejich další využití
• biostatistika
• aplikace a vývoj statistických metod pro řešení biologických a klinických problémů
• častý překryv s těmito i s dalšími obory (záleží na konkrétní aplikaci)
1. Co je to bioinformatika?
Příklad využití bioinformatických nástrojů
*   protein-protein interakce založené na datech z hmotnostní spektrometrie spojené s kapalinovou chromatografií (LC-MS(/MS) analýza peptidů)
kvant, informace
bioinformat
nástroje („black box6
protein-protein interakční síť ? závěry z analýze této sítě?
1. Co je to bioinformatika?
8
Příklad využití bioinformatických nástrojů
protein-protein interakce založené na datech z hmotnostní spektrometrie
spojené s kapalinovou chromatografií (LC-MS(/MS) analýza peptidů) -1 v stupům
kvant.        BHHHHH přizpůsobené ■ r___'___        H3BIii3íjjEi^1 nastavení
2. Evoluce proteinů, proteinové domény
2. Evoluce proteinů, proteinové domény
10
Jedna z prvních aplikací bioinformatiky
- srovnání primárních sekvencí (sekvenční homologie)
• BLAST - Basic Local Alignment Search Tool (dále podrobněji)
• proč srovnávat primární sekvence?
•   podobnost v primární sekvenci proteinů =^> podobnost ve struktuře proteinů
=> podobnost ve funkci proteinů...
Není tak jednoduché
2. Evoluce proteinů, proteinové domény
11
Proteinová evoluce a proteinové domény
• proteinová doména = nezávislá strukturní, funkční a evoluční jednotka
• 2/3 proteinů jednobuněčných a 80% proteinů mnohobuněčných organizmů je složených z více domén
• vznik „nových" proteinů (proteinová, molekulární evoluce)
• kombinace, duplikace, změna stávajících domén (na úrovni genů)
• kombinace/duplikace/změna domén => často odlišná funkce proteinu
•   změna struktury, spolupráce se sousedními doménami...
jednodoménové proteiny, stejná doména: -67% šance na podobnou funkci dvoudoménový protein, 1 stejná doména: -35% šance na podobnou funkci
• v průběhu evoluce dále nastávaly mutace v duplikovaných či kombinovaných doménách často se zachováním strukturní podobnosti => sekvenčně odlišné, strukturně podobné
2. Evoluce proteinů, proteinové domény
Proteinová evoluce a proteinové domény - příklad
pridaní
prarodiče (ancestors)
2x inzerce
inzerce
©
delece
proteinová evoluce v čase a událostech
2. Evoluce proteinů, proteinové domény
13
Doménové superrodiny a rodiny (superfamilies, families)
• proteinové domény je možné klastrovat na základě podobnosti
• podobnost možná na více úrovních
• sekvenční podobnost (primární struktura proteinu/domény)
• strukturní podobnost (sekundární a terciární struktura proteinu/domény)
• funkční podobnost (nezávislá na sekvenční a strukturní podobnosti)
• doménové rodiny a superrodiny a podobnost
• sekvenční podobnost => doménová rodina
• evolučně mladší (mutace v krátké době =^> sekv. podobnost zachována)
• strukturní, funkční podobnost => doménová superrodina
• stejní proteinoví prarodiče, evolučně starší (dlouhodobá mutace sekvence =^> sekv. podobnost nemusí být zachována)
2. Evoluce proteinů, proteinové domény
14
Hlavní zdroje pro klasifikaci domén
• klasifikace domén do superrodin a rodin
• CATH (Class, Architecture, Topology, Homologous Superfamily)
• htt p ://www.cat hd b. i nf o/
• SCOP {Structural Classification Of Proteins)
• http://scop.mrc-lmb.cam.ac.uk/scop/
• čerpají známé proteinové sekvence z Protein Data Bank (PDB)
• zpracovávanou jednotkou je proteinová doména
2. Evoluce proteinů, proteinové domény
15
Proteinové rodiny a superrodiny
• obdobně jako u proteinových domén
• častější klastrování na základě „sekvenční podobnosti" (převážně multiple sequence alignment algoritmy) => sequence signatures
• využití primárních sekvencí proteinů ve zvolené databázi
• při klastrování je možno zvažovat různé části proteinu
• funkční místa proteinu
• funkční konzervativní motivy
• funkční domény
• strukturní domény
• proteinová rodina = „sekvenčně podobné" proteiny
• proteinová superrodina = evolučně spjaté proteinové rodiny (není nutná sekvenční podobnost) - souhrn proteinů v evolučně spjatých prot. rodinách
2. Evoluce proteinů, proteinové domény
16
Proteinové rodiny a superrodiny - online zdroje
• různé databáze proteinových rodin a superrodin (viz. dále)
• používají různé proteinové databáze (primární sekvence) pro klasifikaci
• UniProtKB (SwissProt a TrEMBL)
• NCBI RefSeq
• proteinové databáze pro vybrané kompletně sekvenované organizmy
• používají různé části proteinu pro predikci rodin/superrodin
• integrální zdroje
• sbírají informace z více zdrojů a prezentují na jediném místě
• InterPro (http://www.ebi.ac.uk/interpro/) - příklad P12345, p53
• CDD (Conserved Domain Databasé)
Bioinformatíc tool/URL
Signature databases
ProtCIustDB Dec 2 2010/ http://www.ncbLnlm.rih. gov/proteinclusters
Clustering method
Cluster information based on
NCBI RefSeq
Clique based
Functional domains
Protein families or signatures
627757, 10885 (cu rated]
Pfam 25.0/
Jnttp^gfann^san^ei^aaLk^
UniProtKB
HMMs
Functional domains
12273 (Pfam-A)
PROSITE 20.68/ http://expasy.org/prosite/ PRINTS 41.1/
http://www.bioinf.manchester.ac.uk/ dbbrowser/PRINTS/index.php ProDom 2006.1/CG267/ http://prodom.pra bi.fr/prodom/ current/html/home.php SMART 6.1/
http://smart.embl-heidelberg.de/
UniProtKB UniProtK
UniProtKB/267 completed genomes (one from plants)
UniProtKB/760
completed
genomes
(one from plants)
Patterns, profiles Fingerprints
MKDOM2
O
1598 20
574656/301126
895
TIGRFAMs 10.0/
http://www.jcvi .o rg/cms/ research/ projects/tigrfams/overview/
UniProtKB
Functional domains
4025
PI RS I- 2.74/
http://pir.georgetown.edu/ pirwww/dbinfo/pirsf.shtml
Functional domains
324Ü tcurated)
SUPERFAMILY 1.75/ http://supfgm.cs.bris.ac uk/SU PER FAMILY/
TlMMs	SCOP domains	2019
HMMs	CATH domains	2549
HMMs	Functional domains	6594
GENE3D 10.0.0/ http://gene3d.bioc ucl.ac.uk/Gene3 PANTHER 7.0/ http:/j Inte
(three from plants)
UniProtKB
Signature integration
Gene3D, HAMAP, PANTHER, Pfam, PIRSF, PRINTS, ProDom, PROSITE, SMART, SUPERFAMILY, TIGRFAMs signatures
21185
CDD 2.26/
http://www.ncbi-nlm.nih. gov/Structure/cdd/cdd. shtml
NCBI Database
PSSMs
NCBI-curated domains, Pfam, SMART, COGs, ProtClustDB signatures
41593
)09
2. Evoluce proteinů, proteinové domény
18
Co získám znalostí proteinové rodiny/super rodiny?
• předpokládaná funkce proteinu
• pokud není protein sám o sobě již detailně prostudován...
• navazující GO {gene ontologý) termíny - viz. příští přednáška
• klasifikace v systému proteinových rodin/superrodin
• návaznosti na jiné rodiny, metabolické dráhy atd.
• důležité např. při studiu seznamu proteinů/genů se změněnou hladinou/expresí _____
• datamining
• proteiny většinou nepůsobí samostatně, paralelní dráhy, atd.
• případně lze pozorovat změny u proteinů následujících/předcházejících v kaskádě změn v reakci na konkrétní stimul
19
3. Taxonomie a fylogeneze
3. Taxonomie a fylogeneze
20
Taxonomie
• taxon
• skupina žijících či již vymřelých organizmů se společnými znaky, jimiž se odlišují od jiných taxonů (organizmů v těchto taxonech)
• taxonomické dělení >
• při objevení nového organizmu
• manuální třídění dle společných a jedinečných znaků
• snaha o shodu s fylogenezí - evolučním vývojem organizmu
• základní taxonomické kategorie - viz. obr.
3. Taxonomie a fylogeneze
21
	
Fylogeneze (fylogenetický vývoj)	
*   evoluční vztah organizmů	
•   využití morfologických dat a v poslední	
době hlavně výsledky molekulárního	líífiil BlPlI' KwPl
sekvenování	
=> evoluční vývoj organizmů	
=> fylogenetický strom	eHÍI
	
	
	
fylogenetický strom - Haeckel (1866)	
3. Taxonomie a fylogeneze
22
Fylogenetické stromy
• grafické znázornění příbuzenských vztahů mezi různými taxonomickými jednotkami / jednotlivými druhy / geny
• tvorba fylogenetických stromů
•   definování „podobnosti" mezi např. taxonomickými jednotkami
•   morfologické vlastnosti - vzdálenost dána důležitostí morf. znaků
•   sekvenční podobnost na úrovni genomů (i proteinů)
• podobnější tax. jednotky jsou si ve fylogenetickém stromu blíže
• různé zobrazení fyI. stromů: nezakořeněný (A), zakořeněný (B), aj.
3. Taxonomie a fylogeneze
23
Fylogenetické stromy (2) - príklad komplexnosti
•   tvorba fylogenetických stromu
•   možnosti pro prípad 4 organizmu => celkem 3 (nezakoŕenéný), resp. 15 (zakorenený)
•   možnosti pro případ 10 organizmů - celkem ~2 resp. -34 M...
Pouze jeden je správný... => využití morfologických, sekvenčních či jiných informací
3. Taxonomie a fylogeneze
Fylogenetické stromy (3) - vybrané nástroje
•   iTOL - interactive Tree Of Life (http://itol.embl.de/index.shtml)
• automatizované zobrazení fylogenetického stromu - sekvenční data
• pro organizmy se známým genomem, případně vlastní data
• struktura nemusí nutně odpovídat evoluci - nepřesná data, gen. anomálie (např. horizontální přenos genů)
pracuje s taxonomickým zařazením dle NCBI
ľ>1li1ľnBi1hkttty#iŕs»:€tiiTt!nP
•   manuálně editované řazení organizmů, které jsou přítomné ve veřejných sekvenčních databázích (-10% z celkového počtu známých organizmů...) export výsledků; zobrazení v iTOL s obdobnými možnostmi zobrazení
3. Taxonomie a fylogeneze
25
Fylogenetická podobnost - organizmy s nezveřejněným genomem
• použití dostupných informací pro evolučně co nejbližší organizmy
• například při studiu proteinů pomocí hmotnostní spektrometrie (MS)
• běžně se vychází ze známých proteinových sekvencí (znám genom)
• co když organizmus nemá zveřejněný genom?
• databázové hledání MS/MS dat přímo proti proteinové databázi pro evolučně blízký organizmus
• podobné či identické proteinové sekvence => funkce
• de novo sekvenace/identifikace peptidů
• z hmotnostního spektra se přímo určí možný peptid či jeho část
• BLAST de novo peptidů proti proteinové databázi opět pro evolučně blízký organizmus - viz. výše
• příklad - Trichinella spiralis versus Trichinella pseudospiralis...
26
4. BLAST, srovnávání sekvencí
4. BLAST, srovnání sekvencí
27
Formáty proteinových sekvencí/databází
•   FASTA formát - hlavička specifická pro zdrojovou databázi, relativně málo informací; postačuje pro získání a další zpracování proteinové sekvence
sp|P04637|P53_HUMAN Cellular tumor antigén p53 OS=Homo sapiens GN=TP53 PE=1 SV=4 MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGP DE APRMPE AAPPVAPAPAAPT PAAPAPAPSWPLS S S VP SQKT YQGS YGFRLGFLH S GTAK SVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHE RCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVWPYEPPEVGSDCTTIHYNYMCNS SCMGGMNRRPILTIITLEDS SGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELP PGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPG GSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD
•   xml formát
• komplexní forma s kompletní informací k danému proteinu ze zdrojové databáze
• konkrétní forma specifická pro zdrojovou databázi - xml schéma
• obsahuje např. kompletní taxonomii zdrojového organizmu; známé modifikace; výčet interakčních partnerů, označení v jiných databázích a jiné bioinformaticky (automaticky) zpracovatelné informace
4. BLAST, srovnání sekvencí
28
BLAST - Basic Local Alignment Search Tool
• srovnání proteinových či nukleotidových sekvencí (většinou FASTA formát)
• různé algoritmy dle vstupu (protein či nukleotid) a typu srovnání
• nejběžnější algoritmy (pro proteiny)
• blastp - protein-proteinová databáze
• blastx - nukleotid (překlad na proteinovou sekvenci)-proteinová databáze
• vybrané speciální algoritmy - k hledání vzdáleně příbuzných proteinů
• PSI-BLAST - Position Specific Iteration BLAST
• po blastp ze zvoleného počtu sekvencí vytvoří novou pozičně-specif ickou skórovací matrici (PSSM), kterou použije v dalším hledání; tento postup je možno několikrát opakovat
• DELTA-BLAST - obdoba PSI-BLAST; využívá předpřipravené PSSM dle konzervativních domén v NCBI databázi => rychlejší a citlivější
4. BLAST, srovnání sekvencí		29
Základní kroky BLAST algoritmů	Query sequence: PQGEF(	j
1. generování k-písmenných úseků - „slov"	W(	3rd 1:PQG
(parametr word size)	i H	v ořu l. v^vjh Word 3: GEF
•   proteiny - běžně K = 3; nukleotidy - běžně K = 11		Word 4: EFG
2. prohledání každého „slova" vůči cílové databázi a ponechání těch slov,		
kde se našla shoda překračující stanovené limitní skóre => hiah scorina		
words		
3. hledání high scoring words z databáze; hledána úplná shoda - exact match		
4. rozšíření exact match na obě strany původního k-písmenného slova a		
hledání high-scoring segment pairs (HSPs) pro každý exact match -		
rozšiřování do dobv, dokud neklesá skóre pro původní exact match		
5. zhodnocení statistické významnosti jednotlivých HSPs		
6. spojení HSPs do delších úseků		
7. výpočet expectation value (E)		
4. BLAST, srovnání sekvencí			30
Substituční skórovací matice pro vvDočet skóre			
•   matice „substitučních" skóre pro jednotlivé AK, které se uvažují při			
srovnávání prvotních k-písmenných slov i při jejich rozšiřování a hledání			
HSPs			
•   nejběžnější matice BLOSUM62			
•   skóre se odvíjí od četnosti aminokyselinové záměny v reálných			
proteinech jejichž identita je větší než 62%			
•   + hodnoty - častější substituce	# Matrix made by matblas from blosum62.iij # * column uses minimum score # BLOSUM Clustered Scoring Matrix in 1/2 Bit Units # Blocks Database - /data/blocks_5.O/blocks.dat		
•   - hodnoty - méně časté subst.	# Cluster Percentage: >■ 62 # Entropy =     0.6979,  Expected = -0.5209 ARNDCQEGHILKMFPSTW A   4-1-2-2    0 -1 -1    0 -2 -1 -1 -1 -1 -2-1    1    0 -3	V    V B -2    0 -2	Z    K * -1    0 -4
•   po diagonále největší skóre	H -1    5    0-2-3    1    0-2    0-3-2    2-1 -3 -2 -1 -1 -3 H -2    0    6    1-3    0    0    0    1-3-3    0-2-3-2    1 0-4 D -2 -2    1    6-3    0    2-1-1 -3 -4 -1 -3 -3 -1    0 -1 -4 C    0-3-3-3    9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2	-2 -3 -1 -2 -3 3 -3 -3 4 -2 -1 -3	0 -1 -4 0 -1 -4 1 -1 -4 -3 -2 -4
(62% ident. =^> nejčastější jev)	Q -1    1    0    0-3    5    2-2    0-3-2    1    0-3-1 0-1-2 E -1    0    0    2-4    2    5-2    0-3-3    1-2-3-1    0-1 -3 G   0-2    0-1-3 -2 -2    6 -2 -4 -4 -2 -3 -3 -2    0 -2 -2 H -2    0    1-1-3    0    0-2    8-3-3 -1 -2 -1 -2 -1 -2 -2 Tl       1111       11A1A^llA19l 1	-1 -2 0 -2   -2 1 -3 -3 -1 2-3 0 111	3 -1 -4 4 -1 -4 -2 -1 -4 0 -1 -4 "5      1 A
• zaokrouhleno	J_   — L    —J   —J   —J    — L    —J   —J   — *±    —J       *±       £    —J       L       U   —J    - *i    — L   — J L -1 -2 -3 -4 -1 -2 -3-4-3    2    4-2    2    0 -3 -2 -1 -2 K -1    2    0-1-3    1    1-2-1 -3 -2    5 -1 -3 -1    0 -1 -3 H -1 -1 -2 -3 -1    0-2-3-2    1    2-1    5    0 -2 -1 -1 -1 F -2 -3 -3 -3 -2  -3 -3-3-1    0    0-3    0    6 -4 -2 -2 1 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4    7 -1 -1 -4 S    1-1    1    0-1    0    0    0-1-2-2    0-1-2-1    4 1-3 T    0-1    0-1-1 -1 -1 -2 -2 -1 -1 -1 -1 -2-1    1    5 -2 T.J   _ 5   _-S   _A   _A   _J   _f            _J   _J   _"1   _5            _ 1       1    _A   _1 11	- L       J   — J -1    1 -4 -2 -2 0 -1    1 -3 3 -1 -3 -3 -2 -2 -2  -2 0 -2    0 -1 2 -3 -4	— j   — L   — 1 -3 -1 -4 1 -1 -4 -1 -1 -4 -3 -1 -4 -1 -2 -4 0 0-4 -1    0 -4 -3 -2 -4
	Vi    —J    —J    — i    — 1    — mL    —       —J    — *L    — mL    —J    — *L    —J    —1.        L    — 1    —J    — 11 ¥ -2 -2 -2 -3 -2 -1 -2 -3    2 -1 -1 -2 -1    3 -3 -2 -2 2 V   0-3-3 -3 -1 -2 -2 -3-3    3    1-2    1 -1 -2 -2    0 -3 B -2 -1    3    4-3    0    1-1    0-3-4    0-3 -3 -2    0 -1 -4 2-1    0    0    1-3    3    4-2    0-3-3    1-1-3-1    0-1 -3 X   0-1-1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1-2    0    0 -2 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4	7 -1 -3 -1    4 -3 -3 -3 4 -2 -2 L -1 -1 -1 -4 -4 -4	-2 -1 -4 -2 -1 -4 1 -1 -4 4 -1 -4 -1 -1 -4 -4 -4 1
4. BLAST, srovnání sekvencí 2
Substituční skórovací matice pro výpočet skóre (2)
•   typ matice by měl být uzpůsoben délce hledané sekvence
word size se doporučuje snížit u proteinů na 2 v případě krátkých sekvencí
(peptidy či menší proteiny)
Délka (počet AK)	Substituční matice
<35	
35-50	PAM-70
	BLOSUM-80
_>85_	BLOSUM-62
4. BLAST, srovnání sekvencí 22
Substituční skórovací matice - skóre jednoho HSP
Query sequence: R P P Q G L F
Database sequence: D P PEG V V
U
Exact match is scanned.
Score:-2 7 7 2   6   1 -1
U
HSP
Optimal accumulated score = 7+7+2+6+1 = 23
!7
#
#
A
R -1 N -2 D -2
C 0
Q -1 E L C 0 B -2
1 -1 L -1 K -1 M -1 F -2 P -1 S L T 0 W -3
Y -2
V 0 B -2
2 -1 X D
Matrix made by matblas from blosum62.iij * column uses minimum score
BLOSUM Clustered Scoring Matrix in 1/2 Bit Units Blocks Database - /data/blocks_5.O/blocks.dat Cluster Percentage! >= 62 Entropy =      0.6575,  Expected = DCQECBIL -2    0-1-1    0 -2 -1 -1 -2-3    1    0-2    0 -3 -2
1- 3 0 0 0 1-3-3 6-3    0    2-1-1 -3 -4
-3    9 -3 -4 -3 -3 -1 -1 0-3    5    2-2 0-3-2
2- 4 2 5-2 0-3-3 -1 -3 -2 -2 6 -2 -4 -4 -1-3 0 0-2 8 -3 -3 -3 -1 -3 -3 -4-3 4 2 -4 -1 -2 -3 -4-3 2 4 -1-3 1 1 -2 -1 -3 -2 ■3 -1 0-2-3-2 1 2 -3 -2 -3 -3 -3-1 0 0 -1 _3 -l -l _2 -2 -3 -3
0- 1 0 0 0-1-2-2 -1 -l -l -l _2 -2 -1 -1 -4 -2 -2 -3 -2 -2 -3 -2 -3 -2 -1 -2 -3 2 -1 -1 -3 -1 -2 -2 -3-3    3 1
4-3    0    1-1 0-3-4
1- 3 3 4-2 0-3-3 -1 _2 -1 -1 -1 -1 -1 -1
-4 -4 -4 -4 -4 -4 -4 -4 -4
ARN 4 -1 -2
5
2 ■} L
2
■} 2 2 L ■} 2 L L ■} 2 ■} L
L
:. i2zi
K M F -1 -1 -2
■ L 2 ■}
■L
2 ■} 2 L 2
5
2
■ :
■ :
L
■ :
■ L
* -4 -4 -4 -4
ľ
-L
-L -L
-L 2 2
-L 2
L 5 2 2
-L -L
4
4 4 2 2
2 2 ■} 2 ■}
L 4
2 L L 2
4 ■} 2 4
V
■} ■} ■}
-L 2 2
L 2 L -L 2 2
-L 4
2 -L
-4 -4
- L
L ■} ■} 4 2
■} ■} L
- L ■}
- L
- L ■} 2 2 L 4
- L 4
4. BLAST, srovnání sekvencí
33
Offline možnosti
• BioEdit (http://www.mbio.ncsu.edu/bioedit/bioedit.html)
• nejen pro BLAST
• možnost použití vlastních databází atd.
• blast+ (ftp://ftp.ncbi.nlm.nih.qov/blast/executables/blast+/LATEST/)
• sada nástrojů pro práci v příkazové řádce
• příklad příkazu: ^___
blastp -db „databáze" -out „kam zapsat výstup" -word_size 3 -gapopen 11 -gapextend 1 -threshold 11 -outfmt "6 std positive ppos" -num_threads 4 -comp_based_stats 2
• httD://www.ncbi.nlm.nih.aov/books/NBK279675/ - seznam možností
4. BLAST, srovnání sekvencí
34
Zhodnocení výstupu BLAST
• expectation value (E) - hlavní parametr
•   počet sekvencí z databáze, které se přiřadí hledané sekvenci se stejným skóre pouze dílem náhody - relevantní E pod -0,05-0,001
• záleží na konkrétní aplikaci a následné validaci výstupů...
• hodnotí se i délka sekvence =^> u krátkých sekvencí obecně vyšší E
• identities - počet identických aminokyselin (AK) z hledaného proteinu
• positives - počet AK s podobnými fyzikálně chemickými vlastnostmi
4. BLAST, srovnání sekvencí
35
Možnosti dávkové BLAST (Pubmed)
• https://blast.ncbLnlm.nih.gov/Blast.cqi
• několik desítek až stovek proteinů
• možnost procházet individuální výsledky
• možnost stažení shrnutých výsledků + zpracování v externím programu
• příklad - proteiny Nicotiana tabacum
Srovnání sekvencí dvou či více proteinů (UniProt)
• http://www.uniprot.org/aliqn/
• obdobný přístup jako při BLAST
• křížové srovnání v případě více srovnávaných sekvencí
• příklad: srovnání vybraných sekvencí Ig Light Chain gammna
36
Děkuji za pozornost