10. Bioinformatika a proteiny I David Potěšil Core Facility - Proteomics CEITEC-MU Masaryk University Kamenice 5, A26 phone: +420 54949 8426 email: david.potesil@ceitec.muni.cz Proteomika, Podzim 2016 2 Obsah přednášky 1. Co je to bioinformatika? 2. Taxonomie a fylogeneze 3. Evoluce proteinů, proteinové domény 4. BLAST, srovnávání sekvencí 1. Co je to bioinformatika? 1. Co je to bioinformatika? 4 Co představuje „bioinformatika"? • vícero názorů...1 Bioinformatics is conceptualizing biology in terms of macromolecules (in the sense of physical-chemistry) and, then, applying "informatics" techniques (derived from disciplines such as applied math, computer science, and statistics) to understand and organize the information associated with these molecules, on a large scale. (Luscombe, 2001, p. 346) The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related information. (Tekaia, n.d.) Bioinformatics is the field of science in which biology, computer science, and information technology merge to form a single discipline. The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned. (National Center for Biotechnology Information, n.d.) Computational biology is not a "field", but an "approach" involving the use of computers to study biological processes and hence it is an area as diverse as biology itself. (Schulte, n.d.) Biomedical informatics is the science underlying the acquisition, maintenance, retrieval and application of biomedical knowledge and information to improve patient care, medical education and health sciences research. (Friedman, n.d.) 1. Fenstermacher, D. Introduction to bioinformatics. Journal of the American Society for Information Science and Technology 56, 440-446 (2005). 1. Co je to bioinformatika? Co predstavuje „bioinformatika"? (2) • „The enormous amount of data gathered by biologists - and the need to interpret it -requires tools that are in the realm of computer science. Thus, bioinformatics." 2 studium a aplikace metod pro uchování, zpětné vyvolání a analýzu biologických dat • sekvence nukleových kyselin (NK) a proteinů • proteinové struktury • funkce proteinů • metabolické a regulační dráhy (pathways) • molekulární interakce (např. protein-protein, protein-NK, NK-NK) 2. Cohen, J. Bioinformatics - an introduction for computer scientists. ACM Comput. Surv. 36,122-158 (2004). 1. Co je to bioinformatika? 6 Příbuzné disciplíny • data mining • analýza dat z různých perspektiv a „dolování" shrnujících (zobecněných) informací • matematická a teoretická biologie • matematická prezentace, zpracování a modelování biol. procesů • lékařská informatika • tvorba databází medicínských informací a jejich další využití • biostatistika • aplikace a vývoj statistických metod pro řešení biologických a klinických problémů • častý překryv s těmito i s dalšími obory (záleží na konkrétní aplikaci) 1. Co je to bioinformatika? Příklad využití bioinformatických nástrojů * protein-protein interakce založené na datech z hmotnostní spektrometrie spojené s kapalinovou chromatografií (LC-MS(/MS) analýza peptidů) kvant, informace bioinformat nástroje („black box6 protein-protein interakční síť ? závěry z analýze této sítě? 1. Co je to bioinformatika? 8 Příklad využití bioinformatických nástrojů protein-protein interakce založené na datech z hmotnostní spektrometrie spojené s kapalinovou chromatografií (LC-MS(/MS) analýza peptidů) -1 v stupům kvant. BHHHHH přizpůsobené ■ r___'___ H3BIii3íjjEi^1 nastavení 2. Evoluce proteinů, proteinové domény 2. Evoluce proteinů, proteinové domény 10 Jedna z prvních aplikací bioinformatiky - srovnání primárních sekvencí (sekvenční homologie) • BLAST - Basic Local Alignment Search Tool (dále podrobněji) • proč srovnávat primární sekvence? • podobnost v primární sekvenci proteinů =^> podobnost ve struktuře proteinů => podobnost ve funkci proteinů... Není tak jednoduché 2. Evoluce proteinů, proteinové domény 11 Proteinová evoluce a proteinové domény • proteinová doména = nezávislá strukturní, funkční a evoluční jednotka • 2/3 proteinů jednobuněčných a 80% proteinů mnohobuněčných organizmů je složených z více domén • vznik „nových" proteinů (proteinová, molekulární evoluce) • kombinace, duplikace, změna stávajících domén (na úrovni genů) • kombinace/duplikace/změna domén => často odlišná funkce proteinu • změna struktury, spolupráce se sousedními doménami... jednodoménové proteiny, stejná doména: -67% šance na podobnou funkci dvoudoménový protein, 1 stejná doména: -35% šance na podobnou funkci • v průběhu evoluce dále nastávaly mutace v duplikovaných či kombinovaných doménách často se zachováním strukturní podobnosti => sekvenčně odlišné, strukturně podobné 2. Evoluce proteinů, proteinové domény Proteinová evoluce a proteinové domény - příklad pridaní prarodiče (ancestors) 2x inzerce inzerce © delece proteinová evoluce v čase a událostech 2. Evoluce proteinů, proteinové domény 13 Doménové superrodiny a rodiny (superfamilies, families) • proteinové domény je možné klastrovat na základě podobnosti • podobnost možná na více úrovních • sekvenční podobnost (primární struktura proteinu/domény) • strukturní podobnost (sekundární a terciární struktura proteinu/domény) • funkční podobnost (nezávislá na sekvenční a strukturní podobnosti) • doménové rodiny a superrodiny a podobnost • sekvenční podobnost => doménová rodina • evolučně mladší (mutace v krátké době =^> sekv. podobnost zachována) • strukturní, funkční podobnost => doménová superrodina • stejní proteinoví prarodiče, evolučně starší (dlouhodobá mutace sekvence =^> sekv. podobnost nemusí být zachována) 2. Evoluce proteinů, proteinové domény 14 Hlavní zdroje pro klasifikaci domén • klasifikace domén do superrodin a rodin • CATH (Class, Architecture, Topology, Homologous Superfamily) • htt p ://www.cat hd b. i nf o/ • SCOP {Structural Classification Of Proteins) • http://scop.mrc-lmb.cam.ac.uk/scop/ • čerpají známé proteinové sekvence z Protein Data Bank (PDB) • zpracovávanou jednotkou je proteinová doména 2. Evoluce proteinů, proteinové domény 15 Proteinové rodiny a superrodiny • obdobně jako u proteinových domén • častější klastrování na základě „sekvenční podobnosti" (převážně multiple sequence alignment algoritmy) => sequence signatures • využití primárních sekvencí proteinů ve zvolené databázi • při klastrování je možno zvažovat různé části proteinu • funkční místa proteinu • funkční konzervativní motivy • funkční domény • strukturní domény • proteinová rodina = „sekvenčně podobné" proteiny • proteinová superrodina = evolučně spjaté proteinové rodiny (není nutná sekvenční podobnost) - souhrn proteinů v evolučně spjatých prot. rodinách 2. Evoluce proteinů, proteinové domény 16 Proteinové rodiny a superrodiny - online zdroje • různé databáze proteinových rodin a superrodin (viz. dále) • používají různé proteinové databáze (primární sekvence) pro klasifikaci • UniProtKB (SwissProt a TrEMBL) • NCBI RefSeq • proteinové databáze pro vybrané kompletně sekvenované organizmy • používají různé části proteinu pro predikci rodin/superrodin • integrální zdroje • sbírají informace z více zdrojů a prezentují na jediném místě • InterPro (http://www.ebi.ac.uk/interpro/) - příklad P12345, p53 • CDD (Conserved Domain Databasé) Bioinformatíc tool/URL Signature databases ProtCIustDB Dec 2 2010/ http://www.ncbLnlm.rih. gov/proteinclusters Clustering method Cluster information based on NCBI RefSeq Clique based Functional domains Protein families or signatures 627757, 10885 (cu rated] Pfam 25.0/ Jnttp^gfann^san^ei^aaLk^ UniProtKB HMMs Functional domains 12273 (Pfam-A) PROSITE 20.68/ http://expasy.org/prosite/ PRINTS 41.1/ http://www.bioinf.manchester.ac.uk/ dbbrowser/PRINTS/index.php ProDom 2006.1/CG267/ http://prodom.pra bi.fr/prodom/ current/html/home.php SMART 6.1/ http://smart.embl-heidelberg.de/ UniProtKB UniProtK UniProtKB/267 completed genomes (one from plants) UniProtKB/760 completed genomes (one from plants) Patterns, profiles Fingerprints MKDOM2 O 1598 20 574656/301126 895 TIGRFAMs 10.0/ http://www.jcvi .o rg/cms/ research/ projects/tigrfams/overview/ UniProtKB Functional domains 4025 PI RS I- 2.74/ http://pir.georgetown.edu/ pirwww/dbinfo/pirsf.shtml Functional domains 324Ü tcurated) SUPERFAMILY 1.75/ http://supfgm.cs.bris.ac uk/SU PER FAMILY/ TlMMs SCOP domains 2019 HMMs CATH domains 2549 HMMs Functional domains 6594 GENE3D 10.0.0/ http://gene3d.bioc ucl.ac.uk/Gene3 PANTHER 7.0/ http:/j Inte (three from plants) UniProtKB Signature integration Gene3D, HAMAP, PANTHER, Pfam, PIRSF, PRINTS, ProDom, PROSITE, SMART, SUPERFAMILY, TIGRFAMs signatures 21185 CDD 2.26/ http://www.ncbi-nlm.nih. gov/Structure/cdd/cdd. shtml NCBI Database PSSMs NCBI-curated domains, Pfam, SMART, COGs, ProtClustDB signatures 41593 )09 2. Evoluce proteinů, proteinové domény 18 Co získám znalostí proteinové rodiny/super rodiny? • předpokládaná funkce proteinu • pokud není protein sám o sobě již detailně prostudován... • navazující GO {gene ontologý) termíny - viz. příští přednáška • klasifikace v systému proteinových rodin/superrodin • návaznosti na jiné rodiny, metabolické dráhy atd. • důležité např. při studiu seznamu proteinů/genů se změněnou hladinou/expresí _____ • datamining • proteiny většinou nepůsobí samostatně, paralelní dráhy, atd. • případně lze pozorovat změny u proteinů následujících/předcházejících v kaskádě změn v reakci na konkrétní stimul 19 3. Taxonomie a fylogeneze 3. Taxonomie a fylogeneze 20 Taxonomie • taxon • skupina žijících či již vymřelých organizmů se společnými znaky, jimiž se odlišují od jiných taxonů (organizmů v těchto taxonech) • taxonomické dělení > • při objevení nového organizmu • manuální třídění dle společných a jedinečných znaků • snaha o shodu s fylogenezí - evolučním vývojem organizmu • základní taxonomické kategorie - viz. obr. 3. Taxonomie a fylogeneze 21 Fylogeneze (fylogenetický vývoj) * evoluční vztah organizmů • využití morfologických dat a v poslední době hlavně výsledky molekulárního líífiil BlPlI' KwPl sekvenování => evoluční vývoj organizmů => fylogenetický strom eHÍI fylogenetický strom - Haeckel (1866) 3. Taxonomie a fylogeneze 22 Fylogenetické stromy • grafické znázornění příbuzenských vztahů mezi různými taxonomickými jednotkami / jednotlivými druhy / geny • tvorba fylogenetických stromů • definování „podobnosti" mezi např. taxonomickými jednotkami • morfologické vlastnosti - vzdálenost dána důležitostí morf. znaků • sekvenční podobnost na úrovni genomů (i proteinů) • podobnější tax. jednotky jsou si ve fylogenetickém stromu blíže • různé zobrazení fyI. stromů: nezakořeněný (A), zakořeněný (B), aj. 3. Taxonomie a fylogeneze 23 Fylogenetické stromy (2) - príklad komplexnosti • tvorba fylogenetických stromu • možnosti pro prípad 4 organizmu => celkem 3 (nezakoŕenéný), resp. 15 (zakorenený) • možnosti pro případ 10 organizmů - celkem ~2 resp. -34 M... Pouze jeden je správný... => využití morfologických, sekvenčních či jiných informací 3. Taxonomie a fylogeneze Fylogenetické stromy (3) - vybrané nástroje • iTOL - interactive Tree Of Life (http://itol.embl.de/index.shtml) • automatizované zobrazení fylogenetického stromu - sekvenční data • pro organizmy se známým genomem, případně vlastní data • struktura nemusí nutně odpovídat evoluci - nepřesná data, gen. anomálie (např. horizontální přenos genů) pracuje s taxonomickým zařazením dle NCBI ľ>1li1ľnBi1hkttty#iŕs»:€tiiTt!nP • manuálně editované řazení organizmů, které jsou přítomné ve veřejných sekvenčních databázích (-10% z celkového počtu známých organizmů...) export výsledků; zobrazení v iTOL s obdobnými možnostmi zobrazení 3. Taxonomie a fylogeneze 25 Fylogenetická podobnost - organizmy s nezveřejněným genomem • použití dostupných informací pro evolučně co nejbližší organizmy • například při studiu proteinů pomocí hmotnostní spektrometrie (MS) • běžně se vychází ze známých proteinových sekvencí (znám genom) • co když organizmus nemá zveřejněný genom? • databázové hledání MS/MS dat přímo proti proteinové databázi pro evolučně blízký organizmus • podobné či identické proteinové sekvence => funkce • de novo sekvenace/identifikace peptidů • z hmotnostního spektra se přímo určí možný peptid či jeho část • BLAST de novo peptidů proti proteinové databázi opět pro evolučně blízký organizmus - viz. výše • příklad - Trichinella spiralis versus Trichinella pseudospiralis... 26 4. BLAST, srovnávání sekvencí 4. BLAST, srovnání sekvencí 27 Formáty proteinových sekvencí/databází • FASTA formát - hlavička specifická pro zdrojovou databázi, relativně málo informací; postačuje pro získání a další zpracování proteinové sekvence sp|P04637|P53_HUMAN Cellular tumor antigén p53 OS=Homo sapiens GN=TP53 PE=1 SV=4 MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGP DE APRMPE AAPPVAPAPAAPT PAAPAPAPSWPLS S S VP SQKT YQGS YGFRLGFLH S GTAK SVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHE RCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVWPYEPPEVGSDCTTIHYNYMCNS SCMGGMNRRPILTIITLEDS SGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELP PGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPG GSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD • xml formát • komplexní forma s kompletní informací k danému proteinu ze zdrojové databáze • konkrétní forma specifická pro zdrojovou databázi - xml schéma • obsahuje např. kompletní taxonomii zdrojového organizmu; známé modifikace; výčet interakčních partnerů, označení v jiných databázích a jiné bioinformaticky (automaticky) zpracovatelné informace 4. BLAST, srovnání sekvencí 28 BLAST - Basic Local Alignment Search Tool • srovnání proteinových či nukleotidových sekvencí (většinou FASTA formát) • různé algoritmy dle vstupu (protein či nukleotid) a typu srovnání • nejběžnější algoritmy (pro proteiny) • blastp - protein-proteinová databáze • blastx - nukleotid (překlad na proteinovou sekvenci)-proteinová databáze • vybrané speciální algoritmy - k hledání vzdáleně příbuzných proteinů • PSI-BLAST - Position Specific Iteration BLAST • po blastp ze zvoleného počtu sekvencí vytvoří novou pozičně-specif ickou skórovací matrici (PSSM), kterou použije v dalším hledání; tento postup je možno několikrát opakovat • DELTA-BLAST - obdoba PSI-BLAST; využívá předpřipravené PSSM dle konzervativních domén v NCBI databázi => rychlejší a citlivější 4. BLAST, srovnání sekvencí 29 Základní kroky BLAST algoritmů Query sequence: PQGEF( j 1. generování k-písmenných úseků - „slov" W( 3rd 1:PQG (parametr word size) i H v ořu l. v^vjh Word 3: GEF • proteiny - běžně K = 3; nukleotidy - běžně K = 11 Word 4: EFG 2. prohledání každého „slova" vůči cílové databázi a ponechání těch slov, kde se našla shoda překračující stanovené limitní skóre => hiah scorina words 3. hledání high scoring words z databáze; hledána úplná shoda - exact match 4. rozšíření exact match na obě strany původního k-písmenného slova a hledání high-scoring segment pairs (HSPs) pro každý exact match - rozšiřování do dobv, dokud neklesá skóre pro původní exact match 5. zhodnocení statistické významnosti jednotlivých HSPs 6. spojení HSPs do delších úseků 7. výpočet expectation value (E) 4. BLAST, srovnání sekvencí 30 Substituční skórovací matice pro vvDočet skóre • matice „substitučních" skóre pro jednotlivé AK, které se uvažují při srovnávání prvotních k-písmenných slov i při jejich rozšiřování a hledání HSPs • nejběžnější matice BLOSUM62 • skóre se odvíjí od četnosti aminokyselinové záměny v reálných proteinech jejichž identita je větší než 62% • + hodnoty - častější substituce # Matrix made by matblas from blosum62.iij # * column uses minimum score # BLOSUM Clustered Scoring Matrix in 1/2 Bit Units # Blocks Database - /data/blocks_5.O/blocks.dat • - hodnoty - méně časté subst. # Cluster Percentage: >■ 62 # Entropy = 0.6979, Expected = -0.5209 ARNDCQEGHILKMFPSTW A 4-1-2-2 0 -1 -1 0 -2 -1 -1 -1 -1 -2-1 1 0 -3 V V B -2 0 -2 Z K * -1 0 -4 • po diagonále největší skóre H -1 5 0-2-3 1 0-2 0-3-2 2-1 -3 -2 -1 -1 -3 H -2 0 6 1-3 0 0 0 1-3-3 0-2-3-2 1 0-4 D -2 -2 1 6-3 0 2-1-1 -3 -4 -1 -3 -3 -1 0 -1 -4 C 0-3-3-3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -3 -1 -2 -3 3 -3 -3 4 -2 -1 -3 0 -1 -4 0 -1 -4 1 -1 -4 -3 -2 -4 (62% ident. =^> nejčastější jev) Q -1 1 0 0-3 5 2-2 0-3-2 1 0-3-1 0-1-2 E -1 0 0 2-4 2 5-2 0-3-3 1-2-3-1 0-1 -3 G 0-2 0-1-3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 H -2 0 1-1-3 0 0-2 8-3-3 -1 -2 -1 -2 -1 -2 -2 Tl 1111 11A1A^llA19l 1 -1 -2 0 -2 -2 1 -3 -3 -1 2-3 0 111 3 -1 -4 4 -1 -4 -2 -1 -4 0 -1 -4 "5 1 A • zaokrouhleno J_ — L —J —J —J — L —J —J — *± —J *± £ —J L U —J - *i — L — J L -1 -2 -3 -4 -1 -2 -3-4-3 2 4-2 2 0 -3 -2 -1 -2 K -1 2 0-1-3 1 1-2-1 -3 -2 5 -1 -3 -1 0 -1 -3 H -1 -1 -2 -3 -1 0-2-3-2 1 2-1 5 0 -2 -1 -1 -1 F -2 -3 -3 -3 -2 -3 -3-3-1 0 0-3 0 6 -4 -2 -2 1 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 S 1-1 1 0-1 0 0 0-1-2-2 0-1-2-1 4 1-3 T 0-1 0-1-1 -1 -1 -2 -2 -1 -1 -1 -1 -2-1 1 5 -2 T.J _ 5 _-S _A _A _J _f _J _J _"1 _5 _ 1 1 _A _1 11 - L J — J -1 1 -4 -2 -2 0 -1 1 -3 3 -1 -3 -3 -2 -2 -2 -2 0 -2 0 -1 2 -3 -4 — j — L — 1 -3 -1 -4 1 -1 -4 -1 -1 -4 -3 -1 -4 -1 -2 -4 0 0-4 -1 0 -4 -3 -2 -4 Vi —J —J — i — 1 — mL — —J — *L — mL —J — *L —J —1. L — 1 —J — 11 ¥ -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 V 0-3-3 -3 -1 -2 -2 -3-3 3 1-2 1 -1 -2 -2 0 -3 B -2 -1 3 4-3 0 1-1 0-3-4 0-3 -3 -2 0 -1 -4 2-1 0 0 1-3 3 4-2 0-3-3 1-1-3-1 0-1 -3 X 0-1-1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1-2 0 0 -2 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 7 -1 -3 -1 4 -3 -3 -3 4 -2 -2 L -1 -1 -1 -4 -4 -4 -2 -1 -4 -2 -1 -4 1 -1 -4 4 -1 -4 -1 -1 -4 -4 -4 1 4. BLAST, srovnání sekvencí 2 Substituční skórovací matice pro výpočet skóre (2) • typ matice by měl být uzpůsoben délce hledané sekvence word size se doporučuje snížit u proteinů na 2 v případě krátkých sekvencí (peptidy či menší proteiny) Délka (počet AK) Substituční matice <35 35-50 PAM-70 BLOSUM-80 _>85_ BLOSUM-62 4. BLAST, srovnání sekvencí 22 Substituční skórovací matice - skóre jednoho HSP Query sequence: R P P Q G L F Database sequence: D P PEG V V U Exact match is scanned. Score:-2 7 7 2 6 1 -1 U HSP Optimal accumulated score = 7+7+2+6+1 = 23 !7 # # A R -1 N -2 D -2 C 0 Q -1 E L C 0 B -2 1 -1 L -1 K -1 M -1 F -2 P -1 S L T 0 W -3 Y -2 V 0 B -2 2 -1 X D Matrix made by matblas from blosum62.iij * column uses minimum score BLOSUM Clustered Scoring Matrix in 1/2 Bit Units Blocks Database - /data/blocks_5.O/blocks.dat Cluster Percentage! >= 62 Entropy = 0.6575, Expected = DCQECBIL -2 0-1-1 0 -2 -1 -1 -2-3 1 0-2 0 -3 -2 1- 3 0 0 0 1-3-3 6-3 0 2-1-1 -3 -4 -3 9 -3 -4 -3 -3 -1 -1 0-3 5 2-2 0-3-2 2- 4 2 5-2 0-3-3 -1 -3 -2 -2 6 -2 -4 -4 -1-3 0 0-2 8 -3 -3 -3 -1 -3 -3 -4-3 4 2 -4 -1 -2 -3 -4-3 2 4 -1-3 1 1 -2 -1 -3 -2 ■3 -1 0-2-3-2 1 2 -3 -2 -3 -3 -3-1 0 0 -1 _3 -l -l _2 -2 -3 -3 0- 1 0 0 0-1-2-2 -1 -l -l -l _2 -2 -1 -1 -4 -2 -2 -3 -2 -2 -3 -2 -3 -2 -1 -2 -3 2 -1 -1 -3 -1 -2 -2 -3-3 3 1 4-3 0 1-1 0-3-4 1- 3 3 4-2 0-3-3 -1 _2 -1 -1 -1 -1 -1 -1 -4 -4 -4 -4 -4 -4 -4 -4 -4 ARN 4 -1 -2 5 2 ■} L 2 ■} 2 2 L ■} 2 L L ■} 2 ■} L L :. i2zi K M F -1 -1 -2 ■ L 2 ■} ■L 2 ■} 2 L 2 5 2 ■ : ■ : L ■ : ■ L * -4 -4 -4 -4 ľ -L -L -L -L 2 2 -L 2 L 5 2 2 -L -L 4 4 4 2 2 2 2 ■} 2 ■} L 4 2 L L 2 4 ■} 2 4 V ■} ■} ■} -L 2 2 L 2 L -L 2 2 -L 4 2 -L -4 -4 - L L ■} ■} 4 2 ■} ■} L - L ■} - L - L ■} 2 2 L 4 - L 4 4. BLAST, srovnání sekvencí 33 Offline možnosti • BioEdit (http://www.mbio.ncsu.edu/bioedit/bioedit.html) • nejen pro BLAST • možnost použití vlastních databází atd. • blast+ (ftp://ftp.ncbi.nlm.nih.qov/blast/executables/blast+/LATEST/) • sada nástrojů pro práci v příkazové řádce • příklad příkazu: ^___ blastp -db „databáze" -out „kam zapsat výstup" -word_size 3 -gapopen 11 -gapextend 1 -threshold 11 -outfmt "6 std positive ppos" -num_threads 4 -comp_based_stats 2 • httD://www.ncbi.nlm.nih.aov/books/NBK279675/ - seznam možností 4. BLAST, srovnání sekvencí 34 Zhodnocení výstupu BLAST • expectation value (E) - hlavní parametr • počet sekvencí z databáze, které se přiřadí hledané sekvenci se stejným skóre pouze dílem náhody - relevantní E pod -0,05-0,001 • záleží na konkrétní aplikaci a následné validaci výstupů... • hodnotí se i délka sekvence =^> u krátkých sekvencí obecně vyšší E • identities - počet identických aminokyselin (AK) z hledaného proteinu • positives - počet AK s podobnými fyzikálně chemickými vlastnostmi 4. BLAST, srovnání sekvencí 35 Možnosti dávkové BLAST (Pubmed) • https://blast.ncbLnlm.nih.gov/Blast.cqi • několik desítek až stovek proteinů • možnost procházet individuální výsledky • možnost stažení shrnutých výsledků + zpracování v externím programu • příklad - proteiny Nicotiana tabacum Srovnání sekvencí dvou či více proteinů (UniProt) • http://www.uniprot.org/aliqn/ • obdobný přístup jako při BLAST • křížové srovnání v případě více srovnávaných sekvencí • příklad: srovnání vybraných sekvencí Ig Light Chain gammna 36 Děkuji za pozornost