10. Bioinformatika a proteiny I David Potěšil Proteomika, Podzim 2013 Core Facility – Proteomics CEITEC-MU Masaryk University Kamenice 5, A2 phone: +420 54949 7304 email: david.potesil@ceitec.muni.cz 2 Obsah přednášky 1.Co je to bioinformatika? 2.Taxonomie a fylogeneze 3.Evoluce proteinů, proteinové domény 4.BLAST, srovnávání sekvencí 1. Co je to bioinformatika? 3 1. Co je to bioinformatika? Co představuje „bioinformatika“? •vícero názorů...1 •Bioinformatics is conceptualizing biology in terms of macromolecules (in the sense of physical-chemistry) and, then, applying “informatics” techniques (derived from disciplines such as applied math, computer science, and statistics) to understand and organize the information associated with these molecules, on a large scale. (Luscombe, 2001, p. 346) •The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related information. (Tekaia, n.d.) •Bioinformatics is the field of science in which biology, computer science, and information technology merge to form a single discipline. The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned. (National Center for Biotechnology Information, n.d.) •Computational biology is not a “field”, but an “approach” involving the use of computers to study biological processes and hence it is an area as diverse as biology itself. (Schulte, n.d.) •Biomedical informatics is the science underlying the acquisition, maintenance, retrieval and application of biomedical knowledge and information to improve patient care, medical education and health sciences research. (Friedman, n.d.) 4 1. Fenstermacher, D. Introduction to bioinformatics. Journal of the American Society for Information Science and Technology 56, 440–446 (2005). 1. Co je to bioinformatika? Co představuje „bioinformatika“? (2) •„The enormous amount of data gathered by biologists – and the need to interpret it – requires tools that are in the realm of computer science. Thus, bioinformatics.“ 2 5 2. Cohen, J. Bioinformatics - an introduction for computer scientists. ACM Comput. Surv. 36, 122–158 (2004). corntruck_615 •studium metod pro uchování, zpětné vyvolání a analýzu biologických dat •sekvence nukleových kyselin (NK) a proteinů •proteinové struktury •funkce proteinů •metabolické a regulační dráhy (pathways) •molekulární interakce (např. protein-protein, protein-NK, NK-NK) 1. Co je to bioinformatika? Příbuzné disciplíny •data mining •analýza dat z různých perspektiv a „dolování“ shrnujících (zobecněných) informací •matematická a teoretická biologie •matematická prezentace, zpracování a modelování biol. procesů •lékařská informatika •tvorba databáze medicínských informací a jejich další využití •biostatistika •aplikace a vývoj statistických metod pro řešení biologických a klinických problémů • •častý překryv s těmito i s dalšími obory (záleží na konkrétní aplikaci) 6 1. Co je to bioinformatika? Příklad využití bioinformatických nástrojů •protein-protein interakce založené na datech z hmotnostní spektrometrie spojené s kapalinovou chromatografií (LC-MS analýza peptidů) 7 ... Figure-1-hplc-chromatogram-of-BSA-tryptic-peptides http://mippi.ornl.gov/images/palustris_network.png protein-protein interakční síť ? „black box“ „standardní nastavení“ závěry z analýze této sítě? kvant. informace 1. Co je to bioinformatika? 8 ... Figure-1-hplc-chromatogram-of-BSA-tryptic-peptides http://mippi.ornl.gov/images/palustris_network.png protein-protein interakční síť „white box“ vҰstupům přizpůsobené nastavení Příklad využití bioinformatických nástrojů •protein-protein interakce založené na datech z hmotnostní spektrometrie spojené s kapalinovou chromatografií (LC-MS analýza peptidů) analýza sítě: úloha proteinu A z jeho interakcí kvant. informace 2. Taxonomie a fylogeneze 9 Taxonomie •taxon •skupina žijících či již vymřelých organizmů se společnými znaky, jimiž se odlišují od jiných taxonů • •taxonomické dělení •při objevení nového organizmu •manuální třídění dle společných a jedinečných znaků •snaha o shodu s fylogenezí – evolučním vývojem organizmu •základní taxonomické kategorie – viz. obr. • •http://www.ncbi.nlm.nih.gov/taxonomy 10 2. Taxonomie a fylogeneze Soubor:Biological classification L Pengo cs.svg wikipedia Fylogeneze (fylogenetický vývoj) •evoluční vztah organizmů •využití morfologických dat a v poslední době hlavně výsledky molekulární sekvenování Þ evoluční vývoj organizmů Þ fylogenetický strom 11 File:Haeckel arbol bn.png fylogenetický strom - Haeckel (1866) 2. Taxonomie a fylogeneze 12 Fylogenetické stromy •grafické znázornění příbuzenských vztahů mezi různými taxonomickými jednotkami / jednotlivými druhy / geny •tvorba fylogenetických stromů •definování „podobnosti“ mezi např. taxonomickými jednotkami •morfologické vlastnosti – vzdálenost dána důležitostí morf. znaků •sekvenční podobnost na úrovni genomů (i proteinů) •různé zobrazení: zakořeněný, nezakořeněný, kruhový • •iTOL – interactive Tree Of Life •automatizované zobrazení fylogenetického stromu – sekv. data (lze nahrát i vlastní seznamy taxonomií aj.) • 2. Taxonomie a fylogeneze 13 Fylogenetická podobnost – organizmy s nezveřejněným genomem •použití dostupných informací pro evolučně co nejbližší organizmy •při studiu pomocí hmotnostní spektrometrie (MS) •běžně vychází ze známých proteinových sekvencí (znám genom) •co když organizmus nemá zveřejněný genom? •použití EST databáze (expression sequence tags) •většinou nekompletní úseky cDNA/mRNA (exprimovaných genů) •sekvenční data relativně nízké kvality (single pass sekvenace) •lze přepsat do aminokyselinové sekvence •de novo sekvenace/identifikace peptidů (z MS/MS spektra se přímo určí možný peptid) •BLAST de novo peptidů proti zvolené databázi (taxonomie) •příklad – Trichinella spiralis versus Trichinella pseudospiralis... 2. Taxonomie a fylogeneze 3. Evoluce proteinů, proteinové domény 14 15 Jedna z prvních aplikací bioinformatiky – srovnání primárních sekvencí (sekvenční homologie) • •BLAST – Basic Local Alignment Search Tool (dále podrobněji) • •proč srovnávat primární sekvence? •podobnost v primární sekvenci proteinů Þ podobnost ve struktuře proteinů Þ podobnost ve funkci proteinů... Není tak jednoduché... 3. Evoluce proteinů, proteinové domény 16 Proteinová evoluce a proteinové domény •proteinová doména = nezávislá strukturní, funkční a evoluční jednotka •2/3 proteinů jednobuněčných a 80% proteinů mnohobuněčných organizmů je složených z více domén •vznik „nových“ proteinů (proteinová, molekulární evoluce) •kombinace, duplikace, divergence stávajících domén (na úrovni genů) •kombinace/duplikace/změna domén Þ často odlišná funkce proteinu •změna struktury, spolupráce se sousedními doménami... •jednodoménové proteiny, stejná doména: ~67% šance na podobnou funkci •dvoudoménový protein, 1 stejná doména: ~35% šance na podobnou funkci •v průběhu evoluce dále nastávaly mutace v duplikovaných či kombinovaných doménách často se zachováním strukturní podobnosti Þ sekvenčně odlišné, strukturně podobné 3. Evoluce proteinů, proteinové domény 17 Proteinová evoluce a proteinové domény – příklad • P K Pr C E přidání P K P Pr inzerce Pr K P C Pr P C Pr K P C K duplikace delece 2× inzerce Pr P C E E K K prarodiče (ancestors) proteinová evoluce v čase a událostech 3. Evoluce proteinů, proteinové domény Doménové superrodiny a rodiny (superfamilies, families) •proteinové domény je možné klastrovat na základě podobnosti •podobnost možná na více úrovních •sekvenční podobnost (primární struktura proteinu/domény) •strukturní podobnost (sekundární a terciární struktura proteinu/domény) •funkční podobnost (nezávislá na sekvenční a strukturní podobnosti) • •doménové superrodiny a rodiny a podobnost •strukturní, funkční podobnost Þ doménová superrodina •stejní proteinoví prarodiče, evolučně starší (dlouhodobá mutace sekvence Þ sekv. podobnost nemusí být zachována) •sekvenční podobnost Þ doménová rodina •evolučně mladší (mutace v krátké době Þ sekv. podobnost zachována) 18 3. Evoluce proteinů, proteinové domény Hlavní zdroje pro klasifikaci domén •klasifikace domén do superrodin a rodin • •CATH (Class, Architecture, Topology, Homologous Superfamily) •http://www.cathdb.info/ • •SCOP (Structural Classification Of Proteins) •http://scop.mrc-lmb.cam.ac.uk/scop/ • •čerpají známé proteinové sekvence z Protein Data Bank (PDB) •zpracovávanou jednotkou je proteinová doména 19 3. Evoluce proteinů, proteinové domény Proteinové rodiny a superrodiny •obdobně jako u proteinových domén •častější klastrování na základě „sekvenční podobnosti“ (převážně multiple sequence alignment algoritmy) Þ sequence signatures •využití primárních sekvencí proteinů ve zvolené databázi •při klastrování je možno zvažovat různé části proteinu •funkční místa proteinu •funkční konzervativní motivy •funkční domény •strukturní domény • •proteinová rodina = „sekvenčně podobné“ proteiny •proteinová superrodina = evolučně spjaté proteinové rodiny (není nutná sekvenční podobnost) – souhrn proteinů v evolučně spjatých prot. rodinách 20 3. Evoluce proteinů, proteinové domény Proteinové rodiny a superrodiny – online zdroje •různé databáze proteinových rodin a superrodin (viz. dále) •používají různé cílové proteinové databáze (primární sekvence) •UniProtKB (SwissProt a TrEMBL) •NCBI RefSeq •proteinové databáze pro vybrané kompletně sekvenované organizmy •... •používají různé části proteinu pro predikci rodin/superrodin • •integrální zdroje •sbírají informace z více zdrojů a prezentují na jediném místě •InterPro (http://www.ebi.ac.uk/interpro/) – příklad P12345 •CDD 21 3. Evoluce proteinů, proteinové domény 1. Chothia, C. & Gough, J. Genomic and structural aspects of protein evolution. Biochemical Journal 419, 15 (2009). 4. BLAST, srovnávání sekvencí 23 24 4. BLAST, srovnání sekvencí Formáty proteinových sekvencí/databází •FASTA formát – hlavička specifická pro zdrojovou databázi, relativně málo informací; postačuje pro získání a další zpracování proteinové sekvence >sp|P04637|P53_HUMAN Cellular tumor antigen p53 OS=Homo sapiens GN=TP53 PE=1 SV=4 MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGP DEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAK SVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHE RCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNS SCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELP PGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPG GSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD •xml formát •komplexní forma s kompletní informací k danému proteinu ze zdrojové databáze •specifická pro zdrojovou databázi •obsahuje např. kompletní taxonomii zdrojového organizmu; známé modifikace; výčet interakčních partnerů, označení v jiných databázích a jiné bioinformaticky (automaticky) zpracovatelné informace 25 BLAST – Basic Local Alignment Search Tool •srovnání proteinových či nukleotidových sekvencí (většinou FASTA formát) •různé algoritmy dle vstupu (protein či nukleotid) a typu srovnání •nejběžnější algoritmy (pro proteiny) •blastp – protein-proteinová databáze •blastx – nukleotid (překlad na proteinovou sekvenci)-proteinová databáze •vybrané speciální algoritmy – k hledání vzdáleně příbuzných proteinů •PSI-BLAST – Position Specific Iteration BLAST •po blastp ze zvoleného počtu sekvencí vytvoří novou pozičně-specifickou skórovací matrici (PSSM), kterou použije v dalším hledání; tento postup je možno několikrát opakovat •DELTA-BLAST – obdoba PSI-BLAST; využívá předpřipravené PSSM dle konzervativních domén v NCBI databázi Þ rychlejší a citlivější 4. BLAST, srovnání sekvencí 26 Základní kroky BLAST algoritmů 1.generování k-písmenných úseků – „slov“ (z případně upravené sekvence; parametr word size) •proteiny – běžně K = 3 •nukleotidy – Běžně K = 11 2.prohledání každého slova vůči cílové databázi a ponechání těch slov, kde se našla shoda překračující stanovené limitní skóre – high scoring words 3.hledání high scoring words v databázi; hledána úplná shoda – exact match 4.rozšíření exact match na obě strany původního k-písmenného slova a hledání high-scoring segment pairs (HSPs) pro každý exact match – rozšiřování do doby, dokud neklesá skóre pro původní exact match 5.zhodnocení statistické významnosti jednotlivých HSPs 6.spojení HSPs do delších úseků 7.výpočet expectation value (E) http://upload.wikimedia.org/wikipedia/commons/5/56/Query_word.jpg 4. BLAST, srovnání sekvencí 27 Substituční skórovací matice pro výpočet skóre •matice „substitučních“ skóre pro jednotlivé AK, které se uvažují při srovnávání prvotních k-písmenných slov i při jejich rozšiřování a hledání HSPs •nejběžnější matice BLOSUM62 •skóre se odvíjí od četnosti aminokyselinové záměny v reálných proteinech jejichž identita je větší než 62% •+ hodnoty – častější substituce •- hodnoty – méně časté subst. •po diagonále největší skóre (62% ident. Þ nejčastější jev) •zaokrouhleno Protein Scores 4. BLAST, srovnání sekvencí 28 Substituční skórovací matice pro výpočet skóre (2) •typ matice by měl být uzpůsoben délce hledané sekvence •word size se doporučuje snížit u proteinů na 2 v případě krátkých sekvencí 4. BLAST, srovnání sekvencí Délka Substituční matice <35 PAM-30 35-50 PAM-70 50-85 BLOSUM-80 >85 BLOSUM-62 29 Substituční skórovací matice – skóre jednoho HSP • Protein Scores 4. BLAST, srovnání sekvencí http://upload.wikimedia.org/wikipedia/en/8/87/Extension_process.jpg 30 Možnosti dávkové BLAST •několik desítek až stovek proteinů •možnost procházet individuální výsledky •možnost stažení shrnutých výsledků + zpracování v externím programu •příklad – proteiny Nicotiana tabacum 4. BLAST, srovnání sekvencí Srovnání sekvencí dvou či více proteinů •shodný přístup jako při BLAST programu •křížové srovnání v případě více srovnávaných sekvencí •příklad: srovnání vybraných sekvencí Ig Light Chain gammna 31 Příklady webových BLAST rozhraní •Pubmed (http://blast.ncbi.nlm.nih.gov/Blast.cgi) •UniProt (http://www.uniprot.org/blast/) 4. BLAST, srovnání sekvencí Zhodnocení výstupu BLAST •expectation value (E) – hlavní parametr •počet sekvencí z databáze, které se přiřadí hledané sekvenci se stejným skóre pouze dílem náhody – relevantní E pod 0,05 •identities – počet identických aminokyselin (AK) z hledaného proteinu •positives – počet AK s podobnými fyzikálně chemickými vlastnostmi Děkuji za pozornost 32