Posuzování podobnosti sekvencí Nástroje pro párové přiložení (pairwise alignment) a vyhledávání lokálních podobností sekvencí Hledání v databázích • Textové vyhledávání příbuzných sekvencí v databázích - Neefektivní - chybí anotace řady sekvencí - Nejednotná nomenklatura genů • Prohledávání databází podle podobnosti sekvencí -Výpočet lokálního/párového přiložení (alignment) = uspořádání do 2 pod sebou ležících řádků tak, aby identické zbytky ležely pod sebou -Výpočet mnohonásobného přiložení (multiple alignment) pro 3 a více sekvencí Význam sekvenčního přiložení Použití Princip Predikce, extrapolace Klasifikace necharakterizovaných sekvencí do rodin / skupin Hledání v databázích Identifikace podobných sekvencí, charakterizace genů Identifikace vzorů Stanovení konzervovaných vzorů, profilů a identifikace funkčních oblastí a domén Fylogenetická analýza Rekonstrukce evoluce z ortologních sekvencí Predikce struktury Kvalitní přiložení umožňují predikci sekundární struktury využívané při konstrukci 3 D modelů Sestavení celogenomových sekvencí (assembly) Využívá techniky přiložení pro vytváření kontigů ze sekvenačních dat Analýza oligonukleotidů pro PCR Design primerů a sond, posouzení sekundárních struktur Terminologie použitá pro srovnávání sekvencí • Identita sekvencí (Sequence identity), podíl identických aminokyselinových nebo nukleotidových zbytků ve stejné pozici • Podobnost sekvencí (Sequence similarity), podíl identických plus substituovaných zbytků s podobnými chemickými vlastnostmi. • Homologie sekvencí (Sequence homology), termín použitelný pouze u evolučně příbuzných sekvencí, např. stanovení ANI (average nucleotide identity) z celogenomových sekvencí nebo data z DNA-DNA hybridizací Princip hledání podobnosti • Sekvence jsou tvořeny symboly abecedy • Komplexita sekvence je určena počtem různých znaků, které se mohou vyskytovat v sekvenci (DNA = 4, proteiny = 21) • Algoritmy využívají - heuristickou analýzu pro identifikaci krátkých homologických subsekvencí bez mezer s následným rozšiřováním vyhledávání v okolí subsekvencí s cílem získat lokálně uspořádané sekvence, do nichž mohou být vloženy mezery tak, aby přiložení bylo optimální - Metodu dot-plot matic - Dynamické programování Nástroje pro vyhledávání lokálních podobností sekvencí Sady programů zahrnujících algoritmy pro vyhledávání podobnosti v dostupných databázích sekvencí bez ohledu na to zdali dotazovaná sekvence je DNA nebo protein. • BLAST • FASTA • Altschul et al., 1990 • Lipman a Pearson 1985 • dostupný na serveru • dostupný na serveru NCBI EBI Co je to BLAST? Basic Local Alignment Search Tool - Hledání lokálních podobností - Heuristický přístup založený na Smith-Watermanově algoritmu - Vyhledá nejoptimálnější přiložení sekvencí - Poskytuje data o statistické významnosti - Zobrazuje vzájemně párové přiložení sekvencí - Lokalizuje oblasti sekvencí s vysokou podobností a umožňuje zobrazení jejich primární struktury a funkce Basic Local Alignment Search Tool blast fin do regions of similarity between biological sequences. The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance. Learn more Web BLAST N E W October 36th NCBI M Inute NCBI staff will introduce tivo nem BLAST databases: tl>= Refieci HepresentaUVe GBnomBBdHtnbbbb ard tt*= Model Organisms or Landman, protein database. Fri.OT Oct.2016 lSOOflO EST Nucleotide BLAST nucleotide ► nucleotide blastx translated nucleotide ► protein 3 < tblastn protein ► translated nucleotide BLAST Genomes r toe BLAST iwa's... Bě I Protein BLAST prot#in iv protein Enierorgonism common name, scientific name, orlaxkf Výchozí stránka BLAST Human Mouse Pat Standaloneand API BLAST Download BLAST Get BLAST databases a nde*".!! tables Use BLAST API Call BLAST from/our application Use BLAST In thecloud 1 ta (tan Insta noe a t a c bud provider Fiird plutein: highly' similar ť yourquery Design p rimers specific to your P CR temp labe Co m p a re brvo seq ue ne e s k loss the i r en tiie> spon ilieedlemaiviVunsc hi CD-search Filed conserved domains in your seq uenc e Find mat lie: to gene expression piofiles Seam h immuieOglobulins and T cell reč ep torseciubrebb Seaic h sequei^esrorvec tor co nta mi notion Find sequent es with similar conserved domain big hits tun multiple AUgnmi http://www.ncbi-nlm.nih.aov/BLAST Uživatelské rozhraní BLAST U.S. National Library of Mediane Sign intoNCBI BLAST » lil.v.in suite Home Recent Results Saved Strategies Help Standard Nucleotide BLAST blastn blastp bl 5^t>; tbla^tn tbla^tx BLASTH programs search nucleotide databases using a nucleotide query, more.. Enter Query Sequence Enter accession number(s), gi(s), or FASTA sequence(s) $£< Oierysiiiraige y> From| I Or, upload file Job Title I Enter a descriptive title for your BLAST search y Align two or more sequences t< Choose Search Set Database Organism Optional Exclude Optional Limit to Optional Ei iti ei Query Optional Human genomic + transcript Mouse genomic + transcript ■ Others (nr etc.): Nucleotide collection (nr/nt) |Enter organism name or id-completions will be suggej U Exclude Enter organism common name, binomial, or tax id. Only 20 top taxa will be shown yj Models (XMIXP) Unculturedlenvironmental sample sequences Sequences from type material 1 YoujjJEQ Create custom database Enter an Entrei query to limit search fei' Program Selection Optimize for & Highly similar sequences (megablast) More dissimilar sequences (discontiguous megablast) 0 Somewhat similar sequences (blastn) Choose a BLAST algorithm y> Reset page Bookmark Search database Nucleotide collection (nr/nt) using Megablast (Optimize for highly similar sequences) Show results in a new window '+) Algorithm parameters Home Tab: Odkaz na úvodní stránku Recent Results Tab: Odkaz na výsledky, které jste získali za posledních 36 hodin Saved Strategies Tab: Vyplněné vstupní formuláře pro hledání, které jste uložili do MyNCBI Help Tab: Katalog s dokumentací a nápovědou BLAST Home Recent Results Saved Strategies Help NCBI Home1' Genomic Biology- BLAST ► NCBIj BLAST Home BLAST finds regions of similarity between bioloc Learn more about how to use the new BLAST design BLAST Assembled Genomes Choose a species genome to search or list all genomic BLA! BLAST seqil Overview FAQs News Manual References Retrieve results D Human D Mouse ° Rat D Arabidopsis thaliana Basic BLAST D Oryza sativa D Bos taurus D Danio rerio D Drosophila melai Choose a BLAST program to run nucleotide blast protein blast blastx tblastn tblastx Search a nucleotide database using a n Algorithms blastn megablast disco Search protein database using a proteir Algorithms blastp psi-blast phi-bias Search protein database using a transla Search translated nucleotide database Search translated nucleotide database Specialized BLAST Choose a type of specialized search (or database name in pare D Search trace archives ° Find conserved domains in your sequence (cds) D Find sequences with similar conserved domain architect ° Search sequences that have gene expression profiles (G D Search immunoglobulins (IgBLAST) ° Search for SNPs (snp) Search Map Viewer v Go Clear Genome Project BLAST Drosophila melanogaster Sequences. 0 Enter an accession, gi, or a sequence in FASTA format: O Or, choose a file to upload Set subsequence: (optional) To From: Database: genome (reference only) 6 sequences Program: mega3LAST: Compare highly related nucleotide sequences Optional parameters Expect Filter 0.01 default Descriptions Alignments I 100 v v 100 v Advanced options: Begin Search Clear Input Get the URL with preset values ? Get URL Basic BLAST - výběr programů Program Dotaz Databáze Úroveň srovnání Použití blastn DNA DNA DNA Hledání identických sekvencí DNA blasD Protein Protein Protein Hledání homologních proteinů blastx DNA Protein Protein Hledání genů a homologních proteinů na DNA tblastn Protein DNA Protein Hledání genů u necharakterizovaných DNA tblastx DNA DNA Protein Studium struktury genů Příklady využití algoritmů BLAST Volba programu, jestliže Vaše sekvence je NUKLEOTIDOVÁ Délka Databáze Účel vyhledávání BLAST Program Identifikace dotazované sekvence MEGABLAST Standard BLAST (blastn) 20 bp nebo delší DNA Vyhledání podobných sekvencí jako dotazovaná Standard BLAST (blastn) Vyhledání podobných proteinů k překladu dotazované sekvence v přeložených databázích DNA Translated BLAST (tblastx) Protein Vyhledání podobných proteinů k překladu dotazované sekvence v databázích proteinů Translated BLAST (blastx) 7 - 20 bp DNA Vyhledání vazebných míst primerů nebo krátkých motivů Search for short, nearlv exact matches Příklady využití algoritmů BLAST Volba programu, jestliže Vaše sekvence je PROTEIN Délka Databáze Účel vyhledávání BLAST program Identifikace dotazované sekvence nebo vyhledání sekvencí podobných proteinů Standard Protein BLAST (blastp) Protein Vyhledání členů proteinové rodiny, tvorba vlastní pozičně-specifické matice a konstrukce profilu -» profil je potom srovnán a lokálně přiřazen k sekvencím v proteinové databázi PSI-BLAST 15 aminokyselinových zbytků nebo delší Vyhledání proteinů podobných dotazovanému v okolí určitého vzoru PHI-BLAST Konzervativ ní domény Vyhledání konzervativních domén v dotazované sekvenci CD-search (RPS-BLAST) Konzervati vní domény Vyhledání konzervativních domén v dotazované sekvenci a identifikace ostatních proteinů s podobnou architekturou domén Conserved Domain Architecture Retrieval Tool (CDART) DNA Vyhledání podobných proteinů v přeložených databázích DNA Translated BLAST (tblastn) 5-15 zbytků Protein Hledání peptidových motivů Search for short, nearlv exact matches Jak používat BLAST? • http://blast.ncbi.nlm.nih.gov/Blast.cqi 1. Vybrat příslušný BLAST-program (blastn, blastp, blastx, tblastn, tblastx, specializované varianty algoritmů) 2. Vložit sekvenci (DNA nebo protein nebo Accession number) 3. Vybrat databázi, která má být prohledána 4. Upřesnit nastavení parametrů algoritmu 5. Odeslat požadavek na vyhledání Vložení sekvence Enter Query Sequence Enter accession number, gi, or FASTA sequence [7] ci«»r Query subrange (7] From 1" T.| 1 Or. upload file Browse... 1121 Job Title Enter a descriptive tide tor your BLAST search Q) >priklad sekvence GAAT T C T T C AAAAAAG T AT T C G T T G G AT AC AC G G AC AG T G AAG AT C AT T C AG AG GAT TCTGCAAGTTCGTTACCCAGC T AAC C C C C A AAAT G T T G AAG TAG C AG T TAAT T C AAAAT C T G C AAC AG T T T C AG C AG AAT AG G G G C T T T C AAAAT AAAT CAAAG G AG AAT AAT T T AT G AC T AAAAC T T TAAAG G T T T AT AAAG G AG AC GACGTCGTAGCTTCT G AAC AAG G T G AAG G CAAAG T G T C AG T AAC T T T AT C TAAT T T AG AAG C G G AT AC AAC T T AT C C AAAAG G T AC T T AC C AAG T G G C AT G G G AAG AAAAT G G T AAAG AAT C TAG T AAAG T T GAT G T AC C T C A AT T C AAAAC C AAT C C AAT TCTAGTCTCAGGCGTAT CAT T T AC AC C C GAAAC T AAAT C AAT C AC G G T AAAT G C T GAT G AC AAT G T T G A AC C AAAC AT T G C AC C AAG T AC AG C AAC G AAT AAAAC G T T G AAAT AT AC AAG T G AAC AT C C AG AG T T T G T T AC T G T T GAT G AG AG AAC AG G AG C AAT T C AC G G T G T AG C T G AG G G AAC T T C AG T T AT C AC T G C T AC G T C T AC T G AC G G AAG T G AC AAG T C T G G AC AAAT T AC AG T AACAG TAACAAAT G GATAAT TAT T T GAGAC G CAGAATAT CTGCGTCT Výběr databáze Choose Search Set Organism Options Entrai Qu«ry C Human genomic + iransenpt ť Mouse genomic + transcript ^ Others (nr etc)- Reference mRjUA sequences (refseq.maj j^J f?J C Any í" Human C AJbatiana r Mouse ^ Custom... Sea EnM plat d uck4JI led ypus íia* f: 92r ?) n be sh own. plaryp jí [taxld 9 L11 ■ tfuckbiif platypus dawd:925ei Platytwlmlnitiss (taxid:61 ST> Platyrrhlnl (laiiid:9479) Plalldilhyg ([flÄÍd:S259} Others (nr etc.) = celá databáze (neredundantní nukleotidová nr/nt) Výběr podprogramu Program selection Optimize for (• Highly similar sequences (megaWast) <~ More dissimilar sequences (discontiguous megaWast) C Somewhat similar sequences (Wastn) /hoose a BLAST algorithm fT] Úprava parametrů algoritmu ▼ Algorithm parameters General Parameters Note: Parameter values that differ from the default are highlighted in yellow Max target sequences 100 Select the maximum number of aligned sequences to display \*, Short queries g Automatically adjust parameters for short input sequences ^; Expect threshold |1n w Word size 11 v U Scoring Parameters Match/Mismatch Scores Gap Costs 2.-3 « Existence: 5 Extension 2 v Filters and Masking Filter Mask v7 BLAST 0 Low complexity regions □ Species-specific repeats for: Human 0 Mask for lookup table only W □ Mask lower case letters W Search database nr using Blastn (Optimize for somewhat similar sequences) I I Show results in a new window Jak BLAST pracuje? • Proces zahrnuje 3 kroky 1. Příprava dotazu - rozseká zkoumanou sekvenci na krátké úseky a sestaví z nich vhodnou tabulku 2. Vyhledává shody v databázi 3. Rozšiřuje vyhledávání v oblasti nalezených shod, tak aby byla splněna zadaná kritéria Slova pro nukleotidové sekvence Dotaz: 6T AC T 66AC AT 66AC C C T AC AGGAA GTACTOGAC AT . . , ... . -, Velikost slova = 11 minimální velikost = 7 TACTGGACATG blastn default = 11 tabulka se všemi ACTGGACATGG megablast default = 28 slovy dotazu CTGGACATGGA TGGACATGGAC GGACAT GGACC GACATGGACCC ACATGGACCCT Slova pro proteinové sekvence Dotaz: GTQITVEDLFYNIATRRKALKN Qřjvj) Velikost = 3 rpQj Velikost slova může být 2, 3 (default = 6) tabulka se všemi ^y m siovydotazu Sá-1-1 Sousedící slova ITV — LTV, MTV, ISV, LSV, etc. TVE VED EDL DLF Minimální požadavek pro shodu ATCGCCATGCTTAATTGGGCTT catgcttaatt přesná shoda slova 1 nalezená shoda • Nucleotidový BLAST vyžaduje jednu přesnou shodu • Proteinový BLAST vyžaduje dvě sousedící shody v úseku 40 aa GTQITVEDLFYNI SEI YYN sousedící slova 2 nalezené shody přiložení sekvencí, které BLAST může nalézt 1 AAT GGT AAAGAC T AC T GGAT CAT T AAGAAC T CC T GGGGAG I I I I I I I I I I I I I I I I I I I I I I II I I I I I I I I I I I I I 1 AAT GGAAAAGAC T AC T GGAT CAT CAAAAAC T C C T GGGGAG sekvence obsahují definovanou shodu slova přiložení sekvencí, které BLAST nemůže nalézt 1 GAATAT AT GAAGACCAAGAT TGCAGT CC T GC TGGCC TGAACCACGC TAT T CT TGC TGT T G I I I I I I I I I I I I I I I I II I I I I I I I I I I I I I I I I I I I 1 GAGTGTACGATGAGCCCGAGTGTAGCAGTGAAGATCTGGACCACGGTGTACTCGTTGTCG 61 GT TACGGAACCGAGAATGGT AAAGAC T ACT GGAT CAT TAAGAAC TCC T GGGGAGCCAGT T I I I I I II I I I I I I I I I I I I I I I I I I I I I I I I I I I I 61 GC TAT GGT GT TAAGGGTGGGAAGAAGT AC T GGC T CGT CAAGAACAGC T GGGC T GAAT C C T 121 GGGGTGAACAAGGT TAT T T CAGGC T T GCT CGTGGT AAAAAC I I I I I I I I I I I I I II I I I I I I I I I I I 121 GGGGAGACCAAGGCTACATCCTTATGTCCCGTGACAACAAC BLASTn - Možnosti nastavení ▼ Algorithm parameters General Parameters Note: Parameter values that differ from the default are highlighted in yellow Max target sequences Short queries Expect threshold Word size 100 Select the maximum number of aligned sequences to display Q 0 Automatically adjust parameters for short input sequences ^ <- 10 11 v Match/Mismatch Scores Gap Costs 2 -3 V Existence 5 Extension 2 v Fitters and Masking fter 0 Low complexity regions 9 0 Species-specific repeats for: Human Human v & Mask BLAST 0 Mask for lookup table only 4| Rodents ■—i .. a Arabidopsis |_| Mask lower case letters ^ ^jce Mammals Fungi C elegans A gambiae Zebrafish Fruit fly Search database nr using Blast I I Show results in a new window somewhat similar sequences) Proteinový BLAST HCBI/ BLAST/ blastp suite: BLASTP programs search protein databases using a protein query. more- Reset paoe Bookmark Enter Query Sequence Enter accession number, gi, or FASTA sequence gi Clear Query subrange v»' >3A0RF1 MTKTIi(VYKGDDvT^EOGEGKv3VTLSNIJ^ TFETKSITWADDNVEFNIAPSTATNKTIJCrTSEHFEFiTTD^ TVTVTNG From To Or, upload file Job Title [ Procházet.. ] 3A0RF1 Enter a descriptive title for your BLAST search <^ Choose Search Set Database Swissprot protein sequencesiswissprot Organism Optional Entrez Query Optional Enter organism name or id-completions will be suggested 1 Protein database Enter organism common name, binomial, or tax id. Only 20 top taxa will be shown. & Enter an Entrez query to limit search jb>; Program Selection Algorithm,—, 0 b|gstp (protejn_protejn BLAST) O PSI-BLAST (Position-Specific Iterated BLAST) O PHI-BLAST (Pattern Hit Initiated BLAST) Choose a BLAST algorithm (| v7 f"BLA Search database swissprot using Blastp (protein-protein BLAST) BLASTp - Možnosti nastavení Algorithm parameters General Parameters Note: Parameter values that differ from the default are highlighted in yellow Max target sequences Short queries Expect threshold Word size 100 85%; 1572 proteinových sekvencí z 71 rodin - PAM1 reprezentuje 1% změn (1 mutace na 100 aminokyselinových zbytků) - PAM250 = (PAM1)250 Nevýhody substitučních matic • Neberou v úvahu vzdálené interakce mezi aminokyselinovými zbytky • Předpokládají, že identické zbytky v sekvenci jsou rovnocenné. Ve skutečnosti zbytky v aktivních místech enzymů podléhají jiným evolučním tlakům než stejné zbytky mimo tato místa • Předpokládají, že evoluční rychlost je konstatní. PAM versus BLOSUM • PAM Matice (Percent Accepted Mutation) - Odvozené z pozorování; malé množství srovnávaných dat - vhodné pro evoluční modely - Všechny výpočty vycházejí z PAM1 - PAM250 je nejpoužívanější • BLOSUM (BLOck SUbstitution Matrices) - Odvozené z pozorování; velké množství vysoce konzervovaných sekvencí (BLOCKS) - Každá matice odvozená samostatně podle definované procentuální identity - BLOSUM62 - výchozí matice pro BLAST Blosum 45 Blosum 62 Blosum 90 PAM 250 PAM 150 PAM 100 Více divergentní ^ľ^^Méne divergentní BLAST - grafický výstup Taxonomy reports Distribution of 30 Blast Hits on the Query Sequence P40692 DNA mismatch repair protein Mini (MutL protein homolog 1..S= 233 E=3e-62 Color Key for Rlignnent Scores ^^^H 80-200 10-50 1.104361 0 50 100 pohyb myši BLAST: popis výstupu Sequences producing significa seřazeno podle hodnot E ore its' gi gi gi gi gi gi 730028|sp|P40692|MLH1 HUMAN 13878583 13878571 1709056 1171080 13431695 „i i o nnonnn i ^sp I Q9JK91 IMLH1 MOUSE DNA ni P97 67 9IMLH1 RAT DNA mis MUTL p DNA mismatch repair protein -L link to entrez P38 920IMLH1 YEAST 44494IMUTL HAEIN 5788 6IMUTL PÁSMU IMUTL THEMA 4 X 10-56 n o £ gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi gi 1IMUTL BACHD MUTL ECOLI 127553 IspIP14161TMUTL SALTY 6225738 IspIQ9ZC88IMUTL RICPR 14194944 IspIQ9PJG5IMUTL CHLMU otein -1 (DNA. DNA mismatch repair protein, DNA mismatch repair protei, DNA mismatch repair protein, DNA mismatch repair prote DNA mismatch repair prot DNA mismatch r DNA mismatch DNA mismatch LocusLink 8928218 IspI 084579IMUTL CHLTR 20043258 IspIQ9KV13IMUTL VIBCH 13631230 IspIQ9RP66IMUTL CAUCR 8928214 IspI 051229IMUTL BQRBU 1709188 IspIP49850IMUTL BACSU 8039787 IspI 083325IMUTL TREPA gi 19856116 1 sp 1P14160I HEX gi 3914082 1 sp 1 P70754IMUTL gi 11386926 1 sp 1P57633|MUI DNA mismatch repair protein, DNA mismatch repair protei, DNA mismatch repair protei, DNA mismatch repair protein, DNA mismatch repair protein, DNA mismatch repair protein, r-im-n niT Default e value cutoff 10 8928240 IspIQ9Z794IMUTL CHLPN 1709684 IspIP54280IPMS1 SCHPO E Value 233 8e-62 —4e-56Jl 212 le^5 72 m/ /le-08 le-06 4e-06 46 le-05 44 5e-05 44 7e-05 40 7e-04 40 0.001 39 0.001 39 0 . 002 39 0.002 39 0.002 38 0 . 005 36 0.013 36 0.020 35 0 . 020 35 0.026 35 0 . 026 3914081 IspI 067518IMUTL AQUAE 1709685 IspIP54278IPMS2 HUMAN 1709686 IspIP54279IPMS2 MOUSE 8928222 IspIP73349IMUTL SYNY3 1709683 IspIP54277IPMS1 HUMAN 126232 IspIP02239ILGB1 LUPLU 126238 IspIP02240ILGB2 LUPLU DNA mismatch rei DNA mi sm; " ... , dna misrm Bacterial mismatch repair proteins PMSl protein homolog 2 PMS1 PROTEIN HOMOLOG 2 DNA mismatch repair protein PMSl protein homolog 1 (DNA Leghemoglobin I Leghemoglobin II Statistika lokálního přiložení • Statistiky jsou odvozené ze skóre přiložení • Popisují jeho celkovou kvalitu na základě porovnání pravděpodobnosti výskytu nalezených segmentů o určité sekvenční podobnosti s pravděpodobností, že se taková podobnost vyskytne mezi dvěma náhodnými sekvencemi - p-value (hodnota p) • Pravděpodobnost, že alignment s tímto skóre se vyskytne náhodně v databázi použité velikosti - e-value (hodnota e) („Expectation value") • vyjadřuje počet různých sekvenčních přiložení se skórem shodným nebo vyšším než je dosažená hodnota, jejíž výskyt je očekáván při náhodném vyhledávání v databázi. • Čím blíže je hodnota e k 0, tím lepší je přiložení Výpočet hodnoty E (Expectation value) E = počet nálezů v databázi, které mohou být ojeveny náhodně E = mn 2 s Potom platí, že čím je hodnota E nižší, tím je skóre významnější. Score BLASTp-hledání konzervativních domén proteinů 3 NC formatting BLAST Jucleotide Protein Translations Retrieve results for an RID Your request has been successfully submitted and put into the Blast Queue. Query = Mutated in Colon Cancer (131 letters) Putative conserved domains have been detected, click on the image below for detailed results. 20 40 60 80 100 120 131 DHfl_nis_repair The request ID is |1038888657-012751-16086 ^Jjm«| orámuj The results are estimated to be ready in 36 seconds but may be done sooner. BLAST - výstup u srovnání proteinových sekvencí >gi|127552|sp|P23367|MUTL_ECOLI DNA mismatch repair protein mutL Length = 615 Score =44.3 bits (103), Expect = 5e-05 Identities = 25/59 (42%) , Positives = 33/59 (55%) , Gaps = 8/59 (13%) Query: 9 LPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHF-----LHE---ESILERVQQHIESKL 59 L + P L LEI P VDVNVHP KHEV F +H+ + +L +QQ +E+ L Sbjct: 280 LGADQQPAFVLYLEIDPHQVDVNVHPAKHEVRFHQSRLVHDFIYQGVLSVLQQQLETPL 338 BLAST - výstup filtrování sekvencí >gi|730028|sp|P40692|MLHl_HUMAN DNA mismatch repair protein Mini 1) Length = 756 Score = 233 bits (593), Expect = 8e-62 Identities = 117/131 (89%), Positives = 117/131 (89%) Query: 1 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 60 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL Sbjct: 276 IETVYAAYLPKNTHPFLYLSLEISPQNVDVNVHPTKHEVHFLHEESILERVQQHIESKLL 335 Query: 61 GSNSSRMYFTQTLLPGLAGPSGEMVKXXXXXXXXXXXXXX: GSNSSRMYFTQTLLPGLAGPSGEMVK ] Sbjct: 336 GSNSSRMYFTQTLLPGLAGPSGEMVKSTTSLTSSSTSGSS: IKVYAHQMVRTDSREQKLDA 120 DjKVYAHQMVRTD SREQKLDA 395 STTSLTSSSTSGSSĽ KVYAHQMVRTDSREQKLDA Query: 121 FLQPLSKPLSS 131 FLQPLSKPLSS Sbjct: 396 FLQPLSKPLSS 406 sekvence s nízkou komplexitou BLAST - příklad výstupu u DNA 40-50 50-80 0-200 0 500 1000 1500 2000 2500 3000 3500 4000 4500 ////j ■////. »»» Score = 202 bits (102) , Expect = 5e-48 Identities = 179/207 (86%) Strand = Plus / Plus Query: 2500 aagttaacttaaataatgcgcaaggc-------gatttgggatatttaactgctggtaat 2559 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Sbjct: 36439 aagttaacttaaataatgcgcaagggcgtttgggatttgggatatttaactgctggtaat 36498 Query: 2560 tactatgcaacaagagtgccggatttaccaggtagcgttgaaagttatgagggttattta 2619 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Sbjct: 36499 tactatgcaacaagagtgccggattt-ccaggtagcgttgaaagttatgagggttattta 36558 Query: 2620 actttagatgctatccagagggaaagacagatagacgnnnnnnnnnngaaagaaaacgac 2679 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I Sbjct: 36559 accttagatgctattcaaaaagaaagagaaatagatgaaaagaaaaagaaagaaaatgat 36618 Query: 2680 aaaaatatacgcgatatgaaaatgtgg 2706 II II I I I I I I I I I I I I I I I I I I I I Sbjct: 36619 aagaacatacgtgatatgaaaatgtgg 36645 Aplikace pro lokální přiložení na EBI http://www.ebi.ac.uk/Tools/sss/ FASTA FASTA© FASTA is another commonly used sequence similarity search tool which uses heuristics for fast local alignment searching, Protein Nucleotide Genomes Whole Genome Shotgun BLAST NCBI Bl AST® NCBI BLAST is the most commonly used sequence similarity search tool. It uses heuristics to perform fast local alignment searches. Protein Nucleotide Vectors SSEARCH © SSEARCH is an optimal (as opposed to heuristics-based) local alignment search tool using the Smith-Waterman algorithm. Optimal searches guarantee you find the best alignment score for your given parameters. Protein Nucleotide Genomes Whole Genome Shotgun PSI-Search © PSI-Search combines the sensitivity of the Smith-Waterman search algorithm (SSEARCH) with the PSI-BLAST profile construction strategy to find distantly related protein sequences. Protein WU-BLAST © WU-BLAST is similar to MCBI BLAST but combines multiple parameter options into a simpler 'sensitivity' setting. Protein Nucleotide "'SI Bl AST© PSI-BLAST allows users to construct and perform a BLAST search with a custom, position-specific, scoring matrix which can help find distant evolutionary relationships. PHI-BLAST functional ty s also avai a Die to restrict ~esults using patterns. Protein GGSEARCH © GGSEARCH performs optimal global-global alignment searches using the Needleman-Wunsch algorithm. Protein Nucleotide GLSEARCH © GLSEARCH performs an optimal sequence search using alignments that are global in the query but local in the database sequence. This can be useful when you want to match all of a short query sequence to part of a larger database sequence. ENA Sequence Search EMBL-EBI has a new nucleotide search tool which is far faster than BLAST for large datasets, with only a marginal loss in search sensitivity. Try it out at ENA Sequence Search. Protein Nucleotide Fasta3 (EBI) EMBL-EBI « Help Index ■ General Help ■ Formats ■ Gaps ■ Matrix ■ References ■ Fasta Help ■ MView Help ■ VisualFasta Help ■ View all Fasta's at EBI ■ Fasta Programmatic Access ■■■ Database Information Similar Applications Fasta Blast MPsrch scanps Search trnfisuaa^^^^ma auiamamMatm ■ 1 Reset ? Advanced Search EBI Groups Training Industry About Us Help Site Ir Fasta - Nucleotide Similarity Search Provides sequence similarity searching against nucleotide and protein databases using the Fasta programs. Fasta can be very specific when identifying long regions of low similarity especially for highly diverged sequences. You can also conduct sequence similarity searching against complete proteome or genome databases using the Fasta programs . # I Download Software PROGRAM DATABASES RESULTS SEARCH TITLE YOUR EMAIL fasta3 fasta3 tfastx3 tfasty3 Nucleic Acid v j j email v (Sequence EMBL Release EMBL Updates EMBL Coding Sequence MATRIX GAP OPEN GAP EXTEND KTUP EXPECTATION UPPER VALUE EXPECTATION LOWER VALUE none -14 v 4 6 v 10 0 v default V DNA STRAND HISTOGRAM MOLECULE TYPE both no v SCORES ALIGNMENTS 50 v 50 v DNA SEQUENCE RANGE DATABASE RANGE FILTER STATISTICAL ESTIMATES |START-END |START-END none 0 Regress J| Enter or Paste a DNA/RNA Sequence in any format: Help Upload a file: [ Procházet.. | Metoda tečkové (Dot-Plot) matice Bodový diagram vzájemné podobnosti sekvencí - nejjednodušší pomůcka pro grafické znázornění oblastí podobnosti. Horizontální a vertikální rozměry odpovídají porovnávaným sekvencím. Každý zbytek z jedné sekvence je srovnáván s každým zbytkem ve druhé sekvenci První sekvence tvoří osu x a druhá sekvence osu y; shoda je vyjádřena tečkou V oblastech, kde jsou si obě sekvence navzájr řádek vysokých skóre diagonální linii přes teči? Podobné sekvence pak tvoří přerušované ■ diagonální linie. [ Po odfiltrování diagonál kratších než 3 tečky 5 je výsledkem grafické vykreslení podobností ! sekvencí ve formě čtvercové nebo j trojúhelníkové matice zobrazené j v šedé škále • MTFRDLLSVSFEGPRPDSSAGGSSAGG X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X Typy sekvenčních přiložení • Pro optimální lokální alignment požadujeme dosažení nejlepšího skóre kdekoli v matrici LOKÁLNÍ - nejlepší sekvenční přiložení segmentů bez ohledu na zbytek sekvence Smithův-Watermanův algoritmus • Pro optimální globální alignment požadujeme dosažení nejlepšího skóre v celém řádku/sloupci GLOBÁLNÍ - nejlepší sekvenční přiložení celých sekvencí Needlemanův-Wunschův algoritmus Sekvenční přiložení muže posuzovat podobnost celých dlouhých sekvencí Nalezení nejefektivnější transformace jedné sekvence do druhé představuje využití dynamického programování pro konstrukci přiložení Sequence A tu a Na a Na c| N[čl [cl NTčl \c\ Nič] [cl N[í d |-J [cl UJ h Ä1 [a1 NÄl IaI NTÄ" IF C Seq B Seq A ACA—CA A-CCAAC 1 Bodové změny, delece Inverze Translokace Duplikace Kombinace uvedených změn Příklad globálního přiložení - MAUVE XKLGA251) Lokální sekvenční přiložení 1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGTAGACCG.... 67 1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 7 0 14 TCAGAAGCAGCTAAAGCGT I I I I I I I I I I I I I I I I I I 4 2 TCAGAAGCA.CTAAAGCGT 1 AGGATTGGAATGCT I I I I I I I I I I I I I I 1 AGGATTGGAATGCT 3 9 AGGATTGGAAT I I I I I I I I I I I 1 AGGATTGGAAT 62 AGACCG I I I I I I 6 6 AGACCG Globální sekvenční přiložení 1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGT---AGACCG 67 1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 7 0 Dvě sekvence sdílejí oblasti s lokální podobností (end-to-end alignment) Lokální vs. globální přiložení Lokální: Globální: - Citlivé k modulární struktuře - Výsledek ovlivněn vkládáním mezer - Vhodné k hledání v databázích - Neuvažuje modulární strukturu sekvencí Poznámky na závěr • Substituční matice a penalizace mezer vnáší do algoritmů pro přiložení biologický význam • Existuje mnoho způsobů, jak přiložit dvě sekvence • Přiložení ještě neznamená, že dvě sekvence sdílejí společnou biologickou historii. Významnost musí být posouzena statistickým skóre. • Nevěřte, že vaše přiložení je jediné správné, zejména u sekvencí, které mají méně než 20% podobnost. K prozkoumání těchto sekvencí jsou potřebné další metody.