UNI SCI MASARYK UNIVERSITY FACULTY OF SCIENCE DEPARTMENT OF EXPERIMENTAL BIOLOGY LABORATORY OF MICROBIAL MOLECULAR DIAGNOSTICS BÍ5000 - Bioinformatika Lekce 02 Manipulace se sekvenčními daty Sylabus výuky předmětů BiSOOO Bioinformatika a BiSOOOc Bioinformatika - cvičení v semestru podzim 2024 Přednášky: úterý 11:00-12:50 prezenčně v učebně Bll-306 Kontakt: prof. Mgr. Jiří Damborský, Dr. (1441(9>mail.muni.cz) prof. RNDr. Roman Pantůček, Ph.D. (pantucek@sci.muni.cz) Cvičení: středa 10:00-17:00 prezenčně v učebně B09-316, dle seminárních skupin Kontakt: Ing. M i 1 oš M usi 1 (imusilm@fit.vutbr.cz) prof. RNDr. Roman Pantůček. Ph.D. Datum c. Předmět Lekce 17.09.2024 1S.C9.2C24 Výuka se nekoná z důvodu povodní 1 24.C9.2C24 2 BÍ5000 Manipulace se sekvenčními daty 25.09.2024 BiSOOOc Cvičení - textové vyh ledávání v databázích C1.1C.2C24 1 BÍ5000 Bioinformatika - základní definice, molekulárně biologické databáze C2.1C.2C24 BiSOOOc Cvičení—formáty sekvencí, manipulace se sekvenčními daty 03.10.2024 3 BÍ5000 Posuzování podobnosti sekvencí nukleových kyselin a proteinů 09.10.2024 BiSOOOc Cvi čen í - p á rove p ři 1 ožen í sekvencí. BLAST 15.10.2024 4 BÍ5000 Mnohonásobné při ložení sekvencí a fylogeneze 16.10.2024 BiSOOOc Cvičení - mnohonásobné při ložení a fylogeneze 22.1C.2C24 5 BÍ5000 BiSOOOc Genomové projekty, s ekven ování nové generace Cvičení —návrh oligonukleotidů proPCR, sekvenování, klonování a mutagenezi 23.10.2024 29.10.2024 6 I BÍ5000 Počítačové vyh ledávání genů a srovnávací genomika 3C.1C.2C24 BiSOOOc Cvičení —hledání prokaryotických genů, práce s programy pro srovnávací genomiku 05.11.2024 7 BiSOOO Analýza sekvencí proteinů 06.11.2024 BiSOOOc Cvičení —analýza sekvencí proteinů 12.11.2024 S BÍ5000 Strukturní databáze 13.11.2024 BiSOOOc Cvičení- základní strukturní analýzy, vizualizace proteinových struktur v PyMOL 19.11.2024 9 Bi 5000 Predikce struktury proteinů 20.11.2024 BiSOOOc Cvičení- predikce struktury proteinů 26.11.2024 10 BiSOOO BiSOOOc Příprava anotované sekvence DNA pro zaslání do databáze Cvičení —NGS data a lokální anotace dat 27.11.2024 C3.12.2C24 BiSOOO 1. Předtermín C4.12.2C24 BiSOOOc Zápočtový test na PC (odpovědník v ISu) 1C.12.2C24 BÍ5000 2. Předtermín, další termíny v lednu 11.12.2024 BiSOOOc Opravný zápočtový test na PC (odpovědník v ISu) Bioinformatika je disciplína na rozhraní počítačových věd, informačních technologií, matematiky a biologie • Termín bioinformatika se objevil poprvé v roce 1991 • Představuje spojení technologií z oblastí molekulární biologie informačních technologií • Bioinformatika zahrnuje studium a analýzu praktické uchovávání vyhledávání a zobrazování modelování biologických dat • Výpočetní nástroje umožňujících analýzu dat a stanovení jejich vzájemných vztahů • Dramatický nárůst množství dat a tím současně zvyšující se obtížnost jejich zkoumání a hodnocení ve vztahu k biologickým otázkám Základní zdroje a aplikace bioinformatiky Výpočetní základy Zdroje dat Aplikace bioinformatiky Algoritmy \ Obecně \ dostupné \ databáze Zpracování \ laboratorních \ dat \ Získávání dat Grafika, vizualizace Nástroje pro přístup k databázím Zpracování signálu Mapování a srovnávání genomů Architektura hardwaru Sekvenční přiložení, assembly Informační teorie Identifikace genů Správa databází Funkční identifikace proteinů Statistika Molekulární evoluce Simulace Molekulární modelování Umělá inteligence Predikce struktur Zpracování obrazu Srovnávání struktur Robotika Stanovení makromolekulárních struktur Softwarové inženýrství Vývoj léčiv na základě struktur „..omiky" v molekulární biologii O Proteomika C_ Fenomika 5 Ťra n s k ri pto m i ka£ j ,t^l¥letabolomikaj} ^ Štruktúrni genomika C. Glykomika 3 2D - elektroforéza Hmotnostní spektrometrie T Kvantitativní PCR Sekvencování proteinů Chromatografie Management labor, informací ^1 Proteinové čipy Xray krystalografie NMR Počítačové modelovaní a predikce struktur Molekulární interakce Bioinformatika Trend nárůstu množství dat v bioinformatických databázích Zdroj: https://www.ncbi.nlm.nih.gov/genbank/statistics/ Typy jednoduchých bioinformatických manipulací 1. Přístup k datům a databáze (lekce - úvod) 2. Zápis sekvencí, hledání podobnosti 3. Konverze dat a formátů 4. Sestavení kompletních sekvencí ze sekvenačních dat (lekce - anotace) 5. Výpočetní analýza sekvencí 6. Návrh oligonukleotidů Nejdůležitější databáze sekvencí nukleových kyselin a proteinů V každém ze tří hlavních bioinformatických center je spravována genomová databáze sekvencí nukleových kyselin a odpovídajících, z nich přeložených proteinů. • EMBL Nucleotide Sequence Database / European Nucleotide Archive (v rámci institutu EBI) -1980 • GenBank (v rámci institutu NCBI) - 1982 • DDBJ (The DNA Data Bank of Japan) -1984 Tři samostatné báze vznikly v důsledku potřeby rychlé dostupnosti databáze sekvencí na jednotlivých kontinentech v době, kdy ještě nebyly rozvinuté vysokorychlostní komunikační sítě. Mezinárodní spolupráce O sekvenčních databází (velká trojka) NIH NCBI ENTREZ GenBank https://www.ncbi.nlm.nih.gov/ Sdílení dat v základních databázích V každém z bioinformatických center jsou dostupné jednoduché nástroje pro manipulaci s daty NCBI GCnBdnk- ■ http://www.ncbi.nlm.nih.gov/ JNational Center for Biotechnology Information (NCBI) EMBLi http://www.ebi.ac.uk ■ a EMBL iEuropean Bioinformatics Institute (EBI) European Bioinformatics Institute DDBJ j DDBJ i http://www.ddbj.nig.ac.jp/ National Institute of Genetics (NIG) ExPASy: Expert Protein Analysis System PDBi https://www.rcsb.org/ "nuMUn RCSB Protein Data Bank (RCSB PDB) Získání dat a manipulace se sekvencemi Databases 1 DNA Protein Entrez SRS Retrival System NCBI - GenBANK PIR DDBJ SWISSPROT EBI -EMBL EXPASY , PDB Information Sequnece, PDB, Image Softwares T GenBANK GCG FASTA Staden Image GCG SeqWEB Vector NTI GenoMAX CLC Workbench Ugene Galaxy Formats Sequence Converter 2. Zápis sekvence ■ Sekvence - zápis posloupnosti jednoznačných znaků odpovídajících jednotlivým zbytkům (monomerům), které se nacházejí v odpovídající posloupnosti v dané makromolekule ♦ DNA nebo RNA od 5'-konce k 3'-konci ♦ 5' CAAACGTCGTCTA 3' ♦ protein od N-konce k C-konci ♦ (NH2-) MKRLSALGPGGLTRR (-COOH) ■ používají se jednopísmenové kódy dle pravidel IUPAC Standardní kódy pro sekvence nukleových kyselin podle IUB/IUPAC A adenosin C cytidin G guanidin T thymidin U uridin R G/A (puRin) Y T/C (pYrimidin) K G/T (nukleosid s Keto skupinou) M A/C (nukleosid s aMino skupinou) S G/C (silná = Strong vazba) W A/T (slabá = Weak vazba)_ B G/T/C (not A) D G/A/T (not C) H A/C/T (not G) V G/C/A (not T) N A/G/C/T Qakýkoli) mezera (gap) neurčené délky Využití zápisu s degenerovanými nukleotidy TACGGT TATAAT TATAAT GATACT TATGAT T AT AT T Konsenzní sekvence: Degenerovaná sekv.: kayrnt TATAAT Standardní kódy pro sekvence aminokyselin podle IUB/IUPAC A alanin B kys. asparagová nebo asparagin C cystein D kys. asparagová E kys. glutamová F fenylalanin G glycin H histidin I isoleucin K lysin L leucin M metionin N asparagin P prolin Q glutamin R arginin S serin T treonin U selenocystein V valin W tryptofan Y tyrosin Z kys. glutamová nebo glutamin X jakákoli aminokyselina * translační stop (terminační kodon) mezera (gap) neurčené délky Běžné formáty sekvencí ■ Prostý text ■ FASTA ■ FASTQ ■ Genbank ■ EMBL ■ GCG ■ PIR ■ ASN1 ■ Výstupní data sekvenování: ABI, AB1, SCF, SFF, BAM, SAM, FASTF aj. PLAIN SEQUENCE FORMÁT Obsahuje pouze IUPAC znaky Obsahuje jedinou sekvenci Příklad AACCTGCGGAAGGATCATTACCGAGTGCGGGTCCTTTGGGCCCAA CCTCCCATCCGTGTCTATTGTAC Použití: pro zápis krátké sekvence např. v textu nebo obrázku FASTA FORMAT Může obsahovat více sekvencí Začíná specifickým záhlavím „>", za kterým následuje definice Příklad: >U03518 Aspergillus awamori internal transcribed spacer 1 (ITS1) AACCTGCGGAAGGATCATTACCGAGTGCGGGTCCTTTGGGCCCAACCTCCCATCCGTGTCTATTGTACCC TGTTGCTTCGGCGGGCCCGCCGCTTGTCGGCCGCCGGGGGGGCGCCTCTGCCCCCCGGGCCCGTGCCCGC C G GAGAC C C CAACAC GAACAC TGTCTGAAAG >LinB_protein MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLGR LIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGSALG FDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQDNVFVE QVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIARDYA GWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPDEIGAA IAAFVRRLRPA Použití: univerzální formát pro zápis sekvence vhodný jako vstupní data pro většinu software. FastQ FORMÁT Záhlaví obsahuje automaticky generovaný identifikátor klastru ze sekvenování. Následuje primární sekvence a informaci o kvalitě stanovení sekvence Příklad: @HWUSI-EAS10 0R:6:73:941:1973#0/1 GAT T T GGGGT T CAAAGCAGTAT CGAT CAAATAGTAAAT CCAT T T GT T CAACT CACAGT T T + !''*((((***+))%%% + +) (%%%%).!***- + *'')) **55CCF»»»CCCCCCC65 Použití: výstupní data při sekvenování nové generace KLÍČ K IDENTIFIKÁTORŮM KVALITY: Nejnižši kvalita nejvyšši kvalita !'tf$%&^)*+rV0123456789:;<=>?<^BCDEFGHIJKLMNOPQ Viz též Phred Quality Score z, a GENBANK FORMÁT Začíná řádkem s názvem pole LOCUS Obsahuje mnoho různých deskriptorů Začátek primární sekvence je vyznačen ORTGIN a sekvence je ukončena „//" Zpravidla obsahuje i anotované sekvence proteinů a odkazy do dalších databází Příklad: LOCUS DEFINITION AAU03518 237 bp DNA PLN Aspergillus awamori internal transcribed spacer rRNA and 5.8S rRNA genes, partial sequence. U03518 U03518.1 Gl 1235658 41 a 77 c 67 g 52 t 1 04-FEB-1995 (ITS1) and 18S ACCESSION VERSION BASE COUNT ORIGIN 1 aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc 61 tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg 121 ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc 181 tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc EMBL FORMÁT Začíná řádkem s jedinečným identifikátorem (ID), následuje anotace . Obsahuje mnoho různých deskriptorů Sekvence začíná symboly SQ a sekvence je ukončena „//" Zpravidla obsahuje i anotované sekvence proteinů a odkazy do dalších databází Příklad: ID XX AC XX DE DE XX SQ AA0 3518 U03518; standard; DNA; FUN; 237 BP Aspergillus awamori internal transcribed spacer 1 (ITS1) and 18S rRNA and 5.8S rRNA genes, partial sequence. Sequence 237 BP; 41 A; 77 C; 67 G; 52 T; 0 other; aacctgcgga aggatcatta ccgagtgcgg gtcctttggg cccaacctcc catccgtgtc tattgtaccc tgttgcttcg gcgggcccgc cgcttgtcgg ccgccggggg ggcgcctctg ccccccgggc ccgtgcccgc cggagacccc aacacgaaca ctgtctgaaa gcgtgcagtc tgagttgatt gaatgcaatc agttaaaact ttcaacaatg gatctcttgg ttccggc Formáty sekvencí obsahující mnohonásobná přiložení ■ Sekvenční přiložení umožňuje srovnat podobné sekvence ■ K dispozici celá řada formátů, obvykle přizpůsobených používaným programům o MultiFASTA o Phylip o PAUP/NEXUS o Clustal o MSF CLUSTAL/MUSCLE MULTIPLE FORMAT 1 Začíná řádkem s definicí Vkládá mezery do sekvence tak, aby při mnohonásobném přiložení byly identické zbytky nad sebou Konzervované pozice se stejným typem zbytku označuje na posledním řádku hvězdičkou Podobné typy zbytků mohou některé formáty znázorňovat dvoutečkou nebo tečkou Příklad: Hoo rellú_-theŕmoúc et i ea_ATCC_39fl73_-_ rna. 48 ..........CTTTCATCCTGGCTCAGGACAAACGaGGCGGCGTGCtTAACACATGCAA 58 Ammonife*_degensii_KC4_-_rna.5 .......AGGGTTTGATCCTGCaCAG GACGAACGaůGCGGCGTGCCTAACACATÍCAA 53 Amnion í f ex^deg ensi i_KC4_^ _r na. 31 .......AGGGTTTG AlTCCTGGCTCAGGACGAACGCTGGCGGCGTGCCT AAC AC ATG C AA 53 Cůndidůtu s.Desul fů fudi s_audaxviatůr_MPl04C_-_DAlJC_RS0Ů7eů TTTATGGAGAGTTTG ATCCTGGCTCAG GaCGAACGCTGGCGGCGTGCCT AAC AC ATG C AA Ě8 Cúndidůtu s_Desul fů r-udi s_ůiída wtatůr _MP1MC-_QA1JD_RS069 20 TTTATGÍ AGAGTTTG ATCCTGGCTCAG GaCGAACGCTGGCGGCGTGCCT AaC AC ATÍ C AA 68 *********.********************.***************************** Hcú ľŕllú_therif»úc et i cOTCC_39ůri_-_ rna L 48 GTCGAGCGGTCTTTaATTGGGGaAATCTTCGÍ ATGÍ AACCGATTAAAC ATAGCGGCÍG AC ilfl Amtion ifex_deg£nsi i_KC4_-_r na. S GTCGAGCGGGCTT......GTCAGGGCCTTGTGT----CCTGGC AAG TTGAGCGGCÍGAC 183 Amnion if e*_deg ensi i_KC4_-_rna. 31 GTCGAGCGGGCTT......GTCAGGGCCTTG ľGT----CCTGGCAAG TTGAGCGGCÍGAC 183 Candidatu s.Desul f a r-udi s_audaxťiatar_MPl04C_-_DAAJC_RS0e700 G TCGTGCGA- - - TTGAGAGGTGAGCATCTCACTT----C TCAA------GAGCGGCCGAC 187 Cůrididútu s.Desul f a fudi s_audaxviatůr_MPl04C_-_DAlJC_RS0Ě9 20 GTCGTGCGA- - -TTG AGAGGTGAGCATCTCACTT----C TCAA------GAGCGGCGGAC 187 **** ***< ****L* ** *. .I*.. * *. , .**. ********** Poznámka k používaným fontům ■ Proporcionální fonty ♦ Arial, Times ♦ Všechny znaky stejná šíka Cttaaaaaaa ♦ Courier, Monospaced ■ K editaci jsou vhodné editory, které neukládají informace o formátu textu (Notepad, vývojářské editory - PSPad, aj.) ■ Některé formáty jako např. GCG obsahují vnitřní kontrolní součty ♦ Každý znak - jma sirka ♦ Nevhodné pro zápis gaattttttt sekvence ■ Neproporcionální fonty ♦ Vhodné pro zápis sekvence gaattttttt Surová data - elektroforetogramy ze sekvenování v kapiláře ■ Různé formáty ♦ *.abi *.ab1 ♦ *.scf ■ Prohlížeče, např. Chromas Lite ♦ ABIView ♦ Ridom Trace Edit ■ Export ♦ FASTA ♦ Prostý text □ Formáty z NGS vyžadují složitější zpracování Lipl-il.abl - Chromas [ 1=1 I Ě) File Edit Options Help & y v m Open Save Export Print ■+N #4 Next Find Sample: Lipl-il Base 132 100 110 120 130 TCCCCG T G CCGCG G TCCATCACA CT CA ACA C C A C A T A AG G CG CAG P V P R S ITTTLNTT* G , A _ V 5P PR CA A ĽV PH SH T SQ H % =1 R R B ^lä K .í ' 3aJmoís_A8750_165i.3Ii1 [C Ifioatämr Qí_ccrcLe AllľTa l6Sf.il [CilProg'-am |A_h|j*mit_A3S4S1_lfiSr.Jil [CzlfnKftl I3cJstuí_*J5*3í_L6Sf,ab] 13ÄjM<:nl5_Agr5í_i*Sf.*t [í^rogrmr 3í,«r,!Le.*1L'7a,L6s''*1 [CilPtograní QKSjKCSa.ríííOM.ítcSíJ) [c:lDotu kjäariíSa.rsxjríontJí [C :^Da^jLjnente u (3BjľMjí23745_165f.aM [C!\FT(K»amn» gc_Wij(«_M3«í_lť3.*l [C:\r>o9r«rrf QAJ*tkoph_A3S6S4T,l6SF.d£l (OlpKíflril (3c_»dwJM3B68J65<,ab] [CVroďw < ? * 3f-X » V^M^ ' * I G I T í. I T < _>Ji_i Pciim: 9 v j 24 [C] .Vir J.-J: ú Jednoduché formáty sekvencí maj omezení a neobsahují Data o expresi genů Variace a polymorfismy Specifické informace o zdroji sekvence (organismu, klonech, ...) Odkazy na další informace Informace o kvalitě 3. Konverze dat a hledání motivů • Převod informace mezi řetězci • Reverse-complement • Hledání motivů • Přesné • Podobné • Přepis a překlad podle ústředního dogmatu • Transkripce • Translace - genetický kód • Sekvenční přiložení • Párové, stanovení identity a podobnosti • Mnohonásobné, identifikace konzervativních motivů • Spojování, rozdělování • Reštrikční štěpení • Klonování in silico, konstrukce vektorů a rekombinantní DNA pro přípravu proteinů • Assembly - kompletace a sestavení genomů Příklady nástrojů pro konverzi formátů ■ UNIX-GCG o To Genbank, To Fasta.... From Genbank, From Fasta... ■ SEQRET ■ https://www.ebi.ac.uk/Tools/sfc/ ■ SMS - The Sequence Manipulation Suite v2 ♦ http://www.bioinformatics.org/sms2/ EMBL to FASTA o Gen Bank to FASTA o Reverse Complement - převod mezi řetězci o Filtrování znaků ■ Vzájemná konverze - Sanger, lonTorrent, lllumina, (ONT) Biopython EMBOSS BioPerl Samtools Převod informace mezi řetězci f-f Nástroj Reverse Complement http://www.bioinformatics.org/sms2/rev comp.html Převod mezi dvěma řetězci (pozitivní-kódující-horní/negativní- antikódující-spodní) 5' CCCCATGTTT 3' 3' GGGGTACAAA^S' >Sample sequence 5' CCCCATGTTT 3' >Reverse complement dle pravidel o párováni bazi 5' AAACATGGGG 3' >Reverse — nemá biologický význam 5' TTTGTACCCC 3' >Complement — nemá biologický význam 5' GGGGTACAAA 3' Hledání motivů v sekvencích Hledání slov = uspořádaná množina znaků GAATTC GARYTC GAAN(1_50)TTC • Přesně definovaný motiv • Degenerované symboly • Povolený počet neshod • Motivy od sebe vzdálené x zbytků Standardní příklady hledání ■ Reštrikční místa ■ Repetice ♦ Přímé ♦ Obrácené (vlásenky se smyčkou) ■ Konsenzní vzory ■ Uživatelem definované vzory ■ Otevřené čtecí rámce (START .... STOP) ■ Základ pro hledání genů a funkčních oblastí Reštrikční endonukleazy tndy II mají praktické využití o Vážou se na specifické (4-6 pb) sekvence nukleotidu Katalyzují štěpení dvou řetězců molekuly DNA uvnitř vazebného místa nebo v jeho bezprostředním sousedství Produkty štěpení RE tupé konce (po štěpení obou řetězců ve stejném místě) • přečnívající konce (po štěpení řetězců v různých místech, která jsou obvykle vzdálena 1-4 nukleotidy) - 5'přečnívající - 3'přečnívající PcoRI 11111111 irrrr^ ttttt SDiÉGÁÁTTCHÉniŮ ES O ■ E9 G TTŤTľTTŤŤHTTTTrjTŤTT A A A A IT la i 5' Sticky ends Psrl illUliUliili3 J lAllWUf 5' JTTTTT ■ □p QA C G T C^□■s■ m M nS G GSÉŮ0Ů TTT? I TTTľTT I I L, JUT ACGTC.P..- Sma1 5' 3' 3' 5' □ I 3' Sticky ends 3' 5 U TTfTTľTTTTTTT, JTŤTŤŤT, JTÍTTTTT 1 5' 3' Blunt ends Reštrikční analýza in silico Reštrikční endonukleázy třídy II ♦ Sekvenčně specifické endonukleázy, které štěpí DNA v rozpoznávaných sekvencích ♦ Přehled dostupný v databázi REBASE- Restriction Enzyme Database http://rebase.neb.com/rebase/rebase.html ♦ Sekvence rozpoznávacích míst ♦ Producent enzymu ♦ Reference ♦ Komerční dostupnost ♦ Sekvence genů Krystalografická data ♦ Citlivost k metylaci ♦ REBpredictor- predikce rozpoznávací sekvence u nových enzymů ♦ Rebase genomes - identifikace genů pro RE v genomech Software pro reštrikční mapování Provádí hledání restrikřních míst na základě analýzy sekvence DNA Konstrukce restrikčních map ♦ Nezbytný předpoklad pro klonování ♦ Interpretace RFLP polymorfizmu ♦ Simulace výsledků gelové elektroforézy restrikčních fragmentů Virtuální klonování Vytvoření kvalitní grafiky ilustrující reštrikční mapy ♦ RestrictionMapper (http://www.restrictionmapper.org/) ♦ WebCutter ♦ NEB Cutterv3.Q (https://nc3.neb.com/NEBcutter/) ♦ EM BOSS Restrict (https://www.bioinformatics.nl/cai-bin/emboss/restricť) ♦ pDRAW32 freeware (http://www.acaclone.com/) NEB Cutter http://tools.neb.com/NEBcutter2/ i http://tools.neb.... p - §C M NEBcutter G> & ® IJol/ibs IJIJ=ffllBl Display: GC=51%, Circular Sequence: L0S752 Help Comments - ľS~EB single cutter restriction enzymes - Main non-overlappuig: min. 100 aa ORFs AT=49% — Cleavage code — Enzyme name code — 1 1 blunt end cut Available from NEB Has other supplier \. I 5' extension Not commercially available ^ I 3' extension *: cleavage affected by CpG rneth. : cleavage affected by other nieth. T I cuts 1 strand Cenz.narne): ambiguous site WARNING: Not all enzymes shown See linear display *PluTI *SfoI *NarI *KasI BstňPI Ndel ECO0109I tňatlPtZral XmnI L*BcgI Seal Enzymy - výstup tabulka ♦ kompletní sada ♦ komerční sada ♦ které sekvenci neštěpí které štěpí - počet a pozice rozpoznávacích míst Lineární nebo kružnicová mapa sekvence se znázorněním pozice restrikčních míst ♦ Grafika Identifikace ORF a translace do proteinu Vyhledání otevřených čtecích rámců ORF (Open Reading Frame) Sada překládaných kodonů mezi iniciačním a terminačním kodonem Výsledek je závislý na použitém genetickém kódu ■ Databáze genetických kódů v NCBI ■ https://www.ncbi.nlm.nih.gOv/Taxonomy/Utils/w printgc.cgi U prokaryot, které nemají introny je základem hledání genů U eukaryot zpravidla využíváme analýzu ORF u komplementární DNA (cDNA) vzniklé reverzní transkripcí z mRNA ORF Finder (Open Reading Frame Finder) https://www.ncbi.nlm.nih.gov/orffinder/ ORFfinder Open Reading Frame Finder ORF finder searches for open reading fram&s (ORFs) in the DNA sequence you enter. Trie program returns ttie range of each ORF. along with its protein translation. Use ORF finder to search newly sequenced DNA for potential protein encoding segments, verify predicted protein using newly developed SMART BLAST or regular BLASTP. This web version of the ORF finder is limited to the subrange of the query sequence up to 50 kb long. Stand-alone version, which doesn't have query sequence length limitation, is available for Linux x54. Examples (click to set values, then click Submit button): ■ NC_0116Q4 Salmonella enterica plasmid pWES-1; genetic code: 11; 'ATG' and alternative initiation codons; minimal ORF length: 300 nt ■ NM_000059; genetic code: 1; start codon:'ATG only"; minimal QRFIengm: 150nt — Enter Query Sequence - V Enter accession number, gi, or nucleotide sequence in FASTA format: bacteriophage 3A TCGCTTTAAACCCTTCATGCC TTCTTGGACACCTAAATGG TC TAATTTCAGCTCCAABGGTCATGCCTTCTAC TT TTCATATTAACCTCCTTTCTAÖCTTCCAAAMQTTITTCTTAAATCCGTACCTGTAATGACTTTTTGTTCACTTT TCTTCAQTCTCTTTBCTTTATrCTCTTMTTAAGTATTrCTAAAAemTACATACGQCTGTTTTCTGACTTBCM GTCCACCCATACTaCTCCATACAGAAACQTTGTATTTTCTTAATaTTC30ATAAAATATCTTTTATT3AGATTeT TCTCTTTCCCATCTCTTCTGG TTCAGT0TTCT5AATCTTC TTCATCTTCACCATTGATTTC TCGAAATATATC TT GC TTTFTGTATAAGTTTTAGTGCTCATC TTQTTCAAAACATC TTCTTCAGTCAATCCTTCATCETTT AAATAAAT lAATAACTGTCGCTCTTTTTGTCTCATTTTTaTTQCGTTAGGHITACTTCTTTTTTATTCTCTTGATTTACTAATTC ** From: T ~1 To: T I- Choose Search Parameters «■ Minimal ORF length (nt}: |75 v| Genetic code: 111. Bacterial, Archa ea I an d PI ant PI asBd v | & ORF start codon to use: ® "ATG" only O "ATG" arid alternative initiation codons O Any sense codon S* Ignore nested ORFs: □ I— Start Search ; Clear | Submit | | Clear | ORF Finder (Open Reading Frame Finder) https://www.ncbi.nlm.nih.gov/orffinder/ Open Reading Frame Viewer Help Sequence ORFs found: 16 Genetic code: 11 Start codon: 'ATG' only ř ftl' I Find: I100 I200 B $i I ei Er- I3B0 I400 B0Ě St aTg 600 ^£?la¥M I S00 I900 Ii K X Tonis- I ^Tracks- ,£> f 11,100 11,200 11,300 11,400 11,500 11,600 I 1,76E (U) OE?fi^dS"_10.S.93155320 0RF13 lies |200 |300 1400 500 |600 LÜJ L±U 700 0RF1 I 80S 1900 |1 K 11,100 ■ 8 0RF12 1: Í..1.8K (1,768 nt) (Jj Tracks shown: 2/5 Six-frame translation.. 0RF12 (151 aa) Display ORF as.. >lcl|0:!F12 HTKTLKVYKGDDWASEQaEGItVSVTLSHLEADTTyPKůTVQyAHEENSK E SSKVDVPQFKTN PILVSůVS F TPE TKS ITVN ADOWE PNIAPSTATNKT L KYTSE HP E FVTVDE RTGAIHŮVAE 6TSVITAT STM S DKSŮQITWTVTN E 0RF12 SmartFJLAST BLAST Marked set ( 0 ) SmartFJLAST best hit titles.. Mark subset.. Marked: 0 Download marked set as I Protein FASTA v iab% Strand Frame Start Stop Length (nt | aa) 0RF12 2 1161 706 456I151 0RF13 2 648 298 351 I 116 0RF9 1 1597 1253 346 I 114 0RF7 + 3 135 371 23" I 73 0RF15 3 1574 1401 174 I57 0RF2 + 1 1375 1533 159 I 52 ORF10 1 256 96 159 152 ORF 11 2 <1767 1609 159 152 0RF5 + 2 1286 1414 129 I 42 0RF3 + 2 121 105 I 34 BLAST BLAST Database: UniProtKB/Swiss-Prot (swissprot) Translace in silico | Překlad genetické informace z DNA do proteinu ■ 6 možných čtecích rámců ve dvouřetězcové DNA ■ Vymezené oblasti - exony ■ Výběr genetického kódu ■ Nástroje: EMBOSS Transeq, EMBOSS Sixpack, aj. EFKTSKSCEKAITK*R*FGY Fl NSKPAKAVKKPLPSKDNLAI F2 IQNQQKL*KSHYQVKIIWLY F3 1 GAATTCAAAACCAGCAAAAGCTGTGAAAAAGCCATTACCAAGTAAAGATAATTTGGCTAT 60 m * * ■ I -É ■ 1 CTTAAGTTTTGGTCGTTTTCGACACTTTTTCGGTAATGGTTCATTTCTATTAAACCGATA 60 SNLVLLLQSFAMVLYLYNP* F6 XI*FWCFSHFLW*WTFIIQS F5 FEFGAFATFFGNGLLSLKAI F4 EMBOSS Transeq http://www.ebi.ac.uk/Tools/st/emboss transeq/ H \\t£M :: http://wuww.ebi.ac... ß - § Ö EMBL-EBI EMBOSS Transeq < Sequen. Services Research Training Industry About us BOSS Transe Input form i Web services i Help &. Documentation El - I Sequence ..Trans jay on > EMBOSS Transeq EMBOSS Transeq EMBOSS Transeq translates nucleic acid seq jences to their corresponding peptide sequences, It can translate to the three forward and three reverse frames, and output multiple frame translations at once. STEP 1 - Enter your input sequence Enter or paste a set of |DNA/RNA ^| sequences in any supported format Or, upload a file: Procházet. 2 3 F (Forward three frames) -1 -2 -3 R (Reverse three frames) 6 (All sis frames) CODON TABLE Standard Code osf users end. for that reason, are not visible. Příklady translace in silico JTI ExPASy Bioinforrnatfcs Resource Portal Translate Tool - Results of translation Open reading frames pare highlighted in red. Please select one of the following frames S^1 Frame 1 11Z C QAKSNS ETT FAMPLDT CGAMS QGMIGYWLE T EINRILT EMHS DRTVGTIVT RVEVD KDDPRFDNPT KPIGPFYT KE EVE E LQKE QPDSVFKE DAGRGYRKWAS PLPQSILE HQLI QT LADGKNIVIACGGGGIPVIKKENT YE GVEA S^1 Frame 2 Y- SNKLKTRT VTQRRQCHWILWQGHRV—AIGWKLKSIAF- LK-1VIE L - AQS L HVWK-1 KMIHDLIT QLNQLVLFIRKKKLKNYKKHS QT QS LKKMQDWIEK-1 Rr! H YLNL Y-NT S-F KL - C T VKI LSI EiAWAVFC I - KKKIFMKVLK S^1 Frame 3 INP TS-IEQ-HNAGNAIGYLWCNVTGYDRL LVGN-NQSHFN-NE---NC RHNRYTC GS R- R-STI — PN-TUWS FLYERRS-RIT KRTARLS L-RRC RTffL-KS S CVTTT SIYTRTPVNS NFS RR-KYCHCMRWWRYS S YKKRKYL-RC - 5 Princip translace 6 čtecích rámců O standardní geneticky kod Aminokyseliny = ffllssssyy**cc*wllllpppphhqqrrrriiimttttnnkkssrrwwaaaaddeegggg Start =-----------------------------------M---------------------------- Bázel = uuutjuuuutjuuuuuuuccccccc Báze2 = uuuuccccäaaagggguu^^ Bá z e 3 = ucagucägucagucagucägucägucagucagucägucägucagucägucagucagucagucag Rámec +1 DNA: ATG GAT GTA AAA GAA ATT AAT TAA mRNA: AUG GAU GUA AAA GAA AUU AAU UAA Protein: MDVKEIN* Rámec +2 DNA: A TGG ATG TAA AAG AAA TTA ATT AA mRNA: A UGG AUG UAA AAG AAA UUA AUU AA Protein: W M * K K L I Rámec +3 DNA: AT GGA TGT AAA AGA AAT TAA TTA A mRNA: AU GGA UGU AAA AGA AAU UAA UUA A Protein: G C K R N * L Princip translace 6 čtecích rámců O standardní geneticky kod Aminokyseliny Start Bázel Baze2 Baze3 = ffllssssyy**cc*wllllpppphhqqrrrriiimttttnnkkssrrwwaaaaddeegggg =-----------------------------------m---------------------------- = uuuuuuuuuuuuuuuuccccccccccccccccaaaaaaaaaaaaaaaagggggggggggggggg = uuuuccccaaaagggguuuuccccaaaagggguuuuccccaaaagggguuuuccccaaaagggg = ucagucagucagucagucagucagucagucagucagucagucagucagucagucagucagucag Rámec -1 (4) DNA: mRNA: Rámec -2 (5) DNA: mRNA: Rámec -3 (6) DNA: mRNA: ATG GAT GTA AAA GAA ATT AAT TAA UUA AUU AAU UUC UUU UAC AUC CAU LINFFYIH A TGG ATG TAA AAG AAA TTA ATT AA UU AAU UAA UUU CUU UUA CAU CCA U N * F L L H P AT GGA TGT AAA AGA AAT TAA TTA A U UAA UUA AUU UCU UUU ACA UCC AU * L I S F T S Klonování in silico, konstrukce vektorů ■ Kombinace segmentů sekvencí ♦ známé/neznámé funkce ■ Plazmidy ♦ přebírané z databáze ♦ zpravidla známé funkce ♦ regulační sekvence pro expresi ■ Inzerty - obvykle nové sekvence ♦ charakterizované reštrikční mapou ♦ charakterizované sekvencí DNA ♦ charakterizované funkcí ■ Design in vitro mutageneze ■ Nomenklatura pro konstrukty není stanovena Clone Manager (Sci-Ed Software) http://www.scied.com/pr cmbas.htm IMJc File one Manager View Clone Map Primer Align Discover Operations Window Help □ & Q S S 121 HI id ü ^ =■ o\ U ^ 1 51 = '2' « ™ ii B SYN PU CISV (2686 bps] B Pcil Afflll Sapl Gsal BseYI AlwNI Narl Sfol BEtAPI Ndel Pfol EcoOlO&I Aatll Zratf Sspl Ahdl Bsal BsrFI Bpml NmeAIII Map RMap Sequence Features Info Xrnnl Apol EcoRI Banll Eco53kI Sad Acc65I Kpnl Aval Srnal Xrnal BarnHI Xbal AccI Hindi Sail BspMI sbn PsU SphI Hind III T Enzyme Sites 44 Name Pos Type JApoI 230 sc EcoRI 230 sc 5' Banll 236 sc 3' Eco53kI 236 sc bl = Sad 236 sc 3' Acc65I 242 sc 5' Kpnl 242 sc 3' Aval 246 sc 5' — Smal 246 sc bl Xrnal 246 sc 5' BamHI 251 sc 5' Xbal 257 sc 5' Acd 263 sc 5' Hindi 263 sc bl Sail 263 sc 5' BspMI 267 sc 5' Sbfl 263 sc 3' Psü 269 sc 3' SphI 275 sc 3' i i:_ Jttt >-' Assembly/ kompletace a sestaveni Resekvenovani vs. de novo sekvenovani Next-generation DNA sequencing ... CATTCAGTAG ... ... AGCCATTAG... GGTAGTTAG ... GGTAAACTAG ... TATAATTAG CGTACCTAG ... Genomic DNA millions-billions of reads -30-1000 nucleotides Resequencing De novo assembly Align reads to reference genome and identify variants Construct genome sequence from overlaps between reads Princip assembly ^^^= -—--__-- — reads <- -► Pokrytí oblastí >x-násobnou redundancí Identifikace překryvů, sekvenční přiložení a rekonstrukce sekvence De novo assembly • Nezávislé na referenčním genomu • Parametry • Délka čtení • Pokrytí genomu (coverage) • Velké množství dostupných algoritmů • Znakové metody • Grafové metody • Výpočetně náročné • Zpravidla vyžaduje optimalizaci pro každou platformu sekvenování Princip hledání překryvů Vytvoření všech /c-merů ve čteních, (např. k ~ 24) Roztřídění čtení do skupin, které sdílejí /c-mer Přiložení párů, které sdílejí /c-mer Mapování a rozšíření sekvenčních přiložení TACA TAGATTACACAGATTAC T GA II I I I I I I I I I I I I I I I I I I II TAGT TAGATTACACAGATTAC TÁGA k-mer size optimum Mapování jednotlivých čtení k referenci Vytvoření sekvenčního přiložení z jednotlivých čtení TAA TTAlLAlLAl?AffAttl9A T AAAT T Aď Al!i A19AT T Al!l T19A TAAAT TACACA8ATTACTCA TAAATTAiSACAOATTAggOA TAA T T AS AS AlSAT T AT T 8A gJlflAggAOAOAOAggAOgOA • Hloubka pročtení sekvence odráží kvalitu • Umožňuje vyřešit neshody • Chybně stanovené báze • Homopolymerní oblasti • Umožňuje kvantifikovat polymorfizmy Repetice jsou příčinou rozdělení genomů do kontigů Jestliže čtení je kratší než repetice-^ nemožnost sestavení sekvence RPT A1 RPT A2 Kontig tvořený jedinečnou sekvencí, Čtení z mnoha podobných repetic ohraničený repetitivními sekvencemi vedou k vytvoření kontigů s pozměněnou strukturou Znázornění repetic v de Bruijnově grafu • Krátká čtení, hlavní příčina omezení kompletního sestavení • Stejná sekvence se vyskytuje v genomu vícekrát • Délka čtení není schopna překlenout tuto repetici • Pokrytí může indikovat multiplicitu Příklad de Bruijnova grafu u mikrobiálního genomu (lllumina) czj en cd ira en tn □ □ d tn a a i—< i—i □ □□□□□□□□□□□□ □ tn a en a a a □ □□□□□□□□ □ □□□□□□□□ □ □npanpnoannpaan nonoannaapppan □ □□□□□ q a □ □ n n □ □ □□□□□■dpdoddd □ □ n a D ■ □ ■ ■■□■□□□□□□□□□□□a □ □□□□□□□□■□□□■■■■□□□□□□□□□□□□□□□□a □ □□□□□□Da □ ^□□□■□■□□□□□□□□^□□□□jj □ □□□□□□□□□□□□a .: u u n n □ u u n □ c □ ^ u a q b ■■■■■ □ □ □□□□□□□□□□□□■□□□□□na D O □ ■■□■■■□□□□□G ■ ■■□□■□□□□□□□■ □ □□□OD □ □□□□□■■■□■ □ □□□□□ □ □□□□□ A - kvalitní sestavení B-sestavení vyžadující optimalizaci, kombinace dlouhých a krátkých kontigů C - nekvalitní sestavení vycházející z nekvalitních dat, velké množství nezařazených krátkých kontigů Hybridní assembly a bridging Kombinace krátkých čtení (lllumina, lonTorrent) a dlouhých čtení (PacBio, Nanopore) umožňuje hybridní assembly Dlouhá čtení: hledání cesty mezi repeticemi Repeat region in unbridged graph Semi-global long read alignment Consensus read sequence Remove ends aligning J l to single-copy contigs \/ Multiple sequence J I alignment Consensus Path finding Bridged graph 4. Výpočetní analýza sekvencí • Počet residuí • Frekvence residuí • Frekvence oligonukleotidů • Analýza využití kodonů • Design oligonukleotidů a primerů Analýza využití kodonů (codon usage) Využití synonymních kodonů ♦ není náhodné ♦ je rozdílné u různých genomů, které mají určité preferované kodony pro určité aminokyseliny ♦ může být problémem při expresi rekombinantních proteinů Databáze využití kodonů http://www.kazusa.or.ip/codon/ The Human Codon Usage Tahle Gly GGG 17.08 0.25 Aľ9 j AGS j 12.09 i 0.22 Trp TGG 14.74 1.00 j Arg j ess i 10.40 j 0.19 Bili OSA 19.51 0.26 Arg AGA 1 1.75 0.51 End TSA 2.64 0.61 :Arg I CSA j 5.63 10.10 Slil j GOT j 15.66 j 0.18 Ser AGT ; 10.18 ; 0.14 C'fi TGT 9.99 0.42 Arg CGI ; 5.16 ;0.09 ulil . GOC . 24.94 . 0.55 Str . AGG . 18.54 . 0.25 cis TGC 15.86 0.58 j Arg j CGC j 10.82 i 0.19 Gill i GAG i 58.82 i 0.50 LIS i AAG j 55.79 j 0.60 End 1AG 07i 0 17 : Gin : CAG : 5295 i 0 73 Olu GAA 27.51 0.41 LIS i AAA i 22.32 i 0.40 End 1AA 0 95 0.22 Gin CAA 11.94 0.27 Asp GAl : 21 45 : 0.44 Asn ■ AAT 16.45 0.44 Tyr TAT 1180 0 42 His CAT 9.56 0.41 Asp GAC j 27.06 j 0.56 Asn jAAC 21.30 0.56 Tur TAC 16 48 0 58 His ČÁČ 14.00 0.59 Nil GTG 28.60 0.48 Met ATG 21.86 1.00 Leu TTG 1145 0 12 Leu CIG 59.93 0.45 1,'iJ GTA 6.09 0.10 llí ATA 6.05 0.14 Leu TTA 5.55 0.06 Ltu CIA 6.42 0.07 1,'iJ GTT 10.50 0.17 llí ' ATT 15.05 0.55 Pht TTT 15.56 0.43 Ltu CIT 11.24 0.12 Nil GTC 15.01 0.25 lie ATC 22.47 0.52 Pht TTC 20.72 0.57 Ltu CIC 19.14 0.20 Ali j GCG j 7.27 j 0.10 Thr jACG J 6.80 j 0.12 5tr TCG 4.38 0.06 : pro : ccG : 7.02 :0.11 Ali i GCA i 15.50 i 0.22 Thľ j ACA i 15.04 j 0.27 ser TCA 10.96 0.15 I Pro j CCA j 17.11 j 0.27 Ali GCT 20.23 0.28 Thr i ACT j 15.24 i 0.23 str TCT 13.51 0.18 j Pro j CCT j 18.03 j 0.29 Ali I GCC I 28.45 I 0.40 Thr ÍACC I 21.52 ! 0.38 Str TCC 17.37 0.23 i Pro i CSC i 20.51 0.55 Analýza využití kodonů (codon usage) The Human Codon Usage Table Gly GGG 17.08 0.23 j Arg AGG 12.0g 0.22 Tľp j TGG j 14.74 1.00 Arg CGG 10.40 0.19 Gly GGA 19.31 0.26 j Arg AGA 11.73 0.21 End ÍTGA j 2.64 0.61 Arg CGA 5.63 0.10 Gly GGT 13.66 0.18 j 5er AGT 10.18 0.14 C^ ÍTGT j 9.99 0.42 Arg CGT 5.16 0.09 Gly GGC 24.94 0.33 j Ser AGC 18.54 0.25 Cys j TGC j 13.86 0.58 Arg CGC 10.82 0.ig Glu GAG 38.82 O.sg j lys AAG 33.7g 0.60 End j TAG j 0.73 0.17 Gin CAG 32.95 0.73 Glu GAA 27.51 0.41 j l'fi AAA 22.32 0.40 End ÍTAA j 0.95 0.22 Gin CAA 11.94 0.27 Asp GAT 21.45 0.44 :Asn AAT 16.43 0.44 TVľ I TAT j 11.80 0.42 His CAT 9.56 0.41 Asp GAC 27.06 0.56 j Asn AAC 21.30 0.56 TVľ j TAC j 16.48 0.58 His CAC 14.00 0.5g Dal GTG 28.60 0.48 j Met ATG 21.86 1.00 Leu ÍTTG j 11.43 0.12 Leu CTG 39.93 0.43 Val GTA 6.09 0.10 j lie ATA 6.05 0.14 Leu ÍTTA j 5.55 0.06 Leu CTA 6.42 0.07 Val GTT 10.30 0.17 j lie ATT 15.03 0.35 Phe j TTT j 15.36 0.43 Leu CTT 11.24 0.12 VaJ GTC 15.01 0.25 j lie ATC 22.47 0.52 Phe jTTC j 20.72 0.57 Leu CTC 19.14 0.20 Als. GCG 7.27 0.10 jThr ACG 6.80 0.12 Ser jTCG j 4.38 0.06 Pro CCG 7.02 0.11 Ali. GCA 15.50 0.22 jThr ACA 15.04 0.27 Ser j TCA j 10.96 0.15 Pro CCA 17.11 0.27 Ali. GCT 20.23 0.28 jThr ACT 13.24 0.23 Ser jTCT j 13.51 0.18 Pro CCT 18.03 0.2g Ali. GCC 28.43 0.40 JThr ACC 21.52 0.38 Ser j TCC j 17.37 0.23 Pro CCC 20.51 0.33 Navrhování sekvencí primerů pro PCR Štandardní primery Modifikované oligonukleotidy na 5'-konci pro klonování Oligonukleotidy jako hybridizační sondy pro real-time PCR ♦ specifičnost ♦ jedinečnost PCR : Polymerase Chain Reaction 30 - 40 cyeJes of 3 steps : Step I : denaluration minut 94 °C '^nrr™~rininiT THiTmr^i^rnnrrn y step 2: annealing ■'""«WJUU,. 45 seconds 54 °C primers !!! ?l munrniii n m ^iifFiiifmwrrrriTrTTOrT . x I I "s, - I KS / I-" / 2 minutes 72 CC only dNTP's PCR - Syntéza obou řetězců u specifické sekvence T TGAGAAAGGAATAAGCAGAAT TCGT TCCAAAAAGAATGAGC TGTTGT T TGCAGAAATCGAGTATATGC AAC TC T T TCC T TAT TCGTC T TAAGCAAGGT T T T TC T TAC TCGACAACAAACGTC T T TAGC TCATATACG Přímý (forward) dNTPs I primer 3 ^ TTGAGAAAGGAATAAGC " DNAPOL AACTCTTTCCTTATTCGTCTTAAGCAAGGTTTTTCTTACTCGACAACAAACGTCTTTAGCTCATATACG T TGAGAAAGGAATAAGCAGAAT TCGTTCCAAAAAGAATGAGC TGT TGT T TGCAGAAATCGAGTATATGC *-DNAPOL " TC T T TAGC TCATATACG ^ dNTPs Zpětný (reverse) primer 5' 3' T TGAGAAAGGAATAAGCAGAAT TCGTTCCAAAAAGAATGAGC TGT TGT T TGCAGAAATCGAGTATATGC AAC TC T T TCC T TAT TCGTC T TAAGCAAGGTT T T TC T TAC TCGACAACAAACGTC T T TAGC TCATATACG T TGAGAAAGGAATAAGCAGAAT TCGTTCCAAAAAGAATGAGC TGT TGT T TGCAGAAATCGAGTATATGC AAC TC T T TCC T TAT TCGTC T TAAGCAAGGTT T T TC T TAC TCGACAACAAACGTC T T TAGC TCATATACG Výběr vhodné strategie před návrhem primerů ■ K čemu jsou primery určeny ♦ Standardní end-point PCR ♦ Degenerovaná PCR ♦ Multiplex PCR ♦ Sekvenování (primer Walking) ♦ Real-time PCR ♦ Detekce jednonukleotidových polymorfizmu (SNP) nebo variací ♦ Studium metylace ♦ Sondy pro microarray ■ Z jakých dat vycházíme ♦ Jednoduchá sekvence DNA / proteinu ♦ Sekvenční přiložení DNA / proteinu ♦ GenBank ID/Gene ID/rsSNP ID ♦ Optimální je využívat kompletní/co nejdelší templát Pravidla pro design primem pro PCR ■ Relativně snadná výpočetní záležitost -prohledávání sekvence a identifikace krátkých sekvencí splňujících určitá kritéria ♦ Délka primem ♦ Obsah G+C ♦ Teplota Tm ♦ Specificita ♦ Komplementarita příměrových sekvencí ♦ Sekvence 3'-konce Jedinečnost primem A ■ Na jedinečnost primem a jeho hybridizační vlastnosti (annealing) má vliv délka primem a velikost templátové DNA Délka (17-28 bází dlouhé) ■ Možná hybridizační místa primem by se také neměla nacházet na DNA tvořících případné kontaminace vzorků Templátová DNA 5' . . .TCAACTTAGCATGATCGGGTA. . .GTAGCAGTTGACTGTACAACTCAGCAA. . .3' V Primer i 5'-TGCTAAGTTG-3' Není jedinečný! Primer2 5'-cAGTCAACTGCTAc-3' Jedinečný! Zastoupení bází ■ Zastoupení bází ovlivňuje vlastnosti hybridizace a reasociace primem ■ Žádoucí je náhodná distribuce bází bez oblastí bohatých na AT nebo GC ■ Obvyklý obsah G+C, který poskytuje stabilní hybridy je 40-60 %, ale závisí také na obsahu G+C templátu Templátová DNA 5'...TCAACTTAGCATGATCGGGCA...AAGATGCACGGGCCTGTACACAA...3' ID3ÍYDiVD00091 i YO T JDOODDT Teplota Tm (Melting temperature) ♦ mají Tm teplotu 50 - 65 °C T = 0,3 x rPrimer + 0,7 x rProdukt - 25 am m kde T Primer Je hodnota Tm nejméně stabilního m imfir-matrirťa a T Produkt i ť* hnrlnnta T m páru primer-matrice a Tm Produkt je hodnota T amplifikačního produktu. Orientačně lze vypočítat Ta podle vztahu: Tm = 2(A+T) + 4(G+C) 7a 7"m ^ C Vnitřní sekvence a struktura primem ■ Stabilita duplexů oligonukleotidů a vlásenek se uvádí v AG (kcal/mol) ■ Oligonukleotidy nejsou komplementární navzájem na 3'-koncích, takže nevytvářejí navzájem nebo samy se sebou duplexy ■ Netvoří vnitřní sekundární struktury ♦ Chybně navržená dvojice primem, která vytváří stabilní duplex na 3'-konci: 5, jvTTCAACCGTTCAAACAAGCCC 3' 3' GTTCGGCCTACCTTTATTTCTC 5' Správně navržená dvojice primem, která vytváří pouze málo stabilní duplex na 5'-konci; na 3'-konci je G nebo C zaručující stabilní párování 5' CGAAATAAGACTAGTAAAGC 3' I I I I I I I 3' CCTTACTCCACGCCTAATACAATCC 5' Chybně navržený primer, vytvářející vlásenku: 5'TTTTTCAAGG-III C 3'AAAAGAGAT^ Hairptn 3" gggaaa—^ I I i I I 5' tatctaggacctt aJ 3' gggaa--, III a 5' tatctaggacctta-j Self-Dimer 8 bp 3 1 GGGAAAATTC C AGGATC TAT 51 I I I I I I I I 51 TATCTAGGACCTTAAAAGGG 31 4 top 3' GGGAAAATTC C AGGATC TAT 5' I I I I 5' TATCTAGGACCTTAAAAGGG 3' Dimer forward primer 5' TATCTAGGACCTTAAAAGGG 3' I I I I I 3' C ATGGAAAC G TAGGAGAC 5' reverse primer GC svorky a 3'- koncová stabilita ■ GC svorka ♦ Přítomnost G nebo C mezi posledním 4 bázemi na 3'-konci primem ♦ Zásadní pro zvýšení prevence falešného prodlužování a zvýšení specifičnosti primem ♦ >3 G nebo C v blízkosti 3'-konce jsou však nežádoucí 5GAAGTACGGAAGAÄGC 3' CTTTAAACCCTTCATGCCTTCTT CG ACACCTAAATGGTCTAATTTCAGCTCC Jedinečnost primerů na matricové DNA nemají falešná vazebná místa Nesprávně navržený primer s falešnými vazebnými místy na templátové DNA; b-o029)aaggctagagaaaaatatggoo^1 3'(948) tttcttacccttttt-tacc (966)5' 5'(1029) aaggctagagaaaaatatgg (1048)3' II II I II MIMI 3'(1191) tttgtattgcattatatacc (1210)5' 5'(1 029) aaggctagagaaaaatatgg (1048)3' I I I I I I I I I I I I 3'(395) tccatttttctttttatctt (414)5' Správně navržený primer, který nemá falešná vazebná místa na templátui b^^cctaacat^tccgcacctcattccp^ 3'(787) taaatct att agttt acacat aacc (811)5' 5'(2476) cctaacataatccgcacctcattcc (2452)3' I I I I I I I I I I 3'(3211) caattgt aact ataactgcgtt atc (3235)5' 5'(2476) cctaacataatccgcacctcattcc (2452)3' I I I I I I I I I I 3'(1194) gtattgcatt atat acctctgttag (1218)5' 5'(2476) cctaacataatccgcacctcattcc (2452)3' I I I I I I I I II I 3'(14g9) atattgta-tatacgaactaaatct (1492)5' Kdy je primer ještě primerem? Pro návrh primerů se obvykle používá specializovaný software \ Qligo Explorer File Edit View Oligos Sequence Search Window Help □ X "Í^Gene Linií" J] Untitled rfjH Graph ^ Primer pairs CTÄÄSTGGT CTSSTTT CSGC--------------------------------------------------------> 5'- TGGňCACCTAAATGGTCTAATTTCňGCTCCňAGGTCATGCCTTCTňCTTTTTCATTCflTATTAACCTCCTTTCTAGCTTCCAAAAAGTTTTCTTAAATCCGTACCTGTAňTGACTTTTTGTT -3" 3'- ACCTGTGGňTTTÄCCAGATTÄÄÄGTCGAGGTTCCÄGTACGGÄÄGÄTGAAAňňGTÄÄGTATňňTTGGÄGGAAňGÄTCGÄÄGGTTTTTCÄÄÄAGAňTTTÄGGCATGGÄCÄTTÄCTGňňÄÄÄCflÄ. -5" <--------------------------------------------------------GGSGGňňňGňTCGSSGGTTT Uj i 30 40 so 60 70 80 90 100 110 120 130 140 .d Upper primer ■ Lower primer self annealing - Lower primer TaqMan {O Be E '-TTrGGAAGCTAGAAAC-GAC-C—3 ' :: I I I I :: 3 ■ -GGAGGAAAGATCGAAGGTTT- S ' dG: -4,34 kt:al/mol. Tm: 12,00 §C 5 ' -TTTGGAAGCTAGAAAC-C-AC-C--3 1 : I I I I : 3 ' -GGAGGAAAGATCGAAGGTTT- S ' dG: -1,50 kcal/mal, Tm: 13,00 5 ■ -TTTGGAAGCTAGAAAGGAGG- 3 ' III : : ::: 3 ■ -GGAGGAAAGATCGAAGGTTT-5 ' dG: 0,S8 kcal/mol, Tm: C,00 §C - Lower primer loops — E'-TTTGGAA III : G 3'-GGAGGAAAGAIC dG: 1,40 kcal/mol, Tm: £.00 §C - Upper-Lower primer annealing £ ■ -CTAAATGGTCTAATTTCAGC-3 ■ III : : : 3 ' -GGAGGAAAGATCGAAGGTTT- E ' dG: -2,7E kcal/mol, Tm: 8,00 $C E ' -CTAAATGGTCTAATTTCAGC-3 ' : : III 3 ' -GGAGGAAAGATCGAAGGTTT- E ' dG: -2,4e itral/mol, Tm: 10,00 5C E ' -CTAAATGGTCTAATTTCAGC- 3 ' : : I I I I 3 ' -GGAGGAAAGATCGAAGGTTT-5 ' dG: -1,74 kcal/mol, Tm: 10,00 5C E ' -CTAAATGGTCTAATTTCAGC-3 ' III: : 3 ' -GGAGGAAAGATCGAAGGTTT-5 ' dG: -0,03 kcal/mol, Tm: 3,00 ^C 5 1 - CTAAATGGTCTAATTTCAG : I I I 3 1 -GGAGGAAAGATCGAAGGTTT-E ' dG: 0,SS kcal/mol, Tm: 6,00 §C Length 12°m 5' ■ position 109 X Length 20 Tm 5G,G *C dG -37.3 kcal/mol GCX 45,0 X 3' -tail 6R 57,1 X Position 33-109 Length 77 bp Tnn difference 7,5 *C GCZ difference 10,0 X Position: 111 Upper Tm: 52,0 sC Lower Tm: 50,3 sC File: Untitled "I Length: 1753 bp [GC:40,6%} Počítačový návrh primem Umoňuje řada molekulárně biologických programů Některé jsou volně dostupné na internetu ♦ Primer3 (http://primer3.sourceforge.net/webif.php) PrÍmer3PlllS (http://www.bioinformatics.nl/cgi-bin/primer3plus/primer3plus.cgi) ♦ PrimerZ - design oligo pro lidsképromotory, exony a SNP (http://qenepipe.nqc.sinica.edu.tw/primerz/beqinDesiqn.do) ♦ PerIPrimer ♦ BioTools ♦ WebPrimer Kalkulátory vlastností primem ♦ IDT Oligo Analyzer (http://eu.idtdna.com/SciTools/SciTools.aspx?cat=DesignAnalyze) ♦ BioMath (http://www.promega.com/biomath/calc11 .htm) ♦ PrimerBlast ♦ UCSC In-Silico PCR ♦ AutoDimer Oligo Calculator Oligo Cdc; Oligonucleotide Properties Calculator Enter Oligonucleotide Sequence Below OD calculations are for single-stranded DNA orRNA Nucleotide base codes Reverse Conplenent Strand(5'to 3') is: 5' modification (ifany) 3' modification (ifany) Select molecule ssDNA t EC EC nM Primer mM Salt (Na+) Measured Absorbance at 260 nanometers Physical Constants Length: Calculate Swap Strands T BLAST |f mfoM ) Melting Temperature (T^) Calculations Molecular Weight: GC content: C 1 ml of a sol'n with an Absorbance of is microMolar^and contains at 26Ü nm micrograms. Thermodynamic Constants Conditions: 1 M NaCI at 25"C at oH 7, RlnK deltaG cal/[nK*mol) Kcal/mol deltaH deltas °C [Basic) "C [Salt Adjusted) °C [Nearest Neighbor) Kcal/mol calA°K*mol) Deprecated Hairain/self dimerization calculations 5 * (Minimum base pairs required forsingle primerself-dimerization) 4 t [Minimum base pairs required for a hairpin) j Check Self-Comple mentor it y Citation: Kibbe WA. 'OligoCalc: an online oligonucleotide properties calculator'. (2007; Primer 3 http://primer3.sourceforge.net/webif.php Primer3 Input (version 0.4.0) - Mozilla Firefox Soubor Úpravy Zobrazení Historie Záložky Nástroje Nápověda O íŕŕ [ http://Frodo.wi.rnit.edu/primer3/input,htm Ů ' £1 ' Google P W Primer3 Input (version 0.4.0) PrilHSr*^ (v. 0.4.0) Pick primers from a DNA sequence. Checks for lmspiimins in template. disclaimer Pmner3 Home Priiner3plus interface cautions - FAQ/WIKI Paste source sequence below (5'->3', string of ACGTNacgtn -- other letters treated as N — numbers and blanks ignored). FASTA format ok. Please N-out undesirable sequence (vector, ALUs, LLNEs, etc.) or use a Misprirning Library (repeat library): NONE |v| >SA44k£i001 [org=Staphylococcus aureus] [strain=CCM 885] [clone=7/IV] Staphylococcus aureuss EcoRI-clone from common 44 kb Smal fragment GAATTCAAAACCAGCAAAAGCTGTGAAAAAGCCATTAC C AAGTAAAGATAATTTGGC TATATTGTATGGAGAAGGATTTC ATATTTGTAAAGGCG AATTATTTGGAAAAC ATC GAG ATGGTGAAGATTGTC TGTTG TGTTTAGAAGTTTTAAGTGATTAATG AAGC AGAGTCAAATAGTGTTATAATTAT AAATGAATATGGTTTGGATAAGTCTGAGAC AATGCATGTTTC AGGC TTTAATTGTGTATAAAGTTTTGGTGATTGC ATAAGAGATGGC GGTACTA AATGTTATTATTAAGTGTGC AC GC AGTATC ATTAGTTATAAAATGTAGC TGTTAAAAGTCAAAAATAC ATC GAATGTAGTTAGGC ATATAATATA [J m mi im 1 0 Pick left primer, or use left primer below: □ Pick hybridization probe (internal oligo), or use oligo below: 0 Pick right primer, or use right primer below (5' to 3' on opposite strand): Pick Primers Reset Form Sequence Id: Targets: A string to identify your output. E.g. 50,2 requires primers to surround the 2 bases at positions 50 and 51. Or mark the source sequence with [ and ]: e.g. ...ATCT[CCCC]TCAT.. means that primers must flank the central CCCC. 0 Hotovo kit' P rime r 3 Input (version 0.4.0) - Mozilla Firefox □dB Soubor Úpravy Zobrazení Historie Záložky Nástroje Nápověda C íŕŕ [ http://frodo.wi,rmit.edu/primer3/input,htm ' Í1T Google W Primer3 Input (version 0.4.0) Pick Primers Reset Form Sequence Id: Targets: Excluded Regions: Product Size Ranges A string to identify your output. E.g. 50,2 requires primers to surround the 2 bases at positions 50 and 51. Or mark the source sequence with [ and ]: e.g. ...ATCT[CCCC]TCAT.. means that primers must flank the central CCCC. E.g. 401,7 68,3 forbids selection of primers in the 7 bases starting at 401 and the 3 bases at 68. Or mark the source sequence with < and >: e.g. ...ATCTTCAT.. forbids primers in the central CCCC. ■ 150-250 100-300 301-400 401-500 501-600 601-700 701-850 851-1 000 Number To Return Max Repeat Mispritning Max Template Misprirning 12.00 12.00 Max 3' Stability Pair Max Repeat Misprirning Pair Max Template Misprirning 9.0 £4.00 24.00 Pick Primers Reset Form General Primer Picking Conditions Primer Size Mb: 18 Primer Tm Mm: Product Tm Min: 57.0 60.0 Primer GC% Mn: 20.0 Hotovo Opt: 20 Opt: Opt: Opt: Max: 27 Max: Max: 63.0 Max Tm Difference: 100.0 Table of thermodynamic parameters: | Breslauer et al. 1986 Max: 80.0 P rime r 3 Output (primer3_results.cgi release 0.4.0) - Mozilla Firefox _ n Soubor Úpravy Zobrazení Historie Záložky Nástroje Nápověda C? tí^ ( W http: //frodo, wi, mit, edu/cgi-bin/primer3-web-cgi-bin-0,4,0/primer3_results, cgi <£f ' Google W Primer3 Output (primer3_results.cgi. PRIMER PICKING RESULTS FOR SA44kfci001 [org=Staphylococcus aureus] [strain=CCM 885] [clone=7/IV] Staphylococcus aure No inispr iining library specified Using 1-based sequence positions OLIGO start len _tm LEFT PRIMER 159 25 57.21 RIGHT PRIMER 429 25 58.40 SEQUENCE SIZE: 2052 INCLUDED REGION SIZE: 2052 gc^ any 3' seq 32 .00 36.00 6.00 4.00 2.00 AATC AAGC AC AC TC AAATAGTGTTA 3.00 AAC TC C TATGAAGAC AAC C TTTTTC PRODUCT SIZE: 271, PAIR ANY COMPL: 5.00, PAIR 3' COMPL: 3.00 TARGETS (start, len)*: 200,200 1 GAATTC AAAAC C AGC AAAAGC TGTGAAAAAGCC ATTAC C AAGTAAAGATAATTTGGC TAT 61 ATTGTATGGAGAAGGATTTC ATATTTGTAAAGGC GAATTATTTGGAAAAC ATCGACATGG 121 TGAAGATTGTC TGTTC TGTTTAGAAGTTTTAAGTGATTAATC AAGC AC AC TC AAATAGTG >>>>>>>>>>>>>>>>>>>>>> 181 TTATAATTATAAATGAATATGGTTTGGATAAGTC TGAGAC AATGC ATGTTTCAGGC TTTA >>> ***************************************** 2 41 ATTGTGTATAAAGTTTTGGTGATTGC ATAAGAGATGGC GGTAC TAAATGTTATTATTAAG ************************************************************ 3 01 TGTGC AC GC AGTATC ATTAGTTATAAAATGTAGC TGTTAAAAGTC AAAAATAC ATC GAAT ************************************************************ 3 61 GTAGTTAGGC ATATAATATAAAAAGAGTTTTC AATTAC TC AATAGAAAAAGGTTGTC TTC *************************************** <<<<<<<<<<<<<<<< j Hotovo Oligo - příklad komerčního software Oligo 7 Demo - Human elF-4E.seq File Edit Analyze Search Se[ect Change View Window Help as ad s l^l; Sequence File: Human elF-4E.seq DMA Sequence Selected Oligo Position Length # Feature Location Sequence Length: 1868 nt m e Forward Primer 997 22 1 source -18..1850 Reading Frame: +1 m s Reverse Primer 1061 21 Current Oligo Length: 21 nt IĽ u Upper Oligo 956 21 Position: 956 JT) o Lower Oligo ... ... ID tm: 49.1 "C ID PCR Product [85,- -]nt 1 ,60 ,100 ,160 ,200 ,260 ,200 ,260 ,400 ,460 ,600 ,660 ,600 ,6*0 ,700 ,760 ,300 ,360 ,900 ,960 ,1000 ,1050 ,1100 ,1160 ,1200 ,12*0 ,1200 ,1260 ,1400 ,1460 ,1600 ,1660 ,1600 ,16*0 ,1700 ,1760 ,1300 pos: tm: ,950 960 ,970 ,930 990 ,1000 1010 ,1020 ,1030 ,1040 ,1050 ,1060 ,1070 ,1030 ......1.........1.........1.........1.........1.........1.........1.........1.........1.........1.........1.........1.........1.........1..... TGGCATTTCTATACTTTACAGG . ACATACAGATTTTAC CTATC C....... hhththhhhhhhhhhthl ATTAC CATTAATTACATACAGATTTTAC CTATC CACAATAGTCAGAAAACAACTTGGCATTTCTATACTTTACAGGAAAAAAAATTCTGTTGTTC CATTTTATGC AGAAGCATATTTTGCTGGTTTGAAAGATTATGATGCAl TAATGGTAATTAATGTATGTCTAAAATGGATAGGTGTTATCAGTCTTTTGTTGAAC C GTAAAGATATGAAATGTC CTTTTTTTTAAGACAACAAGGTAAAATAC C-TCTTC GTATAAAAC GAC CAAACTTTCTAATACTAC GTi 44-I44444444-I444-I44444444-I444-I444-I4444-I444-I444-I4444-I44-I < C GAC CAAACTTTCTAATACTA ITIIJTIQILPIHIJ5QKTTUHFTTLQEKKFCC5ILCR5IFCWFERL-CI Ready. Výsledky poskytované programy pro návrh oligonukleotidů Výběr optimálního páru primem Sekvence primem Délka primem a hodnota Tm Velikost produktu Posouzení sekundárních struktur Podmínky reakce Alternativní primery Electronic PCR (e-PCR) o Sequence Tagged Site Větřina programů pro design PCR-primerů je omezená délkou templátu Posouzení falešných vazebných míst ideálně vyžaduje práci s celogenomovou sekvencí nebo částí databáze e-PCR označuje výpočetní postup, který se používá k prohledávání sekvencí DNA s cílem nalezení jedinečných míst, které odpovídají výsledkům PCR Nástroje lze využít pro eliminaci falešných pozitivních výsledků nebo design degenerovaných univerzálních oligonukleotidů GCTACCCACATTGT6TACAT Contiguous Word CATTGTGTACAT no mate h Discontiguous Words -AT-GT-TA-AI match C-TT-T6-AC-T no match CA-TG-GT-CA- no match W Sequel iLi CATACACtGl"! A í ((JACATTGTATACATCGGTGATAC; Sequence U.S. Nation a I Libra ry of Medicine Sign into NCBI NCBI Primer-Blast Primer-BLAST» JOB ID:8vgtmkbiSQpserJtllhXJ*ew07nWBHfVosA Primer-El LA ST Results Input PCR template Range Specificity of primers Other reports lcl|Query_l 1 - 1753 Primer pairs are specific to input template as no other targets were found in selected database: Nucleotide collection [nl (Organism limited to Staphylococcus aureus subsp. aureus) >Search Summary B Graphical view of primer pairs Query_l T | Find: \ Tools- £ Tracks- $ f - emplate 00 200 300 400 500 800 700 300 (TT) Primer pairs for job EvgtiRVbiS3pscN-llhX_R6wO .■nWBHEV.. 0 3S Primer 11 Primer £ f| Primer 3 Primer 4 -4 Primer S | -4 Primer 7 -4 -4 Primer S § Primer 9 -4 199 200 300 400 500 300 700 300 900 1 K 1,130 1,200 Primer 10 — |1,300 |1,400 1,599 1,630 Query_l: 1..1.BK [1,768 nt) Ö Tracks shown: 2/4 0Detailed primer reports Primer pair 1 TemplatB strand Forward primer Reverse primer Product length Sequence (5'->3') AAAACCCTGGCGTTACCCAA Plus CTATGCGGCATCAGAGCAGA Minus 218 Length Start Stop Tm GC% 2: Self Self y complementarity complementarity 1420 1439 60.11 50.00 5.00 3.00 2: 1637 1618 59.97 55.00 7.00 2 00 PCR Primer Mapping - UCSC In-Silico PCR http://genome.ucsc.ed u/cgi-bin/hgPcr?db=mm9 Home Genomes Tables Gene Sorter Session UCSC In-Silico PCR Genome: Mouse Assembly: Forward Primer: Reverse Primer: Jul. 2007 v TGCACCAGGAaCTGGTT GGATGGAGGGATGATG submit Max Product Size: 50000 Mm Perfect Matek 18 Min Good Match: 18 Flip Reverse Primer: □ About In-Silico PCR In-Silico PCR searches a sequence database with a pair of PCR primers, using an indexing strategy for fast performance. Configuration Options Genome and Assembly - The sequence database to search. Forward Primer - Must be at least 15 bases in length. Reverse Primer - On the opposite strand from the forward primer. Minimum length of 15 bases. Max Product Size - Maximum size of amplified region. Min Perfect Matcb - Number of bases that match exactly on 3' end of primers. Minimum match size is 15. Min Good Matcb - Xumber of bases on 3' end of primers where at least 2 out of 3 bases match. Flip Reverse Primer - Invert the sequence order of the reverse primer and complement it. Output When successful, the search returns a sequence output file in fasta format containing all sequence in the database that He between and include the primer pair. The fasta header describes the region in the database and the primers. The fasta body is capitalized in areas where the primer sequence matches the database sequence and in lower-case elsewhere. Here is an example: >cni22:31000551 + 31001000 TAACAGATTGATGATGCATGAAATGGG CCCATGAGTGGCT C CTAAAGCAGCTGC T tACAGAT T GAT GAT GCAT GAAAT GGGgggt ggc caggggtggggggt ga gactgcagagaaaggcagggctggttcataacaagctttgtgcgtcccaa tatgacagctgaagttttccaggggctgatggtgagccagtgagggtaag Pokročilý návrh primem Alelově specifické primery Molekulární diagnostika ♦ Vícenásobné detekce - primery pro multiplex PCR ♦ Zajištění kompatibility primem v reakci Konsenzní primery ♦ Vyžaduje identifikaci konzervativních oblastí na základě mnohonásobných přiložení sekvencí (multiple alignment) ♦ Pro klonování ♦ Pro mutagenezi Primery pro modifikaci konců produktů PCR Modifikace konců DNA, %ß Připojení sekvencí prostřednictvím 5'-konců primem 51 3' 3' Cílová sekvence 3' 5' Denaturace j a připojení primerů 1 a 2 Primer 1 5' gcgc H/ndlll 5' gcgcaIagctt 3' cgcgttcgjaa 3 J PCR Target region CřTAAGCCGG 5' Primer 2 Eco Rl GJftATTCGGCC cttaa|gccgg „ sticky foot" Přidávané sekvence ♦ RE místa Promotory Terminátory Translační signály Zdroje pro návrh multiplex PCR NCBI/ Primer-BLAST MultiPLX (http://bioinfo.ebc.ee/multiplx/) PrimerStation (http://ps.cb.k.u-tokvo.ac.ip/index.html) ♦ Lidský genom ♦ Specifikace exonů ♦ Vyloučení variabilních oblastí se SNP Oligo Explorer (http://www.genelink.com/tools/gl-oe.asp) ♦ Posouzení dimerů primem v multiplexovém uspořádání Webové zdroje pro design primerů pro real-time PCR NCBI Probe Database RTPrimerDB Primer Bank qPrimerDepot PCR-QPPD PerIPrimer Komerční databáze (např. ROCHE,...) Nejčastěji používané softwarové balíky pro manipulaci se sekvencemi ■ Geneious (Biomatters, Inc., New Zealand) ■ Uqene (http://ugene.net/) freeware ■ CLC Genomics Workbench (CLC bio, Cambridge) ■ Vector NTI® (Life Technologies, Carlsbad, CA) ■ Bioinformatics Toolbox rozšíření pro MATLAB® ■ Hitachi DNASIS® MAX Sequence Analysis Software (Helixx Technologies, Inc., Canada) ■ DNASTAR Lasergene (DNASTAR, Inc., Madison, Wl) ■ Accelrys GCG Package (Accelrys Inc., San Diego)