Základy genomiky II. Identifikace genů 1 ASA RYK UNIVERSITY Jan Hejátko Masarykova univerzita, Laboratoř funkční genomiky a proteomiky Laboratoř molekulární fyziologie rostlin M Základy genomiky II, Identifikace genů Základy genomiky II. Zdrojová literatura ke kapitole II: ■ Plant Functional Genomics, ed. Erich Grotewold, 2003, Humana Press, Totowa, New Jersey ■ Majoros, W.H., Pertea, M., Antonescu, C. and Salzberg, S.L. (2003) GlimmerM, Exonomy, and Unveil: three ab initio eukaryotic genefinders. Nucleic Acids Research, 31(13). ■ Singh, G. and Lykke-Andersen, J. (2003) New insights into the formation of active nonsensemediated decay complexes. TRENDS in Biochemical Sciences, 28 (464). ■ Wang, L. and Wessler, S.R. (1998) Inefficient reinitiation is responsible for upstream open reading frame-mediated translational repression of the maize R gene. Plant Cell, 10, (1733) F R Základy genomiky II, Identifikace genů ■ Základy genomiky II. ■ Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí ■ Predikce funkce genů in silico ■ struktura genů a jejich vyhledávání ■ genomová kolinearita a genová homologie ■ Experimentální identifikace genů příprava genově obohacených technologie metylačního filtrování EST knihovny knihoven pomocí fy V F R Základy genomiky II, Identifikace genů Základy genomiky II. ■ Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí Základy genomiky II, Identifikace genů Základy genomiky II, Identifikace genů Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis Základy genomiky II, Identifikace genů Identifikace role genu ARR21 regulátor odezvy v dvoukomponentním signálním systému output domain response regulator(s) Základy genomiky II, Identifikace genů Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST Základy genomiky II, Identifikace genů Identifikace role genu ARR21 identifikace inzerčního mutanta vyhledávání v databázi inzerčních mutantů (SINS) lokalizace inzerce dSpm v genomové sekvenci ARR21 pomocí sekvenace PCR produktů Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST • Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA Základy genomiky II, Identifikace genů Identifikace role genu ARR21 analýza expresního profilu Standardní typ Inzerční mutant Základy genomiky II, Identifikace genů Identifikace role genu ARR21 • Předpokládaný přenašeč signálu u dvoukomponentního signálního systému Arabidopsis • Mutant identifikován vyhledáváním v databázi inzerčních mutantů (SINS-sequenced insertion site) pomocí programu BLAST • Exprese ARR21 u standardního typu a Inhibice exprese u inzerčního mutanta potvrzena na úrovni RNA Základy genomiky II, Identifikace genů Identifikace role genu ARR21 analýza fenotypu inzerčního mutanta • Analýza citlivosti k regulátorům růstu rostlin ■ 2,4-D a kinetin ■ etylén ■ světlo různých vlnových délek • Doba kvetení i počet semen nezměněn n r rv / .RYK UNIVERSITY Základy genomiky II, Identifikace genů Identifikace role genu ARR21 možné příčiny absence odchylek fenotypu u inzerčního mutanta • Funkční redundance v rámci genové rodiny? Základy genomiky II, Identifikace genů Identifikace role genu ARR21 příbuznost jednotlivých ARR genů u Arabisopsis Identifikace role genu ARR21 možné příčiny absence odchylek fenotypu u inzerčního mutanta • Funkční redundance v rámci genové rodiny? • Fenotypový projev pouze za velmi specifických podmínek (?) Základy genomiky II, Identifikace genů Inzerční mutageneze ve funkční genomice Arabidopsis thaliana Gen ARR21 identifikován pomocí srovnávací analýzy genomu Arabidopsis Na základě analýzy sekvence byla předpovězena jeho funkce Byla prokázána místně specifická exprese genu ARR21 na úrovni RNA Inzerční mutageneze v případě identifikace funkce genu ARR21 ve vývoji Arabidopsis byla neúspěšná, pravděpodobně v důsledku funkční redundance v rámci genové rodiny F R Základy genomiky II, Identifikace genů ■ ■ ■ ■ Základy genomiky II. ■ Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí ■ Predikce funkce genů in silico ■ struktura genů a jejich vyhledávání Základy genomiky II, Identifikace genů Predikce funkce genů in silic struktura genů struktura genů ■ promotor počátek transkripce 5UTR počátek translace místa stop 3UTR polyadenylační signál TATA ATG... .ATTCATCAT ATTATCTGATATA.. ..ATAAATAAATGCGA ■ Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ vyhledávání genů ab inicio ■ zanedbání 5' a 3' UTR ■ identifikace počátku translace (ATG) a stop kodonu (TAG, TAA, TGA) ■ nalezení donorových (většinou GT) a akceptorových (AG) míst sestřihu ■ většina ORF není skutečně kódujícími sekvencemi - u Arabidopsis je asi 350 mil. ORF na každých 900 bp (!) ■ využití různých statistických modelů (např. Hidden Markov Model, HMM, viz doporučená studijní literatura, Majoros et al., 2003) k posouzení a ohodnocení váhy identifikovaných donorových a akceptorových míst Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ vyhledávání genů ab inicio ■ programy pro predikci míst sestřihu (specificita přibližně 35%) □ GeneSplicer (http://www.tigr.org/tdb/GeneSplicer/gene spl.html) □ SplicePredictor (http://deepc2.psi.iastate.edu/cgi-bin/sp.cgi) Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů 5.19 12.14 CC jAAT jCCTGAGATAT TGT T TClľ TAAAA~GAGATGAT TGT T T~TA~T TA~TACCATGAT TT jT~T jTAll TAA jC~TCCT T TCCCCT T TGCAATACATAGGATATAAAT TCATACATGT TCCTAAT T T~AT~T T 0.973 0.999 0 .977 0.986 0.968 0.930 0.998 0.999 0.883 0.982 0.886 0.939 0.942 0.909 0.930 0.873 0.952 0.956 0.973 0.000 0.000 0 .000 O .000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.885 0.000 0.185 0.220 O .221 0.229 .000 .000 .000 .000 .000 .000 .000 .000 .000 . ■ ■ ■ .903 .000 .000 .000 .000 .000 — *— -— H— —I—■ — *— H— H— —- — gg:t"a:ggac~ctataacaaag^a~tttactctactaacaaaaataaataatggtactaaa:aaa:a~ga~t:gaaggaaaggggaaacgt"atg~atccta"atttaagtatgtacaaggattaaaataaaa ppuEl pglll ~g:acttgagt~tatggt"ttc"ttggtggaagatc"atatgtat:"ata"ctatat~attttact:t~ttcttcgtcgt:a~ttatag"atatta~atatatgcaca:aca:acacac:tata~gta~agct: *— H— H- -- «- *- H— —H- -- -- acgtgaact:aaatac:aaaagaaaccaccttctagata~a:a~agatatagatataataaaatgagaaaagaagcagcagtaaatatcatataatatatatacgtgtgtgtgtgtg"gga"atacatatcgag AATTCTAGATAAAATATATAGAAATGGATCTTGAGAATCATTT~TT"TGTATTCTTT~GTTATCAAAGGGT~T:GACT"TGCTCCGAGGAAGAAGATAATATGAAAAGAGCTTT~TAGGGT"TA~CAT~CTCCT ttaagatctattttatatatctttacctagaact:t~ag"aaaaaaaacataagaaaacaatagtttcccaaagctgaaacgaggct:c~t:~t:tattatacttttctcgaaaaatcccaaatagtaagagga pcgl |Sí - 029311b_l0W-Hcal ~GAC~T TGCAAAACGJ :ACTT"GATCGT~GTACTT"GTTGCT~TTTATACGTA"CGC~TCCTACAATAAGT~AACAATGCT"C:TCGTAGAA"TGCAAAACAT~TG"GGAC:G~GAT~TACAT ■actgaaacgtt_txa: ccgtgaaactagcaacatgaaacaacgaaaaa~atgcatagcgaaggatg"ta_t:aattgttacgaaggagcatcttaacgttttgtaaacacctggcactaaatgta -exon 2- ľcolCRI |Sacl pul ■ga:tgagct:t~ttcagtgg:t_:t~tgcagcag:t"ct~c:t~ggaggactaat:aagacagaaatc~gt~c:tctaaaaacga~cgccgt" -.: ■ uc_tgccat_cttgacgagtcttgatctttaga —I—■ — -— H— —I— — — ■ ctgact:gagaaaagt:accgaagaaa:g~cg"cgaagaag^aac:_c:tgat"a^t ; ■, \tgct:agaactagaaatct 11 (5 11 (5 11 (5 11 (5 psil pssSl Asel aatttataagggatcacgagatacacgtat t aat tat t a~t t~t t t~t t~t t tgct tt t tgt gg~ta:|| ľmgBI " Vll-I |ttcactcaaatgat^gtgaaagttacaaagcttgtggcttca:g_:caattgtggt: Hind I -taaata-t:cctagtgc-:tatgtgca-aat-aa_aataaaaaaaaaaaaaacgaaaaaca:caata^ *caagtgagt-tac-a:ca:t-t:aatg_ttcgaaca:cgaagtgcaíc-taacacca^ ttattgttcttcÄGat 4351 tttcttacattgcAGaa 4633 gtcttgtttctttAGgg 4976 cttgttgtttctcAGct 5004 ttttttttttgccAGag caaGTgaat ttgGTaaga 5403 actctgtttctttAGct 5441 ctttctctctaacAGaa 5472 ttgttaaaattacAGct 5745 gcgGTaaga 5808 catcatatcctaaAGgt 6135 ggtctattattatAGgt 6552 ggattttcacctcAGag 5.42 . 002 .000 .000 .000 .000 .090 . ■ ■ ■ .090 .956 .000 .050 . ■ ■ v T < . V A ;• 11 (5 13 (5 11 (5 13 (5 15 (5 11 (5 íttttgcgtc:tggtaattctgc"ttctttcttctaaattatacgatgattctacatt~ctactcat:tc^t~cttgtt~ttcaaa~gatataatta"tgtgtg"atat:acc:a"tcatgtata"tta"tgaaa 1,, I,,,, i,,,, I,,,, i.........i.........i.........i,,,, I,,,, i,,,, I,,,, i,,,, I,,,, i.........i.........i.........i,,,, I,,,, i,,,, I,,,, i,,,, I, 1AAAACGCAGGACCATTAAGACGAAAGAAAGAAGATTTAATATGCTACTAAGATGTAAAGATGAGTAGAGCAAGAACAAAAAG~TTACTA~AT"AATAACACACATATAGTGGGTAAG"A:A"ATAAATAACTTT 3-1, 1 exon 4-1 12 (5 5 2aata"aggcat"c:tggtggttgtt"t:gagtgcat"tggatc"caaattgg:gaacaa:aa:ggagaa:c~agtcaaagaggtcgcttcat"taccgaagatct:cggacaag":tagtt_:ggaga"tgaaa ttatatccgtaaggagcaccaacaaaagc"cacgtaaacctagagt~taaccgcttg~tgttgcct:t~ggat:agtt~ctccagcgaagtaaatggcttctagaggcctgttcagatgaaagcctctaacttt S L V 5 Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ vyhledávání genů ab inicio ■ programy pro predikci míst sestřihu (specificita přibližně 35%) □ GeneSplicer (http://www.tigr.org/tdb/GeneSplicer/gene spl.html) □ SplicePredictor (http://deepc2.psi.iastate.edu/cgi-bin/sp.cgi) □ NetGene2 (http://www.cbs.dtu.dk/services/NetGene2/) Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů C2AAT2CCTGAGATATTGTTTC:TAAAA"GáGATGATTGTTT"TA"TTA"TACCATGATTTÍT"T-Ta;TA4ÔC"TCCTTTCCCCTTTGCAATAí;- /■.";:.■"■. " /■..■"■■■■. /■",/■. 'jTTCCTáATTT~AT~TT Donor splice sites, complement strand pos 31->5' pos 5r->3' phase strand c Acceptor splice sites, direct strand pos 5'->3' phase strand con AAAAG~TTACTA"AT"AATAA-ACACATATAjTGGjTAAG"ACA"ATAAATAAC"TT 1213 1221 1373 b4V2 6135 • ; '44' 7780 7786 Submission by pasting a single sequence: Sequence name ".J Human ',_ :C. elegans A. thaliana Sequence GAGGAGGCACAAAATGACGAATATACAAAATGATCTTAAACAGCTAAÄCTATATTGGACATTTTTTCGATC TCAGATATA AAAGATTTCATTCAATATAATACTTGGATAAATACTCTTATTATTTTTCTTTAGTTTATTAAAAAAAACCT CTAATAAÄT AC GAG T T T AAGT C CACAAAATCGC TTAGACTAAAATACACCATATAATTTCAAAC GATAAAGTTTACAAAA Bell LV;_ lAA GAG G T C G C T T C A T ~ T AC C GAAGA T C T -C G jAC AAG ~ ^ T A G T T ~ ^ G G A GA~ T G AAA —„--I-,_,-—h--1——-——■—i-—-1--1——----1- i T~CTCCAGCGAAGTAAATGGCTTCTAGAGGCCTGTTCAGATCAAňGCCTCTAACTTT KEVASFTEDLRTSLVSE I E [ Clear fields ] | Send fi NOTE: The submitted sequences are kept confidential and will be erased immediately after processir 0.92 TC AG AT AC A G A AAC AC ATGCA Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ odchylky rozpoznávání míst sestřihu u rostlin v praxi - příklad vývojové plasticity (nejen) rostlin ^^^^^^^^ • identifikace mutanta s bodovou mutací (tranzice G—A) přesně v místě sestřihu na 5' konci 4. exonu BsmI AiwNI Bii Bpml PflMI Asel Pbil CraCCmTTXJyAGITGri^XTLT ICľ- IOXVAlKŕAiľXnni^ ZoŕAJĽJZ ACT-IIA ď !LAiTATTA\XAIG ľL' JiDGGCATI? ^AA3CO\G3^ H- H- H- H- Gft03CITAftTGITrCAftCAATAi C a ^a j ft x řT.: 2 A ľ T] ft I £GA7\( AJAA S £ i? r ftř P 3 LGGT0^nGACCftCľITaGftGIGACCA3^ CTGCGAATTACAAAť • O PDR_U1a/PDR_L1 wt pisl PDR_U1b/PDR_L1b GACGCTTAATGTTTt "GGTCCTTCCAATCATCAACAGAGGATTGATCAAAACTAGTTTCAAAATATGGAAGTTCACACGA L F F -m ľ TA TT CTT CT TGC TG istence podobí stabilita mutar jrnálním stop I Ik^e-Andersen, L F F L L -no splicing 503 bp 400 bo í 00 b p -E i i k p g : AcLive NMD complex JC CAGGA AGGTT AG TAG TT G'l, 500 bp , 400 bp \—» ■ - 300bp 200 bp - no splicing - ^00 bp ATAAGAAGAACGAC, — 200 b P "AAAAAAACGACGTCGACACACTTCAAACATGGAAAAG PvuII VT TT TTT TG CTG CAGCT GTGTGAAGTTTG TAC CT TTT C 100 bp PStI I Pvu 14 J ■ ■■■■ 147 1653 GCTGTTC L EXON 4 L T L L L G P P S C G K T T L L KALSGNLENN L K -PDR exon 4 ORF - PDR_L1 Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů vyhledávání genů ab inicio ■ programy pro predikci míst sestřihu (specificita přibližně 35%) □ GeneSplicer (http://www.tigr.org/tdb/GeneSplicer/gene spl.html) □ SplicePredictor (http://deepc2.psi.iastate.edu/cgi-bin/sp.cgi) □ NetGene2 (http://www.cbs.dtu.dk/services/NetGene2/) programy pro predikci exonů 4 typy exonů (podle polohy): • iniciační • vnitřní • terminální a • jednoduché programy kromě rozpoznávání míst sestřihu zohledňují i strukturu jednotlivých typů exonů iniciační: □ Genescan (http://genes.mit.edu/GENSCAN.html) □ GeneMark.hmm (http://opal.biology.gatech.edu/GeneMark/) interní: □ MZEF (http://rulai.cshl.org/tools/genefinder/) F R ■ • Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů The New GENSCAN Web Server at MIT GENSCANW output for sequence C Kil rpuEI r BamHI GAGGAGGCACAAAATGACGAA -//- TGTATTCTTTTGTTATCAAAGGGTTTCGACTTTGCTCCGAGGAAGAAGATAATATGAGGATCCCCCGGGTAGGTCAGTCCCTTATGTTACGTCCTGTAGAAACCCCAACC ®RI PRVGQSL ML RPVETP -2739 V K V T K.., BamHI GAGGAGGCACAAAATGACGAA -//- GTTATACAAGTTCACTCAAATGATGGTGAAAGTTACAAAGCTTGTGGCTTCACGTCGGATCCCCCGGGTAGGTCAGTCCCTTATGTTACGTCCTGTAGAAACCCCAACC MMVKVTKLVASR Rl PRVGQSLMLRPVETPT intron exon gag 5.002 Init 5.003 Intr 5.004 Intr 5.005 Intr 5.006 Intr 2374 3894 4352 5005 5442 ITCA |aaa C T A. |acG. G1AAľA rCC IAAGTATGTGATAGTCAACATATATATAC GTATCTTAT ITTTGGGTGGTGCTGACTGGTGACTGGTt IGTTTTAGAT IAGAACAAAATAAGTGT C C GAAGGAAT Gl IAATAAAAAC SALK_057881 (L) (Q)SALK_057881 - To have the results mailed to you, Run GENSCAN |l Clear Inpu Key: | Optimal e: ^ SuboptímB na BseRI Back to the top Základy genomiky II, Identifikace genů L n r MAG.ARYK UNIVERSITY \..\..\..\..\sequences\CK11 \cki genomic.mpd^ Predikce funkce genů in silico vyhledávání genů • Funkční význam sestřihu v nepřekládaných oblastech - důležitá regulační součást genů aaagttaca.... K V T ... BamHI GAGGAGGCACAAAATGACGAA -//- TGTATTCTTTTGTTATCAAAGGGTTTCGACTTTGCTCCGAGGAAGAAGATAATATGAGGATCCCCCGGGTAGGTCAGTCCCTTATGTTACGTCCTGTAGAAACCCCAACC ®RI PRVGQSL ML RPVETPT jTTATCAAAGGGTTTCGACTTTGCTCCGŕ -2739 -a V K V T K.. BamHI GAGGAGGCACAAAATGACGAA -//- GTTATACAAGTTCACTCAAATGATGGTGAAAGTTACAAAGCTTGTGGCTTCACGTCGGATCCCCCGGGTAGGTCAGTCCCTTATGTTACGTCCTGTAGAAACCCCAACC MMVKVTKLVASR Rl PRVGQSLMLRPVETPT aaagttaca.... V případě CKI1 pokus prokázat tento způsob regulace genové exprese pomocí transgenních linií nesoucích uidA pod kontrolou dvou verzí promotoru, zatím nepotvrzeno Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ vyhledávání genů ab inicio ■ programy pro genové modelování □ zohledňují také další parametry, např. návaznost ORF □ Genescan (http://genes.mit.edu/GENSCAN.html) velice dobrý pro predikci exonů v kódujích oblastech (testováno na genu PDR9, identifikoval všech 23 (!) exonů □ GeneMark.hmm (http://opal.biology.gatech.edu/GeneMark/) Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů t Result of last submittal: View PDF (Graphical Output GeneMark.hmm Listing Go to: GeneMark.hmm Protein Translations (So to: Job Submittal GeneMark.hmm (Version 2.2a) Sequence name: Thu Nov 10 03:24:47 EST 2005 Sequence length; 9490 bp G+C content: 36.53% GeneMark.hmm prediction Matrix: Homo sapiens Thu Nov 10 03:24:48 2005 Predicted genes/exons Thu Nov 10 03:23:47 EST 2005, Order 5, Window 96, Step 12, 4/6 Gene Exon Strand Exon # # Type 4 + Internal 5 + Internal 6 + Internal 7 + Internal 8 + Terminal l'ermlr.a_ . .. . " . : . 5 C C :;4 4 744 778 8 C .: o 93 IZ Generate PDF graphics (sere IZ Generate PostScript graphic § IZ Print GeneMark 2A predictic I Z Translate predicted genes ir™ [ J I ' , ,1 1 1 1 , i j, i , J_I_J_I , J Pi r......Jlj \,l 1,1 .1 ,n 1 ill. 1 ,1 ■ m tm 'F R N IVE R Základy genomiky II, Identifikace genů D29311b_low ^Mmmmmms^^ n ■, , |i|fi| , i f1 r n ,.....m , r i EcoRI _ Predikce funkce genů in silico vyhledávání genů vyhledávání genů podle homologií ■ porovnávání s EST databázemi □ BLASTN (http://www.ncbi.nlm.nih.gov/BLAST/, http://workbench.sdsc.edu/) porovnávání s proteinovými databázemi □ BLASTX (http://www.ncbi.nlm.nih.gov/BLAST/, http://workbench.sdsc.edu/) □ Genewise (http://www.ebi.ac.uk/Wise2/) o porovnávají proteinovou sekvenci s genomovou DNA (po zpětném překladu), je nutná znalost aminokyselinové sekvence porovnávání s homologními genomovými sekvencemi z příbuzných druhů □ VISTA/AVID (http://www.lbl.gov/Tech-Transfer/techs/lbnl1690.html) F R ■ Základy genomiky II, Identifikace genů Základy genomiky II. ■ Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí ■ Predikce funkce genů in silico ■ struktura genů a jejich vyhledávání ■ genomová kolinearita a genová homologie Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ genomová kolinearita a genová homologie ■ genomy příbuzných druhů se přes značné odlišnosti vyznačují podobnostmi v uspořádání i sekvencích, možnost využití při identifikaci genů u příbuzných organizmů pomocí vyhledávání v databázích ■ obecné schéma postupu při využívání geonomové kolinearity (také „komparativní genomika") při experimentální identifikaci genů příbuzných organizmů: □ mapování malých genomů s využitím nízkokopiových DNA markerů (např. RFLP) □ vvyužití těchto markerů k identifikaci orthologních genů (genů se stejnou nebo podobnou funkcí) příbuzného organizmu □ malý genom (např. rýže, 466 Mbp, 46-55 tis. genů) může sloužit jako vodítko, kdy jsou identifikovány molekulární nízkokopiové markery (např. RFLP) ve vazbě s genem zájmu a tyto oblasti jsou pak použity jako sonda při vyhledávání v BAC knihovnách při identifikaci orthologních oblastí velkých genomů (např. ječmene nebo pšenice, 5000, resp. 16000 Mbp) MAQADY^I IKIIV/rpoiW Základy genomiky II, Identifikace genů Predikce funkce genů in siIico vyhledávání genů-genomová kolinearita 140 kb Maize (2500 Mbp) 1 | I i Rice (400 Mbp) 20 kb B Hexaploid wheat (16 000 Mbp)I □ Barley (5000 Mbp) □ Rice (400 Mbp) 50 kb High gene density Ic -i 1 Mb Feuillet and Keller, 2002 Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ genomová kolinearita a genová homologie ■ genomy příbuzných druhů se přes značné odlišnosti vyznačují podobnostmi v uspořádání i sekvencích, možnost využití při identifikaci genů u příbuzných organizmů pomocí vyhledávání v databázích ■ obecné schéma postupu při využívání geonomové kolinearity (také „komparativní genomika") při experimentální identifikaci genů příbuzných organizmů: □ mapování malých genomů s využitím nízkokopiových DNA markerů (např. RFLP) □ vvyužití těchto markerů k identifikaci orthologních genů (genů se stejnou nebo podobnou funkcí) příbuzného organizmu □ malý genom (např. rýže, 466 Mbp, 46-55 tis. genů) může sloužit jako vodítko, kdy jsou identifikovány molekulární nízkokopiové markery (např. RFLP) ve vazbě s genem zájmu a tyto oblasti jsou pak použity jako sonda při vyhledávání v BAC knihovnách při identifikaci orthologních oblastí velkých genomů (např. ječmene nebo pšenice, 5000, resp. 16000 Mbp) ■ zejména využitelné u trav (např. využití příbuznosti u ječmene, pšenice, rýže a kukuřice) ^^^v malé geonomové přestavby (dalece, duplikace, inverze a translokace jř/ ffifflťÉjf menší než několik cM) jsou pak detekovány podrobnou sekvenční komparativní analýzou kžhom ai/nhira Anr^WA-ri i i ř-vříki i-7nwok <~l »-■ i h ■"■ Vr ^Ar>l-*\i\\s Am nřa/Jawčím w uciiciii cvuiuvc uuv/i ioĺi u yji iuuĺi iy<_.i i uiumu i\ uu^i ly ir\ai 11 picucvoiiii v nekódujících oblastech (invaze retrotranspozonů atd.) — Základy genomiky II, Identifikace genů Základy genomiky II. ■ Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí ■ Predikce funkce genů in silico ■ struktura genů a jejich vyhledávání ■ genomová kolinearita a genová homologie ■ Experimentální identifikace genů příprava genově obohacených knihoven pomocí technologie metylačního filtrování fy V F R Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů ■ příprava genově obohacených knihoven pomocí technologie metylačního filtrování ■ geny jsou (větsinou!) hypometylované, kdežto nekódující oblasti jsou metylované ■ využití bakteriálního RM systému, který rozpoznává metylovanou DNA pomocí rest. enzymů McrA a McrBC □ McrBC rozpoznává v DNA metylovaný cytozin, který předchází purin (G nebo A) □ pro štěpení je nutná vzdálenost těchto míst z 40-2000 bp schéma postupu při přípravě BAC genomových knihoven pomocí metylačního filtrování: □ příprava genomové DNA bez příměsí organelární DNA (chloroplasty a mitochondrie) □ fragmentace DNA (1-4 kbp) a ligace adaptorů □ příprava BAC knihovny v mcrBC+ kmeni E. coli □ selekce pozitivních klonů omezené využití: obohacení o kódující DNA o pouze cca 5-10'% F R \IIVER Základy genomiky II, Identifikace genů Základy genomiky II. ■ Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí ■ Predikce funkce genů in silico ■ struktura genů a jejich vyhledávání ■ genomová kolinearita a genová homologie ■ Experimentální identifikace genů příprava genově obohacených technologie metylačního filtrování EST knihovny knihoven pomocí F R Základy genomiky II, Identifikace genů Predikce funkce genů in silico vyhledávání genů-EST knihovny příprava EST knihoven ■ izolace mRNA ■ RT PCR ■ ligace linkerů a syntéza druhého řetězce cDNA ■ klonování do vhodného bakteriálního vektoru ■ transformace do bakterií a izolace DNA (amplifikace DNA) sekvenace s použitím primerů specifických pro použitý plasmid uložení výsledků sekvenace do veřejné databáze ggatgctaatatgggggttatacaatatcttccttatcattcatcacaagaaggatgggt cctacgattatacccccaatatgttatagaaggaatagtaagtagtgttcttcctaccca - TTTTTTTTTTT ■ Základy genomiky II, Identifikace genů Základy genomiky II. shrnutí ■ Postupy „přímé" a reverzní genetiky ■ rozdíly v myšlenkových přístupech k identifikaci genů a jejich funkcí ■ Predikce funkce genů in silico ■ struktura genů a jejich vyhledávání ■ genomová kolinearita a genová homologie ■ Experimentální identifikace genů příprava genově obohacených technologie metylačního filtrování EST knihovny knihoven pomocí fy V F R Základy genomiky II, Identifikace genů Základy genomiky II. diskuse Základy genomiky II, Identifikace genů