CG080 Metody v genomice: Příprava knihoven pro Next-Generation Sequencing (NGS) a Third generation Sequencing (TGS) Přednášející: Petr Fajkus Kontakt: fajkuspe@ibp.cz Sekvenační knihovna = soubor fragmentů DNA opatřených na koncích specifickými sekvencemi – adaptory. Adaptory slouží ke specifické interakci se sekvenační platformou. First generation sequencing Second (Next) generation sequencing (NGS) Third generation sequencing (TGS) https://doi.org/10.3390/life12010030 a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA https://doi.org/10.1016/j.bdr.2015.02.005 1. Fragmentace DNA a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA https://astralscientific.com.au/pages/ultralow-dna-library-prep-kit 1. Fragmentace DNA Proč fragmentovat DNA? - V závislosti na použité chemii umožňují platformy Illumina sekvenovat amplikony v délce 200-800nt - Fragmentace DNA na uniformní délku je klíčová pro dosažení maximální kvality sekvenace - např. pro celogenomové sekvenování 350 bp fragmenty, pro Sequence Capture (pomocí hybridizačních sond) ideálně 200 bp. Mechanická vs Enzymatická Fragmentace DNA gDNA sonication a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA https://www.neb.com/en/tools-and-resources/feature- articles/improving-enzymatic-dna-fragmentation-for-next- generation-sequencing-library-construction 1. Fragmentace DNA 2. Ligace adaptorů a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA https://astralscientific.com.au/pages/ultralow-dna-library-prep-kit 2. Ligace adaptorů i) Enzymatická oprava konců fragmentované DNA (aby byla bez přesahů). (End-repair) ii) Pro Illumina jsou pak tyto tupé konce DNA opatřeny AMP na 3´ konci. (A-Tailing)* iii) Ligace adaptorů (s komplementárními dT přesahy) *A tailing chrání před kovalentním spojováním DNA fragmentů a tím vzniku sekvenačních artefaktů a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA https://www.idtdna.com/pages/technology/next-generation-sequencing/library-preparation/ligation-based-library-prep Pozn. V závislosti na pouzitém protokolu jsou adaptory často kompletovány ve více krocích. Nejprve jsou na DNA ligovány “univerzální“ adaptory (v obrázku SP1 a SP2) a až v následném kroku jsou k těmto univerzálním částem připojeny (pomocí PCR) další části (např. indexy, barcody a sekvence pro klastrování na Flowcell - P5, P7.) 2. Ligace adaptorů a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA https://sg.idtdna.com/pages/products/next- generation-sequencing/workflow/xgen-ngs- library-preparation/ngs-adapters-indexing- primers/adapters-indexing-primers-for- illumina 1. Fragmentace DNA 2. Ligace adaptorů 3. PCR enrichment a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA https://astralscientific.com.au/pages/ultralow-dna-library-prep-kit 3. PCR enrichment = namnožení fragmentů DNA opatřených adaptory* - V rámci tohoto kroku se obvykle univrezální adaptory opatřují specifickými sekvencemi (např. indexy příp. barcody) Index – krátká sekvence specifická pro celou knihovnu, díky indexům lze na jeden sekvenační kit (Flow-cell) poolovat více knihoven a posléze sekvenační data rozdělit na základě sekvence indexu. Barcode – krátká „náhodná“ sekvence, sloužící k odlišení jednotlivých amplikonů. Např. v případě identických sekvencí lze pak odlišit, zda se jedná o duplicity téže molekuly zmnožené v PCR (= stejný Barcode) či zda se jedná o původem různé molekuly. Díky tomu je možné v sekvenačních datech spolehlivě odlišit mezi skutečnou mutací či chybou polymerázy při PCR. a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA https://nanodigmbio.com/DNALibrary/102.html 1. Fragmentace DNA 2. Ligace adaptorů 3. PCR enrichment 4. Clean-up a quality check a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA https://astralscientific.com.au/pages/ultralow-dna-library-prep-kit 4. Clean-up a kontrola kvality Clean-up = Purifikace DNA od všech „nepořádků“ z PCR master mixu (primery/adaptory + chemikálie), selekce fragmentů požadované délky (size-selection). Na magnetických kuličkách (SPRIselect) Elektroforeticky (např. Pippin prep) a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA https://www.beckman.tw/support/faq/product/size-selection-with-ampure-xp-beads 4. Clean-up a kontrola kvality Kontrola kvality knihovny = změření koncentrace knihovny a velikostního složení knihovny pomocí kapilární elektroforézy a jiných mikrofluidních systémů (např. na přístrojích Pippin prep/ Bioanalyzer/ TapeStation) a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA 4. Clean-up a kontrola kvality Kontrola kvality knihovny = změření koncentrace knihovny a velikostního složení knihovny pomocí kapilární elektroforézy a jiných mikrofluidních systémů (např. na přístrojích Pippin prep/ Bioanalyzer/ TapeStation) V ideálním případě... Knihovna a) Přeamplifikovaná knihovna…tvorba tzv. PCR bubble na histogramu Realita… b) Primer and Primer dimer (=Adapter dimer) kontaminace c) Příliš dlouhé amplikony – nedostatečná fragmentace a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA https://knowledge.illumina.com/library- preparation/general/library-preparation- general-reference_material-list/000001918 a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA TGS sekvenace umožnují dlouhá čtení a detekci některých epigenetických modifikací DNA. (Nanopore rekord – 2 272 580 bází). NGS Input = vysokomolekulární DNA Input = fragmentovaná DNA https://doi.org/10.1093/bib/bbz155 a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA Detekce epigenetických modifikací DNA… a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA Detekce epigenetických modifikací DNA… https://doi.org/10.1038/s10038-019-0679-0 i) Whole genome sequenceing, de novo assembly. DNA-seq knihovny – časté aplikace Human Genome Project (HGP) - 14. 4. 2003, kompletní (~92%) genomové assembly - Více jak 20 insitucí v projektu HGP - přibližné celkové náklady $2.7 mld. USD Dříve… https://www.researchgate.net/figure/Outline-of-clone-by-clone-approach_fig7_327499811 https://en.m.wikipedia.org/wiki/File:Cost_per_Genome.png i) Whole genome sequenceing, de novo assembly. DNA-seq knihovny – časté aplikace Dnes: ultra-kvalitní “T2T“ assembly i) Primární assemby dlouhých readů (ONT, PacBio) ii) Vylepšení/zpřesnění assembly pomocí krátkých párových readů (Illumina) iii) Oprava mezer v assembly (obvykle dlouhé úseky repetitivně DNA pomocí dlouhých readů iv) Finální oprava chromozomocvých sestavení pomocí Hi-C kontaktních map Nové sekvenační projekty např.: https://portal.darwintreeoflife.org/tree https://doi.org/10.1371/journal.pcbi.1006994.g004 https://doi.org/10.1111/1755-0998.13252 ii) CHIP-seq (Chromatin imunoprecipitation sequencing) = Metoda umožňující identifikaci DNA vazebných míst (v celogenomovém měřítku) konkrétního DNA vazebného proteinu. (např. Transkripční faktory, chromatin remodelující proteiny, a jiné) DNA-seq knihovny – časté aplikace https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9284502 https://www.strand-ngs.com/features/chip-seq iii) Sequence capture sequencing = metoda umožňující efektivní nabohacení sekvencí DNA (které nás zajímají) pomocí značených hybridizačních sond a jejich sekvenaci. - Časté využití např. v DNA diagnostice, kdy se zkoumají případné mutace v kódujících sekvencích DNA pomocí sond vychytávající exony specfických genů (Exome sequenceing). DNA-seq knihovny – časté aplikace https://link.springer.com/chapter/10.1007/978-1-4939-0727-4_16 https://www.labroots.com/webinar/title-coming iv) Hi-C (Chromosome conformation capture high-throughput sequencing) = metoda využívaná k analýze prostorového uspořádání chromatinu. Pomocí této metody se kvantifikují interakce genomických lokusů, které mohou být jinak od sebe velmi vzdálené na lineární DNA (či jiných chromozomech). Tyto interakce mohou odrážet nějakou biologickou funkci (např. promoter-enhancer). DNA-seq knihovny – časté aplikace https://doi.org/10.1016/j.ymeth.2012.05.001 https://commons.wikimedia.org/wiki/File:Regulation_of_transcription_in_mammals.jpg iv) Hi-C (Chromosome conformation capture high-throughput sequencing) DNA-seq knihovny – časté aplikace …Optiomisation of T2T assemblieshttps://www.science.org/doi/10.1126/science.aal3327 v) NGS metody analýzy přístupnosti chromationu DNA-seq knihovny – časté aplikace https://doi.org/10.1007/s10577-019-09619-9 DNA-seq knihovny – časté aplikace v) NGS metody analýzy přístupnosti chromationu https://doi.org/10.1007/s10577-019-09619-9 DNA-seq knihovny – časté aplikace Formaldehyde-Assisted Isolation of Regulatory Elementsv) NGS metody analýzy přístupnosti chromationu https://doi.org/10.1007/s10577-019-09619-9 DNA-seq knihovny – časté aplikace v) NGS metody analýzy přístupnosti chromationu https://doi.org/10.1007/s10577-019-09619-9 DNA-seq knihovny – časté aplikace v) NGS metody analýzy přístupnosti chromationu https://doi.org/10.1007/s10577-019-09619-9 DNA-seq knihovny – časté aplikace ATAC-seq -identifies accessible DNA regions by probing open chromatin with hyperactive mutant Tn5 Transposase that inserts sequencing adapters into open regions of the genome https://eciofishr.wordpress.com/2019/04/22/technical-section-atac-seq/ vi) DNA-seq methody analýzy chemických modifikací DNA DNA-seq knihovny – časté aplikace Bisulfite-seq …alternativně pomocí NanoPore či PacBio. https://doi.org/10.1038/s10038-019-0679-0 https://www.creative-biolabs.com/suprecision/whole-genome-bisulfite-sequencing-wgbs-service.htm https://www.pacb.com/japan/whole-genome-sequencing-jp/ 1. Kontrola kvality RNA 2. RNA enrichment 3. Fragmentace a 1st strand syntéza 4. 2nd strand syntéza, stranded/unstranded RNA seq library …dále postup analogický jako u DNA knihoven a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA https://www.neb.com/en/products/e7420-nebnext-ultra-directional-rna-library-prep-kit-for-illumina 1. Kontrola kvality RNA Integrita RNA – elektroforeticky (např. na přístrojích TapeStation, Bioanalyzer), kvalita vstupní RNA je kvantifikována pomocí čísla RIN (RNA integrity number) Koncentrace RNA – nejpřesněji pomocí fluorometru (např. Qubit) lze také měřit na TapeStation, Bioanalyzer, Nanodrop RIN Algortimus přiřazující k elektroforeogramu celkové RNA číslo od 1(nejvíce degradovaná) do 10 (nejméně degradovaná). Technicky se vyhodnocuje množství signálu pod silnými peaky rRNA (18S, 28S) s vůči ostatní mu signálu pod grafem. Pozn. V případě savčích RNA se jedná o velmi reproducibilní postup vyhodnocení kvality RNA. V případě rostlinných a řady jiných RNA může být RIN nespolehlivý (jiné délky rRNA, inteferující chloroplastové rRNA apod..). a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/rna-integrity-number 2. RNA enrichment Example transcriptome - rRNA představuje vice jak 80% veškterých transkriptů… tzn. musíme se jí zbavit jinak nebudeme sekvenovat nic jiného než rRNA. rRNA deplece Poly-A enrichment Na rozdíl od mRNA (RNAPII transkripty), rRNA (RNAPI/RNAPIII transkripty) netvoří polyA na 3´ konci. a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA https://www.neb.ca/e7850 3. Fragmentace a 1st strand syntéza Fragmentace – nejčastěji teplem (94°C) z přítomnosti Mg+ iontů. Délka fragmentů je kontrolována délkou inkubace. 1st strand syntéza (syntéza komplementárního DNA vlákna k RNA pomocí reverzní transkriptázy a random primerů nasedajících na RNA) Příklad - mRNA a délka fragmentace a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA 4. 2nd strand syntéza, stranded/unstranded RNA seq library U – Uracil V případě tzv. Directional RNA knihoven je nahrazení T za U v second-strandu DNA důležité pro odlišení řetězců DNA – Tj. který řetězec má stejnou/opačnou orientaci jako původní RNA transkript = Nahrazení původního RNA vlákna vláknem DNA USER (Uracil-Specific Excision Reagent) degraduje vlákno obsahující U. Zbude pouze ssDNA opatřená adaptéry, který má antisense orientaci k původní RNA. a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA i) Transcriptome assembly a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA RNA-seq knihovny – časté aplikace - Lze jak de novo tak mapováním na referenční genom ii) Differential gene expression Sample 1 Sample 2 GENE A GENE B RNA-seq library preparation: RNA isolation: Sequencing Read mapping to reference genome/transcriptome: Normalizace a kvantifikace genové expresse: -Normalizace umožnuje porovnávat vzorky mezi sebou. GENE A GENE B a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA RNA-seq knihovny – časté aplikace Metody normalizace: TPM (Transcripts Per Million) - normalizuje počet read namapovaných na daný transkript podle délky transkriptu a celkového počtu namapovaných readů ve vzorku dále: FPKM (Fragments Per Kilobase Million), RPKM (Reads Per Kilobase Million),... iii) Studium sekundární struktury RNA (DMS-MaPseq, SHAPE-seq) - SHAPE/DMS modification results in fall-off reverse transcriptase during reverse transcription – i.e. abundance of premature terminated reads indicates modified (single-stranded) positions in such RNA-seq data (obr.1) - Thermostable group II intron reverse transcriptase (TGIRT) can go through modified bases, but generates errors in modified positions – i.e. SNPs in such RNA-seq data indicates single-stranded bases. (obr.2) DMS (Dimethyl sulfate) – methylates A and C ribonucleotides at the site of natural hydrogen bonds upon base-pairing, therefore modification occurs only at single-stranded nucleotides SHAPE - modify the backbone of RNA in structurally flexible regions a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA RNA-seq knihovny – časté aplikace 1. Ribosome profiling (Ribo-seq) v) analysis of translatome (activelly translated RNAs) 2. Polysome profiling Compared to Ribosome profiling – total RNA associated with ribosomes (Polysomes) is extracted and sequenced. RNA regions bounded by ribosomes are protected during Mnase digestion, free RNA is cleaved. a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA RNA-seq knihovny – časté aplikace vi) RNA imunoprecipitation sequencing (RIP-seq) CLIP-seq includes Cross-linking – covalent joining of RNA Binding Protein (RBP) and RNA – and subsequent imunoprecipitation with specific antibody→RNA- seq RIP-seq Imunoprecipitation of RBP and asociated RNA(s) (without crosslinking) →RNA-seq = study of protein-RNA interactions and RNA modifications a) Příprava NGS knihoven z DNA b) Příprava TGS knihoven z DNA c) Příprava NGS knihoven z RNA RNA-seq knihovny – časté aplikace https://www.semanticscholar.org/paper/CLIP-seq-analysis-of-multi-mapped-reads-discovers-ZhangXing/b403d8737a9f56397391232d083a351860a8215b https://www.spandidos-publications.com/10.3892/ijmm.2019.4169 Databáze s dostupnými DNA/RNA-seq daty https://www.ncbi.nlm.nih.gov/sra/?term=