You are currently viewing the whole syllabus; go back to default view.
The speed of loading and viewing the syllabus may be slower when showing a large amount of content.
GENOME ORGANIZATION, PROCESSING NGS DATA 13/2/2023
1. ORGANIZACE KURZU
Vyučující: dr.Lexa
65% kurzu bude postaveno na materiálu
Relevantní kapitoly pro kurz:
1. Introduction to DNA sequencing (jako přehled technik sekvenování, probírá se v jiných kurzech, pro nove informace spis viz Lin et al.)
2. Quality Control and Data Preprocessing (1.týden, opakovanie)
5. Visualization of NGS Data (2. týden)
6. DNA Sequence Alignment (jako přehled klíčových algoritmů, probírá se v IV107/8)
7. Genome Assembly Using Generalized de Bruijn Digraphs (podle potreby/zajmu 5.týden/IV108)
10. Genome Annotation (7.-8.týden)
11. Using NGS to detect sequence Variants (2.-3. týden)
12. ChIP-seq (4.týden?)
2. STRUKTURA GENOMU
***ÚKOL: doplnit záložky - pošlete mi e-mailem 8-16 podobných záložek k videu
Obsah (ChIP, 3C až Hi-C, LAD, TAD)
(Links Michalik, Juric & Ondrejka)
Nucleus model https://youtu.be/tO--CnMDaI0?t=68
Nucleus-DNA scale https://youtu.be/tO--CnMDaI0?t=190
DNA compaction https://youtu.be/tO--CnMDaI0?t=310
Chromosomal domains https://youtu.be/tO--CnMDaI0?t=350
What we will learn https://youtu.be/tO--CnMDaI0?t=403
Molecular methods for studying genome organization https://youtu.be/tO--CnMDaI0?t=511
Locus-landmark interactions: ChIP and DamID principles https://youtu.be/tO--CnMDaI0?t=598
Locus-locus interactions https://youtu.be/tO--CnMDaI0?t=808
3C https://youtu.be/tO--CnMDaI0?t=869
C-three https://youtu.be/tO--CnMDaI0?t=1016
Hi-C description https://youtu.be/tO--CnMDaI0?t=1109
Checkerboard pattern of interaction https://youtu.be/tO--CnMDaI0?t=1450
ChIA-PET https://youtu.be/tO--CnMDaI0?t=1765
Chromosome compartmentalization https://youtu.be/tO--CnMDaI0?t=1874
Active/in-active compartmentalization https://youtu.be/tO--CnMDaI0?t=2145
Topologically associated domains (TADs) https://youtu.be/tO--CnMDaI0?t=2276
Hi-C data processing https://youtu.be/tO--CnMDaI0?t=2553
Bias normalization https://youtu.be/tO--CnMDaI0?t=2668
Interpretation of data https://youtu.be/tO--CnMDaI0?t=2977
LADs https://youtu.be/tO--CnMDaI0?t=2982
Hi-C features https://youtu.be/tO--CnMDaI0?t=3246
CTCF loop extrusion https://youtu.be/tO--CnMDaI0?t=3326
Inter-species conservation of genome organization https://youtu.be/tO--CnMDaI0?t=3867
LAD inter-species conservation https://youtu.be/tO--CnMDaI0?t=3916
Prediction of lamina association https://youtu.be/tO--CnMDaI0?t=4093
A/T content influence https://youtu.be/tO--CnMDaI0?t=4100
Folding during cell cycle https://youtu.be/tO--CnMDaI0?t=4264
CTCF binding site removal https://youtu.be/tO--CnMDaI0?t=4445
Úvod https://youtu.be/sAkH51R0DNg?t=111
Regulační elementy v genomech https://youtu.be/sAkH51R0DNg?t=222
Identifikace regulačních elementů sekvenací DNA https://youtu.be/sAkH51R0DNg?t=421
Nezodpovězené otázky https://youtu.be/sAkH51R0DNg?t=642
3. NGS DATA (DNA-seq, RNA-seq)
viz učebnice
***ÚKOL: zjistit, ktere jsou porad funkcni nebo se vyviji a doplnit seznam novsich metod vizualizace - pošlete mi e-mailem nazvy a URL
(Contetn by Michalik, Juric & Ondrejka)
IGV - funkcny a udrziavany
UCSC Genome Browser - funkcny a udrziavany
JBrowse (https://jbrowse.org/jb2/)
Podporuje vela formatov (BAM, VCF, GFF3, BED, CRAM, ...), vie vizualizovat Hi-C
contact matrix
Genome View - posledna verzia 2018
Staden (https://staden.sourceforge.net/) Posledny release v 2016. Stale funkcny a udrziavany, problem s novel macOS (Big Sur a novsie)
Illumina Genome studio - funkcny a udrziavany
Bioconductor (http://bioconductor.org/) Tiez by malo vediet robit vizualizacie (napr. ggbio, rtracklayer, GViz)
Newbler - da sa vraj vyziadat od Roche, nenasiel som ale spravny formular. 454 Assembler, nie vizualizator.
Mauve https://darlinglab.org/mauve/mauve.html "No longer maintained". Komparator genomov, nie vizualizator
genomeview (https://github.com/nspies/genomeview) Vyzera, ze nie je maintained
Michalik: alen - https://github.com/jakobnissen/alen- text-based (môže byť potrebné ak sú dáta na servery kde nie je XWS a nechceme ich sťahovať)
panX - https://pangenome.org/- vizualizácia bakteriálnych genómov, vyzerá veľmi vizuálne pekne
pyGenome tracks - https://github.com/deeptools/pyGenomeTracks- vizuálne pekné, veľa možností vrátane HI-C matrices
Juric: Objavil som zaujimavy software: https://github.com/cmdcolin/awesome-genome-visualization, na ktorom su odkazy na zmienene ale aj nove dalsie nastroje na vizualizaciu.
novy format - CRAM
Analyze https://www.ncbi.nlm.nih.gov/sra/SRX2006496[accn]
4. HiC data analysis
HiC-Pro + Protocols from Bicciato and Ferrari (2022)
Analyze SRR19139574 (alternativne SRR15458782)
5. ChIP-seq analysis
Analyze https://www.ncbi.nlm.nih.gov/sra/?term=maizels+AND+xpd (alternative SRR13161616)
VARIANT CALLING (SNPs/SV/CNV?) 20/2/2023
V adresari /mnt/nas/biodata/pv269 jsem pripravil mapovanim DNA-seq experimentu na genom CHM13v2 (T2T) programem bowtie2 soubor formatu BAM:
=====
bowtie2-build ../genome/CHM13v2.fa ../genome/CHM13v2.fa --threads 4
bowtie2 -x ../genome/CHM13v2.fa -1 ../reads/SRR4009287_R1.fastq -2 ../reads/SRR4009287_R2.fastq -I 100 -X 15000 -p 4 -S SRR4009287_CHM13v2.sam
=====
Converting between SAM and BAM, sorting, indexing and viewing BAM: link
Z tohoto souboru vyberte jenom cast genomu (cca 1-5%), abychom zbytecne nepracovali s velkymi soubory a necekali dlouho na vysledky.
Jak extrahovat specifickou oblast nebo chromozom z BAM souboru
Dale nas bude zajimat:
- vytvoreni VCF souboru, variant (SNP) calling
- zobrazeni dat v IGV, inspekce zajimavych mist v genomu (dokazete najit jednoduchy SNP, deleci, inzerci?)
HIC DATA ANALYSIS 27/2/2023
Bicciato and Ferrari (2022). HiC Data Analysis. Methods in Mol. Biology 2031, Springer Protocols, Humana Press
HiC-Pro software (FASTQ -> MATRIX)
HiTC R/Bioconductor package (stats, viz)
CVICENI
V adresari /home/lexa/pv269/hicpro na stroji hedron najdete adresar human_data_output, ktery obsahuje HiC experiment SRR15458782 zpracovan pomoci HiC-Pro_3.1.0
Jake data HiC-Pro zapsal? (seznamte se s obsahem adresare)
S jakymi parametry bezel bowtie2 pri mapovani? (log)
Podivejte se na ukazatele kvality. Jake procento HiC paru je pouzitelne? (podadresar pic)
Importujte data (iced/40000/*.matrix a raw/40000/*.bed) do HiTC
Na "Vasem" chromozomu zobrazte kontakty nad intervalem, ktery bude mit velikost v rozmezi 5-15MBp (prikaz mapC nebo plot z konce tutorialu) a idealne vlozte do obrazku i anotacni stopu pro geny.
CHIP-SEQ/TRANSCRIPTOME 6/3/2023
---
GRAPH ALGORITHMS AND DATA STRUCTURES 13/3/2023
Eizenga et al.(2023) Pangenome Graphs
Annual Review of Genomics and Human Genetics
https://www.annualreviews.org/doi/pdf/10.1146/annurev-genom-120219-080406
=====
deBruijn graphs (assembly e.g. velvet)
variation graphs (unbiased pangenome graphs )
=====
EXERCISE:
wgsim - simulate short reads (150bp) from E.coli, 50x coverage, error rate 0.5% and 5%, paired (d=2000bp) and unpaired
https://github.com/lh3/wgsim
seqtk sample - subsample fastaq (create 5x coverage)
(also possible sample from https://github.com/alexpreynolds/sample)
velvet - assemble reads
https://cw.fel.cvut.cz/b182/_media/courses/bin/assembly_jk_2017_2p.pdf
https://www.cs.jhu.edu/~langmea/resources/lecture_notes/assembly_dbg.pdf
characterize contigs (try assembly-stats from Ubuntu package of the same name or stats.sh on hedron from the BBMap package)
compare with reference
https://www.biostars.org/p/383339/#383346
GRAPH ALGORITHMS AND DATA STRUCTURES 20/3/2023
GFA format https://github.com/GFA-spec/GFA-spec
===
EXERCISE:
MINGRAPH https://github.com/lh3/minigraph
GFATOOLS https://github.com/lh3/gfatools
PGGB pipeline https://github.com/pangenome/pggb
WFMASH https://github.com/waveygang/wfmash
SEQWISH https://github.com/ekg/seqwish
SMOOTHXG https://github.com/pangenome/smoothxg
GFAFFIX https://github.com/marschall-lab/GFAffix
GRAPH ALGORITHMS AND DATA STRUCTURES 27/3/2023
CVIČENÍ - jednoduchý příklad tvorby "variation graph"
1. VSTUPNÍ DATA: Připravte FASTA soubor s jednou sekvencí délky několika 1000 bp, např. jeden z retrotransposonů z minulého týdne (/home/lexa/pv269/tenesteer/127.fa). Vytvořte 2 kopie této sekvence, které se budou lišit 3-4 delecemi a inzercemi v délce kolem 100bp. Jednu použijte k rozšíření FASTA souboru, aby obsahoval dvě sekvence (poslouží k tvorbě ukázkového grafu), druhou si nechte bokem (budem ji do grafu přidávat).
2. K manipulaci souborů použijeme:
a) MSA a vg toolkit
b) PGGB pipeline (wfmash, seqwish, atd. https://github.com/pangenome/pggb/blob/master/README.md)
3. Vytvořte graf v GFA formátu (pggb nebo vg construct). U vg toolkit lze konvertovat nativní vg formát příkazem "vg view". Další informace k práci s vg toolkit najdete na https://gtpb.github.io/CPANG18/pages/toy_examples
4. K zobrazení grafu použijte program Bandage (https://rrwick.github.io/Bandage/). Dopadlo všechno podle očekávání? Jak se liší dva vytvořené variační grafy? V případě nespokojenosti, zkuste upravit parametry výpočtu.
5. V programu Bandage vizualizujte jednu ze sekvencí příkazem BLAST a nastavením příslušného zobrazení.
6. Přidejte do grafu třetí sekvenci (přes GAM formát z "vg map/align" a "vg mod"). Ověřte úspěšnost této operace vizualizací grafu (Bandage nebo příslušná část příkladu z odkazu výše).
PROJEKT - varianta 2
Zkonstrujte pangenom bakterie https://www.ncbi.nlm.nih.gov/data-hub/genome/GCF_022870485.1/a její nejbližších dostupných příbuzných. Viz doporučení pro PGGB:
https://pggb.readthedocs.io/en/latest/rst/organism_example_parameters.html
případně použijte metody vycházející ze zarovnání genomů. Odevzdejte zapsaný postup s důrazem na použité programy/příkazy a jejich parametrizaci. Odevzdejte pangenom, k tomu variační graf některé části genomu, kde variační graf ukazuje variaci (oba ve formátu GFA) a vizualizaci zmíněné variace.
HMM 3/4/2023
https://calla.rnet.missouri.edu/cheng_courses/mlbioinfo/eddy_profile_hmm.pdf
https://www.cs.tau.ac.il/~rshamir/algmb/00/scribe00/html/lec06/node1.html
R packages:
https://www.rdocumentation.org/packages/aphid/versions/1.3.5
https://cran.r-project.org/web/packages/HMM/index.html
Slides:
HMM 17/4/2023
1. Refresh your knowledge of pHMMs by reproducing the R package 'aphid' vignetteexercise (link from previous week).
A nice formal write-up for general HMMs and the terminology and algorithms involved (WILL ADD LINK)
2. Can you create a HMM (either profile or general) that would generate sequences likely to form G-quadruplexes?
G-quadruplex is a sequence containing 4 runs of Gs, each of ideally 3Gs and a short loop section with no special sequence preferences (may not be entirely true in real G4s). Sometimes a regular expression G3+N+G3+N+G3+N+G3+ is used to identify PQS sequences (PQS = potential quadruplex sequence), or R package pqsfinder can be used.
3. Profile HMM exercise using HMMER
http://www.math.chalmers.se/Stat/Bioinfo/Master/Courses/BioinformaticsII/HMM_lab.html
NO CLASS - WORK ON SEMESTRAL PROJECT 24/4/2023
CLOSE-UP, DISCUSSION OF SEMESTRAL PROJECT 15/5/2023
Extra reference for pangenome construvtion: Hickey_et_al_2023
Na zkousce si vylosujete jednu z nasledujicich otazek:
1) Genome organization in 2D and 3D, its relation to sequencing methods and analyses
2) Typical workflows for processing NGS data
3) Variant calling with NGS data
4) HiC library preparation and data analysis
5) Chip-seq library preparationa and data analysis
6) Genome assembly from NGS daa and deBruijn graphs
7) Pangenome creation and variation graphs
8) HMM in general, profile HMM and applications of HMMER
Na kazdou otazku si pripravte 10-15 min vysvetleni dane problematiky, napr. s vyuzitim materialu odkazovanych v osnovach kurzu, Stuart a HiC knizka je take v knihovne.