Interactive Syllabus

Knížka je k dispozici prezenčně ve knihovně FI, v materiálech kurzu najdete první vydání v elektronické podobě a oskenované kapitoly druhého vydání nepokryté ve vydání prvním

15% Lin et al. (2023) Bioinformatics Methods - str. 78-102

Lin et al 2023 ch5 Modelling and analysis of NGS data

20% Bicciato and Ferrari (2022) HiC Data Analysis kap.1-6

HODNOCENI

50% PROJEKT - analyza NGS dat nebo vytvoreni a vizualizace pangenomu

50% ZKOUSKA: ustni z urcenych kapitol literatury a probranych metod analyzy dat

A - 90-100%

B - 80-89%

C - 70-79%

D - 60-69%

E - 50-59%

Relevantní kapitoly pro kurz:

1. Introduction to DNA sequencing (jako přehled technik sekvenování, probírá se v jiných kurzech, pro nove informace spis viz Lin et al.)

2. Quality Control and Data Preprocessing (1.týden, opakovanie)

5. Visualization of NGS Data (2. týden)

6. DNA Sequence Alignment (jako přehled klíčových algoritmů, probírá se v IV107/8)

7. Genome Assembly Using Generalized de Bruijn Digraphs (podle potreby/zajmu 5.týden/IV108)

10. Genome Annotation (7.-8.týden)

11. Using NGS to detect sequence Variants (2.-3. týden)

12. ChIP-seq (4.týden?)

2. STRUKTURA GENOMU

Genome Organization: Chromatin and Nucleosomes

++ Iyer_et_al._2011

Hierarchies in eukaryotic genome organization:Insights from polymer theory and simulations

Fraser_et_al._2015

An Overview of Genome Organization and How We Got There: from FISH to Hi-C

Fraser_et_al._2015 (anotovaná kopie)

3-D Genome (Lecture by Manolis Kellis, MIT)

***ÚKOL: doplnit záložky - pošlete mi e-mailem 8-16 podobných záložek k videu

Obsah (ChIP, 3C až Hi-C, LAD, TAD)

(Links Michalik, Juric & Ondrejka)

Nucleus model https://youtu.be/tO--CnMDaI0?t=68

Nucleus-DNA scale https://youtu.be/tO--CnMDaI0?t=190

DNA compaction https://youtu.be/tO--CnMDaI0?t=310

Chromosomal domains https://youtu.be/tO--CnMDaI0?t=350

What we will learn https://youtu.be/tO--CnMDaI0?t=403

Molecular methods for studying genome organization https://youtu.be/tO--CnMDaI0?t=511

Locus-landmark interactions: ChIP and DamID principles https://youtu.be/tO--CnMDaI0?t=598

Locus-locus interactions https://youtu.be/tO--CnMDaI0?t=808

3C https://youtu.be/tO--CnMDaI0?t=869

C-three https://youtu.be/tO--CnMDaI0?t=1016

Hi-C description https://youtu.be/tO--CnMDaI0?t=1109

Checkerboard pattern of interaction https://youtu.be/tO--CnMDaI0?t=1450

ChIA-PET https://youtu.be/tO--CnMDaI0?t=1765

Chromosome compartmentalization https://youtu.be/tO--CnMDaI0?t=1874

Active/in-active compartmentalization https://youtu.be/tO--CnMDaI0?t=2145

Topologically associated domains (TADs) https://youtu.be/tO--CnMDaI0?t=2276

Hi-C data processing https://youtu.be/tO--CnMDaI0?t=2553

Bias normalization https://youtu.be/tO--CnMDaI0?t=2668

Interpretation of data https://youtu.be/tO--CnMDaI0?t=2977

LADs https://youtu.be/tO--CnMDaI0?t=2982

Hi-C features https://youtu.be/tO--CnMDaI0?t=3246

CTCF loop extrusion https://youtu.be/tO--CnMDaI0?t=3326

Inter-species conservation of genome organization https://youtu.be/tO--CnMDaI0?t=3867

LAD inter-species conservation https://youtu.be/tO--CnMDaI0?t=3916

Prediction of lamina association https://youtu.be/tO--CnMDaI0?t=4093

A/T content influence https://youtu.be/tO--CnMDaI0?t=4100

Folding during cell cycle https://youtu.be/tO--CnMDaI0?t=4264

CTCF binding site removal https://youtu.be/tO--CnMDaI0?t=4445

++ The 3D Genome organization (Advanced NIH lecture by Bing Ren)

Úvod https://youtu.be/sAkH51R0DNg?t=111

Regulační elementy v genomech https://youtu.be/sAkH51R0DNg?t=222

Identifikace regulačních elementů sekvenací DNA https://youtu.be/sAkH51R0DNg?t=421

Nezodpovězené otázky https://youtu.be/sAkH51R0DNg?t=642

3. NGS DATA (DNA-seq, RNA-seq)

viz učebnice

***ÚKOL: zjistit, ktere jsou porad funkcni nebo se vyviji a doplnit seznam novsich metod vizualizace - pošlete mi e-mailem nazvy a URL

(Contetn by Michalik, Juric & Ondrejka)

IGV - funkcny a udrziavany

UCSC Genome Browser - funkcny a udrziavany

JBrowse (https://jbrowse.org/jb2/)

Podporuje vela formatov (BAM, VCF, GFF3, BED, CRAM, ...), vie vizualizovat Hi-C

contact matrix

Genome View - posledna verzia 2018

Staden (https://staden.sourceforge.net/) Posledny release v 2016. Stale funkcny a udrziavany, problem s novel macOS (Big Sur a novsie)

Illumina Genome studio - funkcny a udrziavany

Bioconductor (http://bioconductor.org/) Tiez by malo vediet robit vizualizacie (napr. ggbio, rtracklayer, GViz)

Newbler - da sa vraj vyziadat od Roche, nenasiel som ale spravny formular. 454 Assembler, nie vizualizator.

Mauve https://darlinglab.org/mauve/mauve.html "No longer maintained". Komparator genomov, nie vizualizator

genomeview (https://github.com/nspies/genomeview) Vyzera, ze nie je maintained

Michalik: alen - https://github.com/jakobnissen/alen- text-based (môže byť potrebné ak sú dáta na servery kde nie je XWS a nechceme ich sťahovať)

panX - https://pangenome.org/- vizualizácia bakteriálnych genómov, vyzerá veľmi vizuálne pekne

pyGenome tracks - https://github.com/deeptools/pyGenomeTracks- vizuálne pekné, veľa možností vrátane HI-C matrices

Juric: Objavil som zaujimavy software: https://github.com/cmdcolin/awesome-genome-visualization, na ktorom su odkazy na zmienene ale aj nove dalsie nastroje na vizualizaciu.

Kapitola 5

Visualization of NGS Data

novy format - CRAM

Analyze https://www.ncbi.nlm.nih.gov/sra/SRX2006496[accn]

Viewing alignments

Inspecting variants in IGV

Grey v. white reads

4. HiC data analysis

HiC-Pro + Protocols from Bicciato and Ferrari (2022)

Analyze SRR19139574 (alternativne SRR15458782)

5. ChIP-seq analysis

ChIP-seq tutorial

Analyze https://www.ncbi.nlm.nih.gov/sra/?term=maizels+AND+xpd (alternative SRR13161616)

VARIANT CALLING (SNPs/SV/CNV?) 20/2/2023

Best practices paper

V adresari /mnt/nas/biodata/pv269 jsem pripravil mapovanim DNA-seq experimentu na genom CHM13v2 (T2T) programem bowtie2 soubor formatu BAM:

=====

bowtie2-build ../genome/CHM13v2.fa ../genome/CHM13v2.fa --threads 4

bowtie2 -x ../genome/CHM13v2.fa -1 ../reads/SRR4009287_R1.fastq -2 ../reads/SRR4009287_R2.fastq -I 100 -X 15000 -p 4 -S SRR4009287_CHM13v2.sam

=====

Converting between SAM and BAM, sorting, indexing and viewing BAM: link

Z tohoto souboru vyberte jenom cast genomu (cca 1-5%), abychom zbytecne nepracovali s velkymi soubory a necekali dlouho na vysledky.

Jak extrahovat specifickou oblast nebo chromozom z BAM souboru

Dale nas bude zajimat:

- vytvoreni VCF souboru, variant (SNP) calling

- zobrazeni dat v IGV, inspekce zajimavych mist v genomu (dokazete najit jednoduchy SNP, deleci, inzerci?)

HIC DATA ANALYSIS 27/2/2023

Bicciato and Ferrari (2022). HiC Data Analysis. Methods in Mol. Biology 2031, Springer Protocols, Humana Press

12551 2018 Article 489

HiC-Pro software (FASTQ -> MATRIX)

HiC-Pro (GitHub)

HiC-Pro (Manual)

HiC-Pro (paper)

HiTC R/Bioconductor package (stats, viz)

HiTC Vignette

CVICENI

V adresari /home/lexa/pv269/hicpro na stroji hedron najdete adresar human_data_output, ktery obsahuje HiC experiment SRR15458782 zpracovan pomoci HiC-Pro_3.1.0

Jake data HiC-Pro zapsal? (seznamte se s obsahem adresare)

S jakymi parametry bezel bowtie2 pri mapovani? (log)

Podivejte se na ukazatele kvality. Jake procento HiC paru je pouzitelne? (podadresar pic)

Importujte data (iced/40000/*.matrix a raw/40000/*.bed) do HiTC

Na "Vasem" chromozomu zobrazte kontakty nad intervalem, ktery bude mit velikost v rozmezi 5-15MBp (prikaz mapC nebo plot z konce tutorialu) a idealne vlozte do obrazku i anotacni stopu pro geny.

HiC-Pro + HiTC Tutorial

HiC Tools - a comprehensive list

CHIP-SEQ/TRANSCRIPTOME 6/3/2023

Nakato and Sakta (2021). Methods for ChIP-deq data analysis

Intro to ChIP-seq

Gray et al. (2014). G-quadruplexes are genomewide targets of transcriptional helicases XPB and XPD

GEO data

SRA data

---

Additional tutorial materials from "Intro to ChIP-seq"

GRAPH ALGORITHMS AND DATA STRUCTURES 13/3/2023

Eizenga et al.(2023) Pangenome Graphs

Annual Review of Genomics and Human Genetics

https://www.annualreviews.org/doi/pdf/10.1146/annurev-genom-120219-080406

=====

deBruijn graphs (assembly e.g. velvet)

variation graphs (unbiased pangenome graphs )

=====

EXERCISE:

wgsim - simulate short reads (150bp) from E.coli, 50x coverage, error rate 0.5% and 5%, paired (d=2000bp) and unpaired
https://github.com/lh3/wgsim

seqtk sample - subsample fastaq (create 5x coverage)
(also possible sample from https://github.com/alexpreynolds/sample)

velvet - assemble reads
https://cw.fel.cvut.cz/b182/_media/courses/bin/assembly_jk_2017_2p.pdf
https://www.cs.jhu.edu/~langmea/resources/lecture_notes/assembly_dbg.pdf

characterize contigs (try assembly-stats from Ubuntu package of the same name or stats.sh on hedron from the BBMap package)

compare with reference
https://www.biostars.org/p/383339/#383346

GRAPH ALGORITHMS AND DATA STRUCTURES 20/3/2023

GFA format https://github.com/GFA-spec/GFA-spec

===

EXERCISE:

MINGRAPH https://github.com/lh3/minigraph

GFATOOLS https://github.com/lh3/gfatools

PGGB pipeline https://github.com/pangenome/pggb

WFMASH https://github.com/waveygang/wfmash

SEQWISH https://github.com/ekg/seqwish

SMOOTHXG https://github.com/pangenome/smoothxg

GFAFFIX https://github.com/marschall-lab/GFAffix

ODGI https://github.com/pangenome/odgi

VG https://github.com/vgteam/vg

GRAPH ALGORITHMS AND DATA STRUCTURES 27/3/2023

CVIČENÍ - jednoduchý příklad tvorby "variation graph"

1. VSTUPNÍ DATA: Připravte FASTA soubor s jednou sekvencí délky několika 1000 bp, např. jeden z retrotransposonů z minulého týdne (/home/lexa/pv269/tenesteer/127.fa). Vytvořte 2 kopie této sekvence, které se budou lišit 3-4 delecemi a inzercemi v délce kolem 100bp. Jednu použijte k rozšíření FASTA souboru, aby obsahoval dvě sekvence (poslouží k tvorbě ukázkového grafu), druhou si nechte bokem (budem ji do grafu přidávat).

2. K manipulaci souborů použijeme:

a) MSA a vg toolkit

b) PGGB pipeline (wfmash, seqwish, atd. https://github.com/pangenome/pggb/blob/master/README.md)

3. Vytvořte graf v GFA formátu (pggb nebo vg construct). U vg toolkit lze konvertovat nativní vg formát příkazem "vg view". Další informace k práci s vg toolkit najdete na https://gtpb.github.io/CPANG18/pages/toy_examples

4. K zobrazení grafu použijte program Bandage (https://rrwick.github.io/Bandage/). Dopadlo všechno podle očekávání? Jak se liší dva vytvořené variační grafy? V případě nespokojenosti, zkuste upravit parametry výpočtu.

5. V programu Bandage vizualizujte jednu ze sekvencí příkazem BLAST a nastavením příslušného zobrazení.

6. Přidejte do grafu třetí sekvenci (přes GAM formát z "vg map/align" a "vg mod"). Ověřte úspěšnost této operace vizualizací grafu (Bandage nebo příslušná část příkladu z odkazu výše).

PROJEKT - varianta 2

Zkonstrujte pangenom bakterie https://www.ncbi.nlm.nih.gov/data-hub/genome/GCF_022870485.1/a její nejbližších dostupných příbuzných. Viz doporučení pro PGGB:

https://pggb.readthedocs.io/en/latest/rst/organism_example_parameters.html

případně použijte metody vycházející ze zarovnání genomů. Odevzdejte zapsaný postup s důrazem na použité programy/příkazy a jejich parametrizaci. Odevzdejte pangenom, k tomu variační graf některé části genomu, kde variační graf ukazuje variaci (oba ve formátu GFA) a vizualizaci zmíněné variace.

HMM 3/4/2023

https://calla.rnet.missouri.edu/cheng_courses/mlbioinfo/eddy_profile_hmm.pdf

https://www.cs.tau.ac.il/~rshamir/algmb/00/scribe00/html/lec06/node1.html

R packages:

https://www.rdocumentation.org/packages/aphid/versions/1.3.5

https://cran.r-project.org/web/packages/HMM/index.html

Slides:

Intro HMM

Profile HMM

HMM 17/4/2023

1. Refresh your knowledge of pHMMs by reproducing the R package 'aphid' vignetteexercise (link from previous week).

A nice formal write-up for general HMMs and the terminology and algorithms involved (WILL ADD LINK)

2. Can you create a HMM (either profile or general) that would generate sequences likely to form G-quadruplexes?

G-quadruplex is a sequence containing 4 runs of Gs, each of ideally 3Gs and a short loop section with no special sequence preferences (may not be entirely true in real G4s). Sometimes a regular expression G3+N+G3+N+G3+N+G3+ is used to identify PQS sequences (PQS = potential quadruplex sequence), or R package pqsfinder can be used.

3. Profile HMM exercise using HMMER

http://www.math.chalmers.se/Stat/Bioinfo/Master/Courses/BioinformaticsII/HMM_lab.html

NO CLASS - WORK ON SEMESTRAL PROJECT 24/4/2023

CLOSE-UP, DISCUSSION OF SEMESTRAL PROJECT 15/5/2023

Extra reference for pangenome construvtion: Hickey_et_al_2023

Na zkousce si vylosujete jednu z nasledujicich otazek:

1) Genome organization in 2D and 3D, its relation to sequencing methods and analyses

2) Typical workflows for processing NGS data

3) Variant calling with NGS data

4) HiC library preparation and data analysis

5) Chip-seq library preparationa and data analysis

6) Genome assembly from NGS daa and deBruijn graphs

7) Pangenome creation and variation graphs

8) HMM in general, profile HMM and applications of HMMER

Na kazdou otazku si pripravte 10-15 min vysvetleni dane problematiky, napr. s vyuzitim materialu odkazovanych v osnovach kurzu, Stuart a HiC knizka je take v knihovne.

Default view

Pokročilé metody bioinformatiky
- Study now
  
  GENOME ORGANIZATION, PROCESSING NGS DATA 13/2/2023
- Study now
  
  VARIANT CALLING (SNPs/SV/CNV?) 20/2/2023
- Study now
  
  HIC DATA ANALYSIS 27/2/2023
- Study now
  
  CHIP-SEQ/TRANSCRIPTOME 6/3/2023
- Study now
  
  GRAPH ALGORITHMS AND DATA STRUCTURES 13/3/2023
- Study now
  
  GRAPH ALGORITHMS AND DATA STRUCTURES 20/3/2023
- Study now
  
  GRAPH ALGORITHMS AND DATA STRUCTURES 27/3/2023
- Study now
  
  HMM 3/4/2023
- Study now
  
  HMM 17/4/2023
- Study now
  
  NO CLASS - WORK ON SEMESTRAL PROJECT 24/4/2023
- Study now
  
  CLOSE-UP, DISCUSSION OF SEMESTRAL PROJECT 15/5/2023

Operations

Default view