Pokročilé metody bioinformatiky
doc. Ing. Matej Lexa, Ph.D.
Pokročilé metody bioinformatiky
Chapter contains:
1
Image
6
PDF
1
Study text
3
Web
Teacher recommends to study from 13/2/2023 to 19/2/2023.
Chapter contains:
1
PDF
1
Study text
Teacher recommends to study from 20/2/2023 to 26/2/2023.
Chapter contains:
2
PDF
1
Study text
5
Web
Teacher recommends to study from 27/2/2023 to 5/3/2023.
Chapter contains:
2
PDF
1
Study text
4
Web
Teacher recommends to study from 6/3/2023 to 12/3/2023.
Chapter contains:
1
Study text
Teacher recommends to study from 13/3/2023 to 19/3/2023.
Chapter contains:
1
Study text
Teacher recommends to study from 20/3/2023 to 26/3/2023.
Chapter contains:
1
Study text
Teacher recommends to study from 27/3/2023 to 2/4/2023.
Chapter contains:
2
PDF
1
Study text
Teacher recommends to study from 10/4/2023 to 16/4/2023.
Chapter contains:
1
Study text
Teacher recommends to study from 3/4/2023 to 9/4/2023.
Teacher recommends to study from 17/4/2023 to 23/4/2023.
Chapter contains:
1
Study text
Teacher recommends to study from 24/4/2023 to 30/4/2023.

GENOME ORGANIZATION, PROCESSING NGS DATA 13/2/2023

1. ORGANIZACE KURZU

Vyučující: dr.Lexa

65% kurzu bude postaveno na materiálu

Stuart M Brown (2015)
Next-generation DNA Sequencing Informatics, 2nd ed., CSHL Press, 402pp

Knížka je k dispozici prezenčně ve knihovně FI, v materiálech kurzu najdete první vydání v elektronické podobě a oskenované kapitoly druhého vydání nepokryté ve vydání prvním

15% Lin et al. (2023) Bioinformatics Methods - str. 78-102

20% Bicciato and Ferrari (2022) HiC Data Analysis kap.1-6

HODNOCENI

50% PROJEKT - analyza NGS dat nebo vytvoreni a vizualizace pangenomu
50% ZKOUSKA: ustni z urcenych kapitol literatury a probranych metod analyzy dat

A - 90-100%
B - 80-89%
C - 70-79%
D - 60-69%
E - 50-59%

Relevantní kapitoly pro kurz:

1. Introduction to DNA sequencing (jako přehled technik sekvenování, probírá se v jiných kurzech, pro nove informace spis viz Lin et al.)

2. Quality Control and Data Preprocessing (1.týden, opakovanie)

5. Visualization of NGS Data (2. týden)

6. DNA Sequence Alignment (jako přehled klíčových algoritmů, probírá se v IV107/8)

7. Genome Assembly Using Generalized de Bruijn Digraphs (podle potreby/zajmu 5.týden/IV108)

10. Genome Annotation (7.-8.týden)

11. Using NGS to detect sequence Variants (2.-3. týden)

12. ChIP-seq (4.týden?)


2. STRUKTURA GENOMU


++ Iyer_et_al._2011
Hierarchies in eukaryotic genome organization:Insights from polymer theory and simulations


Fraser_et_al._2015
An Overview of Genome Organization and How We Got There: from FISH to Hi-C





***ÚKOL: doplnit záložky - pošlete mi e-mailem 8-16 podobných záložek k videu

Obsah (ChIP, 3C až Hi-C, LAD, TAD)

(Links Michalik, Juric & Ondrejka)

Nucleus model https://youtu.be/tO--CnMDaI0?t=68

Nucleus-DNA scale https://youtu.be/tO--CnMDaI0?t=190

DNA compaction https://youtu.be/tO--CnMDaI0?t=310

Chromosomal domains https://youtu.be/tO--CnMDaI0?t=350

What we will learn https://youtu.be/tO--CnMDaI0?t=403

Molecular methods for studying genome organization https://youtu.be/tO--CnMDaI0?t=511

Locus-landmark interactions: ChIP and DamID principles https://youtu.be/tO--CnMDaI0?t=598

Locus-locus interactions https://youtu.be/tO--CnMDaI0?t=808

3C https://youtu.be/tO--CnMDaI0?t=869

C-three https://youtu.be/tO--CnMDaI0?t=1016

Hi-C description https://youtu.be/tO--CnMDaI0?t=1109

Checkerboard pattern of interaction https://youtu.be/tO--CnMDaI0?t=1450

ChIA-PET https://youtu.be/tO--CnMDaI0?t=1765

Chromosome compartmentalization https://youtu.be/tO--CnMDaI0?t=1874

Active/in-active compartmentalization https://youtu.be/tO--CnMDaI0?t=2145

Topologically associated domains (TADs) https://youtu.be/tO--CnMDaI0?t=2276

Hi-C data processing https://youtu.be/tO--CnMDaI0?t=2553

Bias normalization https://youtu.be/tO--CnMDaI0?t=2668

Interpretation of data https://youtu.be/tO--CnMDaI0?t=2977

LADs https://youtu.be/tO--CnMDaI0?t=2982

Hi-C features https://youtu.be/tO--CnMDaI0?t=3246

CTCF loop extrusion https://youtu.be/tO--CnMDaI0?t=3326

Inter-species conservation of genome organization https://youtu.be/tO--CnMDaI0?t=3867

LAD inter-species conservation https://youtu.be/tO--CnMDaI0?t=3916

Prediction of lamina association https://youtu.be/tO--CnMDaI0?t=4093

A/T content influence https://youtu.be/tO--CnMDaI0?t=4100

Folding during cell cycle https://youtu.be/tO--CnMDaI0?t=4264

CTCF binding site removal https://youtu.be/tO--CnMDaI0?t=4445

Úvod https://youtu.be/sAkH51R0DNg?t=111

Regulační elementy v genomech https://youtu.be/sAkH51R0DNg?t=222

Identifikace regulačních elementů sekvenací DNA

Nezodpovězené otázky https://youtu.be/sAkH51R0DNg?t=642


3. NGS DATA (DNA-seq, RNA-seq)

viz učebnice

***ÚKOL: zjistit, ktere jsou porad funkcni nebo se vyviji a doplnit seznam novsich metod vizualizace - pošlete mi e-mailem nazvy a URL

(Contetn by Michalik, Juric & Ondrejka)

IGV - funkcny a udrziavany

UCSC Genome Browser - funkcny a udrziavany

JBrowse (https://jbrowse.org/jb2/)

Podporuje vela formatov (BAM, VCF, GFF3, BED, CRAM, ...), vie vizualizovat Hi-C

contact matrix

Genome View - posledna verzia 2018

Staden (https://staden.sourceforge.net/Posledny release v 2016. Stale funkcny a udrziavany, problem s novel macOS (Big Sur a novsie)

Illumina Genome studio - funkcny a udrziavany

Bioconductor (http://bioconductor.org/Tiez by malo vediet robit vizualizacie (napr. ggbio, rtracklayer, GViz) 

Newbler - da sa vraj vyziadat od Roche, nenasiel som ale spravny formular. 454 Assembler, nie vizualizator.

Mauve https://darlinglab.org/mauve/mauve.html "No longer maintained". Komparator genomov, nie vizualizator

genomeview (https://github.com/nspies/genomeviewVyzera, ze nie je maintained

Michalik:  alen - https://github.com/jakobnissen/alen- text-based (môže byť potrebné ak sú dáta na servery kde nie je XWS a nechceme ich sťahovať)

panX - https://pangenome.org/- vizualizácia bakteriálnych genómov, vyzerá veľmi vizuálne pekne

pyGenome tracks - https://github.com/deeptools/pyGenomeTracks- vizuálne pekné, veľa možností vrátane HI-C matrices

Juric: Objavil som zaujimavy software: https://github.com/cmdcolin/awesome-genome-visualization, na ktorom su odkazy na zmienene ale aj nove dalsie nastroje na vizualizaciu.

Kapitola 5
Visualization of NGS Data

novy format - CRAM


Analyze https://www.ncbi.nlm.nih.gov/sra/SRX2006496[accn]

Viewing alignments

Inspecting variants in IGV

Grey v. white reads

4. HiC data analysis

 + Protocols from Bicciato and Ferrari (2022)

Analyze SRR19139574 (alternativne SRR15458782)

5. ChIP-seq analysis

ChIP-seq tutorial

Analyze https://www.ncbi.nlm.nih.gov/sra/?term=maizels+AND+xpd (alternative SRR13161616)


VARIANT CALLING (SNPs/SV/CNV?) 20/2/2023

V adresari /mnt/nas/biodata/pv269 jsem pripravil mapovanim DNA-seq experimentu na genom CHM13v2 (T2T) programem bowtie2 soubor formatu BAM:

=====

bowtie2-build ../genome/CHM13v2.fa ../genome/CHM13v2.fa --threads 4

bowtie2 -x ../genome/CHM13v2.fa -1 ../reads/SRR4009287_R1.fastq -2 ../reads/SRR4009287_R2.fastq -I 100 -X 15000 -p 4 -S SRR4009287_CHM13v2.sam

=====

Converting between SAM and BAM, sorting, indexing and viewing BAM: link

Z tohoto souboru vyberte jenom cast genomu (cca 1-5%), abychom zbytecne nepracovali s velkymi soubory a necekali dlouho na vysledky.


Dale nas bude zajimat:

- vytvoreni VCF souboru, variant (SNP) calling

- zobrazeni dat v IGV, inspekce zajimavych mist v genomu (dokazete najit jednoduchy SNP, deleci, inzerci?)

HIC DATA ANALYSIS 27/2/2023

Bicciato and Ferrari (2022). HiC Data Analysis. Methods in Mol. Biology 2031, Springer Protocols, Humana Press

HiC-Pro software (FASTQ -> MATRIX)

HiTC R/Bioconductor package (stats, viz)

CVICENI

V adresari /home/lexa/pv269/hicpro na stroji hedron najdete adresar human_data_output, ktery obsahuje HiC experiment SRR15458782 zpracovan pomoci HiC-Pro_3.1.0

Jake data HiC-Pro zapsal? (seznamte se s obsahem adresare)

S jakymi parametry bezel bowtie2 pri mapovani? (log)

Podivejte se na ukazatele kvality. Jake procento HiC paru je pouzitelne? (podadresar pic)

Importujte data (iced/40000/*.matrix a raw/40000/*.bed) do HiTC

Na "Vasem" chromozomu zobrazte kontakty nad intervalem, ktery bude mit velikost v rozmezi 5-15MBp (prikaz mapC nebo plot z konce tutorialu) a idealne vlozte do obrazku i anotacni stopu pro geny.

CHIP-SEQ/TRANSCRIPTOME 6/3/2023

GRAPH ALGORITHMS AND DATA STRUCTURES 13/3/2023

Eizenga et al.(2023) Pangenome Graphs

Annual Review of Genomics and Human Genetics

https://www.annualreviews.org/doi/pdf/10.1146/annurev-genom-120219-080406

=====

deBruijn graphs ( e.g. velvet)

variation graphs (unbiased pangenome graphs )

=====

EXERCISE:

wgsim - simulate short reads (150bp) from E.coli, 50x coverage, error rate 0.5% and 5%, paired (d=2000bp) and unpaired
https://github.com/lh3/wgsim

seqtk sample - subsample fastaq (create 5x coverage)
(also possible sample from https://github.com/alexpreynolds/sample)

velvet - assemble reads
https://cw.fel.cvut.cz/b182/_media/courses/bin/assembly_jk_2017_2p.pdf
https://www.cs.jhu.edu/~langmea/resources/lecture_notes/assembly_dbg.pdf

characterize contigs (try assembly-stats from Ubuntu package of the same name or stats.sh on hedron from the BBMap package)

compare with reference
https://www.biostars.org/p/383339/#383346

GRAPH ALGORITHMS AND DATA STRUCTURES 20/3/2023

GRAPH ALGORITHMS AND DATA STRUCTURES 27/3/2023


CVIČENÍ - jednoduchý příklad tvorby "variation graph"

1. VSTUPNÍ DATA: Připravte FASTA soubor s jednou sekvencí délky několika 1000 bp, např. jeden z retrotransposonů z minulého týdne (/home/lexa/pv269/tenesteer/127.fa). Vytvořte 2 kopie této sekvence, které se budou lišit 3-4 delecemi a inzercemi v délce kolem 100bp.  Jednu použijte k rozšíření FASTA souboru, aby obsahoval dvě sekvence (poslouží k tvorbě ukázkového grafu), druhou si nechte bokem (budem ji do grafu přidávat).

2. K manipulaci souborů použijeme:

  a) MSA a vg toolkit

  b) PGGB pipeline (wfmash, seqwish, atd. https://github.com/pangenome/pggb/blob/master/README.md)

3. Vytvořte graf v GFA formátu (pggb nebo vg construct). U vg toolkit lze konvertovat nativní vg formát příkazem "vg view". Další informace k práci s vg toolkit najdete na https://gtpb.github.io/CPANG18/pages/toy_examples

4. K zobrazení grafu použijte program Bandage (https://rrwick.github.io/Bandage/). Dopadlo všechno podle očekávání? Jak se liší dva vytvořené variační grafy? V případě nespokojenosti, zkuste upravit parametry výpočtu.

5. V programu Bandage vizualizujte jednu ze sekvencí příkazem BLAST a nastavením příslušného zobrazení.

6. Přidejte do grafu třetí sekvenci (přes GAM formát z "vg map/align" a "vg mod"). Ověřte úspěšnost této operace vizualizací grafu (Bandage nebo příslušná část příkladu z odkazu výše).


PROJEKT - varianta 2

Zkonstrujte pangenom bakterie https://www.ncbi.nlm.nih.gov/data-hub/genome/GCF_022870485.1/a její nejbližších dostupných příbuzných. Viz doporučení pro PGGB:

https://pggb.readthedocs.io/en/latest/rst/organism_example_parameters.html

případně použijte metody vycházející ze zarovnání genomů. Odevzdejte zapsaný postup s důrazem na použité programy/příkazy a jejich parametrizaci. Odevzdejte pangenom, k tomu variační graf některé části genomu, kde variační graf ukazuje variaci (oba ve formátu GFA) a vizualizaci zmíněné variace.

HMM 3/4/2023

HMM 17/4/2023

1. Refresh your knowledge of pHMMs by reproducing the R package 'aphid' vignetteexercise (link from previous week).

    A nice formal write-up for general HMMs and the terminology and algorithms involved (WILL ADD LINK)

2. Can you create a HMM (either profile or general) that would generate sequences likely to form G-quadruplexes?

    G-quadruplex is a sequence containing 4 runs of Gs, each of ideally 3Gs and a short loop section with no special sequence preferences (may not be entirely true in real G4s). Sometimes a regular expression G3+N+G3+N+G3+N+G3+ is used to identify PQS sequences (PQS = potential quadruplex sequence), or R package pqsfinder can be used.

3. Profile HMM exercise using HMMER

http://www.math.chalmers.se/Stat/Bioinfo/Master/Courses/BioinformaticsII/HMM_lab.html

NO CLASS - WORK ON SEMESTRAL PROJECT 24/4/2023

CLOSE-UP, DISCUSSION OF SEMESTRAL PROJECT 15/5/2023


Extra reference for pangenome construvtion:


Na zkousce si vylosujete jednu z nasledujicich otazek:

1) Genome organization in 2D and 3D, its relation to sequencing methods and analyses

2) Typical workflows for processing NGS data

3) Variant calling with NGS data

4) HiC library preparation and data analysis

5) Chip-seq library preparationa and data analysis

6) Genome assembly from NGS daa and deBruijn graphs

7) Pangenome creation and variation graphs

8) HMM in general, profile HMM and applications of HMMER


Na kazdou otazku si pripravte 10-15 min vysvetleni dane problematiky, napr. s vyuzitim materialu odkazovanych v osnovach kurzu, Stuart a HiC knizka je take v knihovne.