Bi5444 Analysis of sequencing data

Přírodovědecká fakulta
podzim 2019
Rozsah
2/1/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: z.
Vyučující
Mgr. Eva Budinská, Ph.D. (přednášející)
prof. MUDr. Mgr. Marek Mráz, Ph.D. (přednášející)
Mgr. Jan Oppelt, Ph.D. (přednášející)
Garance
Mgr. Eva Budinská, Ph.D.
RECETOX – Přírodovědecká fakulta
Kontaktní osoba: Mgr. Eva Budinská, Ph.D.
Dodavatelské pracoviště: RECETOX – Přírodovědecká fakulta
Rozvrh
Út 9:00–10:50 C04/118, Út 11:00–11:50 C04/118
Předpoklady
Předpokládá se alespoň základní znalost práce v systému Linux, znalost molekulární biologie a základní znalosti programování. Znalost základů statistiky a práce v R je výhodou.
Omezení zápisu do předmětu
Předmět je otevřen studentům libovolného oboru.
Cíle předmětu
Cílem předmětu je studenty seznámit se základními principy a pokročilými metodami analýzy dat z experimentů sekvenování nové generace, zejména z platformy Illumina.
Výstupy z učení
Student na konci tohoto kurzu bude:
- znát nejnovější metody NGS (sekvenování nové a třetí generace), jejich využití a typy dat, který produkují.
- schopen rozlišit typ metody na základě dat.
- znát základní schéma analýzy dat.
- umět pracovat v prostředí Linux, Bash a R na úrovni dostatečné pro analýzu NGS dat.
- znát vybrané nástroje pro zpracování dat a aplikovat je na reálných datech.
- schopen provést analýzu NGS dat od kontroly kvality přes namapování až po detekci odlišně exprimovaných genů (u RNA-Seq), variant (CNV s SNP), skládaní genomu, atp.
Osnova
  • 1. Úvod k NGS technologiím: krátký úvod do biologie, sekvenování, historie, technologie NGS a jejich využití, extrakce vzorků, přípravy knihoven, základní slovník pojmů.
  • 2. Základní schéma analýzy dat: jak vypadají data, definice obecných kroků analýzy NGS dat, odlišnosti v závislosti od aplikace (např. variant calling vs RNA-Seq...)
  • 3. Úvod do SW pro analýzu dat: krátký úvod práce v Linuxu, Bash a R, formáty dat a rozdíly mezi nimi, on-line kurzy
  • 4. Kontrola kvality, zpracování dat: nástroje pro kontrolu kvality, Phred score, pre-processing dat, ukázka na příkladových datech.
  • 5. Mapování a post-processing: databáze referenčních genomů, anotace, rozdíly mezi nimi a použití, vysvětlení algoritmů pro mapování, rozdíly mezi spliced/non-spliced nástroji a jejich využití, kontrola kvality mapování, vizualizace mapování.
  • 6. Analýza RNAseq dat
  • 7. Analýza RNAseq dat
  • 8. Analýza dat cílené DNA sekvenace
  • 9. Analýza ChipSeq
  • 10. Metagenomika
  • 11. Statistika a vizualizace
  • 12. Detekce biomarkerů z omics experimentů
Literatura
    doporučená literatura
  • https://www.nature.com/nrg/series/nextgeneration/index.html
Výukové metody
Ve výuce bude použita teoretická příprava kombinovaná s praktickými cvičeními a ukázkami na vzorových datech.
Metody hodnocení
Studenti s ukončením předmětu zkouškou musí absolvovat závěrečný písemný test, který se bude skládat z 10 otázek hodnocených celkově 20 body. Pro úspěšné ukončení předmětu je nutné dosáhnout minimálně 15 bodů.
Vyučovací jazyk
Angličtina
Informace učitele
Kapacita předmětu je omezena na 22 studentů. Předmět je vyučován v angličině.
Capacity of the course is limited to 22 students. The course is taught in English.
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích podzim 2015, podzim 2016, podzim 2017, podzim 2018, podzim 2020, podzim 2021.