Bi5444 Analysis of sequencing data

Přírodovědecká fakulta
podzim 2020
Rozsah
2/1/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: z.
Vyučující
Mgr. Eva Budinská, Ph.D. (přednášející)
prof. MUDr. Mgr. Marek Mráz, Ph.D. (přednášející)
Ing. Stanislav Smatana (přednášející)
Mgr. Jan Oppelt, Ph.D. (přednášející)
Mgr. Václav Hejret (pomocník)
Garance
Mgr. Eva Budinská, Ph.D.
RECETOX – Přírodovědecká fakulta
Kontaktní osoba: Mgr. Eva Budinská, Ph.D.
Dodavatelské pracoviště: RECETOX – Přírodovědecká fakulta
Rozvrh
Út 12:00–13:50 C04/118, Út 14:00–14:50 C04/118
Předpoklady
Předpokládá se alespoň základní znalost práce v systému Linux, znalost molekulární biologie a základní znalosti programování. Znalost základů statistiky a práce v R je výhodou.
Omezení zápisu do předmětu
Předmět je otevřen studentům libovolného oboru.
Cíle předmětu
Cílem předmětu je studenty seznámit se základními principy a pokročilými metodami analýzy dat z experimentů sekvenování nové generace, zejména z platformy Illumina.
Výstupy z učení
Student na konci tohoto kurzu bude:
- znát nejnovější metody NGS (sekvenování nové a třetí generace), jejich využití a typy dat, který produkují.
- schopen rozlišit typ metody na základě dat.
- znát základní schéma analýzy dat.
- umět pracovat v prostředí Linux, Bash a R na úrovni dostatečné pro analýzu NGS dat.
- znát vybrané nástroje pro zpracování dat a aplikovat je na reálných datech.
- schopen provést analýzu NGS dat od kontroly kvality přes namapování až po detekci odlišně exprimovaných genů (u RNA-Seq), variant (CNV s SNP), skládaní genomu, atp.
Osnova
  • 1. Úvod k NGS technologiím: krátký úvod do biologie, sekvenování, historie, technologie NGS a jejich využití, extrakce vzorků, přípravy knihoven, základní slovník pojmů.
  • 2. Základní schéma analýzy dat: jak vypadají data, definice obecných kroků analýzy NGS dat, odlišnosti v závislosti od aplikace (např. variant calling vs RNA-Seq...)
  • 3. Úvod do SW pro analýzu dat: krátký úvod práce v Linuxu, Bash a R, formáty dat a rozdíly mezi nimi, on-line kurzy
  • 4. Kontrola kvality, zpracování dat: nástroje pro kontrolu kvality, Phred score, pre-processing dat, ukázka na příkladových datech.
  • 5. Mapování a post-processing: databáze referenčních genomů, anotace, rozdíly mezi nimi a použití, vysvětlení algoritmů pro mapování, rozdíly mezi spliced/non-spliced nástroji a jejich využití, kontrola kvality mapování, vizualizace mapování.
  • 6. Analýza RNAseq dat
  • 7. Analýza RNAseq dat
  • 8. Analýza dat cílené DNA sekvenace
  • 9. Analýza ChipSeq
  • 10. Metagenomika
  • 11. Statistika a vizualizace
  • 12. Detekce biomarkerů z omics experimentů
Literatura
    doporučená literatura
  • https://www.nature.com/nrg/series/nextgeneration/index.html
Výukové metody
Ve výuce bude použita teoretická příprava kombinovaná s praktickými cvičeními a ukázkami na vzorových datech.
Metody hodnocení
Studenti s ukončením předmětu zkouškou musí absolvovat závěrečný písemný test, který se bude skládat z 10 otázek hodnocených celkově 20 body. Pro úspěšné ukončení předmětu je nutné dosáhnout minimálně 15 bodů.
Vyučovací jazyk
Angličtina
Informace učitele
Kapacita předmětu je omezena na 22 studentů. Předmět je vyučován v angličině.
Capacity of the course is limited to 22 students. The course is taught in English.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích podzim 2015, podzim 2016, podzim 2017, podzim 2018, podzim 2019, podzim 2021.