IV108 Bioinformatika II
doc. Ing. Matej Lexa, Ph.D.
IV108 Bioinformatika II
Info
Období
podzim 2020

Prednášející: Dr. Matej Lexa, FI C506.
Konzultační hodiny: Čt 10:00 - 10:50, nebo dle domluvy
Rozvrh: (podzim 2020)  (Po 14:00-15:50, MS Teams)

Kurz vyžaduje základní znalosti z bioinformatiky, elementární znalosti programování v libovolném jazyce (nejlépe něco jako kombinace bash/(Perl)/R/Python pro flexibilní skriptování/programování, uplatní se i C/C++/Java, poslední dobou začíná být aktuální Julia) a uživatelskou znalost OS UNIX.

Jedná se o předmět v oblasti aplikované informatiky, který si klade za cíl umožnit studentům pochopit a navrhovat vybrané výpočetní postupy pro práci s biologickými sekvencemi a strukturami.

HLAVNÍ STUDIJNÍ LITERATURA

1) Jonathan, Pevsner (2009). Bioinformatics and Functional Genomics (prezencne knihovna FI)

DOPLŇKOVÁ LITERATURA

1) Deonier, Tavare, Waterman (2005). Computational genome analysis: an introduction (prezenčně knihovna FI nebo dokumentovy server)

Rozsah pro kurz:
37-45, 48-98 Words, word distributions and occurences

2) Orengo, Jones, Thornton (2003). Bioinformatics: genes, proteins and computers (prezenčně knihovna FI

Rozsah pro kurz

(29-64 Sequence comparison methods)

81-150 Protein structure

3) Dan Gusfield (1997). Algorithms on strings, trees and sequences.

395-398, 437-442 CH16: Maps, mapping, sequencing and superstrings

PRAKTICKÁ PŘÍRUČKA

Gibas and Jambeck (2001) Developing Bioinformatics Skills

ZÁKLADY BIOINFORMATIKY, GENOMIKY A PROTEOMIKY

Obzvlášť pokud jste neabsolvovali kurz IV107 můžou se Vám hodit některé kapitoly z učebnice tohoto předmětu:

1) Zvelebil, Baum (2008). Understanding bioinformatics (v knihovně).

2) Nosek et al. (2013). Genomika (v knihovně FI).

---

Určené pasáže povinné a doplnkové literatury, prezentace z přednášek (PDF a PPT), obsah cvičení a materiály označené hvězdičkou jsou povinnými materiály ke zkoušce.

Kapitola obsahuje:
2
PDF
1
Studijní text
9
Web
Učitel doporučuje studovat od 13. 9. 2021 do 19. 9. 2021.
Kapitola obsahuje:
5
PDF
1
Studijní text
3
Web
Učitel doporučuje studovat od 13. 10. 2020 do 19. 10. 2020.
Kapitola obsahuje:
2
Studijní materiály
7
Web
Učitel doporučuje studovat od 29. 10. 2019 do 4. 11. 2019.
Kapitola obsahuje:
3
PDF
8
Web
Učitel doporučuje studovat od 20. 10. 2020 do 26. 10. 2020.
Kapitola obsahuje:
1
PDF
1
Studijní text
5
Web
Učitel doporučuje studovat od 8. 11. 2018 do 14. 11. 2018.
Kapitola obsahuje:
1
Studijní text
16
Web
Učitel doporučuje studovat od 20. 11. 2018 do 26. 11. 2018.
Kapitola obsahuje:
1
Studijní text
7
Web
Učitel doporučuje studovat od 12. 11. 2019 do 19. 11. 2019.
Kapitola obsahuje:
1
Studijní materiály
1
Studijní text
7
Web
Kapitola obsahuje:
1
PDF
2
Studijní materiály
1
Studijní text
17
Web
Učitel doporučuje studovat od 9. 12. 2020 do 15. 12. 2020.
Kapitola obsahuje:
1
PDF
1
Studijní materiály
1
Studijní text
4
Web
Učitel doporučuje studovat od 4. 1. 2021 do 10. 1. 2021.
1.týden - 18.9.2018
9. týden 29.11.2011
Učitel doporučuje studovat od 10. 12. 2019 do 16. 12. 2019.
10. týden 21.12.2015
Učitel doporučuje studovat od 18. 12. 2019 do 24. 12. 2019.
Kapitola obsahuje:
1
Studijní text
Učitel doporučuje studovat od 27. 12. 2018 do 3. 1. 2019.

1. týden 13. 9. 2021

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/IV108-01-2020.pdf
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/entropy-12-00034.pdf

V hodině vyřešte Task B (data jsou v materiálech kurzu jako Yeast Genome Annotation).

Úkol, termín 30.9.2019 (pro rok 2020 zatim neaktualni!)

Použijeme soubor všech proteinů Arabidopsis thaliana ATH1.fa (materialy kurzu).

Vytvořte jednoduché skripty (1 nebo několik navazujících) využívající regulární výrazy v Perlu spustitelné z příkazové řádky s nasledovnými výstupy:

1) Přeformátuje soubor tak, aby v hlavičce bylo pořadové číslo sekvence v souboru a jenom identifikátor oddělené podtržítkem (např. >2_At1g01020.1)

2) Tabulka s ID sekvence a její délkou oddělené tabulátorem

3) Všechny n-tice za sebou jdoucích aminokyselin (n-gramy), každá na zvláštní řádek

4) Pět nejčastěji se vyskytujících n-gramů s frekvencí

2. týden 12. 10. 2020

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/IV108-02-2019.pdf

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/Xu_et_al_2009_cma.pdf
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/E1293.full.pdf
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/1110.5091.pdf

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/journal.pcbi.1000923.pdf

Úkol 2 (2 body)

1. Identifikujte protein v PDB, který patří do rodiny dalších alespoň 10 sekvencí (PDB, BLAST/PFAM, Clustal W/Omega)

2. Identifikujte ve vícenásobném zarovnáni těchto sekvencí korelované pozice a své výsledky porovnejte s výstupem programu CMAT

3. Vizualizujte 5 nejsilnějších korelací v programu Pymol (pozor na rozdíly v číslování pozic mezi PDB a CMAT!).

Odevzdejte do 19.10. do odevzdavarny predmetu vícenásobné zarovnáni sekvencí upravené programem BOXPLOT nebo TEXSHADE s vyznačenými korelovanými pozicemi, obrázek struktury s popisem pozic a bodovým popisem řešení.  Jakykoliv vlastni kod pripojte na konec dokumentu. Z materiálu vytvořte jeden PDF soubor.

Na FI máte přístup k počítači biolinux.fi.muni.cz (virtuální stroj, přihlašování jako na jiné počítače na FI).

3.týden 19. 10. 2020

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/IV108-03-lab.txt
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/pymol.tgz

4. týden - 26. 10. 2020

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/IV108-03-2012.pdf
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/bok_3A978-1-59745-574-9.pdf

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/PIIS2405471219300766.pdf

5. týden 2. 11. 2020

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/IV108-04-2009.pdf
ÚKOL3 (2 body, 16.11.2020):
Pro Vámi zvolený protein z PDB, prozkoumejte jeho zařazení v databázi CATH a SCOP. Vyberte strukturního souseda a zarovnejte struktury obou proteinů, např. v programu Pymol funkcí align(). Spočítejte RMSD (průměrná odchylka pozic atomů zarovnaných proteinů). RMSD spočítejte buď ze všech atomů nebo jen C-alfa uhlíků. Odevzdejte počty strukturních sousedů různých úrovní v CATH a SCOP (formou tabulky), obrázek zarovaných proteinů a hodnotu RMSD s údajem, ze kterých atomů byla spočítaná.

6. týden 9. 11. 2020

Zjistete vhodne parovani bazi v molekule RNA se sekvenci UGCACUGCAGAUGUUGAAUCUGUAGAGGAAAGGUCCAUUGCA

Pokud nebudete ulohu resit algoritmem "Nussinov", zakreslete strukturu do tabulky DP pro tento algoritmus a vyplnte skore

pro mista tabulky kudy "vede" prislusna struktura (s tim, ze za kazdy par je 1 bod, jinak 0).

7.týden 23. 11. 2020

Lesk (2012). Introduction to Genomics. Oxford University Press.

- ch 5 (p.167-176) Pattern matching - the basic tool of bioinformatics

8.týden 30. 11. 2020

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/cviceni_blat.txt

ULOHA 5 (2body)

Sestrojte suffixove pole pro retezec "ACGATGCGATGCCGCATCTGATAGCATCGATGACATCGACGCGACTTTTAGGGGATAGAGGATCA", jakoz i podpurne pole "rank array" a "lcp (height) array". Odevzdejte jako tabulku s 3 sloupci cisel + zdr.kod. Popiste kroky ktere by mohl obsahovat vyhledavaci algoritmus zalozen na techto datovych strukturach pri vyhledavani vsech vyskytu podretezce "GAT" v zadanem retezci.

9.-11.týden 7.12 - 21. 12. 2020

Rodriguez-Ezpeleta et al. (2012). Bioinformatics for High-Throughput Sequencing. Springer

- ch6 De novo short-read assembly

- ch13 Analysis of metagenomic data

- ch14 High-throughput sequencing data analysis software: current state and future developments


Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/lecture_09b.pdf
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/cviceni_metagenomika.txt

Soubory pro MEGAN a DIAMOND na stroji hedron.fi.muni.cz:

/mnt/nas/software/megan/data #Soubory pro MEGAN s mapovanim na nr.faa (taxonomie nebo funkce)

/mnt/nas/biodata/nr.dmnd #Soubor vytvoren z neredundantnich sekvenci proteinu z NCBI nr.faa

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/cviceni_ngs.txt

12.týden - 4. 1. 2021

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/genometools.pdf
Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.
https://is.muni.cz/el/fi/podzim2020/IV108/um/ltrdb.fa

2 body Za pomoci vhodnych nastroju naleznete a analyzujte nukleotidovou sekvenci libovolneho LTR-retrotransposonu. Identifikujte minimalne LTR opakovani a sekvence kodujici gag a pol geny nebo jejich zname casti. Vytvorte GFF3 soubor popisujici hierarchickou strukturu tohoto LTR elementu a za pomoci aplikace AnnotationSketch z balika Genome Tools element vizualizujte. Odevzdavejte obrazek, GFF3 a kratky komentar.


1.týden - 18.9.2018

1.týden - 18.9.2018

Obsah není zveřejněný.
9. týden 29.11.2011

9. týden 29.11.2011

Obsah není zveřejněný.
10. týden 21.12.2015

10. týden 21.12.2015

Obsah není zveřejněný.

Semestralni rekapitulace 11. 1. 2021

 OPAKOVÁNÍ - odpovědi na otázky za příslušnými kapitolami  v knize Pevsner (2009) Bioinformatics and Functional Genomics

OBSAH KE STUDIU

Jonathan Pevsner (2009). Bioinformatics and Functional Genomics, 2nd edition. Wiley-Blackwell, New York, 951pp.47-98 PAIRWISE SEQUENCE ALIGNMENT101-138 BLAST141-> ADVANCED DATABASE SEARCHING
  142-155 Specialized BLAST sites
  161-169 BLAST-like alignment tool to search genomic DNA rapidly279-> BIOINFORMATIC APPROACHES TO RNA
  279-288 Introduction, non-coding RNA421-460 PROTEIN STRUCTURE517-565 COMPLETED GENOMES
  544-547 DNA sequencing technologies
  547- The process of genome sequencing639-> THE EUKARYOTIC CHROMOSOME 
  643-650 General features of eukaryotic genomes and chromosome
  650-661 Repetitive DNA content of eukaryotic chromosomes791-838 HUMAN GENOME

43/P2-1 – 2-8

135/D4-3

Proč u programu BLAST dochází ve většině případů ke kompromisu mezi citlivostí a rychlostí?

Znáte způsob jak najít geny nebo jiné prvky genomu, u kterých je známá souvislost s nějakou nemocí? Jak by jste postupovali v konkrétním případě (např. rakovina konečníku)? 42/P2-3

Jaké typy repetitivních elementů znáte?

Co všechno je v sekvenci DNA zakódováno?

324/P8-3

324/P8-5

325/P8-7

Jaká je výhoda oligonukleotidových čipů v. cDNA:?

372/P9-5

509/P12-6 – 12-8

P13

P16