Interaktivní osnova

IV108 Bioinformatika II

Máte zapnutý náhled celé osnovy, zpět na běžné zobrazení.

Načítání a prohlížení osnovy může být v závislosti na množství obsahu pomalejší.

Info

Prednášející: Dr. Matej Lexa, FI C506.
Konzultační hodiny: Čt 10:00 - 10:50, nebo dle domluvy
Rozvrh: (podzim 2020) (Po 14:00-15:50, MS Teams)

Kurz vyžaduje základní znalosti z bioinformatiky, elementární znalosti programování v libovolném jazyce (nejlépe něco jako kombinace bash/(Perl)/R/Python pro flexibilní skriptování/programování, uplatní se i C/C++/Java, poslední dobou začíná být aktuální Julia) a uživatelskou znalost OS UNIX.

Jedná se o předmět v oblasti aplikované informatiky, který si klade za cíl umožnit studentům pochopit a navrhovat vybrané výpočetní postupy pro práci s biologickými sekvencemi a strukturami.

HLAVNÍ STUDIJNÍ LITERATURA

1) Jonathan, Pevsner (2009). Bioinformatics and Functional Genomics (prezencne knihovna FI)

DOPLŇKOVÁ LITERATURA

1) Deonier, Tavare, Waterman (2005). Computational genome analysis: an introduction (prezenčně knihovna FI nebo dokumentovy server)

Rozsah pro kurz:
37-45, 48-98 Words, word distributions and occurences

2) Orengo, Jones, Thornton (2003). Bioinformatics: genes, proteins and computers (prezenčně knihovna FI

Rozsah pro kurz

(29-64 Sequence comparison methods)

81-150 Protein structure

3) Dan Gusfield (1997). Algorithms on strings, trees and sequences.

395-398, 437-442 CH16: Maps, mapping, sequencing and superstrings

PRAKTICKÁ PŘÍRUČKA

Gibas and Jambeck (2001) Developing Bioinformatics Skills

http://www.bio-nica.info/biblioteca/Gibas2001DevelopingBioinformatics.pdf

ZÁKLADY BIOINFORMATIKY, GENOMIKY A PROTEOMIKY

Obzvlášť pokud jste neabsolvovali kurz IV107 můžou se Vám hodit některé kapitoly z učebnice tohoto předmětu:

1) Zvelebil, Baum (2008). Understanding bioinformatics (v knihovně).

2) Nosek et al. (2013). Genomika (v knihovně FI).

---

Určené pasáže povinné a doplnkové literatury, prezentace z přednášek (PDF a PPT), obsah cvičení a materiály označené hvězdičkou jsou povinnými materiály ke zkoušce.

1. týden 13. 9. 2021

Přejít

Kapitola obsahuje:

PDF

Studijní text

Web

Učitel doporučuje studovat od 13. 9. 2021 do 19. 9. 2021.

2. týden 12. 10. 2020

Přejít

Kapitola obsahuje:

PDF

Studijní text

Web

Učitel doporučuje studovat od 13. 10. 2020 do 19. 10. 2020.

3.týden 19. 10. 2020

Přejít

Kapitola obsahuje:

Studijní materiály

Web

Učitel doporučuje studovat od 29. 10. 2019 do 4. 11. 2019.

4. týden - 26. 10. 2020

Přejít

Kapitola obsahuje:

PDF

Web

Učitel doporučuje studovat od 20. 10. 2020 do 26. 10. 2020.

5. týden 2. 11. 2020

Přejít

Kapitola obsahuje:

PDF

Studijní text

Web

Učitel doporučuje studovat od 8. 11. 2018 do 14. 11. 2018.

6. týden 9. 11. 2020

Přejít

Kapitola obsahuje:

Studijní text

Web

Učitel doporučuje studovat od 20. 11. 2018 do 26. 11. 2018.

7.týden 23. 11. 2020

Přejít

Kapitola obsahuje:

Studijní text

Web

Učitel doporučuje studovat od 12. 11. 2019 do 19. 11. 2019.

8.týden 30. 11. 2020

Přejít

Kapitola obsahuje:

Studijní materiály

Studijní text

Web

9.-11.týden 7.12 - 21. 12. 2020

Přejít

Kapitola obsahuje:

PDF

Studijní materiály

Studijní text

Web

Učitel doporučuje studovat od 9. 12. 2020 do 15. 12. 2020.

12.týden - 4. 1. 2021

Přejít

Kapitola obsahuje:

PDF

Studijní materiály

Studijní text

Web

Učitel doporučuje studovat od 4. 1. 2021 do 10. 1. 2021.

1.týden - 18.9.2018

9. týden 29.11.2011

Učitel doporučuje studovat od 10. 12. 2019 do 16. 12. 2019.

10. týden 21.12.2015

Učitel doporučuje studovat od 18. 12. 2019 do 24. 12. 2019.

Semestralni rekapitulace 11. 1. 2021

Přejít

Kapitola obsahuje:

Studijní text

Učitel doporučuje studovat od 27. 12. 2018 do 3. 1. 2019.

1. týden 13. 9. 2021

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/IV108-01-2020.pdf

Shannon (1948)

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/entropy-12-00034.pdf

Vzájemna informace (Wikipedie)

Perl

Bash and Perl one-liners

V hodině vyřešte Task B (data jsou v materiálech kurzu jako Yeast Genome Annotation).

Perl one-liners (Intro)

Perl one-liners II

Perl one-liners III

Biopieces

Weblogo 3 *

Úkol, termín 30.9.2019 (pro rok 2020 zatim neaktualni!)

Použijeme soubor všech proteinů Arabidopsis thaliana ATH1.fa (materialy kurzu).

Vytvořte jednoduché skripty (1 nebo několik navazujících) využívající regulární výrazy v Perlu spustitelné z příkazové řádky s nasledovnými výstupy:

1) Přeformátuje soubor tak, aby v hlavičce bylo pořadové číslo sekvence v souboru a jenom identifikátor oddělené podtržítkem (např. >2_At1g01020.1)

2) Tabulka s ID sekvence a její délkou oddělené tabulátorem

3) Všechny n-tice za sebou jdoucích aminokyselin (n-gramy), každá na zvláštní řádek

4) Pět nejčastěji se vyskytujících n-gramů s frekvencí

2. týden 12. 10. 2020

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/IV108-02-2019.pdf

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/Xu_et_al_2009_cma.pdf

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/E1293.full.pdf

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/1110.5091.pdf

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/journal.pcbi.1000923.pdf

visualCMAT

Úkol 2 (2 body)

1. Identifikujte protein v PDB, který patří do rodiny dalších alespoň 10 sekvencí (PDB, BLAST/PFAM, Clustal W/Omega)

2. Identifikujte ve vícenásobném zarovnáni těchto sekvencí korelované pozice a své výsledky porovnejte s výstupem programu CMAT

3. Vizualizujte 5 nejsilnějších korelací v programu Pymol (pozor na rozdíly v číslování pozic mezi PDB a CMAT!).

Odevzdejte do 19.10. do odevzdavarny predmetu vícenásobné zarovnáni sekvencí upravené programem BOXPLOT nebo TEXSHADE s vyznačenými korelovanými pozicemi, obrázek struktury s popisem pozic a bodovým popisem řešení. Jakykoliv vlastni kod pripojte na konec dokumentu. Z materiálu vytvořte jeden PDF soubor.

EBI - Protein Web Services

Na FI máte přístup k počítači biolinux.fi.muni.cz (virtuální stroj, přihlašování jako na jiné počítače na FI).

BioLinux 8

3.týden 19. 10. 2020

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/IV108-03-lab.txt

Pymol User Guide

Practical Pymol for Beginners

Pymol reference card

Pymol Wiki

Pymol examples

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/pymol.tgz

Vytvareni peptidu v Pymolu

Pymol Movie School

4. týden - 26. 10. 2020

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/IV108-03-2012.pdf

Rosetta: The Origami of Protein Folding*

Bystroff and Baker: Sequence-Structure Motifs

Bystroff and Shao: Modelling Protein Folding*

Peptide and Protein Structure Tutorial*

Structure Prediction*

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/bok_3A978-1-59745-574-9.pdf

SWISS MODEL

Quark

AlphaFold od Google DeepMind v CASP13 (2018)

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/PIIS2405471219300766.pdf

5. týden 2. 11. 2020

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/IV108-04-2009.pdf

Protein contacts and folding

Structural alignment*

PDBeFold (nahrazuje DALI)

FlexProt

Protein cores and contact analysis

ÚKOL3 (2 body, 16.11.2020):
Pro Vámi zvolený protein z PDB, prozkoumejte jeho zařazení v databázi CATH a SCOP. Vyberte strukturního souseda a zarovnejte struktury obou proteinů, např. v programu Pymol funkcí align(). Spočítejte RMSD (průměrná odchylka pozic atomů zarovnaných proteinů). RMSD spočítejte buď ze všech atomů nebo jen C-alfa uhlíků. Odevzdejte počty strukturních sousedů různých úrovní v CATH a SCOP (formou tabulky), obrázek zarovaných proteinů a hodnotu RMSD s údajem, ze kterých atomů byla spočítaná.

6. týden 9. 11. 2020

Prednaska 6b

Prednaska 6a

Cviceni

RNAfold nucleic acid folding server

Ribozymes

Zuker mfold paper

Nussinov Algorithm in Perl

Nussinov algorithm - implementation in Python

Nussinov (tool)

Oligo melting temperature*

SantaLucia: nearest neighbour method

More nearest neighbours

DNA computing

More DNA computing

DNA computers

DNA computing perspectives

Zjistete vhodne parovani bazi v molekule RNA se sekvenci UGCACUGCAGAUGUUGAAUCUGUAGAGGAAAGGUCCAUUGCA

Pokud nebudete ulohu resit algoritmem "Nussinov", zakreslete strukturu do tabulky DP pro tento algoritmus a vyplnte skore

pro mista tabulky kudy "vede" prislusna struktura (s tim, ze za kazdy par je 1 bod, jinak 0).

7.týden 23. 11. 2020

Lesk (2012). Introduction to Genomics. Oxford University Press.

- ch 5 (p.167-176) Pattern matching - the basic tool of bioinformatics

Fasta and Blast*

The scientist: BLAST

Hot papers in bioinformatics

Stephen F. Altshul on Blast

Altschul et al. (1990): BLAST

Altschul et al. (1997). Gapped BLAST and PSI-BLAST

Pattern Hunter

8.týden 30. 11. 2020

Prehled algoritmu na retezcich

BLAT

Arabidopsis Genome Browser with BLAT

URGI Web BLAT

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/cviceni_blat.txt

PSST

ShUStrings

keeSeek (neverwords, nullomers)

ULOHA 5 (2body)

Sestrojte suffixove pole pro retezec "ACGATGCGATGCCGCATCTGATAGCATCGATGACATCGACGCGACTTTTAGGGGATAGAGGATCA", jakoz i podpurne pole "rank array" a "lcp (height) array". Odevzdejte jako tabulku s 3 sloupci cisel + zdr.kod. Popiste kroky ktere by mohl obsahovat vyhledavaci algoritmus zalozen na techto datovych strukturach pri vyhledavani vsech vyskytu podretezce "GAT" v zadanem retezci.

9.-11.týden 7.12 - 21. 12. 2020

Rodriguez-Ezpeleta et al. (2012). Bioinformatics for High-Throughput Sequencing. Springer

- ch6 De novo short-read assembly

- ch13 Analysis of metagenomic data

- ch14 High-throughput sequencing data analysis software: current state and future developments

Tabulka sekvenačních technologií

Slidy k 9.přednášce

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/lecture_09b.pdf

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/cviceni_metagenomika.txt

Soubory pro MEGAN a DIAMOND na stroji hedron.fi.muni.cz:

/mnt/nas/software/megan/data #Soubory pro MEGAN s mapovanim na nr.faa (taxonomie nebo funkce)

/mnt/nas/biodata/nr.dmnd #Soubor vytvoren z neredundantnich sekvenci proteinu z NCBI nr.faa

MEGAN-LR

MOTHUR

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/cviceni_ngs.txt

Whole genome resequencing with SOLiD

Next-generation sequencing overview

Next-generation sequencing applications

Illumina sequencing technology

Illumina sequencing technology (animation)

Helicos homepage

Helicos sequencing technology

Oxford Nanopore Technology

Complete Genomics cPAL sequencing paper

SAMtools_primer

Bowtie tutorial

NGS Data Analysis Workflow

miRNA and siRNA

12.týden - 4. 1. 2021

Retroviruses

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/genometools.pdf

Genometools Homepage

GypsyDB

Chyba: Odkazovaný objekt neexistuje nebo nemáte právo jej číst.

https://is.muni.cz/el/fi/podzim2020/IV108/um/ltrdb.fa

2 body Za pomoci vhodnych nastroju naleznete a analyzujte nukleotidovou sekvenci libovolneho LTR-retrotransposonu. Identifikujte minimalne LTR opakovani a sekvence kodujici gag a pol geny nebo jejich zname casti. Vytvorte GFF3 soubor popisujici hierarchickou strukturu tohoto LTR elementu a za pomoci aplikace AnnotationSketch z balika Genome Tools element vizualizujte. Odevzdavejte obrazek, GFF3 a kratky komentar.

EMBOSS

1.týden - 18.9.2018

Obsah není zveřejněný.

9. týden 29.11.2011

Obsah není zveřejněný.

10. týden 21.12.2015

Obsah není zveřejněný.

Semestralni rekapitulace 11. 1. 2021

OPAKOVÁNÍ - odpovědi na otázky za příslušnými kapitolami v knize Pevsner (2009) Bioinformatics and Functional Genomics

OBSAH KE STUDIU

Jonathan Pevsner (2009). Bioinformatics and Functional Genomics, 2nd edition. Wiley-Blackwell, New York, 951pp.47-98 PAIRWISE SEQUENCE ALIGNMENT101-138 BLAST141-> ADVANCED DATABASE SEARCHING
  142-155 Specialized BLAST sites
  161-169 BLAST-like alignment tool to search genomic DNA rapidly279-> BIOINFORMATIC APPROACHES TO RNA
  279-288 Introduction, non-coding RNA421-460 PROTEIN STRUCTURE517-565 COMPLETED GENOMES
  544-547 DNA sequencing technologies
  547- The process of genome sequencing639-> THE EUKARYOTIC CHROMOSOME 
  643-650 General features of eukaryotic genomes and chromosome
  650-661 Repetitive DNA content of eukaryotic chromosomes791-838 HUMAN GENOME

43/P2-1 – 2-8

135/D4-3

Proč u programu BLAST dochází ve většině případů ke kompromisu mezi citlivostí a rychlostí?

Znáte způsob jak najít geny nebo jiné prvky genomu, u kterých je známá souvislost s nějakou nemocí? Jak by jste postupovali v konkrétním případě (např. rakovina konečníku)? 42/P2-3

Jaké typy repetitivních elementů znáte?

Co všechno je v sekvenci DNA zakódováno?

324/P8-3

324/P8-5

325/P8-7

Jaká je výhoda oligonukleotidových čipů v. cDNA:?

372/P9-5

509/P12-6 – 12-8

P13

P16

Běžné zobrazení

IV108 Bioinformatika II
- Nyní studovat
  
  1. týden 13. 9. 2021
- Nyní studovat
  
  2. týden 12. 10. 2020
- Nyní studovat
  
  3.týden 19. 10. 2020
- Nyní studovat
  
  4. týden - 26. 10. 2020
- Nyní studovat
  
  5. týden 2. 11. 2020
- Nyní studovat
  
  6. týden 9. 11. 2020
- Nyní studovat
  
  7.týden 23. 11. 2020
- Nyní studovat
  
  8.týden 30. 11. 2020
- Nyní studovat
  
  9.-11.týden 7.12 - 21. 12. 2020
- Nyní studovat
  
  12.týden - 4. 1. 2021
- Nyní studovat
  
  1.týden - 18.9.2018
- Nyní studovat
  
  9. týden 29.11.2011
- Nyní studovat
  
  10. týden 21.12.2015
- Nyní studovat
  
  Semestralni rekapitulace 11. 1. 2021

Operace

Běžné zobrazení