Máte zapnutý náhled celé osnovy, zpět na běžné zobrazení.
Načítání a prohlížení osnovy může být v závislosti na množství obsahu pomalejší.
1. týden 13. 9. 2021
V hodině vyřešte Task B (data jsou v materiálech kurzu jako Yeast Genome Annotation).
Použijeme soubor všech proteinů Arabidopsis thaliana ATH1.fa (materialy kurzu).
Vytvořte jednoduché skripty (1 nebo několik navazujících) využívající regulární výrazy v Perlu spustitelné z příkazové řádky s nasledovnými výstupy:
1) Přeformátuje soubor tak, aby v hlavičce bylo pořadové číslo sekvence v souboru a jenom identifikátor oddělené podtržítkem (např. >2_At1g01020.1)
2) Tabulka s ID sekvence a její délkou oddělené tabulátorem
3) Všechny n-tice za sebou jdoucích aminokyselin (n-gramy), každá na zvláštní řádek
4) Pět nejčastěji se vyskytujících n-gramů s frekvencí
2. týden 12. 10. 2020
Úkol 2 (2 body)
1. Identifikujte protein v PDB, který patří do rodiny dalších alespoň 10 sekvencí (PDB, BLAST/PFAM, Clustal W/Omega)
2. Identifikujte ve vícenásobném zarovnáni těchto sekvencí korelované pozice a své výsledky porovnejte s výstupem programu CMAT
3. Vizualizujte 5 nejsilnějších korelací v programu Pymol (pozor na rozdíly v číslování pozic mezi PDB a CMAT!).
Odevzdejte do 19.10. do odevzdavarny predmetu vícenásobné zarovnáni sekvencí upravené programem BOXPLOT nebo TEXSHADE s vyznačenými korelovanými pozicemi, obrázek struktury s popisem pozic a bodovým popisem řešení. Jakykoliv vlastni kod pripojte na konec dokumentu. Z materiálu vytvořte jeden PDF soubor.
Na FI máte přístup k počítači biolinux.fi.muni.cz (virtuální stroj, přihlašování jako na jiné počítače na FI).
3.týden 19. 10. 2020
4. týden - 26. 10. 2020
5. týden 2. 11. 2020
Pro Vámi zvolený protein z PDB, prozkoumejte jeho zařazení v databázi CATH a SCOP. Vyberte strukturního souseda a zarovnejte struktury obou proteinů, např. v programu Pymol funkcí align(). Spočítejte RMSD (průměrná odchylka pozic atomů zarovnaných proteinů). RMSD spočítejte buď ze všech atomů nebo jen C-alfa uhlíků. Odevzdejte počty strukturních sousedů různých úrovní v CATH a SCOP (formou tabulky), obrázek zarovaných proteinů a hodnotu RMSD s údajem, ze kterých atomů byla spočítaná.
6. týden 9. 11. 2020
Zjistete vhodne parovani bazi v molekule RNA se sekvenci UGCACUGCAGAUGUUGAAUCUGUAGAGGAAAGGUCCAUUGCA
Pokud nebudete ulohu resit algoritmem "Nussinov", zakreslete strukturu do tabulky DP pro tento algoritmus a vyplnte skore
pro mista tabulky kudy "vede" prislusna struktura (s tim, ze za kazdy par je 1 bod, jinak 0).
7.týden 23. 11. 2020
Lesk (2012). Introduction to Genomics. Oxford University Press.
- ch 5 (p.167-176) Pattern matching - the basic tool of bioinformatics
8.týden 30. 11. 2020
ULOHA 5 (2body)
Sestrojte suffixove pole pro retezec "ACGATGCGATGCCGCATCTGATAGCATCGATGACATCGACGCGACTTTTAGGGGATAGAGGATCA", jakoz i podpurne pole "rank array" a "lcp (height) array". Odevzdejte jako tabulku s 3 sloupci cisel + zdr.kod. Popiste kroky ktere by mohl obsahovat vyhledavaci algoritmus zalozen na techto datovych strukturach pri vyhledavani vsech vyskytu podretezce "GAT" v zadanem retezci.
9.-11.týden 7.12 - 21. 12. 2020
Rodriguez-Ezpeleta et al. (2012). Bioinformatics for High-Throughput Sequencing. Springer
- ch6 De novo short-read assembly
- ch13 Analysis of metagenomic data
- ch14 High-throughput sequencing data analysis software: current state and future developments
Soubory pro MEGAN a DIAMOND na stroji hedron.fi.muni.cz:
/mnt/nas/software/megan/data #Soubory pro MEGAN s mapovanim na nr.faa (taxonomie nebo funkce)
/mnt/nas/biodata/nr.dmnd #Soubor vytvoren z neredundantnich sekvenci proteinu z NCBI nr.faa
12.týden - 4. 1. 2021
2 body Za pomoci vhodnych nastroju naleznete a analyzujte nukleotidovou sekvenci libovolneho LTR-retrotransposonu. Identifikujte minimalne LTR opakovani a sekvence kodujici gag a pol geny nebo jejich zname casti. Vytvorte GFF3 soubor popisujici hierarchickou strukturu tohoto LTR elementu a za pomoci aplikace AnnotationSketch z balika Genome Tools element vizualizujte. Odevzdavejte obrazek, GFF3 a kratky komentar.
1.týden - 18.9.2018
9. týden 29.11.2011
10. týden 21.12.2015
Semestralni rekapitulace 11. 1. 2021
OPAKOVÁNÍ - odpovědi na otázky za příslušnými kapitolami v knize Pevsner (2009) Bioinformatics and Functional Genomics
OBSAH KE STUDIU
Jonathan Pevsner (2009). Bioinformatics and Functional Genomics, 2nd edition. Wiley-Blackwell, New York, 951pp.47-98 PAIRWISE SEQUENCE ALIGNMENT101-138 BLAST141-> ADVANCED DATABASE SEARCHING 142-155 Specialized BLAST sites 161-169 BLAST-like alignment tool to search genomic DNA rapidly279-> BIOINFORMATIC APPROACHES TO RNA 279-288 Introduction, non-coding RNA421-460 PROTEIN STRUCTURE517-565 COMPLETED GENOMES 544-547 DNA sequencing technologies 547- The process of genome sequencing639-> THE EUKARYOTIC CHROMOSOME 643-650 General features of eukaryotic genomes and chromosome 650-661 Repetitive DNA content of eukaryotic chromosomes791-838 HUMAN GENOME
43/P2-1 – 2-8
135/D4-3
Proč u programu BLAST dochází ve většině případů ke kompromisu mezi citlivostí a rychlostí?
Znáte způsob jak najít geny nebo jiné prvky genomu, u kterých je známá souvislost s nějakou nemocí? Jak by jste postupovali v konkrétním případě (např. rakovina konečníku)? 42/P2-3
Jaké typy repetitivních elementů znáte?
Co všechno je v sekvenci DNA zakódováno?
324/P8-3
324/P8-5
325/P8-7
Jaká je výhoda oligonukleotidových čipů v. cDNA:?
372/P9-5
509/P12-6 – 12-8
P13
P16