Výpočetní metody v bioinformatice a systémové biologii

Týden 5 - Markovovy modely v bioinformatice - profilove HMM

Instalace lokalnich balicku (napr. "HMM"):

> install.packages("HMM")

System se Vas zepta, jestli chcete instalovat lokalne, odpovezte "y".

Ukol do hodiny:

Implementujte myslenky modelovani sekvence z http://a-little-book-of-r-for-bioinformatics.readthedocs.org/en/latest/src/chapter10.html pomoci balicku HMM.

- ukazte generovani sekvence Markovovym retezcem (lze taky implementovat pomoci HMM) a HMM

- oznackujte sekvenci mRNA lidskeho HOXA1 modelem z clanku

- vygenerujte 10000bp sekvence DNA se stridajicimi se oblastmi bohatymi na AT (10% CG na delce 100bp) a CG (10% AT na delce 50bp). Odhadnete parametry HMM modelu a pouzijte jej k oznackovani techto sekvenci.

Ukol (5 bodu)

Navrhnete jednouduchy HMM pro klasifikaci sekvenci tvoricich kvadruplexy v DNA. G4-kvadruplex spravidla tvori ctyri shluky 2-5 guaninu oddelenych mezerami 1-8 bp.

Model by mel rozpoznavat skupiny guaninu od smycek nebo mit podobu profiloveho HMM pro urcitou skupinu kvadruplexu.

1) Ve sekvenci chromosomu 5 arabidopsis naleznete potencialni kvadruplexy pomoci regularniho vyrazu. Napr. G{2,5}.{1-8}....G{2,5} (prikaz egrep -o) na obou vlaknech.

2) Seznamte se s balikem HMM pro R. Nastavte tranzicni matici modelu HMM v R tak, aby sekvence zacinali znakem G a zustavali ve skrytem stavu potrebny pocet krat (v prumeru).

3) Natrenujte model algoritmem Baum-Welch na mnozine kvadruplexu. Porovnejte puvodni hodnoty parametru s novymi.

4) Pomoci FB algoritmu vyradte 10% kvadruplexu, ktere jsou nejmene pravdepodobne generovany Vasim HMM.

5) Opakujte 2-3x kroky 3 a 4.

Odevzdejte kod v R, ktery demonstruje vsechny uvedene kroky a kratky komentar.