Projekt z bioinformatiky I

Analýza genomu (sekvence DNA a anotací)

ZDROJ

http://fi.muni.cz/~lexa/journal.pone.0137893.pdf

Automatizovaně vyhledejte všechny geny, které mají překrývající se, nebo těsně sousedící (do 5000bp) transkripty dle dat v RefSeq hg38, chromosom 1. V kategoriích inkluze, 5' překryv, 3'-překryv, 5'-sousedství a 3' sousedství překryvy/společné sousedství zjištěte 100 nejvyssich frekvenci vyskytu vzoru typu N1N2N3.{0-7}N1N2N3 / N1N2N3.{0-7}N1'N2'N3', N1N2N3N4N5N6 pro všechny kombinace N z {A,C,G,T}. Dbejte na efektivnost výpočtu. 3 nejrychlejší programy, které si vystačí s cca 10GB RAM budou odměněny odpuštěním povinnosti napsat písemnou zprávu.