Daniel Vodák IV110 Projekt z bioinformatiky I ­ zadání Cílem mého projektu je vytvoření programu pro vyhledávání strukturních podobností mezi proteiny na vstupu a proteiny z databáze PDB. Z reprezentativní podmnožiny PDB databáze budou nejprve vybrány (procházením FASTA sekvencí) proteiny, které vyhoví požadavkům na sekvenční podobnost (vyhledem ke vstupu) v místech potenciálních kontaktů; u proteinů, které projdou tímto sítem, bude dále podrobně zkoumána strukturní podobnost (s proteiny na vstupu). Vstup: Data mapující kontakty v proteinech; formát řádků vstupu: ID POS1 POS2 S1 S2 kde: * ID je PDB identifikátorem proteinu, * S1 je první sekvencí účastnící se kontaktu, * S2 je druhou sekvencí účastnící se kontaktu, * POS1 je pozicí kontaktní sekvence S1, * POS2 je pozicí kontaktní sekvence S2. Výstup: Data mapující kontakty a sekundární strukturu v proteinech podobných proteinům na vstupu; formát řádků výstupu: ID POS1 POS2 S1 S2 *CARMSD *ARMSD *TA *NDS kde: * ID je PDB identifikátorem proteinu, * S1 je první sekvencí účastnící se kontaktu, * S2 je druhou sekvencí účastnící se kontaktu, * POS1 je pozicí kontaktní sekvence S1, * POS2 je pozicí kontaktní sekvence S2, * CARMSD je RMSD vzdálenost alfa uhlíků v páteřích kontaktních sekvencí (udaná v angstromech) * ARMSD je RMSD vzdálenost všech atomů kontaktních sekvencí (udaná v angstromech) * TA jsou torzní úhly v oblastech kontaktních sekvencí, * NDS jsou sekundární struktury v oblastech kontaktních sekvencí. - Prvky výstupu označené * jsou volitelné (viz přepínače). - Výpisy CARMSD, ARMSD, TA a 2NDS jsou uvozeny identifikátorem kontaktní sekvence (S1/S2). - Do výstupních výpisů jsou zahrnuty i vstupní proteiny (pro možnost porovnání torzních úhlů a sekundárních struktur); nalezené proteiny jsou porovnávány vždy s tím vstupním proteinem, který jim bezprostředně předchází ve výstupním výpisu. Nepovinné parametry: re1 re2 ­ regulární výrazy upřesňující/omezující nároky na podobnost se sekvencemi S1 a S2 vstupních proteinů (při neuvedených parametrech bude vyžadována dokonalá shoda kontaktních sekvencí) Volitelné přepínače: -G ­ výpis souhrnných statistik na zvláštních řádcích výstupu; -C ­ výpis hodnot CARMSD (případné c slouží jako horní limit pro výpis); -A ­ výpis hodnot ARMSD (případné a slouží jako horní limit pro výpis); -T ­ výpis hodnot torzních úhlů; -N ­ výpis sekundárních struktur; -Q ­ kompletní výpis.