Datové formáty pro zápis molekul 27.10.2020 2 Model molekuly pro počítačové zpracování Atomy: Body v prostoru U každého uveden chemický symbol prvku Vazby: Dvojice atomů, které jsou vázány Násobnost vazby 27.10.2020 3 Model molekuly pro počítačové zpracování 2D struktura 3D struktura Datové formáty 3D formáty: • SDF/MOL formát • PDB formát • mmCIF formát 2D formáty: • SMILES, SMIRKS, SSMARTS • InChi, InChiKey • CHUCKLES, CHORTLES, and CHARTS 27.10.2020 5 Zápis molekuly v počítači - MOL a SDF soubor organické molekuly První tři čísla jsou x, y a z souřadnice atomů Počet vazeb První atom je uhlíkPočet atomů První vazba je mezi atomy 1 a 2 a jde o dvojnou vazbu Cvičení Najděte a stáhněte MOL soubor s 3D strukturou cyklohexanu. Prohlédněte si tento soubor. Cvičení Najděte a stáhněte MOL soubor s 3D strukturou aspirinu v Pubchem a Ligand Expo. Prohlédněte si soubory. Zápis molekuly v počítači – PDB soubor – proteiny (čitelný, ale od roku 2016 nahrazen CIF/mmCIF formátem) ATOM 1 N CYS A 1 22.585 13.716 37.715 1.00 10.00 N ATOM 2 CA CYS A 1 22.372 13.468 39.168 1.00 10.00 C ATOM 3 C CYS A 1 21.806 14.686 39.893 1.00 10.00 C ATOM 4 O CYS A 1 22.614 15.553 40.277 1.00 10.00 O ATOM 5 CB CYS A 1 23.683 13.019 39.828 1.00 10.00 C ATOM 6 SG CYS A 1 25.202 13.440 38.921 1.00 10.00 S ATOM 7 OXT CYS A 1 20.565 14.747 40.076 1.00 10.00 O ATOM 8 H CYS A 1 22.963 12.902 37.230 1.00 10.00 H ATOM 9 H2 CYS A 1 23.171 14.537 37.565 1.00 10.00 H ATOM 10 HA CYS A 1 21.614 12.654 39.253 1.00 10.00 H ATOM 11 HB2 CYS A 1 23.739 13.412 40.869 1.00 10.00 H ATOM 12 HB3 CYS A 1 23.651 11.923 40.031 1.00 10.00 H ATOM 13 HG CYS A 1 26.013 13.162 39.329 1.00 10.00 H ATOM 14 HXT CYS A 1 20.212 15.505 40.527 1.00 10.00 H CONECT 1 2 8 9 CONECT 2 1 3 5 10 CONECT 3 2 4 7 CONECT 4 3 CONECT 5 2 6 11 12 CONECT 6 5 13 CONECT 7 3 14 CONECT 8 1 CONECT 9 1 CONECT 10 2 CONECT 11 5 CONECT 12 5 CONECT 13 6 CONECT 14 7 END Zápis molekuly v počítači – fragment CIF souboru - proteiny CYS N N N 0 1 N N N 22.585 13.716 37.715 1.585 0.483 -0.081 N CYS 1 CYS CA CA C 0 1 N N R 22.372 13.468 39.168 0.141 0.450 0.186 CA CYS 2 CYS C C C 0 1 N N N 21.806 14.686 39.893 -0.095 0.006 1.606 C CYS 3 CYS O O O 0 1 N N N 22.614 15.553 40.277 0.685 -0.742 2.143 O CYS 4 CYS CB CB C 0 1 N N N 23.683 13.019 39.828 -0.533 -0.530 -0.774 CB CYS 5 CYS SG SG S 0 1 N N N 25.202 13.440 38.921 -0.247 0.004 -2.484 SG CYS 6 CYS OXT OXT O 0 1 N Y N 20.565 14.747 40.076 -1.174 0.443 2.275 OXT CYS 7 CYS H H H 0 1 N N N 22.963 12.902 37.230 1.928 -0.454 0.063 H CYS 8 CYS H2 HN2 H 0 1 N Y N 23.171 14.537 37.565 1.693 0.682 -1.065 H2 CYS 9 CYS HA HA H 0 1 N N N 21.614 12.654 39.253 -0.277 1.446 0.042 HA CYS 10 CYS HB2 1HB H 0 1 N N N 23.739 13.412 40.869 -0.114 -1.526 -0.630 HB2 CYS 11 CYS HB3 2HB H 0 1 N N N 23.651 11.923 40.031 -1.604 -0.554 -0.575 HB3 CYS 12 CYS HG HG H 0 1 N N N 26.013 13.162 39.329 -0.904 -0.965 -3.145 HG CYS 13 CYS HXT HXT H 0 1 N Y N 20.212 15.505 40.527 -1.326 0.158 3.186 HXT CYS 14 # Cvičení Najděte a stáhněte PDB a mmcif soubor hemoglobinu. Prohlédněte si tyto soubory. Zápis 2D struktury pomocí 3D formátů Výhody: • Nejobecnější zápis struktury molekuly • Snadno použitelné jako vstup pro algoritmy, pracující se strukturou Nevýhody: • Zabírá hodně místa • Není vhodné pro některé speciální typy úkolů. Formáty specifické pro zápis 2D struktury molekuly • SMILES, SMIRKS, SSMARTS • InChi, InChiKey • CHUCKLES, CHORTLES, and CHARTS atd Formáty pro zápis 2D struktury molekuly - SMILES SMILES znamená následující: Simplified Molecular Input Line Entry Specification = zakódování struktury molekuly do řetězce. Dále uvedu stručný popis SMILES. Podrobnější informace najdete např. zde: http://www.daylight.com/dayhtml/smiles/ Formáty pro zápis struktury molekuly - SMILES – kódování atomů - syntaxe Syntaxe v jazyce*, specifikujícím SMILES: atom : '[' symbol > ']' ; Popis: symbol chemická značka atomu * = nespecifikovaný atom > znaménko a náboj atomová hmotnost chiralita (nebudeme používat) počet vázaných vodíků * analogie DTD. Formáty pro zápis struktury molekuly - SMILES – kódování atomů - příklady Obrázek SMILES string Popis [S] Elementární síra C Methan (C vázaný s tolika H, aby měl plně obsazenou valneční vrstvu) S Sirovodík (S vázaný s tolika H, aby měl plně obsazenou valneční vrstvu) [OH-], [OH-1] Hydroxidový anion [235U] Izotop uranu s at. hmot. 235 [*+2] Nespecif. atom s nábojem 2+ Formáty pro zápis struktury molekuly - SMILES – kódování vazeb - syntaxe Syntaxe v jazyce, specifikujícím SMILES: bond : | '-' | '=' | '#' | ':' ; Popis: libovolná vazba (při níž je valenční vrstva plně obsazena) - jednoduchá vazba = dvojná vazba # trojná vazba : aromatická vazba Formáty pro zápis struktury molekuly - SMILES – kódování vazeb - příklady Obrázek SMILES string Popis CH3-CH3 CC, C-C, [CH3]-[CH3] Ethan C=O, O=C Formaldehyd H-CN C#N, N#C Kyanovodík CH2=CH2 C=C (lze i cc) Ethen CH2=CH-CH=CH2 C=C-C=C (lze i cccc) 1,3-butadien ? ccc Nelze odhadnout typ vazeb C H H O Formáty pro zápis struktury molekuly - SMILES – kódování větvení - syntaxe Syntaxe v jazyce, specifikujícím SMILES: branch : '(' ')' | '(' ')' | '(' ')' | '(' ')' ; Popis: řetězec větev Formáty pro zápis struktury molekuly - SMILES – kódování větvení - příklady Obrázek SMILES string Popis CC(C)C(=O)O Isobutanová kyselina FC(F)F, C(F)(F)F Fluoroform O=Cl(=O)(=O)[O-], Cl(=O)(=O)(=O)[O-] Perchlorátový anion CCCC(C(=O)O)CCC 4-heptanová kyselina Formáty pro zápis struktury molekuly - SMILES – kódování cyklů Zvolíme v cyklu libovolnou vazbu a její koncové atomy označíme číslem. Cyklus v místě dané vazby přerušíme a zapíšeme ho jako lineární sekvenci atomů. Příklady: Formáty pro zápis struktury molekuly - SMILES - zhodnocení Výhody SMILES: • Komprimace místa • Možnost zápisu molekuly pomocí regulárního výrazu Nevýhody SMILES: • Nejednoznačnost (neexistuje „korektní“ pořadí atomů, 1 fakt lze zapsat více způsoby). • Nutnost vytvoření úplného výpisu předtím, než lze na molekulu aplikovat nějaký algoritmus (izomorfismus, cykly atd.) Formáty pro zápis struktury molekuly - SMILES – zhodnocení II Využití SMILES: • Názvosloví a automatického generování názvů. • Vyhledávání částí molekul pomocí regulárních výrazů. Rozšíření SMILES: Pokročilejší verzí SMILES stringů jsou SMARTS stringy. Jsou definovány stejně jako SMILES + obsahují navíc další pravidla. Podrobněji o SMARTS: http://www.daylight.com/dayhtml/doc/theory/ theory.smarts.html Cvičení Najděte Smiles zápis aspirinu. V jakých databázích je dostupný? 27 InChI • InChI = IUPAC International Chemical Identifier • tento formát je unikátní pro všechny chemické substance • byl vytvořen jako standard IUPAC v roce 2005 • je volně použitelný a šiřitelný pod licencí LGPL • uchovává více informací než SMILES • je stále čitelný pro člověka, který má dostatečnou praxi 28 InChI – jaké informace uchovává • Identifikátor popisuje chemickou látku z několika pohledů: • atomy a vazby • tautomerie (může být vynechána, pokud není relevantní pro danou látku) • isometrie • stereometrie • elektrický náboj. 29 Proces překladu do InChI • Algoritmus konverze struktury do InChI probíhá ve třech stupních: 1) Normalizace - v tomto stupni se odstraní všechny redundantní informace 2) kanonizace – v tomto kroku se každému atomu přiřadí jedinečné číslo 3) Posledním stupněm je serializace, která generuje řetězec znaků. 30 Formát a vrstvy • Každé InChI je uvozeno řetězcem „InChI=“ • Poté následuje číslo použité verze (v současné době „1“) • Pak následuje písmeno S, splňuje-li toto InChI standard. • Zbývající informace jsou rozděleny do šesti vrstev a podvrstev • Každá tato vrstva obsahuje jiné specifické informace • Oddělovačem vrstev je „/“ a začíná charakteristickým prefixem, s výjimkou vrstvy hlavní. 31 Hlavní vrstva Musí být obsažena v každém InChI •Sumární vzorec: nejprve jsou zapsány uhlíky, poté vodíky, následně ostatní atomy, které jsou v abecedním pořádku •Vazby atomů (prefix: „c“): popisuje vazby mezi jednotlivými atomy v pořadí, v jakém byly očíslovány, tyto vazby jsou obsaženy pouze jednou •Vazby atomů vodíku (prefix: „h“): popisuje, ke kterým atomům jsou navázány atomy vodíku 32 Vrstva nábojů Protony (prefix: „p“): využívá se, pokud jsou v molekule kladné náboje Elektrony (prefix: „q“): využívá se, pokud jsou v molekule záporné náboje. 33 Stereochemická vrstva • dvojné vazby a kumuleny (prefix: „b“) • tetrahedrická stereometrie atomů a allenů (prefix:„t“,„m“) • jiný typ stereometrické informace (prefix: „s“). 34 Izotopová vrstva • (prefix: „i“, „h“) • Dále využívá prefixů stereometrické vrstvy, pokud se jedná o izotopickou stereochemii. Pevná vrstva H • (prefix: „f“) • Tato vrstva se již ve standardním InChI nevyužívá, protože kumulovala informace z výše uvedených vrstev. Znovu připojitelná vrstva • (prefix: „r“) • Tato vrstva se již ve standardním InChI nevyužívá, protože kumulovala informace z výše uvedených vrstev. 35 Příklad • V InChI má molekula morfinu identifikátor: InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5- 13(20)16(17)21-15-12(19)4-2-9(14(15)17)8- 11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10- ,11+,13-,16-,17-/m0/s1. • Červené písmo se shoduje s vodíky na obrázku Tato část je součástí hlavní vrstvy a musí být vždy přítomná. • Zelený text jsou stereometrické informace - jsou označeny zelenými kolečky 36 InChIkey • InChI je celkem dlouhý identifikátor nedeklarované délky • to komplikuje jeho ukládání a další práci s ním • proto byla vyvinuta alternativa, která z něj vychází • kondenzovaný 27 znaků dlouhý InChIKey • HASHInChI (algoritmus SHA-256) • Pokud je vytvořen InChIKey z InChI, které je standardní, je standardní i InChIKey • Díky použitému algoritmu je velmi malá pravděpodobnost duplicity mezi strukturami. 37 InChIkey • InChIKey je rozdělen do několika částí: AAAAAAAAAAAAAA-BBBBBBBBFV-P • „A“ označuje prvních 14 znaků a je vytvořeno zahashováním vazebných informací o molekule. Je zakončen pomlčkou. • „B“ popisuje dalších osm znaků a je vytvořeno zahashováním zbytku InChI • „F“ následuje znak identifikující druh InChIKey • „V“ je identifikátor verze, v současné době se využívá „A“ pro první verzi, do budoucna se počítá s pokračováním abecedy pro verze další • „P“ je protonový identifikátor Příklad: InChIKey molekuly morphinu: BQJCRHHNABKAKU-KBQPJGBKSA-N Cvičení Najděte InChI zápis aspirinu. V jakých databázích je dostupný?