C7790 Počítačová chemie a molekulové modelování -‹#›- 8. Struktura Petr Kulhánek kulhanek@chemi.muni.cz Národní centrum pro výzkum biomolekul, Přírodovědecká fakulta Masarykova univerzita, Kotlářská 2, CZ-61137 Brno C7790 Počítačová chemie a molekulové modelování I C7800 Počítačová chemie a molekulové modelování I - cvičení C7790 Počítačová chemie a molekulové modelování -‹#›- Souvislosti mikrosvětmakrosvět rovnovážná konstanta rychlostní konstanta volná energie (Gibbsova/Helmholtzova) partiční funkce fenomenologická termodynamika statistická termodynamika mikrostavy (mechanické vlastnosti, E) stavy (termodynamické vlastnosti, G, T, …) mikrostav ≠ mikrosvět C7790 Počítačová chemie a molekulové modelování -‹#›- Souvislosti mikrosvětmakrosvět rovnovážná konstanta rychlostní konstanta volná energie (Gibbsova/Helmholtzova) partiční funkce fenomenologická termodynamika statistická termodynamika mikrostavy (mechanické vlastnosti, E) stavy (termodynamické vlastnosti, G, T, …) mikrostav ≠ mikrosvět fyzikální popis C7790 Počítačová chemie a molekulové modelování -‹#›- Opakování t t itH   = ),( ),(ˆ x x    časově závislá Schrödingerova rovnice C7790 Počítačová chemie a molekulové modelování -‹#›- Opakování t t itH   = ),( ),(ˆ x x    časově závislá Schrödingerova rovnice )()(ˆ xx kkk EH  = časově nezávislá Schrödingerova rovnice )()(),( tft xx  = systém se může nacházet v několika kvantových stavech stav je popsán vlnovou funkcí Y a má energii E C7790 Počítačová chemie a molekulové modelování -‹#›- Opakování t t itH   = ),( ),(ˆ x x    časově závislá Schrödingerova rovnice )()(ˆ xx kkk EH  = časově nezávislá Schrödingerova rovnice )()(),( tft xx  = ),()(),(ˆ RrRRr mmme EH Y=Y )()(ˆ , RR llVRTlR EH  = )(),()( RRrx  Y= pohyb elektronů ve statickém poli jader elektronické vlastnosti systému pohyb jader v efektivním poli elektronů vibrace, rotace, translace Bornova- Oppenheimerova approximace C7790 Počítačová chemie a molekulové modelování -‹#›- Opakování ),()(),(ˆ RrRRr mmme EH Y=Y )()(ˆ , RR llVRTlR EH  = pohyb elektronů ve statickém poli jader elektronické vlastnosti systému pohyb jader v efektivním poli elektronů vibrace, rotace, translace lVRTmoptmk EREE ,, )( += výsledná energie stavu elektronická složka energie vibračně, rotačně, translační složka energie optimální geometrie jader, při které je Em minimální C7790 Počítačová chemie a molekulové modelování -‹#›- Opakování ),()(),(ˆ RrRRr mmme EH Y=Y )()(ˆ , RR llVRTlR EH  = pohyb elektronů ve statickém poli jader elektronické vlastnosti systému pohyb jader v efektivním poli elektronů vibrace, rotace, translace je možné obdobným způsobem dále rozdělit na samostatné příspěvky vibrační, rotační a translační kTjRiVlVRT EEEE ,,,, ++= C7790 Počítačová chemie a molekulové modelování -‹#›- Nápověda ▪ vibrační energie je kvantována ▪rotační a translační stavy nebudeme uvažovat Molekula vodíku hvEV       += 2 1 Určete základní energie stavů 1s-1s a 1s+2s kvantové vibrační číslo 0,1,2,... Energie základního stavu 1s+1s: )0()( =+= vErEE Vo C7790 Počítačová chemie a molekulové modelování -‹#›Struktura vs stav systému ✓ ✓ )0()( =+= vErEE Vo pouze část kvantově mechanického popisu stavu systému C7790 Počítačová chemie a molekulové modelování -‹#›- Souvislosti mikrosvětmakrosvět rovnovážná konstanta rychlostní konstanta volná energie (Gibbsova/Helmholtzova) partiční funkce fenomenologická termodynamika statistická termodynamika mikrostavy (mechanické vlastnosti, E) stavy (termodynamické vlastnosti, G, T, …) mikrostav ≠ mikrosvět fyzikální popis )()(ˆ xx kkk EH  = neřešitelné pro makrosystémy C7790 Počítačová chemie a molekulové modelování -‹#›- Souvislosti mikrosvětmakrosvět rovnovážná konstanta rychlostní konstanta volná energie (Gibbsova/Helmholtzova) partiční funkce fenomenologická termodynamika statistická termodynamika mikrostavy (mechanické vlastnosti, E) stavy (termodynamické vlastnosti, G, T, …) mikrostav ≠ mikrosvět fyzikální popis )()(ˆ xx kkk EH  = neřešitelné pro makrosystémy model C7790 Počítačová chemie a molekulové modelování -‹#›Domácí úkol 1. Navrhněte vhodné energetické referenční stavy pro atom vodíku. 2. Navrhněte energetický referenční stav tak, aby byl stejný pro libovolný atom. 3. Odvoďte vztah pro excitační energii ze stavu n do stavu n+1 pro atom vodíku. 4. Navrhněte vhodný energetický referenční stav pro harmonický oscilátor. 5. Odvoďte vztah pro excitační energii ze stavu v do stavu v+1 pro harmonický oscilátor. 6. Navrhněte vhodný energetický referenční stav pro anharmonický oscilátor. 7. Může mít anharmonický oscilátor energii větší než De? 8. Proč může mít tuhý rotátor nulovou energii a harmonický oscilátor a částice v potenciálové jámě ne? 9. Srovnejte energie pro základní stav translačního, rotačního a vibračního pohybu molekuly vodíku. V případě translačního pohybu uvažujte objem boxu, který pojme 1 mol ideálního plynu za standardních podmínek. 10. Z jakého důvodu je Bornova-Oppenheimerova aproximace použitelná? C7790 Počítačová chemie a molekulové modelování -‹#›- Struktura C7790 Počítačová chemie a molekulové modelování -‹#›Konfigurační prostor )(RE R = bod v 3N rozměrném prostoru (N je počet atomů) },,,....,,,,,,{ 222111 NNN zyxzyxzyx=R kartézské souřadnice prvního atomu Jednotlivé body tvoří konfigurační prostor. Každý bod v konfiguračním prostoru pak představuje unikátní strukturu daného systému. C7790 Počítačová chemie a molekulové modelování -‹#›Modely – malé molekuly čárový model tyčinkový model CPK model vdW model stejná struktura jiná vizualizace C7790 Počítačová chemie a molekulové modelování -‹#›Modely – biomolekuly čárový model čárový model páteř proteinu cartoon model povrch biomolekuly stejná struktura jiná vizualizace Různé modely slouží k zvýraznění určité strukturní informace nebo vnitřní vlastnosti molekuly či uskupení molekul, které pak usnadňuje snadnější pochopení studovaného problému. C7790 Počítačová chemie a molekulové modelování -‹#›Hrubozrné modely C7790 Počítačová chemie a molekulové modelování -‹#›Počítačová reprezentace struktury Strukturu lze reprezentovat různým způsobem. V chemii se používá více jak 100 formátů, jedná se buď o textové nebo binární soubory. Formát popisuje geometrii systému, jména atomů, skupin atomů, konektivitu mezi atomy (vazby) a další informace. Geometrie systému může být uvedena v: ➢ kartézských souřadnicích ➢ interních souřadnicích ➢ varianty interních souřadnic C7790 Počítačová chemie a molekulové modelování -‹#›Kartézské vs interní souřadnice O -0.180077 -0.046023 -0.062789 H 0.196208 -0.747659 0.498793 O 0.006537 1.047922 0.877207 H -0.931885 1.299156 0.951390 O H 1 0.974298 O 1 1.454349 2 96.868054 H 3 0.974298 1 96.868054 2 239.552651 Kartézské souřadnice Interní souřadnice (Z-matrix) vazebná délka vazebný úhel torzní úhel 3N 3N-6 3N-5 Počet stupňů volnosti: Počet stupňů volnosti: (lineární dvouatomová molekula) x y z C7790 Počítačová chemie a molekulové modelování -‹#›Interní souřadnice 1 O 2 H 1 0.974298 3 O 1 1.454349 2 96.868054 4 H 3 0.974298 1 96.868054 2 239.552651 2-1 4-3 4-3-1 3-1-2 4-3-1-2 vazebná délka (a) vazebný úhel (b) torzní úhel (c) http://www.ccl.net/cca/documents/molecular-modeling/node4.html C7790 Počítačová chemie a molekulové modelování -‹#›Domácí úkol 1. Zamyslete se nad výhodou a nevýhodou reprezentace geometrie systému pomocí kartézských a interních souřadnic. C7790 Počítačová chemie a molekulové modelování -‹#›Formát XYZ počet atomů komentář značka x y z značka x y z ................... značka x y z 24 chorismate C -1.86100 -0.57700 0.31800 O -2.56800 0.47600 0.32600 O -2.20900 -1.75300 0.64200 C -0.38900 -0.41000 -0.18800 ................................................ H -0.50900 1.67900 -0.44800 Formát xyz je textový soubor s volným formátováním (hodnoty ve sloupcích mohou být odděleny libovolným počtem mezer nebo jiných bílých znaků). Formát popisuje pouze geometrii systému, neobsahuje informace o vazbách v systému. Program, který s formátem pracuje, musí tyto informace dopočítat (např. pomocí atomových poloměrů). polohy jsou v angströmech (Å) C7790 Počítačová chemie a molekulové modelování -‹#›Formát PDB .................................................................. ATOM 7 CB SER 1 5.814 16.335 8.213 1.00 0.00 ATOM 8 HB2 SER 1 6.870 16.427 7.958 1.00 0.00 ATOM 9 HB3 SER 1 5.610 16.900 9.123 1.00 0.00 ATOM 10 OG SER 1 5.491 14.946 8.427 1.00 0.00 ATOM 11 HG SER 1 6.026 14.600 9.145 1.00 0.00 ATOM 12 C SER 1 3.604 16.323 6.927 1.00 0.00 ATOM 13 O SER 1 2.605 16.742 7.521 1.00 0.00 ATOM 14 N GLN 2 3.567 15.251 6.134 1.00 0.00 ATOM 15 H GLN 2 4.401 14.914 5.675 1.00 0.00 ATOM 18 CB GLN 2 2.452 13.545 4.753 1.00 0.00 ATOM 19 HB2 GLN 2 3.006 12.696 5.153 1.00 0.00 .................................................................. Formát pdb se používá k ukládání struktur biomolekul a jejich komplexů. klíčové slovo číslo atomu jméno atomu kartézské souřadnice atomu číslo residua jméno residua Formát neobsahuje informace o vazbách v systému. Program, který s formátem pracuje, musí tyto informace dopočítat (na základě templátových struktur). U nestandardních residuích je možné použít klíčové slovo CONECT. v angströmech (Å) C7790 Počítačová chemie a molekulové modelování -‹#›Džungle formátů I acr -- ACR format adf -- ADF cartesian input format adfout -- ADF output format alc -- Alchemy format arc -- Accelrys/MSI Biosym/Insight II CAR format bgf -- MSI BGF format box -- Dock 3.5 Box format bs -- Ball and Stick format c3d1 -- Chem3D Cartesian 1 format c3d2 -- Chem3D Cartesian 2 format cac -- CAChe MolStruct format caccrt -- Cacao Cartesian format cache -- CAChe MolStruct format cacint -- Cacao Internal format can -- Canonical SMILES format. car -- Accelrys/MSI Biosym/Insight II CAR format ccc -- CCC format cdx -- ChemDraw binary format cdxml -- ChemDraw CDXML format cht -- Chemtool format cif -- Crystallographic Information File ck -- ChemKin format cml -- Chemical Markup Language cmlr -- CML Reaction format com -- Gaussian 98/03 Input copy -- Copies raw text crk2d -- Chemical Resource Kit diagram(2D) crk3d -- Chemical Resource Kit 3D format csr -- Accelrys/MSI Quanta CSR format cssr -- CSD CSSR format ct -- ChemDraw Connection Table format cub -- OpenDX cube format for APBS cube -- OpenDX cube format for APBS dmol -- DMol3 coordinates format dx -- OpenDX cube format for APBS ent -- Protein Data Bank format fa -- FASTA format fasta -- FASTA format fch -- Gaussian formatted checkpoint file format fchk -- Gaussian formatted checkpoint file format fck -- Gaussian formatted checkpoint file format feat -- Feature format fh -- Fenske-Hall Z-Matrix format fix -- SMILES FIX format fpt -- Fingerprint format fract -- Free Form Fractional format fs -- FastSearching fsa -- FASTA format g03 -- Gaussian98/03 Output g92 -- Gaussian98/03 Output g94 -- Gaussian98/03 Output g98 -- Gaussian98/03 Output gal -- Gaussian98/03 Output gam -- GAMESS Output gamin -- GAMESS Input gamout -- GAMESS Output C7790 Počítačová chemie a molekulové modelování -‹#›Džungle formátů II gau -- Gaussian 98/03 Input gjc -- Gaussian 98/03 Input gjf -- Gaussian 98/03 Input gpr -- Ghemical format gr96 -- GROMOS96 format gukin -- GAMESS-UK Input gukout -- GAMESS-UK Output gzmat -- Gaussian Z-Matrix Input hin -- HyperChem HIN format inchi -- InChI format inp -- GAMESS Input ins -- ShelX format jin -- Jaguar input format jout -- Jaguar output format k -- Compare molecules using InChI mcdl -- MCDL format mcif -- Macromolecular Crystallographic Information mdl -- MDL MOL format ml2 -- Sybyl Mol2 format mmcif -- Macromolecular Crystallographic Information mmd -- MacroModel format mmod -- MacroModel format mol -- MDL MOL format mol2 -- Sybyl Mol2 format molden -- Molden input format molreport -- Open Babel molecule report moo -- MOPAC Output format mop -- MOPAC Cartesian format mopcrt -- MOPAC Cartesian format mopin -- MOPAC Internal mopout -- MOPAC Output format mpc -- MOPAC Cartesian format mpd -- Sybyl descriptor format mpqc -- MPQC output format mpqcin -- MPQC simplified input format msi -- Accelrys/MSI Cerius II MSI format msms -- M.F. Sanner's MSMS input format nw -- NWChem input format nwo -- NWChem output format outmol -- DMol3 coordinates format pc -- PubChem format pcm -- PCModel Format pdb -- Protein Data Bank format png -- PNG files with embedded data pov -- POV-Ray input format pqr -- PQR format pqs -- Parallel Quantum Solutions format prep -- Amber Prep format qcin -- Q-Chem input format qcout -- Q-Chem output format report -- Open Babel report format res -- ShelX format rsmi -- Reaction SMILES format rxn -- MDL RXN format sd -- MDL MOL format sdf -- MDL MOL format C7790 Počítačová chemie a molekulové modelování -‹#›Džungle formátů III smi -- SMILES format smiles -- SMILES format sy2 -- Sybyl Mol2 format t41 -- ADF TAPE41 format tdd -- Thermo format test -- Test format therm -- Thermo format tmol -- TurboMole Coordinate format txt -- Title format Výše uvedené formáty obsahují většinou kromě 3D/2D struktury také doprovodné informace jako jsou konektivita, parametry silových polí, náboje, různé vlastnosti apod. http://openbabel.org/wiki/Main_Page Open Babel is a chemical toolbox designed to speak the many languages of chemical data. It's an open, collaborative project allowing anyone to search, convert, analyze, or store data from molecular modeling, chemistry, solid-state materials, biochemistry, or related areas. txyz -- Tinker MM2 format unixyz -- UniChem XYZ format vmol -- ViewMol format xed -- XED format xml -- General XML format xtc -- XTC format xyz -- XYZ cartesian coordinates format yob -- YASARA.org YOB format zin -- ZINDO input format OpenBabel prostředí pro konverzi mezi formáty včetně metod pro výpočet celé řady molekulárních vlastností (chemoinformatika) C7790 Počítačová chemie a molekulové modelování -‹#›- 2D versus 3D struktura 2D struktura obsahuje informaci o atomech a vazbách, kterými jsou spojeny. Tato informace popisuje konstituci (topologii) systému. 3D struktura obsahuje informaci o prostorovém rozmístění atomů. Ostatní informace (např. vazby) jsou dopočitatelné. kyselina benzoová C7790 Počítačová chemie a molekulové modelování -‹#›- 3D -> 2D převod 2D struktura obsahuje informaci o atomech a vazbách, kterými jsou spojeny. Tato informace popisuje konstituci (topologii) systému. 3D struktura obsahuje informaci o prostorovém rozmístění atomů. Ostatní informace (např. vazby) jsou dopočitatelné. převod je snadný kyselina benzoová C7790 Počítačová chemie a molekulové modelování -‹#›- 2D -> 3D převod 2D struktura obsahuje informaci o atomech a vazbách, kterými jsou spojeny. Tato informace popisuje konstituci (topologii) systému. 3D struktura obsahuje informaci o prostorovém rozmístění atomů. Ostatní informace (např. vazby) jsou dopočitatelné. převod je komplikovaný kyselina benzoová C7790 Počítačová chemie a molekulové modelování -‹#›- 2D -> 3D převod 2D struktura obsahuje informaci o atomech a vazbách, kterými jsou spojeny. Tato informace popisuje konstituci (topologii) systému. 3D struktura obsahuje informaci o prostorovém rozmístění atomů. Ostatní informace (např. vazby) jsou dopočitatelné. převod je komplikovaný u velkých systémů nemusí být jednoznačný v důsledku existence více konformerů kyselina benzoová C7790 Počítačová chemie a molekulové modelování -‹#›- 2D -> 3D převod, komplikace cyklohexan židličková konformace konformace zkřížená vanička C7790 Počítačová chemie a molekulové modelování -‹#›- 2D -> 3D převod, komplikace zavřená forma enzymu otevřená forma enzymu Stejná primární struktura (sekvence aminokyselin). C7790 Počítačová chemie a molekulové modelování -‹#›Využití 2D struktur Representace molekul ve 2D formátech se využívá převážně pro ukládání informací do databází a jejich prohledávání, dále k předpovědi chemických vlastností molekul pomocí chemoinformatických přístupů. Nejrozšířenější formáty: ➢ SMILES (Simplified Molecular-Input Line-Entry System) ➢ InChI (IUPAC International Chemical Identifier) kyselina benzoová C(=O)(O)c1ccccc1 InChI=1S/C7H6O2/c8-7(9)6-4-2-1-3-5-6/h1-5H,(H,8,9) C7790 Počítačová chemie a molekulové modelování -‹#›Zdroje 3D struktur - experiment Obsahuje zhruba půl miliónu struktur malých molekul určených pomocí rentgenové a neutronové difrakce. Software pro práci s daty: Mercury http://www.ccdc.cam.ac.uk/Solutions/CSDSystem/Pages/Mercury.aspx Cambridge Structural Database (CSD) http://www.ccdc.cam.ac.uk/Solutions/CSDSystem/Pages/CSD.aspx Obsahuje zhruba 94 tisíc struktur biomolekulárních systémů uřčených převážně pomocí rentgenostrukturní analýzy. Protein Data Bank (PDB) http://www.pdb.org Experimentální metoda Proteiny (P) Nucleové kyseliny (NA) P/NA komplexy Jiné Celkově X-ray 77445 1481 4069 3 82998 NMR 8851 1046 193 7 10097 elektronová mikroskopie 469 45 129 0 643 stav v září 2013 C7790 Počítačová chemie a molekulové modelování -‹#›Zdroje 3D struktur – in silico Výpočetní metody ➢ molekulové modelování ➢ homologní modelování http://www.unil.ch/pmf/en/home/menuinst/technologies/homology-modeling.html Homologní modelování In silico modelování se provádí i u experimentálních struktur, které jsou neúplné: ▪ nedostatečné rozlišení – X-Ray ▪ jsou určeny jen částečné strukturní informace - NMR