C2115 Praktický úvod do superpočítání II. lekce Petr Kulhánek kulhanek@chemi.muni.cz Národní centrum pro výzkum biomolekul, Prírodovedecká fakulta Masarykova univerzita, Kamenice 5, CZ-62500 Brno 15 Praktický úvod do superpočítání II. lekce Obsah > Skupina výpočetní chemie přehled řešených projektů > Modelové problémy a systémy do cvičení násobení matic, numerická integrace, QM a MD výpočty 15 Praktický úvod do superpočítání II. lekce -2- Skupina výpočetní chemie přehled řešených projektů vedoucí skupiny: prof. RNDr. Jaroslav Koča, DrSc. 15 Praktický úvod do superpočítání II. lekce -3- Výpočetní chemie on +Wfc WncU ar* etfotHij 4U* s&i** http://www. ninger. com/images/comp.jpg 15 Praktický úvod do superpočítání II. lekce B Výpočetní chemie Výpočetní chemie (Computational Chemistry, počítačová chemie) je odvětví chemie, které využívá počítačů při řešení chemických problémů. Používá výsledků teoretické chemie implementované do výkonných počítačových programů určených k výpočtům struktury, vlastností a reaktivity molekul a pevných látek. I když její výsledky doplňují informace získané chemickými experimenty, v určitých případech může předpovědět doposud nepozorované chemické jevy. Výpočetní chemie je široce používaná v návrhu nových léčiv a materiálů. www.wikipedia.org 15 Praktický úvod do superpočítání II. lekce -5- Nobelova cena za chemii 1998/201 J Walter Kohn Ik John A. Pople © Harvard University Martin Karplus Photo: © S. Fisch Michael Levitt Photo: Wikimedia Commons Arieh Warshel The Nobel Prize in Chemistry 1998 was divided Development of Multiscale Models for equally between Complex Chemical Systems Walter Kohn "for his development of the density-functional theory" and John A. Pople "for his development of computational methods in quantum chemistry" http://www.nobelprize.org/nobel_prizes/chemistry/laureates/1998/ http://www.nobelprize.org/nobel_prizes/chemistry/laureates/2013/ 15 Prakticky üvod do superpocitäni II. lekce Experiment vs výpočetní chemie 15 Praktický úvod do superpočítání II. lekce Interdisciplinární obor algoritmy, CPU/GPU, cluster/grid, symbolické výpočty 'A fy ď (bio)chemické problémy, experimenty, ověřování Výpočetní chemie analytické řešeni, numerická řešeni, aproximace i teorie, aproximace 15 Praktický úvod do superpočítání II. lekce -8- vybrané systémy studované skupinou výpočetní chemie 15 Praktický úvod do superpočítání II. lekce Úrovně teorie Kvantová mechanika Molekulová mechanika Coarse-grained mechanika atomové rozlišení bead resolution reaktivita konformační pohyby až l'OOO atomů * až l'OOO'OOO atomů * až l'OOO'OOO beads * až 100 ps * až 1 us * až ms * 15 Praktický úvod do superpočítání II. lekce -10- Projekty Studium (bio)molekulámích systémů 15 Praktický úvod do superpočítání II. lekce -11- Kvantově chemické výpočty časově nezávislá Schrôdingerova rovnice Hy/k{r) = Eky/k{r) Formální škálování N4-> N2-> N1 N5 N6 N7 N8 N9 N10 H F Cl metody HF,DFT CISD CISDT CISDTQ Metody MP metody MP2 MP3, MP4(SDQ) MP4 MP5 MP6 MP7 CC metody CC2 (iterativní) CCSD (iterativní) CCSD(T), CC3 (iterativní) CCSDT CCSDTQ (iterativní) Škálování, časová náročnost: http://en.wikipedia.org/wiki/Time_complexity HF - Hartreeho-Fockova metoda, DFT - teorie funkcionálu hustoty, Cl - metody konfigurační interakce, MP - M0llerova-Plessetova poruchová teorie, CC - metoda vázaných klastrů, N - počet bázových funkcí Jensen, F. Introduction to computational chemistry; 2nd ed.; John Wiley & Sons: Chichester, England; Hoboken, NJ, 2007. 15 Praktický úvod do superpočítání II. lekce Kvantově chemické výpočty 15 Praktický úvod do superpočítání II. lekce -13- Molekulová mechanika Schrôdingerova rovnice => kvantově mechanický pohled Ha¥(r) aproximace využívající klasickou fyziku neuvažuje se explicitní pohyb elektronů (pohyb je implicitně zahrnut v empirických parametrech) e(r) = E} ,+e , +et . +e,+e V / bonds angles torsions el v Klasická fyzika=> mechanický pohled vazebné příspěvky nevazebn^Dříspěvky Formální škálování: N2 -> N log2N N - počet atomů 15 Praktický úvod do superpočítání II. lekce Molekulová dynamika ÔE(R) 6R = F F;. = m;.a. a,- = II. Newtonův pohybový zákon (zákon sily) dE(R) d r, soustava diferenciálních rovnic druhého řádu = ^/ ~ vyžaduje numerické řešení i dR 1 dt diskretizace molekulárního pohybu v krátkých časových intervalech . v, u u # -u u\ 1 f S typický integrační krok dano nejrychlesím pohybem (vibrace vazeb) Nedokonalosti v integraci se odstraňují použitím termostatů a barostatů, které zároveň zajišťují požadované podmínky simulace. 15 Praktický úvod do superpočítání II. lekce Mechanika DNA a mutační motivy Při replikaci DNA dochází k celé řadě chyb, které jsou opravovány s různou účinností. Cílem projektu je určit vliv mutací na mechanické vlastnosti DNA a případnou souvislost s opravnými mechanismy. Chyby v párování bází mění flexibilitu DNA, která je detekována proteinem MutS. 15 Praktický úvod do superpočítání II. lekce -16- DNA mutační motivy - projekty Cílem projektu je studovat vliv sekvenčního kontextu na mechanické vlastnosti DNA. Colds pot AAAAA C old s pot AAAAA Hotspot AGGTA Hotspot AGGTA with wobble pair with wobble pair 5'G=C3' 5'G=C3' 5'G=C3' 5'G=C3' A-T A-T A-T A-T A-T A-T A-T A-T C=G C=G C=G C=G C=G C=G C=G C=G A-T A-T A-T A-T A-T A-T G=C G=C A-T G.T G=C G«T A-T A-T T-A T-A A-T A-T AT A-T C=G C=G C=G C=G T-A T-A T-A T-A A-T A-T A-T A-T G=C G=C G=C G=C 3'G=C5' 3'G=C5' 3'G=C5' 3'G=C5' Studované mutace v genech: • PAH (související s hyperfenylalaninémie) • LDLR (související s hypercholesterolémie) • CFTR (související s cystickou fibrozou) Spoluřešitelé (školitelé či konzultanti): > Mgr. Kamila Réblová, Ph.D. (Lékařská genomika - Centrum molekulární medicíny - Středoevropský technologický institut) > Mgr. Naděžda Špačková, Ph.D. (Ústav fyziky kondenzovaných látek - Fyzikální sekce - Přírodovědecká fakulta) cgtjcgjtcgjtaatgtc Icg t c dl I Ic gtcgI g t c g t rrc(g)Td Metody: - molekulová dynamika - výpočty volných (Gibbsových) energií - kvantové chemické výpočty - bioinformatika 15 Praktický úvod do superpočítání II. lekce Glykosyltransferázy Glycosyltransferázy jsou enzymy, které katalyzují přenos aktivovaného cukerného zbytku na oligosacharidy, proteiny či jiné biomolekuly. Jsou důležité v post-translační modifikaci proteinů, regulaci, či vytváření strukturní podpory. Mycobacterium tuberculosis (patogenní baktérie) capsule-like material -CD >rsi ^ — _3 -° O N 15 Í9 *S 03 > I - <ží to mycolic acid layer B ce membrane □ AAurNac/Gc o Galf ^GIcNAc □ Ara L-Rhamnose Clostridium difficile (patogenní baktérie) *0J > o N *03 cu 4— to C 03 O ~° — +j CüO o o Iq Q. A i c .E x o u > smrt buňky ]> +-> 03 15 Praktický úvod do superpočítání II. lekce Reakční mechanismy (QM/MM) A) Glycosyltransferáza GlfT2 B) Katalytická doména TcdB HO n 9 HO OH dvě různé reakce v jednom aktivním místě HO OH nu q 0 OH HO OH C2115 Praktický úvod do superpočítání Školitelé či konzultanti: > prof. RNDr. Jaroslav Koča, DrSc. (Výpočetní chemie - Centrum strukturní biologie - Středoevropský technologický institut) > Mgr. Stanislav Kozmon, Ph.D. (Výpočetní chemie - Centrum strukturní biologie - Středoevropský technologický institut) > RNDr. Petr Kulhánek, PhD. (Výpočetní chemie - Centrum strukturní biologie - Středoevropský technologický institut) > Ing. Igor Tvaroška, DrSc. (Ústav chemie, Slovenská akademie věd) II. lekce Specifika metod Kvantově mechanické metody: • výpočetní náročnost narůstá s požadovanou přesností výpočtu a velikostí studovaného modelu • jedná se o výpočetně (CPU) tak i datově (RAM) náročné výpočty • urychlení pomocí paralelního spouštění je možné, ale většinou špatně škáluje (škálování není u velmi přesných metod lineární) • paralelní spouštění je vhodné spíše na SMP uzlech, při spouštění na klastrech vyžaduje rychlé datové propojení výpočetních uzlů Molekulárně dynamické simulace (za použití molekulové mechaniky): • výpočetní náročnost narůstá s velikostí modelu a požadovanou délkou vzorkování • z důvodu nízké algoritmické složitosti je možné výpočty provádět pomocí GPGPU • vytváří velké množství dat (trajektorie) • urychlení výpočtu pomocí paralelního spouštění je snadné • paralelizaci lze provést na několika úrovních (výpočet sil, více chodců nebo replik), pro poslední dva případy je možné dosáhnout lineárního škálování 15 Praktický úvod do superpočítání II. lekce -20- Cvičení 1 1. Co určuje časová náročnost výpočtu O(N)? 2. Kolikrát se prodlouží výpočet potenciální energie molekuly benzenu kvantově chemickou metodou CCSD(T), pokud změníme použitou bázi z aug-cc-pVDZ na aug-cc-pVTZ? Počet bázových funkcí je 192 pro aug-cc-pVDZ a 414 pro aug-cc-pVTZ. 3. Pokud bude doba výpočtu potenciální energie za použití metody CCSD(T)/aug-cc-pVDZ trvat 5 hodin, jak dlouho bude trvat výpočet za použití metody CCSD(T)/aug-cc-pVTZ? 4. Reakce prvního řádu katalyzovaná enzymem má jeden rychlost určující krok s aktivační Gibbsovou energií 18 kcal/mol. Jaký je poločas reakce při 300 K? 5. Jakou délku by musela mít molekulárně dynamická simulace jednoho komplexu enzymu se substrátem z předchozího úkolu tak, abyste pozorovali přeměnu substrátu s 50 % pravděpodobností? 6. Určete počet integračních kroků, které bude nutné provést v simulaci z úkolu 5 za předpokladu, že bude integrační krok 0,125 fs (QM/MM dynamika za použití CPMD). 7. Určete strojový čas, který by bylo nutné na simulaci vynaložit, za předpokladu, že se jeden integrační krok počítá 5 sekund. Hodnotu diskutujte. 8. Určete strojový čas, který je zapotřebí vynaložit na molekulárně dynamickou simulaci fragmentu celulosy o délce 1 |us ve vodním boxu o celkovém počtu 408609 atomů na jedné grafické kartě typu GTX 1080 za NPT podmínek? Pro řešení použijte data poskytnutá zde: http://ambermd.Org/gpus/benchmarks.htm#Benchmarks 15 Praktický úvod do superpočítání II. lekce Modelové problémy a systémy 15 Praktický úvod do superpočítání II. lekce Násobení matic □□□□□□□ □□□□□□□ □□□□□□□ □□□□□□□ □□□□□□□ □□□□ □□□□ □□□□ □□□□ □□□□ □i □ □□□□ □□□□ □□□□ □□□□ □□□□ A(n,m) B(m,k) C(n,k) Využiti: • hledání vlastních čísel a vektorů čtvercových matic (kvantová chemie) • řešení soustavy lineárních rovnic (QSAR, QSPR) • transformace (posunutí, rotace, škálování - zobrazení a grafika) Opakování/samostudium: • Jak se násobení matic provádí? • Kolik operací je nutné provést? 15 Praktický úvod do superpočítání II. lekce Numerická integrace Výpočet určitých integrálů je možné provádět numerickými metodami, které se používají pokud: • funkci není možné integrovat analyticky • analytická integrace je prakticky nerealizovatelná (přesnost vs výpočetní náročnost) 1 / = 4 -dx o + x určitý integrál je plocha pod křivkou v rozsahu integračních mezí 15 Praktický úvod do superpočítání II. lekce Metody numerická integrace h = y J* h <-a lichoběžníková metoda obdélníková metoda 15 Praktický úvod do superpočítání II. lekce Fulleren C https://en.wikipedia.org/wiki/Buckminsterfullerene Úkoly: • vytvoření modelu molekuly C60 • optimalizace geometrie • výpočet molekulárních vibrací Metody: • semiempirická kvantově-chemická metoda PM6 15 Praktický úvod do superpočítání II. lekce Chitinové vlákna c stavební jednotka mechanické vlastnosti chitinových nanovláken 4400 6000 6600 6760 8998 Úkoly: • MD simulace vlákna 6000 Strelcova, Z.; Kulhanek, P.; Friak, M.; Fabritius, H.-O.; Petrov, M.; Neugebauer, J.; Koca, J. The structure and dynamics of chitin nanofibrils in an aqueous environment revealed by molecular dynamics simulations. RSCAdv. 2016, 6 (36), 30710-30721 DOI: 10.1039/c6ra00107f 15 Praktický úvod do superpočítání II. lekce Souvislost s kurzem C2115 Násobení matic: • limitující faktory související s architekturou počítačů (paměťová propustnost) • optimalizované knihovny pro numerické výpočty (BLAS, LAPACK, Intel MKL, AMD MCL) Numerická integrace: • limitující faktory související s architekturou počítačů (zaokrouhlovací chyby a jejich dopad na výsledek integrace) • paralelizace výpočtu (OpenMP versus MPI) Fulleren C60: • spouštění výpočtů v programu Gaussian • v MetaCentru (PBSPro) • na klastru WOLF (PBSPro a Infinity) Chitinové vlákno: • molekulárně dynamické simulace v programu pmemd • škálováníCPU paralelní implementace • srovnání běhu na CPU a GPU 15 Praktický úvod do superpočítání II. lekce Cvičení 2 Fulleren C60: 1. Postavte 3D model molekuly fullerenu C60 a proveďte jeho optimalizaci pomocí silového pole MMFF94. Ke stavbě 3D modelu použijte strukturu ve formátu SMILES (wikipedie pro C60). Výsledný model uložte ve formátu xyz. Ke stavbě použijte buď program avogadro nebo nemesis. Chitinové vlákno: Ekvilibrovaný model chitinového vlákna je možné nalézt v adresáři: /home/kulhanek/Documents/C2115/Lesson02/chitin topologie systému je 6000.parm7 souřadnice, rychlosti a velikost boxu je v 6000.rst7 2. Zobrazte model v programu VMD. 3. Kolik atomů model obsahuje? 4. Kolik vláken chitinu model obsahuje? 5. Jaký tvar má simulační box? 15 Praktický úvod do superpočítání II. lekce Samostudium 1. Jak se provádí násobení matic? 2. Kolik operací je zapotřebí při násobení matic provést? 3. Jaká je výpočetní komplexita násobení matic? 4. Která metoda numerické integrace je přesnější, obdélníková nebo lichoběžníková? 5. Nalezněte jiné metody numerické integrace. 6. Je možné numerickou integrací vypočítat neurčitý integrál? 15 Praktický úvod do superpočítání II. lekce