A _ C2184 Uvod do programování v Pythonu Ukázka závěrečného testu Úkolem tohoto testu je napsat skript pro zpracování souboru molekul a výstupů z Gaussianu. 1. Ze studijních materiálu si stáhněte dataset_pka.zip. Soubor můžete rozbalit pomocí libovolného nástroje, pokud použijete knihovnu v Pythonu, získate bonusové body. 2. Složka obsahuje dva typy souborů: *. sdf soubory obsahují informace o molekule (vaším úkolem je extrahovat hodnoty pKa) a soubory *. log, které obsahují informace o nábojích a vaším cílem je vyextrahovat maximální náboj na vodíku (H). pKa: > NSC 3 > > no_stereocenter q(max,H): Mulliken charges: 1 1 F -0. ,283823 2 C -0. , 167968 3 C 0. ,297777 4 C -0. ,204856 5 C 0. ,289886 6 C 0. ,406838 7 C -0. ,246716 8 N 0. ,358053 9 0 -0. ,380521 10 0 -0. ,397823 11 0 -0. ,616303 12 H 0. ,191590 13 H 0. ,163136 14 H 0. , 168775 15 H 0. ,421955 Sum of Mulliken charges = 0.00000 3. Spočítejte korelaci mezi pKa (y) a q(max,H) (x) podle r = e {xj - x) (yl - y) _ \/e fa -xf -eo/i -yf) 1x ... průměr hodnot x, obdobně y 1 4. Vypočíjte lineární regresi mezi pKa (y) a q(max,H) (x) podle2 y = ax + b (2) (3) (4) 5. Pomocí parametru přímky a, b predikujte novou hodnotu pKa (predPKA) a vypočítejte RMSE podle ej = pKa^ — predPKA^ RMSE = 1 n 6. Výsledky uložte do csv souboru s touto hlavičkou: Molecule;q(max,H);pKa;predPKA;e Hodnotící tabulka: (5) (6) max. Hodnocení Celková funkčnost Práce se soubory (čtení+zápis) 7+7 Extrakce dat 10 Analýza dat 10 Obecné aspekty Vhodné použití komentářů 10 Vhodné použití výjimek (hodnoceny max. 2 výskyty) 7+7 Styl kódu a znovupoužitelnost3 12 Bonusy Celkem 70 2n ... počet prvků 3přehlednost kódu, srozumitelnost proměnných, nutnost upravovat kód pro jiný datový set, získávání informací od uživatele, ... 2