Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely PB050: Modelování a predikce v systémové biologii David Šafránek 15.12.2011 INVESTICE D O R O i V OJ E VZDĚLÁVÁNI Parametrizace modelů a estimace parametrů Obsah Stochastické vs. deterministické modely Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Parametrizace modelů a estimace parametrů Obsah Stochastické vs. deterministické modely Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Parametrizace kinetiky enzymů Kl fa S + EfES^P + E • model je parametrizovaný množinou parametrů P = {ki,k2,k3} • bez valuace všech neznámých (neurčitých) parametrů nelze simulovat • parametry nemusí být přímo experimentálně měřitelné • ki,l<2 prakticky velmi těžko měřitelné in vitro • /c3 lze získat in vitro ale obtížné in vivo Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Estimace parametrů -> ľ • model je parametrizovaný množinou parametrů P = {Vmax,K} • Vmax, K lze získat nepřímo měřením in vitro • měří se koncentrace S(0) a odpovídající výkon reakce v K+S • po transformaci systému v — -rffř se souřadnicemi v,S na systém v souřadnicích dostáváme: S S K toto lze využít pro lineární regresi (Hanes-Woolf plot) Hanes, CS (1932). "Studies on plant amylases: The effect of starch concentration upon the velocity of hydrolysis by the amylase of germinated barley." . Biochemical Journal 26 (5): 1406-1421. Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Estimace parametrů [S] A v Vmax [S] • měří se koncentrace S(0) a iniciálnítok v • lineární regresí získáme K a Vmax • problémy: chybovost měření, nerealizovatelné in vivo Hanes, CS (1932). "Studies on plant amylases: The effect of starch concentration upon the velocity of hydrolysis by the amylase of germinated barley." . Biochemical Journal 26 (5): 1406-1421. Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Estimace parametrů Demonstrace v C OPA SI Hanes-Woolf Reaction rate £ 40- 200 300 mm o l/m I_ ■ [S_0^_0]||S]_0| + [KJWiax]| [S] = [-K] 200 300 mmol/ml_ + v|[S]| + Vmaj(|+ [S] = [K] • závislost iniciálního toku v(0) na iniciální koncentraci S(0) • S(0) samplováno rovnoměrně od 0 do 500 • K (resp. —K) znázorněno jako bod na ose S Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Estimace parametrů • co je cílem? • najít takovou valuaci parametrů, která nejlépe odpovídá experimentálně zjištěným time-course datům • chceme tedy co nejvíce přiblížit simulaci experimentálním datům (tzv. fitting) • lineární regrese požaduje normální rozložení chyb měření • transformací se nepřesnosti kumulují • model je inherentně nelineární • nelineární jsou i naměřená data • problém fittingu chápán jako optimalizační problém • mnoho heuristických metod pro aproximativní řešení => viz COPASI —> Parameter Estimation Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Problém reverzního inženýrství • tzv. inverzní problémy • cílem je získat model z pozorování systému • obecně řešeno v teorii systémů (identifikace systémů) • pro nelineární systémy obecně neřešitelné • viz. IV120 • obecné schéma řešení inverzního problému: 1. identifikace vztahů mezi proměnnými 2. identifikace funkcí popisujících sémantiku jednotlivých vztahů (např. zákon zachování hmoty, Michaelis-Menten, Hill, . ..) 3. estimace hodnot parametrů ve funkcích získaných v předch. bodě Stochastické vs. deterministické modely Parametrizace modelu a estimace parametrů Estimace parametrů optimalizaci • obecný postup: 1. srovnej experimentální time-course se simulovaným time-course 2. pokud rozdíl menší než nastavená tolerance —> DONE jinak modifikuj parametry modelu 3. proved time-course simulaci modelu 4- iteruj (1) Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Estimace parametrů optimalizaci • mějme model daný systémem ^ = f(x,p) kde x je stavový vektor a p je vektor hodnot parametrů uvažujme T = (ti,tm) rostoucí posloupnost časových bodů (tzv. časovou řadu) • předpokládejme posloupnost (x(ti), ...,x(tm)) je aproximace řešení x(t) zachycená v časové řadě T (simulace) • zdůrazněme fakt, že simulace byla získána při nastavení hodnot parametrů p, označením x(t)p • mějme experiment jako posloupnost vektorů naměřených veličin (y(ři), ...,y(tm)) v časové řadě T • pro jednoduchost uvažujme dim(x) = dim(y) = 1 (obecně dim(x) > dim(y) libovolné, ale složitější formulace) Parametrizace modelu a estimace parametrů Stochastické vs. deterministické modely Estimace parametrů optimalizací • definujeme odchylku experimentu od simulace v časovém bodě ryjakotzv. reziduaI: r(tí,p)=y(tí)-x(tí)p • reziduál chápeme jako funkci závislou na nastavení parametrů simulovaného modelu • srovnání experimentu a simulace je vyjádřeno jako součet čtverců reziduálů přes vš. časové body T: m 5(p) = Br(t;,p))2 Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Estimace parametrů optimalizaci • funkce 5(p) se nazývá užitková funkce • vystihuje průměrnou odchylku simulace od experimentu přes danou časovou řadu • minimální hodnota 5(p) určuje optimální vektor hodnot parametrů p, který globálně minimalizuje rozdíl mezi experimentem a modelem • jedná se o nelineární funkci • počet neurčitých parametrů určuje její dimenzi Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Procházky po optimalizační krajině... • CIL: najít globální minimum • nej používanější jsou stochastické black-box přístupy: • náhodné procházení (random search) • evoluční strategie (evolution strategy) • • black-box znamená absolutní nezávislost na tvaru užitkové funkce • existují i metody, které využívají znalosti užitkové funkce (např. simulované žíhání, Truncated Newton, ...) Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Procházky po optimalizační krajině... Random Search 1. inicializuj náhodně výchozí hodnotu p • typicky z rovnoměrného rozložení 2. dokud není překročen povolený počet iterací, prováděj: 2.1 sampluj novou pozici p' —> uniformní náhodný výběr z hyperkoule o daném poloměru 2.2 spočítej S{p') 2.3 pokud S(p') < S(p), nastav novou pozici p :— p' 3. p nastaveno na nejvýhodnější pozici (z pohledu běhu algoritmu) Pozn. Existují varianty s fixním i adaptivním poloměrem. Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Procházky po optimalizační krajině... Evoluční strategie • inherentně adaptivní metoda, redukuje počet • staví na výběrech z (vícerozměrného) normálního rozložení • rozměr daný dimenzí vektoru parametrů • značeno CMA-ES (Covariance Matrix Evolution Strategy) • postup: 1. vytvoř generaci —> sampluj rozložení pozic hodnot P dle normálního rozložení 2. pro každé p E P spočítej S(p) 3. adaptace: uprav parametry normálního rozložení pro další iteraci —> různé varianty, mohou být velice komplexní adaptace citlivé na charakter evoluční krajiny - adaptace kovarianční matice • metoda se ukazuje výhodná pro biologické modely (vysoká míra neznalosti parametrů) Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Procházky po optimalizační krajině... Evoluční strategie Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Tuning dynamických modelů Estimace parametrů vzhledem k hypotézám • estimaci parametrů lze rozšířit pro temporální specifikace (hypotézy) • každý experiment lze zakódovat jako LTL formuli • typické abstraktnější vlastnosti dávají větší stupeň volnost • mějme specifikaci chování reprezentovanou LTL formulí ip uvažme parametrizovaný systém ^ = f(x,p) • uvažme časovou řadu T • xpj značí simulovanou posloupnost v časové řadě T s nastavením parametrů p • definujme užitkovou funkci = 3). Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Tuning dynamických modelů Příklad I - BioCHAM • uvažujme model genového regulačního obvodu IFFL Navrhněte tuning parametru ßz tak, aby puls přesáhl 5. Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Tuning dynamických modelů Příklad I - BioCHAM • uvažujme model genového regulačního obvodu IFFL Uplatníme vlastnost F([Z] >= 5). Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Tuning dynamických modelů Příklad I - BioCHAM • uvažujme model genového regulačního obvodu IFFL BioCHAM: search_parameters_cmaes([/3z], [(0, 5)], F([Z] >= v), [v], [5], 100)). - nalezení hodnoty /3Z v rozsahu [0,5] pro simulaci do 100s Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Tuning dynamických modelů Příklad I - BioCHAM • uvažujme model genového regulačního obvodu IFFL Concentrations, Volumes, and Global Quantity Values 10 -i Výsledek je ßz = 1.3. Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Tuning dynamických modelů Příklad II - BioCHAM • uvažujme model genového regulačního obvodu IFFL Navrhněte tuning parametrů /3Z,7Z tak, aby puls přesáhl 5 do 5s. Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Tuning dynamických modelů Příklad II - BioCHAM • uvažujme model genového regulačního obvodu IFFL Uplatníme vlastnost F([Z] >= 5&iTime <= 5). Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely BioCHAM: search_parameters_cmaes([/3z, 7Z], [(0, 5), (0, 5)], F(([Z] >= v) &(Time =< 5)), [v], [5], 100)). Parametrizace modelu a estimace parametrů Stochastické vs. deterministické modely Tuning dynamických modelů Příklad II - BioCHAM • uvažujme model genového regulačního obvodu IFFL Concentrations, Volumes, and Global Quantity Values 10 -i Výsledek je ßz = 1.498, 7z = 0.059. Parametrizace modelů a estimace parametrů Obsah Stochastické vs. deterministické modely Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Spojitý vs. diskrétní model proměnné diskrétni spojité Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Stochastický vs. deterministický model molární koncentrace [M]: kde n je množství látky [mol], V }e objem roztoku [/] vyjadřuje se pomocí Avogadrovy konstanty (počet částic v 1 molu): c N Na-V kde Na Avogadrova konstanta [mol^1], V objem roztoku [/] a N je počet molekul. • převodní faktor 7 = Na • V: A/= C-7 Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Příklad • bakterie E. coli je válcový objekt o délce v ~ 2/xm a poloměru r ~ 1/xm • objem lze tedy odhadnout následujícím způsobem: V = 7rr2v = tt(0, 5-l(T6)2-(2-l(r6) = ^-l(r18m3 = ^-KT15 L • pokud uvažujeme látku X s koncentrací [X] = 10~5 M rozpuštěnou v takovéto buňce E. coli, počet molekul j^X je: #X = [X]NAV = 1CT5 • 6,023 • 1023 • ^ • 1CT15 = 9461 Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Stochastický vs. deterministický model Pro reakci R; definujeme převodní vztah mezi stochastickou a deterministickou variantou zákona o zachování hmoty tím, že dáme do souvislosti stoch. frekvenci o, a det. kinetickou konstantou k,\ typ reakce R; C; -> /cř- Sj —> * sp + Sq -> * 2Sj -> * /C/ = Q k,- = C; ■ 7 4-. — £l2 k, — 2 Parametrizace modelů a estimace parametrů Stochastické vs. deterministické modely Stochastický vs. deterministický model Pro reakci R; definujeme převodní vztah mezi stochastickou a deterministickou variantou zákona o zachování hmoty tím, že dáme do souvislosti stoch. frekvenci o, a det. kinetickou konstantou k,\ typ reakce R; C; -> /cř- Sj —> * sp + Sq -> * 2Sj -> * /cř- = Q k,- = C; ■ 7 4-. — £l2 k, — 2 Pozn.: Složitější kinetiky odvozené na základě kvasistabilní abstrakce nelze přímo převádět.