U VO D DO FYLOGENETICKÉ ANALÝZY 11. Maximální věrohodnost (Maximum likelihood, ML) heterogenita substitučních rychlostí, ML a konzistence Bayesovská analýza MCMC Měření spolehlivosti stromů jackknife, bootstrap, parametrický bootstrap, permutační testy Testování hypotéz testy molekulárních hodin, srovnávání stromů, distance mezi stromy Konsensuální stromy Maximální věrohodnost (maximum likelihood, ML) hod mincí 15x -> skóre OOHHHOHOOOHOHHO: 7x panna (hlava, H), 8x orel (O) pravděpodobnost, že padne hlava = p, orel = (1 - p) hody nezávislé => pravděpodobnost výsledného skóre = (1 -p)x(1 -p)xpxpxpx(1 -p)xpx(1 -p)x(1 -p)x(1 -p)xpx(1 -p)xpxpx(1 -p) = p7(1-p)8 maximum = 0,4666 « 7/15 MaxL 0 0.2 0.4 0.6 0.8 p L = (D|H) podmíněná pravděpodobnost získání dat D při hypotéze H p = 1/2 p = 1/3 L = L = 3,0517.10-5 1,7841.10-5 výsledek hodů 1,7x pravděpodobnější s pravou mincí 1 Věrohodnost Maximální věrohodnost ve fylogenetické analýze data: 1 TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG 2 TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC 3 TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC 4 TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT strom: topologie c délky větví ■c Věrohodnostní funkce: jaká je pravděpodobnost získání daných dat při dané hypotéze? evoluční model = hypotéza L = P(D|H), kde D = matice dat H = t (topologie), v (délky větví), 6 (model) 1 2 3 4 Věrohodnost 1 j N TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT x: 4 nukleotidy y: 4 nukleotidy ^>4x4= 16 možných scénářů 1) L(1) = P(A) x P(T) x P(AC) x P(AC) x P(TA) x P(TG) 2j lq) = P(scénář 1) + .... + P(scénář 16) 3) všechny pozice: l = L(1) x L(2) x ... x /_(/) x ... x l(n) = N 4) InL = ln/_(1) + ln/_(2) + ... + ln/_(A/) = : Z lni N A A V Věrohodnost (ML) a úspornost (MP) Věrohodnost Počet změn v = 0,01 v = 0,10 v = 0,20 v = 1,00 Parsimonie (0,2475) (0,2266) (0,20611) (0,11192) 0 100 99,99 99,83 99,31 82,17 1 0 0,00 0,00 0,00 0,00 2 0 0,0011 0,11 0,44 9,13 3 0 0,034 3,55 4 0 0,0027 v=0,01 v=0,10 v=0,20 y=l,00 Počet změn Parsimonie (0,00083) (0,00786) (0,01462) (0,04602) 0 0 0,00 0,00 0,00 0,00 1 100 99,66 96,64 92,36 66,54 2 0 0,33 3,22 6,22 21,19 3 0 0,12 0,48 8,61 4 0 0,003 0,023 2,05 5 0 0,0037 0,42 Věrohodnost Věrohodnost a konzistence Věrohodnost Věrohodnost a konzistence Farrisova (anti-Felsensteinova, inverzní Felsensteinova) zóna "chybný" "long-branch repulsion" Bayesovská analýza ML: jaká je pravděpodobnost dat při dané hypotéze? bayesiánský přístup - příklad: soubor 100 kostek, ze kterých máme vybrat jednu víme, že ze 100 kostek je 80 v pořádku, ale 20 je upraveno tak, aby padala 6 u pravých kostech stejné, u falešných se liší: pravá falešná •házíme 2 1. hod: 2. hod: • • • 1/6 1/6 1/21 3/21 Jaká je pravděpodobnost, že naše kostka je falešná? • •• • • • • 1/6 1/6 3/21 4/21 • • • • • 1/6 4/21 • • • • • • 1/6 6/21 Bayesovská analýza • aposteriorní pravděpodobnost (posterior probability) = pr. platnosti hypotézy při získaných datech: P(H ÍD) • a.p. je funkcí věrohodnosti P(D I H) a apriorní pravděpodobnosti (prior prob.) • prior vyjadřuje náš apriorní předpoklad nebo znalost • příklad se 2 hody kostkou: Aposteriorní pravděpodobnost, že naše kostka je falešná, je dána Bayesovou rovnicí: věrohodnost prior = suma čitatelů pro všechny alternativní hypotézy P(D|H) P(H) P(H I D) S[P(D I Hi)xP(Hi)] Bayesovská analýza apriorní pravděpodobnost (falešná) = 0.2 (20/100 falešných kostek v souboru) pravá falešná Pr., že dostaneme P= 1/6 x 1/6= 1/36 Pr. že dostaneme P = 3/21 x6/21 = 18/441 U s pravou kostkou: H s falešnou kostkou: 1/6 1/6 1/6 1/6 1/6 1/6 1/21 3/21 3/21 4/21 4/21 6/21 P(biased| [\| [QJ p(0[H Ibiased) x P(biased) = P([\][j|]|biased) x P(biased) + P(0[H]|fair) x P(fair) 18/441 x 2/10 0.269 18/441 x 2/10+ 1/36 x 8/10 Bayesovská analýza Bayesovská metoda ve fylogenetické analýze: posterior At, v, 6\X B(s) i=1 likelihood / \ x prior Px\t , v, e)pt, v, or F&t x,o)f(t v,e)] summing over all possible trees Parametry pro bayesovskou analýzu: ML odhady -> empirická BA všechny kombinace -> hierarchická BA p X, \6= \p X,\,Q af %,Q . Bayesovská analýza • Problém: příliš složité => nelze řešit analyticky, pouze numericky aproximovat • řešení: metody Monte Carlo • náhodný výběr vzorků, při velkém množství aproximace skutečnosti • Markovovy řetězce: Markov chain Monte Carlo (MCMC) Markovův proces: t(-1) A -> T(0) C T(+1) G ... P stejná po celé fylogenii = homogenní Markovův proces Bayesovská analýza Metropolisuv-Hastingsuv algoritmus: Změna parametru x -> x' 1. jestliže P(x') > P(x), akceptuj x' 2. jestliže P(x') < P(x), vypočti r = P(x')/P(x) protože platí, že P(x') < P(x), musí být r < 1 3. generuj náhodné číslo U z rovnoměrného rozělení z intervalu (0, 1) 4. jestliže r > U, akceptuj x', jestli ne, ponechej x usměrněný pohyb robota v aréně: 5000 kroků 25000 kroků „vrstevnice" arény Bayesovská analýza stacionární fáze (plateau) "burn-in" 0 0.25 0.50 0.75 1.00 0 0.25 0.50 0.75 1.00 Generation (x 10') Generation (x 10s) MrBayes: http://morDhbank.ebc. uu.se/mrbaves/ 4 independent chains, Metropolis-coupled MCMC Problémy apriorních pravděpodobností! Měření spolehlivosti stromu Metody opakovaného výběru • bez navrácení - jackknife • z navrácením - bootstrap Měření spolehlivosti • parametrický bootstrap: evoluční model • aposteriorní pravděpodobnosti Je hierarchiká struktura stromu reálná? • permutation tail probability test (PTP) • topology-dependent permutation tail prob. test (T-PTP) Testování hypotéz • Testování modelů: LRT, Akaike, Bayes Testy molekulárních hodin • Relative rate test (RRT): AC=BC? • linearizované stromy odstranění signifikantně odlišných taxonů • relaxované molekulární hodiny umožňují změnu rychlostí podél větví Testování hypotéz Srovnání stromů Je jeden strom lepší než druhý? Testy párových pozic: • winning sites test • Felsensteinův z test • Templetonův test • Kishinův-Hasegawův test (KHT, RELL) Pro více než dva stromy: • Shimodairův-Hasegawův (SH) test Jsou dva stromy signifikantně odlišné? Distance mezi stromy: partition metric quartet metric path difference metric metody inkorporující délky větví Konsensuální stromy • striktní konsensus • majority-rule • problém s konsensuálními stromy - kombinovaná vs. separátní analýza, supermatrix vs. supertree • konsensuální stromy v metodách opakovaného výběru, bayesovská analýza Fylogenetické programy • alignment: ClustalX http://inn-prot.weizmann.ac.il/software/ClustalX.html • PAUP* • PHYLIP • McClade ... MP • MOLPHY, TREE-PUZZLE ... ML • MrBayes ... BA • práce se stromy: TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html