Testování neutrality vs. selekce základní mírou relativního významu selekce a driftu je poměr dN/dS (w) dN (dN, Ka) = průměrný počet nukleotidových rozdílů mezi sekvencemi na 1 nesynonymní pozici měří míru rozdílnosti 2 homologních kódujících sekvencí z hlediska aminokyselin, tj. do jaké míry se liší v nesynonymních pozicích dS (dS, Ks) = průměrný počet nukleotidových rozdílů mezi sekvencemi na 1 synonymní pozici měří míru rozdílnosti 2 homologních kódujících sekvencí z hlediska tichých substitutcí, tj. do jaké míry se liší v synonymních pozicích Výpočet dN/dS: přepsáno do sekvencí aminokyselin: nesynonymní záměny substituce tj. 5 nesynonymních substitucí protože celkový počet záměn je 10 (viz 10 hvězdiček mezi sekvencemi DNA), 5 musí být synonymních buď ACT (sekvence 1), nebo ACG (sekvence 2) Þ změna z A na kteroukoli bázi způsobí záměnu aminokyseliny (např. CCT, GCT, TCT) Þ pozice 1 je nesynonymní Pozice 2: podle genetického kódu každá substituce na 2. místě kodonu je nesynonymní Pozice 3: 4 potenciální aminokyseliny lišící se ve 3. pozici – ACT, ACG, ACC, ACA ® všechny kódují stejnou aminokyselinu (threonin, T) Þ všechny substituce jsou synonymní Þ pozice 3 je synonymní (tato pozice je 4-násobně degenerovaná) pozice 4 (C v CCG): všechny substituce nesynonymní pozice 5: nesynonymní atd. Pozice 9: Pozice 9: v sekvenci 1 = 3. pozice kodonu AAC (asparagin, N), v sekvenci 2 kodon ATC (izoleucin, I) mutace v AAC ® AAT (asparagin, N), AAG, AAA (obě lysin, K) Þ C = 2-násobně degenerovaná ® 9. pozice z 1/3 synonymní a ze 2/3 nesynonymní podobně mutace C v ATC ® ATT, ATA (obě izoleucin, I), ATG (methionin, M) Þ 3-násobně degenerovaná pozice – 2/3 synonymní, 1/3 nesynonymní Þ průměr ½(1/3 synonymních + 2/3 nesynonymních) + ½(2/3 synonymních + 1/3 nesynonymních) = ½ synonymních a ½ nesynonymních Þ pozice 9 je částečně synonymní a částečně nesynonymní Interpretace dN/dS: 1. všechny nesynonymní substituce jsou neutrální: počet synonymních i nesynonymních neutrálních mutací fixovaných každou generaci = m Þ dN/dS = m/m = 1 2. část nesynonymních substitucí je neutrálních, zbytek škodlivých: dS = m v každé generaci fixace f neutrálních nesynonymních mutací Þ (1 – f) škodlivých mutací se nezafixuje dN = fm + (1 – f)0 = fm dN/dS = fm/m = f Protože f je vždy < 1, platí dN/dS < 1 Závěr: dN/dS < 1 indikuje působení purifikující selekce 3. část f mutací je neškodných a (1 – f) škodlivých; z neškodných mutací je část q prospěšných a (1 – q) neutrálních: dS = m (1 – f) se nefixuje f(1 – q) neutrálních Þ fixace frekvencí m za generaci fq prospěšných, vznik rychlostí 2Nm za generaci, pravděpodobnost fixace rovna selekčnímu koeficientu s Þ počet nesynonymních substitucí fixovaných každou generaci: dN = (1 – f)0 + f(1 – q)m + fq 2Nms Þ dN/dS = [(1 – f)0 + f(1 – q)m + fq 2Nms]/m = f(1 – q) + fq 2Ns dN/dS > 1 pokud q velká, konkrétně Závěr: dN/dS > 1 indikuje působení pozitivní selekce Pozn.: dN/dS < 1 nemusí znamenat, že pozitivní selekce nepůsobí, pouze že ji tímto způsobem nemůžeme detekovat Shrnutí: 1. dN/dS = 1: substituce aminokyselin převážně neutrální (ale: pozitivní selekce může vyrušit působení selekce purifikující) Shrnutí: 2. dN/dS < 1: purifikující selekce (ale: některé AA mohly být fixovány pozitivní selekcí, purifikující selekce ale silnější) 3. dN/dS > 1: pozitivní selekce fixovala některé AA, některé substituce mohly být způsobeny driftem (ale: purifikující selekce mohla působit, ale nebyla dost silná, aby převážila nad selekcí pozitivní) Kromě výpočtu synonymních a nesynonymních pozic a synonymních a nesynonymních substitucí nutná ještě korekce pro opakované substituce na téže pozici ® pro výpočty nutné zjednodušující předpoklady, navíc nemůžeme přesně zjistit počet opakovaných substitucí Odhad pomocí maximální věrohodnosti (maximum likelihood): simultánní odhad všech 3 kroků současně poskytuje navíc odhad doby divergence a poměr Ts/Tv Ke kvantifikaci počtu substitucí lze: rekonstruovat ancestrální sekvenci a spočítat změny na jednotlivých pozicích (výsledek bude pravděpodobně podhodnocený) bayesovský přístup: použít substituční rychlosti (v apriorních kategoriích) generovat substituční rychlosti pro jednotlivé kodony Tajimův test neutrality měření rovnováhy mutace a driftu pomocí heterozygotnosti q = 4Nem q lze odhadovat i jinými způsoby: pij = počet párových rozdílů (SNP) mezi sekvencemi i a j (... celkem n(n – 1)/2 možných párových srovnání) S = počet segregujících pozic: suma párových rozdílů v případě DNA sekvencí dělíme ještě jejich délkou 1/1 + 1/2 + ... + 1/(n – 1) počet párových srovnání při modelu nekonečných pozic a neutrální evoluci platí: Fumio Tajima (1989): Př.: * * * * 1 ACCCG AATTC CAATC CGGTT 2 AACTG AATTC GAATC CGGTT 3 AACTG AATTC CAATC CGGTT 4 ACCTG AATTC TAATC CGGAT párová srovnání: 1-2: 3 rozdíly 1-3: 2 rozdíly 1-4: 3 rozdíly 2-3: 1 rozdíl 2-4: 3 rozdíly 3-4: 3 rozdíly prům. p = (3+2+3+1+3+3)/6 = 2,5 S = 4 segregující pozice Q = 4/(1/1 + 1/2 + 1/3) = 4/1,83 = 2,186 Q = 2,5 – 2,186 = 0,314 D < 0: nadbytek polymorfismů s nízkou frekvencí vzhledem k teoretickému předpokladu Þ purifikující selekce, selective sweep (+ populační expanze!) D > 0: nadbytek polymorfismů s nízkou i vysokou frekvencí vzhledem k předpokladu Þ balancující selekce (+ redukce populační velikosti!) Signifikance? nelze použít klasické P Tajima (1989): parametrická aproximace beta rozdělením Hudson (1990): generování náhodných vzorků za předpokladu neutrality a populační stability ® hodnota P = podíl náhodných výsledků £ vypočtené D Value of Tajima's D Mathematical reason Biological interpretation 1 Biological interpretation 2 Tajima's D=0 Pi equivalent to Theta (Observed= Expected). Average Heterozygosity= # of Segregating sites. Observed variation similar to expected variation Population evolving as per mutation-drift equilibrium. No evidence of selection Tajima's D<0 Pi less than Theta (Observed0 Pi greater than Theta (Observed>Expected). More haplotypes (more average heterozygosity)than # of segregating sites. Multiple alleles present, some at low, others at high frequencies Balancing selection, sudden population contraction McDonaldův-Kreitmanův test John H. McDonald and Martin Kreitman (1991): srovnání vnitrodruhového polymorfismu a mezidruhové divergence *) substituce = u 2 druhů fixována odlišná báze Ds = počet synonymních substitucí*) na sekvenci Dn = počet nesynonymních substitucí na sekvenci Ps = počet synonymních polymorfních pozic na sekvenci Pn = počet nesynonymních polymorfních pozic na sekvenci H0: Dn/Ds = Pn/Ps Þ neutrální evoluce H1: Dn/Ds ≠ Pn/Ps Þ selekce negativní (purifikující) selekce: škodlivé mutace silně ovlivňují polymorfismus Dn/Ds < Pn/Ps, tj. poměr nesynonymní/synonymní variability mezi druhy je nižší než poměr nesynonymní/synonymní variability uvnitř druhů pozitivní selekce: prospěšně mutace se rychle šíří Þ neovlivňují polymorfismus, ale mají vliv na mezidruhovou divergenci Dn/Ds > Pn/Ps, tj. poměr nesynonymní/synonymní variability mezi druhy je vyšší než poměr nesynonymní/synonymní variability uvnitř druhů podíl substitucí fixovaných selekcí: Problémy MKT: podhodnocení a v důsledku existence mírně škodlivých mutací, odlišných mutačních rychlostí v různých částech genomu, proměnlivosti v koalescenčních historiích různých částí genomu, změn v efektivní velikosti populace ´ tyto problémy ale neznamenají, že MKT považován za nespolehlivý další potenciální problém: infinite-sites model ® často odchylky od modelu uvnitř druhů, tím větší v mezidruhových srovnáních Detekce selekce na úrovni kodonů Které kodony pod pozitivní/negativní selekcí? substituční model, fylogenetický strom, výpočet dN/dS pro každý kodon v případě sekvencí složených z více jedinců (např. viry) odhad pozitivní selekce na úrovni populace Kdy v minulosti selekce působila? dN/dS mapováno na jednotlivé větve fylogenetického stromu Působí selekce uvnitř rekombinujících fragmentů? např. program Datamonkey (http://www.datamonkey.org) Selekce v heterogenním prostředí variabilita prostředí: v prostoru v čase v hrubém měřítku: během života jedno prostředí v jemném měřítku: během života více prostředí selekce: měkká tvrdá 1. Prostředí proměnlivé v hrubém měřítku (coarse-grained environment) – prostorová variabilita Leveneho model: ci = část celkové populace obývající habitat i měkká selekce Př.: svijonožec Balanus balanoides Výsledek obrázku pro Balanus balanoides image c1 = 0,4 c2 = 0,05 c3 = 0,5 c4 = 0,05 stabilní polymorfismus při p = 0,74 při p < 0,52 alela směřuje k extinkci nechráněný polymorfismus (unprotected polymorphism) c1 = 0,15 c2 = 0,375 c3 = 0,325 c4 = 0,15 stabilní polymorfismus při p = 0,86 chráněný polymorfismus (protected polymorphism) při p ® 0 a p ® 1 selekce frekvenci táhne zpět Þ kvalitativně odlišné výsledky při stejných hodnotách fitness jako funkce parametru c Prostorová heterogenita v hrubém měřítku rozšiřuje podmínky pro chráněný polymorfismus V homogenním prostředí a při konstantní fitness polymorfismus jen při superdominanci (wAA < wAa > waa) ´ v heterogenním prostředí ne, např.: c1 = 0,12 c2 = 0,58 c3 = 0,3 c4 = 0 jediný habitat se superdominancí chráněný polymorfismus, i když ani v jednom habitatu selekce nepodporuje heterozygoty tvrdá selekce: c1 = 0,12 c2 = 0,58 c3 = 0,3 c4 = 0 nestabilní i nechráněný polymorfismus Při tvrdé selekci prostorová heterogenita v hrubém měřítku podmínky pro polymorfismus nerozšiřuje. ALE: Pokud tok genů velmi omezený, ekologický rozdíl mezi měkkou a tvrdou selekcí je z hlediska podmínek pro udržení polymorfismu chráněného prostorovou variabilitou v hrubém měřítku nepodstatný. Migrace drsnokřídlec březový (Biston betularia): ~10/km2; migrace > 1 km Migrace zejkovec dvojzubý (Odontoptera bidentata): 50 000–100 000/km2; migrace < 150 m Vyšší tok genů ® na lokální úrovni proměnlivost prostředí v jemném měřítku; adaptace na prostředí měnící se v hrubém měřítku na větší geografické škále. Varsel.tif kombinace hodnot fitness poskytující stabilní polymorfismus je restriktivnější pro časovou než prostorovou variabilitu #1 wAA = 1 wAa = 1 waa = x1 #2: wAA = 1 wAa = 1 waa = x2 2. Prostředí proměnlivé v jemném měřítku (fine-grained environment) Př.: mutace a ® A; fitness nového genotypu Aa = 1 + s ss2 = heterogenita prostředí v jemném měřítku Jaká je pravděpodobnost přežití alely A? pokud s malé, platí: 2 mutace: a ® A1 a a ® A2; fitness obou heterozygotů stejná, tj. 1 + s ALE: pokud ss12 < ss22 Þ A1 má větší šanci na přežití než A2! Þ selekce podporuje mutace poskytující účinnější pufrování proti fluktuacím v důsledku proměnlivosti prostředí v jemném měřítku při homogenitě prostředí (ss2 = 0) P » 2s Za určitých okolností může být pravděpodobnost přežití vyšší i u alely spojené s nižší fitness: např. s1 > s2 ® za normálních okolností by šance na přežití byla vyšší pro A1 než pro A2 ale pokud platí bude mít vyšší pravděpodobnost přežití alela spojená s nižší fitness tj. je-li genotyp A1a dostatečně pufrován proti heterogenitě prostředí v jemném měřítku, bude mít mutace A1 větší šanci v populaci přežít, než prospěšnější mutace A2 Např.: s1 = 0,02; s2 = 0,01; ss12 = 4; ss22 = 0,5 žádná heterogenita: 2x vyšší šance přežití pro A1 než pro A2 heterogenita: P(A1) = 0,008 P(A2) = 0,013 Þ A2 je výhodnější neutralita: s1 = s2 , tj. stejná fitness ´ selekce bude preferovat genotyp lépe pufrovaný proti fluktuacím fitness Pokud konečná velikost populace: výhodná alela; viz Selekce II., snímek # 20 při heterogenitě prostředí místo s ® (s – n/2N), kde selekční koeficient jedince je náhodná veličina s průměrem s a rozptylem n/2N Þ průměrná fitness v modelu proměnlivého prostředí v jemném měřítku je při určení pravděpodobnosti fixace výhodné alely snížena o n/2N Þ s klesající schopností pufrování heterogennosti prostředí v jemném měřítku (tj. s rostoucím rozptylem n ) klesá pravděpodobnost fixace prospěšné alely Pozor: je třeba mít na zřeteli, že znak, který je zde pufrován, je reprodukční zdatnost pufrování fitness je ale většinou zprostředkováno jinými znaky, které jsou plastické a citlivé na heterogenitu prostředí v jemném měřítku Např. člověk a jeho schopnost bránit se výkyvům teploty: zvýšení teploty ® dilatace povrchových cév Þ odvod tepla k povrchu těla další zvýšení ® pocení Þ další odvod tepla odpařováním (delší expozice vysoké teploty ovšem může mít fatální následky) http://www.kickstandfitness.com/wp-content/uploads/2012/10/electrolyte-sweat-cartoon.jpg snížení teploty ® vazokonstrikce Þ snížení tepelných ztrát další snížení ® třes atd. Þ produkce tepla (delší expozice chladu opět může mít fatální následky) subsaharská Afrika: dřívější a intenzivnější pocení Evropa: dřívější začátek třesu (teplota kůže 29,5 °C ´ Afričané 28 °C) Þ dřívější nástup pufrujícího mechanismu v populaci, která má historicky větší zkušenost Kromě intenzity má vliv i délka působení prostředí ® při dlouhodobějším působení jiné mechanismy (např. zvýšení počtu potních žláz) http://www.illustrationsof.com/royalty-free-winter-clipart-illustration-93477.jpg Prostředí proměnlivé v hrubém měřítku a měkká selekce budou v populaci udržovat polymorfismus s vyšší pravděpodobností než proměnlivost v jemném měřítku a tvrdá selekce.