Testování neutrality vs. selekce
základní mírou relativního významu selekce a driftu je poměr dN/dS (w)
dN (dN, Ka) = průměrný počet nukleotidových rozdílů mezi sekvencemi
na 1 nesynonymní pozici
měří míru rozdílnosti 2 homologních kódujících sekvencí z hlediska
aminokyselin, tj. do jaké míry se liší v nesynonymních pozicích
dS (dS, Ks) = průměrný počet nukleotidových rozdílů mezi sekvencemi
na 1 synonymní pozici
měří míru rozdílnosti 2 homologních kódujících sekvencí z hlediska
tichých substitutcí, tj. do jaké míry se liší v synonymních pozicích

Výpočet dN/dS:
přepsáno do sekvencí aminokyselin:
nesynonymní záměny
substituce
tj. 5 nesynonymních substitucí
protože celkový počet záměn je 10 (viz 10 hvězdiček mezi sekvencemi
DNA), 5 musí být synonymních

buď ACT (sekvence 1), nebo ACG (sekvence 2) Þ změna z A na
kteroukoli bázi způsobí záměnu aminokyseliny (např. CCT, GCT, TCT)
Þ pozice 1 je nesynonymní
Pozice 2: podle genetického kódu každá substituce na 2. místě kodonu
je nesynonymní

Pozice 3: 4 potenciální aminokyseliny lišící se ve 3. pozici – ACT, ACG,
ACC, ACA ® všechny kódují stejnou aminokyselinu (threonin, T)
Þ všechny substituce jsou synonymní Þ pozice 3 je synonymní
(tato pozice je 4-násobně degenerovaná)
pozice 4 (C v CCG): všechny substituce nesynonymní
pozice 5: nesynonymní atd.

Pozice 9:


Pozice 9: v sekvenci 1 = 3. pozice kodonu AAC (asparagin, N),
v sekvenci 2 kodon ATC (isoleucin, I)
mutace v AAC ® AAT (asparagin, N), AAG, AAA (obě lysin, K) Þ
C = 2-násobně degenerovaná ® 9. pozice z 1/3 synonymní a
ze 2/3 nesynonymní
podobně mutace C v ATC ® ATT, ATA (obě isoleucin, I), ATG (methionin,
M) Þ 3-násobně degenerovaná pozice – 2/3 synonymní, 1/3
nesynonymní
Þ  průměr ½(1/3 synonymních + 2/3 nesynonymních) +
½(2/3 synonymních + 1/2 nesynonymních)
= ½ synonymních a ½ nesynonymních
Þ pozice 9 je částečně synonymní a částečně nesynonymní


Interpretace dN/dS:
1. všechny nesynonymní substituce jsou neutrální:
počet synonymních i nesynonymních neutrálních mutací
fixovaných každou generaci = m
Þ dN/dS = m/m = 1
2. část nesynonymních substitucí je neutrálních, zbytek škodlivých:
dS = m
v každé generaci fixace f neutrálních nesynonymních mutací
 Þ (1 – f) škodlivých mutací se nezafixuje
dN = fm + (1 – f)0 = fm
dN/dS = fm/m = f
Protože f je vždy < 1, platí dN/dS < 1
Závěr: dN/dS < 1 indikuje působení purifikující selekce

3. část f mutací je neškodných a (1 – f) škodlivých; z neškodných mutací
je část q prospěšných a (1 – q) neutrálních:
dS = m
(1 – f) se nefixuje
f(1 – q) neutrálních Þ fixace frekvencí m za generaci
fq prospěšných, vznik rychlostí 2Nm za generaci, pravděpodobnost
fixace rovna selekčnímu koeficientu s
Þ počet nesynonymních substitucí fixovaných každou generaci:
dN = (1 – f)0 + f(1 – q)m + fq 2Nms
 Þ dN/dS = [(1 – f)0 + f(1 – q)m + fq 2Nms]/m = f(1 – q) + fq 2Ns
 dN/dS > 1 pokud q velká, konkrétně

Závěr: dN/dS > 1 indikuje působení pozitivní selekce
Pozn.: dN/dS < 1 nemusí znamenat, že pozitivní selekce nepůsobí,
pouze že ji tímto způsobem nemůžeme detekovat
Shrnutí:
1. dN/dS = 1: substituce aminokyselin převážně neutrální
(ale: pozitivní selekce může vyrušit působení selekce
purifikující)

Shrnutí:
2. dN/dS < 1: purifikující selekce
(ale: některé AA mohly být fixovány pozitivní selekcí,
purifikující selekce ale silnější)
3. dN/dS > 1: pozitivní selekce fixovala některé AA, některé
substituce mohly být způsobeny driftem
(ale: purifikující selekce mohla působit, ale nebyla dost
silná, aby převážila nad selekcí pozitivní)

Kromě výpočtu synonymních a nesynonymních pozic a synonymních
a nesynonymních substitucí nutná ještě korekce pro opakované
substituce na téže pozici
® pro výpočty nutné zjednodušující předpoklady, navíc nemůžeme
přesně zjistit počet opakovaných substitucí
Odhad pomocí maximální věrohodnosti (maximum likelihood):
simultánní odhad všech 3 kroků současně
poskytuje navíc odhad doby divergence a poměr Ts/Tv
Ke kvantifikaci počtu substitucí lze:
rekonstruovat ancestrální sekvenci a spočítat změny na jednotlivých
pozicích (výsledek bude pravděpodobně podhodnocený)
bayesovský přístup: použít substituční rychlosti (v apriorních kategoriích)
generovat substituční rychlosti pro jednotlivé kodony

Tajimův test neutrality
měření rovnováhy mutace a driftu pomocí heterozygotnosti q = 4Nem
q  lze odhadovat i jinými způsoby:
pij = počet párových rozdílů (SNP) mezi sekvencemi i a j
(... celkem n(n – 1)/2 možných párových srovnání)
S = počet segregujících pozic:
suma párových rozdílů
v případě DNA sekvencí dělíme ještě jejich délkou
1/1 + 1/2 + ... + 1/(n – 1)
počet párových srovnání

při modelu nekonečných pozic a neutrální evoluci platí:
Fumio Tajima (1989):
Př.:
 * *        *        *
1 ACCCG AATTC CAATC CGGTT
2 AACTG AATTC GAATC CGGTT
3 AACTG AATTC CAATC CGGTT
4 ACCTG AATTC TAATC CGGAT
párová srovnání:
1-2: 3 rozdíly
1-3: 2 rozdíly
1-4: 3 rozdíly
2-3: 1 rozdíl
2-4: 3 rozdíly
3-4: 3 rozdíly
prům. p = (3+2+3+1+3+3)/6 = 2,5
S = 4 segregující pozice
Q = 4/(1/1 + 1/2 + 1/3) = 4/1,83 = 2,186
 Q = 2,5 – 2,186 = 0,314

D < 0:
nadbytek polymorfismů s nízkou frekvencí vzhledem k teoretickému
předpokladu Þ purifikující selekce, selective sweep
(+ populační expanze!)
D > 0:
nadbytek polymorfismů s nízkou i vysokou frekvencí vzhledem
k předpokladu Þ balancující selekce (+ redukce populační velikosti!)
Signifikance?
nelze použít klasické P
Tajima (1989): parametrická aproximace beta rozdělením
Hudson (1990): generování náhodných vzorků za předpokladu neutrality
a populační stability ® hodnota P = podíl náhodných výsledků
£ vypočtené D

Value of Tajima's D
Mathematical reason
Biological interpretation 1
Biological interpretation 2
Tajima's D=0
Pi equivalent to Theta (Observed= Expected). Average Heterozygosity=
# of Segregating sites.
Observed variation similar to expected variation
Population evolving as per mutation-drift equilibrium. No evidence of selection
Tajima's D<0
Pi less than Theta (Observed<Expected). Fewer haplotypes (lower average heterozygosity) than # of
segregating sites.
Rare alleles present at low frequencies
Recent selective sweep, population expansion after a recent bottleneck, linkage to a swept gene
Tajima's D>0
Pi greater than Theta (Observed>Expected). More haplotypes (more average heterozygosity)than
# of segregating sites.
Multiple alleles present, some at low, others at high frequencies
Balancing selection, sudden population contraction

McDonaldův-Kreitmanův test
John H. McDonald and Martin Kreitman (1991):
srovnání vnitrodruhového polymorfismu a mezidruhové divergence
*) substituce = u 2 druhů fixována odlišná báze
Ds = počet synonymních substitucí*) na sekvenci
Dn = počet nesynonymních substitucí na sekvenci
Ps = počet synonymních polymorfních pozic na sekvenci
Pn = počet nesynonymních polymorfních pozic na sekvenci
H0: Dn/Ds = Pn/Ps Þ neutrální evoluce
H1: Dn/Ds ≠ Pn/Ps Þ selekce

negativní (purifikující) selekce:
škodlivé mutace silně ovlivňují polymorfismus
Dn/Ds < Pn/Ps, tj. poměr nesynonymní/synonymní variability mezi druhy
je nižší než poměr nesynonymní/synonymní variability uvnitř druhů
pozitivní selekce:
prospěšně mutace se rychle šíří Þ neovlivňují polymorfismus, ale mají
vliv na mezidruhovou divergenci
Dn/Ds > Pn/Ps, tj. poměr nesynonymní/synonymní variability mezi druhy
je vyšší než poměr nesynonymní/synonymní variability uvnitř druhů
podíl substitucí fixovaných selekcí:


Problémy MKT:
podhodnocení a v důsledku existence mírně škodlivých mutací,
odlišných mutačních rychlostí v různých částech genomu,
proměnlivosti v koalescenčních historiích různých částí genomu,
změn v efektivní velikosti populace
´ tyto problémy ale neznamenají, že MKT považován za nespolehlivý
další potenciální problém: infinite-sites model
® často odchylky od modelu uvnitř druhů, tím větší v mezidruhových
srovnáních

Detekce selekce na úrovni kodonů
Které kodony pod pozitivní/negativní selekcí?
substituční model, fylogenetický strom, výpočet dN/dS pro každý kodon
v případě sekvencí složených z více jedinců (např. viry) odhad pozitivní
selekce na úrovni populace
Kdy v minulosti selekce působila?
dN/dS mapováno na jednotlivé větve fylogenetického stromu
Působí selekce uvnitř rekombinujících fragmentů?
např. program CODEML, balík Datamonkey
   (http://www.datamonkey.org)