Populačně-genetická data
Základy analýzy diploidních kodominantních znaků (Mendelovská dědičnost)
CCGATCAATGCGGCAA
CCGATCACTGCGGCAA
T
G
mikrosatelity
jaderné sekvence
(např. SSCP)
SNPs
MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE
CZ.1.07/2.2.00/15.0204
PF_72_100_grey_tr ubz_cz_black_transparent

Typ získaných dat
počet lokusů
počet jedinců
počet populací
počet vzorků v 1. populaci
počet vzorků v 2. populaci, atd.
genotypy, tj. velikosti fragmentů v populaci
geografické koordináty
pop1
pop2

formát GenAlex
http://www.anu.edu.au/BoZo/GenAlEx/


Velké množství populačně-genetických programů


Genepop file format – jednoduchý ASCI kód (.txt)
- jednotlivé alely pro daný lokus jsou seřazeny podle velikosti a očíslovány
- tj. např. 128/130 je převedeno na 10/11

Účel populačně-genetické analýzy
frekvence alel
frekvence alel +
mutační model

1. Deskriptive statistics = intrapopulation variation
•genetická variabilita
•počet variabilních lokusů (polymorfismus)
•počet alel
•heterozygotnost
•
•
•Hardy-Weiberg equilibrium

Genetická variabilita
•Polymorfismus
•podíl polymorfních lokusů (znaků) – 95 % nebo 99 % (např. 0,8 = 4 z pěti zkoumaných mikrosatelitů
mají v populaci alespoň 2 alely, z nichž ta vzácnější dosahuje frekvence alespoň 1% nebo 5%)
•
•Počet alel (number of alleles)
•počet alel na lokus
•
•Alelická bohatost (allelic richness)
•počet alel na lokus vztažený k velikosti vzorku (metodou „rarefaction“)
•
•Pozorovaná heterozygotnost (observed heterozygosity)
•průměrná četnost heterozygotů v jednotlivých lokusech
•
•Očekávaná heterozygotnost (expected heterozygosity)
•Hoček=1-(p2+q2) ..... pro 1 lokus se 2 alelami s četností p a q
•
•

Použití údajů o genetické variabilitě
•neutrální genetická teorie: He=4Neµ/[4Neµ+1]
•
•mutation-drift equilibrium
•
•srovnání různých populací a jejich Ne
br05f01

Hardy-Weinbergova rovnováha
Alela
Četnost alely
A
p
a
q
Př. Jeden lokus se 2 alelami
p + q = 1
p, q  - zjistíme genetickou analýzou
Genotyp
Očekávaná četnost genotypu
AA
p2
Aa
2pq
aa
q2
= Hardy-Weinbergova rovnováha
Ø četnosti genotypů zjistíme genetickou analýzou
Ø odchylky od očekávaných četností Þ např. c2 test

Odchylky od HW rovnováhy
•nadbytek heterozygotů = negativní asortativní páření (tj. cílené rozmnožování nepodobných jedinců)
– použité lokusy mohou být výhodné v heterozygotním stavu (např. geny MHC)
•
•nedostatek heterozygotů
•inbreeding (postihuje všechny lokusy stejně)
•nulové alely (jen na některých lokusech bude deficit heterozygotů)

Příklad
•Genepop on the web:
•http://genepop.curtin.edu.au/
•
•FSTAT
•
•
•

pop_lidi
2. Analysis of population subdivision


Hierarchická populační struktura
 Druh → populace → subpopulace (demy)
•lokusy používané pro analýzu populační struktury jsou neutrální vůči selekci
•
•klasický populačně-genetický přístup = jednotlivé populace jsou předem známy (např. chceme zjistit
úroveň genetických rozdílů mezi dvěma lokalitami)
Předpoklady studia populačně-genetické struktury

Genetická struktura populací
drift, mutace a migrace
•Drift
→ diferenciace subpopulací
díky fixaci alternativních alel
•
•
•Mutace
mohou zvýšit diferenciaci
(odlišit subpopulace)
ale riziko homoplázií
•
•
•
•
•Diferenciaci „pokazí“ migrace
1 migrant na generaci může stačit k setření rozdílů!
AA
AA
AA
AA
AA
AA
aa
Aa
AA
aa
Aa
AA
aa
Aa
Aa
aa
AA
AA
aa
aa
aa
aa
aa
aa
Aa
Aa
Aa
Aa
drift

Vliv populační struktury na heterozygotnost
•Extrémní příklad
•
•Dvě izolované subpopulace s fixovanými alelami
•
•Subpopulace v HW, celkově v populaci však nedostatek heterozygotů
AA
AA
AA
AA
AA
AA
AA
AA
AA
aa
aa
aa
aa
aa
aa
aa
aa
aa
aa

F-statistika
•
•tzv. fixační indexy
•
•Wright, Nei FIS, FST, FIT
•
•Popisují heterozygotnost (odchylky od HW) na různých měřítkách
•
•
wright-sewall9

Odhad vlivu populační struktury
na genetický make-up populace
• 3 úrovně (T, S, I)
• x subpopulací (x = 1 až k; zde k = 3)
• každá subpopulace má Nx jedinců
• AA, Aa, aa – odlišný symbol
• př. I1-13 = 13. jedinec z první subpopulace

Koncept heterozygotnosti
  HI – průměrná pozorovaná heterozygotnost jedince v subpopulaci
  HS - očekávaná heterozygotnost jedince v subpopulaci za  předpokladu náhodného páření
  HT - očekávaná heterozygotnost jedince v celé populaci za předpokladu náhodného páření
Hx = pozorovaná heterozygotnost v subpopulaci x
pi,x2 = frekvence i-té alely v subpopulaci x
průměrná oček. heterozygotnost v populaci
Ø pouze pro dvě alely na jednom lokusu (Wright 1931)
Ø pro více alel je výpočet složitější (Nei 1987)

F statistiky
Snížení heterozygotnosti jedince kvůli nenáhodnému páření v subpopulaci (~ HWE)
Vliv rozdělení populace na subpopulace (genetický drift)
Celkový koeficient inbreedingu FIT  - měří redukci heterozygotnosti jedince ve vztahu k celkové
populaci
(1-FIT)= (1-FST)(1-FIS)
Weir & Cockerham (1984) f, θ , F
Korekce na velikost vzorku a počet subpopulací
Výpočet odlišnosti od nuly – nejčastěji permutace

Výpočet F statistik - příklad
Subpopulace 1 (N1=40)
Subpopulace 2 (N2=20)
Lokus
AA
AB
BB
p1(j)
AA
AB
BB
p2(j)
p0(j)
Pozn.
A
10
20
10
0.5
5
10
5
0.5
0.5
H.-W. rovnováha
B
16
8
16
0.5
4
4
12
0.3
0.4
deficit heterozygotů
C
12
28
0
0.65
6
12
2
0.6
0.625
přebytek heterozygotů
D
0
0
40
0.0
20
0
0
1.0
0.5
alternativně fixované alely
Výpočet alelových frekvencí
Pozorovaná heterozygotnost
Očekávaná heterozygotnost
Wrightova F-statistika
Lokus
H1 (j)
H2 (j)
HI (j)
HS (j)
HT (j)
FIS (j)
FST (j)
FIT (j)
A
0.5
0.5
0.5
0.5
0.5
0.0
0.0
0.0
B
0.2
0.2
0.2
0.46
0.48
0.565
0.042
0.583
C
0.7
0.6
0.65
0.4675
0.46875
-0.39
0.0027
-0.387
D
0.0
0.0
0.0
0.0
0.5
---
1.0
1.0
Průměr
0.058
0.261
0.300
Průměrné hodnoty F statistik mohou maskovat odlišnou evoluční historii na různých lokusech
Průměrná frekvence alely A v celé populaci

Hodnoty FST
•0 – 0.05 malá diferenciace (zanedbatelná)
•
•0.05 – 0.15 střední
•
•0.15 – 0.25 velká
•
•> 0.25 velmi velká

F statistiky
popis výsledku nikoliv příčin → možná alternativní vysvětlení


Příklad
•FSTAT
•
•Genetix
•
•

3. Population assignments
•Klasické problémy populační genetiky
•
•Populace dány, jedinci předem zařazeni do populací, zajímají nás vlastnosti populací
(F-statistiky)
–
•Populace sice definovány, ale chceme k nim přiřadit jedince neznámého původu
•
•Kryptická populační struktura = předem není dáno nic → chci zjistit klastry (tj. přirozené
populace) a rozřadit individua do klastrů (population assignments)
•

Unraveling migratory connectivity
(a) strong vs. (b) weak connectivity


Genetická analýza
•« very few birds have bands, but all have genotypes »
•genetic data on population structure
•problems: (1) week genetic differentiation among populations (widespread dispersal), (2) lack of
differentiation in northern temperate zone – recent postglaciation expansion

Population assignment tests
5 microsatellite loci
Fst = 0.14
99.9% assigned correctly
5 microsatellite loci
Fst = 0.04
90.2% assigned correctly
§ program GeneClass (Piry et al. 2004)
§ calculates the probability that an individual’s genotype might exist in a particular population
§ can combine data from multiple genetic marker types

Klastrování – hledání „přirozených populací“
•Distance-based methods
Matice párových vzdáleností
(vzdálenosti mezi každým párem individuí)
Znázornění mnohorozměrným grafem → klastry
Explorační metoda!
Důvěryhodnost klastrů není známa
Závislost na distanční míře i na grafickém zobrazení
Např. neighbour-joining
•Model-based methods
Použiji parametrický model
Současně hledám parametry pro klastry a určuji členy klastrů
Určím věrohodnost výsledků

(Maximum likelihood, Bayesianská metoda)

mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300
mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300
mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300
mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300
mys4-225x300 mys4-225x300 mys4-225x300 mys4-225x300

Bayesian clustering approach
STRUCTURE - Pritchard et al. 2000
•Neznámý počet populací charakterizovaných různými frekvencemi alel → počet populací a frekvence
zjišťuji
•Současně přiřazuji individua do populací
•Lokusy, které nejsou ve vazbě, HW uvnitř subpopulací
(např. mikrosatelity, SNPs)
•Možno předem zahrnout geografickou polohu individuí
•Model se snaží vyložit HW nebo vazebnou nerovnováhu zavedením populační struktury
•Místo přímého výpočtu – odhad pomocí Markov chain Monte Carlo

K (number of clusters)
7
10
Stanovení počtu „přirozených“ subpopulací

K7 K10
K = 7
K = 10
Proporce genomu každého jedince náležející určitému „clusteru“

Alternativní vizualizace výsledků ze STRUCTURE
New%20K%20for%20paper
„forced clustering“
Zobrazení hierarchické struktury mezi populacemi

4. Spatially explicit analyses = spatial genetics = landscape genetics
•vychází z Bayesian clustering approach (typu STRUCTURE) – individual based models
•
•do modelování genetické informace  přidává i geografické koordináty
•
•např. programy BAPS, TESS, Geneland (automaticky stanovují nejlepší počet populací K)

CS_K13Voronoi
The example of very fragmented populations: the best model in BAPs for Central and Southern
Dinaromys populations (spatial clustering of groups of individuals): K=13 (i.e. evidence of very
high structuration)
Best Partition:
Cluster 1: {C9, C13}
Cluster 2: {S6}
Cluster 3: {C8, C14}
Cluster 4: {C4}
Cluster 5: {C1, C2}
Cluster 6: {S1, S2, S3, S4}
Cluster 7: {C6}
Cluster 8: {C3, C15}
Cluster 9: {C5, C7}
Cluster 10: {C10}
Cluster 11: {C11, C12}
Cluster 12: {S5}
Cluster 13: {C16}
CS_K13tree
Př. program BAPS

Př.: Geneland


R platform
Posterior probability maps


Spatial population genetics
Fontaine et al. 2007
Phocoena phocoena