prof. Ing. Tomáš Urban, Ph.D.
urban@mendelu.cz
Genetika kvantitativních znaků
Princip:
Detekce důležitých rozdílných zdrojů efektů
Určit jejich příspěvek na celkové varianci
Variance je odvozena ze součtu čtverců a stupňů volnosti
Nutné jedince ve skupinách se stejným stupněm příbuznosti
Skupiny polosourozenců podle otce
Rodiče – potomci
Kovariance mezi členy rodin nebo skupin = komponenta variance mezi
skupinami
Rozčlenění součtu čtverců (SS) podle zdrojů variance (skupina zvířat) a výpočet
středního čtverce (MS) ~ variance
Sire model – 1 f ANOVA
• Odhad korelace polosourozenců
2
A4
12
SSV  
• předpoklad, že otcové a matky jsou nepříbuzní, náhodně pářeni, bez selekce
• balancovaný design: p otců (sire) pářeno s n matkami (dam)  1 potomka
yij =  + ai + eij
2
E
2
A4
32
eeV   2
e
2
S
2
y  
Variance mezi skupinami
polosourozenců =
kovarianci mezi
polosourozenci ve skupině
cov(polos.) = cov(yij, yik) =
= σ2
S
To lze pomocí
ANOVA
odhadnout
2
A
2
S4  
Sire model – tabulka ANOVA
E(MS)MSSSdf
Zdroj
proměnlivosti
p – 1
Mezi rodinami
(mezi otci)
n – p
V rodinách
(reziduální)
n – 1Celkem
2
e


p
i
iiS yynSS
1
2
)( 2
0
2
ge n  
)1( 

p
SS
MS S
S
 

p
i
n
j
iije
i
yySS
1 1
2
)(
)( pn
SS
MS e
e


 

p
i
n
j
ijc
i
yySS
1 1
2
)(
)1( 

n
SS
MS c
c
 
1
2
0



n
n
n n
ni
 
)1p)(pn(n
)1n(1)1)(1n.(2
.4s.4se
00
2
0
2
h2





2
0
2
0
2
gegea nMSnMS  
0
2
n
MSMS ea
g


22
2
eg
g
ir





2
2
22
2
2
444
P
g
eg
g
h




 


 
)1p)(1n(n
)1n(1)1.(2
.4s.4se
00
2
0
2
h2





Vybalancovaná data Nevybalancovaná data
2
eeMS 
Intraklasní korelační koeficient
Vážený počet potomků na 1 otce
Závěr výpočtu
• odhad koeficientu dědivosti
• odhad střední chyby h2
• intervalu spolehlivosti (hranice platnosti, např. 95 %)
2
2
h
seh  ...... 2
 h
Př. 1 faktorové ANOVA pro výpočet h2
-skupin polosourozenců
Statistický model jednofaktorové
analýzy variance:
yij =  + ai + eij
yij – užitkovost j-tého potomka po i-tém otci
 – obecný průměr populace
ai – vliv i-tého otce
eij – ostatní nahodilé vlivy
O5O4O3O2O1n
6906486037327171
6506697316947042
7886937376917533
6787186786317004
6116067476836755
6746697635927936
6586576876806917
7176006186186878
54665260556453215720Σ
Výpočet součtu čtverců odchylek od průměru:
- mezi otci
- uvnitř skupin podle otců (reziduální)
n
Y
n
Y
SS
p
i i
i
a
2
1
2



 
 

 

p
i i
i
p
i
m
j
ije
n
Y
ySS
j
1
2
1 1
2
skupina
41006384089800,00327184005720O1
35543793539130,13283130415321O2
38948943869762,00309580965564O3
34696843458450,00276676005260O4
37538783734644,50298771565466O5
1877347318691786,63= 27331
= 746983561
ni = n0 = 8n = 40p = 5
 2
ijyii nY2

2
iYiY
Y
2
Y   ii nY2
 2
ijy
2
eeMS 
2
0
2
gea nMS  
Výsledek analýzy variance z programu SAS
Dependent Variable: potomek
Sum of
Source DF Squares Mean Square F Value Pr > F
Model (a) 4 17197.60000 4299.40000 1.84 0.1428
Error (e) 35 81686.37500 2333.89643
Corrected Total 39 98883.97500
Výpočet odhadu genetické variance podle otců:
2
0
2
0
2
gegea nMSnMS  
683,245
8
2333,89643-4299,4
0
2



n
MSMS ea
g
0952,0
896,2333368,245
368,245
22
2





eg
g
ir



2
2
22
2
2
444
P
g
eg
g
h




 


 
)1)(1(
)1(1)1.(2
.4.4
00
2
0
2
2



pnn
n
sseh


57,038,02
2
 h
seh
2 faktorová hierarchická ANOVA
• Odhad korelace u vlastních sourozenců a
polosourozenců
• Stanovení komponent variance mezi a v rodinách
vlastních sourozenců
• předpoklad, nejsou efekty dominance a společného prostředí
• balancovaný design: p otců (sire) pářeno s m matkami (dam)  n potomky
yijk =  + ai + bij + eijk
2222
edsy  
Variance mezi
skupinami úplných
sourozenců =
kovarianci mezi
úplnými sourozenci ve
skupině
E(MS)MSSSdf
Zdroj
proměnlivost
p – 1
Mezi otci
(mezi
rodinami)
m – p
Mezi matkami
(uvnitř otců)
n – m
Mezi potomky
(v otcích a
matkách)
n – 1Cekem
2
e
 

p
i
m
j
iijS
i
yynSS
1 1
2
)( 2
3
2
2
2
OM gge kk  
)1( 

p
SS
MS S
S
  

p
i
m
j
n
k
ijijke
i ij
yySS
1 1 1
2
)(
)( mn
SS
MS e
e


)1( 

n
SS
MS c
c
)( pm
SS
MS d
d


 

p
i
m
j
iijijd
i
yynSS
1 1
2
)(
  

p
i
m
j
n
k
ijkc
i ij
yySS
1 1 1
2
)(
2
1
2
Mge k  
Odhad h2 u vlastních sourozenců a polosourozenců
a) podle otců
1
2
k
MSMS eb
gM


3
2
22
k
kMSMS M
O
gea
g




2
2
22
2
2
444
P
g
eg
g
OO
O
O
O
h




 


b) podle matek
2
2
22
2
2
444
P
g
eg
g
MM
M
M
M
h




 


c) podle otců a matek
2
22
222
22
2
222
P
gg
egg
gg
MOMO
MO
MO
MO
h









 
3
2
k
MSMS ba
gO

Když k1 = k2 :
potomků/matku = matek/otce
ANOVA v maticovém zápisu
Lineární model ANOVA
y = µ + efektA + efektB + … + e
můžeme vyjádřit v maticích:
y = Xb + e
X je matice designová s 0 a 1, které sledují
experimentální plán a jeho lineární model
Zobecněný lineární model
y je sloupcový vektor
vlastností/proměnné pro
N jedinců
X je designová matice
(N  r)
b je vektor parametrů e je vektor reziduí
eXby 
Designová matice X
OtecJedinec
11
12
33
24
35
16
27
18
39
210
𝟏 𝟎 𝟎
𝟏 𝟎 𝟎
𝟎
𝟎
𝟎
𝟏
𝟎
𝟏
𝟎
𝟎
𝟎
𝟏
𝟎
𝟎
𝟏
𝟎
𝟎
𝟏
𝟏
𝟎
𝟏
𝟎
𝟎
𝟎
𝟏
𝟎
O1 O2 O3
Jedinec
Otec
1
2
3
4
5
6
7
8
9
10
X
Řešení odhadů nejmenších čtverců
vektoru b
  yXXXb 
1
  yXbXX 
eXby 
Metody založené na ML
Maximum Likelihood (ML)
REstricted Maximum Likelihood (REML)
Maximilizuje pravděpodobnost pozorovaných dat daných parametrů
Nebalancovaná data
Komplexní rodokmenová struktura (matice příbuznosti)
Simultánní korekce pro fixní efekty
Vyžaduje známou distribuci (normální)
Odhady jsou nevychýlené a jsou vždy v parametrovém prostoru
• Rovnice dává pravděpodobnost parametrů (b, V) daných dat (X, y)
• Na pravé straně
– první dva výrazy jsou očekávané hodnoty
– poslední výraz je součet čtverců
Logaritmus věrohodnostní funkce:
Očekávané průměry E(y) = Xb a var(y) = V
)(2/)(log 1
XbyX´Vb  
 L
yVX´XVX´b 111 ˆ)ˆ(ˆ 

První derivace:
Derivace = 0
Funkce hustoty pravděpodobnosti normálního rozdělení:
Stejné jako pro LS
odhady
Příklad algoritmu REML
Proč je REML lepší než ANOVA?
Je přesnější
Používá rovnice smíšeného modelu, takže využívá
příbuzenské vztahy všech zvířat (animal model)
Má tedy vlastnosti jako BLUP
Dovoluje řešit více komplikované smíšené modely
(maternální efekty, multiple traits ...) jako BLUP
ALE při vybalancovaném pokusu jsou výsledky
odhadů REML a ANOVA stejné
Heritability Estimates of Protein %, Fat %, Lactose %, Non Fat Solids and Total Solids of Dairy Cattle
in Northern Thailand
N. Chongkasikita, T. Vearasilpa and U. ter Meulenb
Deutscher Tropentag 2002, Witzenhausen, October 9‐11, 2002, Conference on International Agricultural
Research for Development
530 krav, 3 chovy
protein %, tuk %, laktóza %, sušina bez tuku a celková sušina
Pevné efekty: stádo-rok, sezóna, podíl HF skotu, počet dní laktace (regrese)
AM BLUP, použití REML programem VCE4 (Groeneveld, 1998).
yijklm = µ + Ci + HFj + HYk + Sl + Am + b(Xijklm – X) + Eijklm
Produkční vlastnosti
průměr
Skupiny 1-10 podle % oblasti bíle zbarvené srsti (barva)
Skupiny 1-5 podle % Holstein Friesian plemene u krav
Stádo - Rok (1997, 1998, 1999, 2000 a 2001)
Období otelení (zima, léto a deště)
Jedinci (zvířata)
Věk při prvním otelení jako kovariata
Náhodné reziduální efekty
yijklm
µ
Ci
HFj
HYk
Sl
Am
b(Xijklm–
X)
Eijklm
celková
sušina
sušina
bez tuku
laktóza
%
tuk %protein %
0,1330,2600,2380,3790,342Heritabilita
0,0360,9630,0220,1300,041VA
0,2382,7360,0690,2120,079VE
Odhady komponent variance
Proces rozčlenění fenotypové variance na její komponenty (VA a
VE)
Proč odhadujeme komponenty variance?
Lepší porozumění mechanizmu kontrolující vlastnost
Nutné pro predikci plemenných hodnot
Nutné pro optimalizaci šlechtitelských programů
Měly by být komponenty variance znovu odhadovány v čase?
ANO > variance a kovariance se mění v čase v důsledku změn genetických
a prostředí (tj. selekce,…)
• obtížně měřitelné znaky
• neznáme fenotyp, známe pořadí
• korelační koeficient dle Spearmana
• stanovíme pořadí rodičů a nezávisle pořadí potomků;
• diference mezi pořadím di
)1.(
.6
1 2
2



nn
d
r i
s
n - počet dvojic
Př. Použití pořadového korelačního koeficientu podle
Spearmana u matek a dcer
dcerymatky
pořadí% tukupořadí% tuku
34,414,6
74,024,5
113,634,4
83,944,3
14,654,2
44,364,1
24,574,0
54,283,9
123,593,8
64,1103,7
103,7113,6
93,8123,5
3077,0
)112(12
1986
1
)1(
6
1 22
1
2







nn
d
R
n
i
i
h2 = R2 = 0,0947
Př. Výpočet odhadu koeficientu dědivosti na základě zjištění
průměrného pořadí matka – dcera
• Vhodné využití u vlastností, které se nedají přesně číselně vyjádřit nebo při
sledování málo početného souboru.
• Užitkovost matek se seřadí podle pořadí od nejvyšší hodnoty užitkovosti do nejnižší
a podobně se provede určení pořadí u jejich dcer. Na základě stanovení pořadí u
matek přiřadíme ke každé matce pořadí její dcery.
• Soubor se rozdělí na polovinu a vypočítáme průměrné pořadí dcer (r) lepších a
horších matek a průměrné pořadí lepších a horších matek (R).
horší matkylepší matkypořadí
181716151413121110987654321matek
171311871061214515181629134dcer
Výpočet odhadu koeficientu dědivosti podle:
- průměrného pořadí dcer a matek:
- průměrného pořadí dcer:
61728,022






RR
rr
h
61728,0
)(2
22


 
n
rr
h
Realizovaná dědivost
Realizovaná dědivost v
genetickém zisku
xx
xx
h
s 

 02
d
G
h

2
𝑥̄ 𝑥̄
𝑥̄