prof. Ing. Tomáš Urban, Ph.D. urban@mendelu.cz Genetika kvantitativních znaků Princip: Detekce důležitých rozdílných zdrojů efektů Určit jejich příspěvek na celkové varianci Variance je odvozena ze součtu čtverců a stupňů volnosti Nutné jedince ve skupinách se stejným stupněm příbuznosti Skupiny polosourozenců podle otce Rodiče – potomci Kovariance mezi členy rodin nebo skupin = komponenta variance mezi skupinami Rozčlenění součtu čtverců (SS) podle zdrojů variance (skupina zvířat) a výpočet středního čtverce (MS) ~ variance Sire model – 1 f ANOVA • Odhad korelace polosourozenců 2 A4 12 SSV   • předpoklad, že otcové a matky jsou nepříbuzní, náhodně pářeni, bez selekce • balancovaný design: p otců (sire) pářeno s n matkami (dam)  1 potomka yij =  + ai + eij 2 E 2 A4 32 eeV   2 e 2 S 2 y   Variance mezi skupinami polosourozenců = kovarianci mezi polosourozenci ve skupině cov(polos.) = cov(yij, yik) = = σ2 S To lze pomocí ANOVA odhadnout 2 A 2 S4   Sire model – tabulka ANOVA E(MS)MSSSdf Zdroj proměnlivosti p – 1 Mezi rodinami (mezi otci) n – p V rodinách (reziduální) n – 1Celkem 2 e   p i iiS yynSS 1 2 )( 2 0 2 ge n   )1(   p SS MS S S    p i n j iije i yySS 1 1 2 )( )( pn SS MS e e      p i n j ijc i yySS 1 1 2 )( )1(   n SS MS c c   1 2 0    n n n n ni   )1p)(pn(n )1n(1)1)(1n.(2 .4s.4se 00 2 0 2 h2      2 0 2 0 2 gegea nMSnMS   0 2 n MSMS ea g   22 2 eg g ir      2 2 22 2 2 444 P g eg g h           )1p)(1n(n )1n(1)1.(2 .4s.4se 00 2 0 2 h2      Vybalancovaná data Nevybalancovaná data 2 eeMS  Intraklasní korelační koeficient Vážený počet potomků na 1 otce Závěr výpočtu • odhad koeficientu dědivosti • odhad střední chyby h2 • intervalu spolehlivosti (hranice platnosti, např. 95 %) 2 2 h seh  ...... 2  h Př. 1 faktorové ANOVA pro výpočet h2 -skupin polosourozenců Statistický model jednofaktorové analýzy variance: yij =  + ai + eij yij – užitkovost j-tého potomka po i-tém otci  – obecný průměr populace ai – vliv i-tého otce eij – ostatní nahodilé vlivy O5O4O3O2O1n 6906486037327171 6506697316947042 7886937376917533 6787186786317004 6116067476836755 6746697635927936 6586576876806917 7176006186186878 54665260556453215720Σ Výpočet součtu čtverců odchylek od průměru: - mezi otci - uvnitř skupin podle otců (reziduální) n Y n Y SS p i i i a 2 1 2            p i i i p i m j ije n Y ySS j 1 2 1 1 2 skupina 41006384089800,00327184005720O1 35543793539130,13283130415321O2 38948943869762,00309580965564O3 34696843458450,00276676005260O4 37538783734644,50298771565466O5 1877347318691786,63= 27331 = 746983561 ni = n0 = 8n = 40p = 5  2 ijyii nY2  2 iYiY Y 2 Y   ii nY2  2 ijy 2 eeMS  2 0 2 gea nMS   Výsledek analýzy variance z programu SAS Dependent Variable: potomek Sum of Source DF Squares Mean Square F Value Pr > F Model (a) 4 17197.60000 4299.40000 1.84 0.1428 Error (e) 35 81686.37500 2333.89643 Corrected Total 39 98883.97500 Výpočet odhadu genetické variance podle otců: 2 0 2 0 2 gegea nMSnMS   683,245 8 2333,89643-4299,4 0 2    n MSMS ea g 0952,0 896,2333368,245 368,245 22 2      eg g ir    2 2 22 2 2 444 P g eg g h           )1)(1( )1(1)1.(2 .4.4 00 2 0 2 2    pnn n sseh   57,038,02 2  h seh 2 faktorová hierarchická ANOVA • Odhad korelace u vlastních sourozenců a polosourozenců • Stanovení komponent variance mezi a v rodinách vlastních sourozenců • předpoklad, nejsou efekty dominance a společného prostředí • balancovaný design: p otců (sire) pářeno s m matkami (dam)  n potomky yijk =  + ai + bij + eijk 2222 edsy   Variance mezi skupinami úplných sourozenců = kovarianci mezi úplnými sourozenci ve skupině E(MS)MSSSdf Zdroj proměnlivost p – 1 Mezi otci (mezi rodinami) m – p Mezi matkami (uvnitř otců) n – m Mezi potomky (v otcích a matkách) n – 1Cekem 2 e    p i m j iijS i yynSS 1 1 2 )( 2 3 2 2 2 OM gge kk   )1(   p SS MS S S     p i m j n k ijijke i ij yySS 1 1 1 2 )( )( mn SS MS e e   )1(   n SS MS c c )( pm SS MS d d      p i m j iijijd i yynSS 1 1 2 )(     p i m j n k ijkc i ij yySS 1 1 1 2 )( 2 1 2 Mge k   Odhad h2 u vlastních sourozenců a polosourozenců a) podle otců 1 2 k MSMS eb gM   3 2 22 k kMSMS M O gea g     2 2 22 2 2 444 P g eg g OO O O O h         b) podle matek 2 2 22 2 2 444 P g eg g MM M M M h         c) podle otců a matek 2 22 222 22 2 222 P gg egg gg MOMO MO MO MO h            3 2 k MSMS ba gO  Když k1 = k2 : potomků/matku = matek/otce ANOVA v maticovém zápisu Lineární model ANOVA y = µ + efektA + efektB + … + e můžeme vyjádřit v maticích: y = Xb + e X je matice designová s 0 a 1, které sledují experimentální plán a jeho lineární model Zobecněný lineární model y je sloupcový vektor vlastností/proměnné pro N jedinců X je designová matice (N  r) b je vektor parametrů e je vektor reziduí eXby  Designová matice X OtecJedinec 11 12 33 24 35 16 27 18 39 210 𝟏 𝟎 𝟎 𝟏 𝟎 𝟎 𝟎 𝟎 𝟎 𝟏 𝟎 𝟏 𝟎 𝟎 𝟎 𝟏 𝟎 𝟎 𝟏 𝟎 𝟎 𝟏 𝟏 𝟎 𝟏 𝟎 𝟎 𝟎 𝟏 𝟎 O1 O2 O3 Jedinec Otec 1 2 3 4 5 6 7 8 9 10 X Řešení odhadů nejmenších čtverců vektoru b   yXXXb  1   yXbXX  eXby  Metody založené na ML Maximum Likelihood (ML) REstricted Maximum Likelihood (REML) Maximilizuje pravděpodobnost pozorovaných dat daných parametrů Nebalancovaná data Komplexní rodokmenová struktura (matice příbuznosti) Simultánní korekce pro fixní efekty Vyžaduje známou distribuci (normální) Odhady jsou nevychýlené a jsou vždy v parametrovém prostoru • Rovnice dává pravděpodobnost parametrů (b, V) daných dat (X, y) • Na pravé straně – první dva výrazy jsou očekávané hodnoty – poslední výraz je součet čtverců Logaritmus věrohodnostní funkce: Očekávané průměry E(y) = Xb a var(y) = V )(2/)(log 1 XbyX´Vb    L yVX´XVX´b 111 ˆ)ˆ(ˆ   První derivace: Derivace = 0 Funkce hustoty pravděpodobnosti normálního rozdělení: Stejné jako pro LS odhady Příklad algoritmu REML Proč je REML lepší než ANOVA? Je přesnější Používá rovnice smíšeného modelu, takže využívá příbuzenské vztahy všech zvířat (animal model) Má tedy vlastnosti jako BLUP Dovoluje řešit více komplikované smíšené modely (maternální efekty, multiple traits ...) jako BLUP ALE při vybalancovaném pokusu jsou výsledky odhadů REML a ANOVA stejné Heritability Estimates of Protein %, Fat %, Lactose %, Non Fat Solids and Total Solids of Dairy Cattle in Northern Thailand N. Chongkasikita, T. Vearasilpa and U. ter Meulenb Deutscher Tropentag 2002, Witzenhausen, October 9‐11, 2002, Conference on International Agricultural Research for Development 530 krav, 3 chovy protein %, tuk %, laktóza %, sušina bez tuku a celková sušina Pevné efekty: stádo-rok, sezóna, podíl HF skotu, počet dní laktace (regrese) AM BLUP, použití REML programem VCE4 (Groeneveld, 1998). yijklm = µ + Ci + HFj + HYk + Sl + Am + b(Xijklm – X) + Eijklm Produkční vlastnosti průměr Skupiny 1-10 podle % oblasti bíle zbarvené srsti (barva) Skupiny 1-5 podle % Holstein Friesian plemene u krav Stádo - Rok (1997, 1998, 1999, 2000 a 2001) Období otelení (zima, léto a deště) Jedinci (zvířata) Věk při prvním otelení jako kovariata Náhodné reziduální efekty yijklm µ Ci HFj HYk Sl Am b(Xijklm– X) Eijklm celková sušina sušina bez tuku laktóza % tuk %protein % 0,1330,2600,2380,3790,342Heritabilita 0,0360,9630,0220,1300,041VA 0,2382,7360,0690,2120,079VE Odhady komponent variance Proces rozčlenění fenotypové variance na její komponenty (VA a VE) Proč odhadujeme komponenty variance? Lepší porozumění mechanizmu kontrolující vlastnost Nutné pro predikci plemenných hodnot Nutné pro optimalizaci šlechtitelských programů Měly by být komponenty variance znovu odhadovány v čase? ANO > variance a kovariance se mění v čase v důsledku změn genetických a prostředí (tj. selekce,…) • obtížně měřitelné znaky • neznáme fenotyp, známe pořadí • korelační koeficient dle Spearmana • stanovíme pořadí rodičů a nezávisle pořadí potomků; • diference mezi pořadím di )1.( .6 1 2 2    nn d r i s n - počet dvojic Př. Použití pořadového korelačního koeficientu podle Spearmana u matek a dcer dcerymatky pořadí% tukupořadí% tuku 34,414,6 74,024,5 113,634,4 83,944,3 14,654,2 44,364,1 24,574,0 54,283,9 123,593,8 64,1103,7 103,7113,6 93,8123,5 3077,0 )112(12 1986 1 )1( 6 1 22 1 2        nn d R n i i h2 = R2 = 0,0947 Př. Výpočet odhadu koeficientu dědivosti na základě zjištění průměrného pořadí matka – dcera • Vhodné využití u vlastností, které se nedají přesně číselně vyjádřit nebo při sledování málo početného souboru. • Užitkovost matek se seřadí podle pořadí od nejvyšší hodnoty užitkovosti do nejnižší a podobně se provede určení pořadí u jejich dcer. Na základě stanovení pořadí u matek přiřadíme ke každé matce pořadí její dcery. • Soubor se rozdělí na polovinu a vypočítáme průměrné pořadí dcer (r) lepších a horších matek a průměrné pořadí lepších a horších matek (R). horší matkylepší matkypořadí 181716151413121110987654321matek 171311871061214515181629134dcer Výpočet odhadu koeficientu dědivosti podle: - průměrného pořadí dcer a matek: - průměrného pořadí dcer: 61728,022       RR rr h 61728,0 )(2 22     n rr h Realizovaná dědivost Realizovaná dědivost v genetickém zisku xx xx h s    02 d G h  2 𝑥̄ 𝑥̄ 𝑥̄