Genetika kvantitativních znaků Biometrické metody v genetice, odhadů genetických parametrů = lineární modely prof. Ing. Tomáš Urban, Ph.D. urban@mendelu. cz Proč biometrické metody v genetice Cíle Popsat genetickou strukturu populací (odhad komponent variance a kovariance) a popsat změny genetické výstavby populací Na znalosti genetické struktury populací jsou založeny šlechtitelské programy Možnosti biometrických metod: 1. Odhady výkonnosti populací - čistokrevné i hybridní 2. odhady genetických parametrů - h2, rop, rG, ... 3. odhady plemenné hodnoty (PH) - rozdíly mezi jedincem a vrstevníky, očištěný od negenetických vlivů (realizace šlecht, programů) 4. Stanovení selekčního (genetického) zisku 5. Optimalizace selekčních a hybridizačních programů Uplatnění poznatků: molekulární a biochemické genetiky, cytogenetiky, imunogenetiky a genové manipulace v genetice populací Kvantitativní genetika - hodnocení pomocí modelů Biometrika v genetice kvantitativní genetika) Účinek polygenů se sleduje na základě počtu pravděpodobnosti (hromadné jevy). Společné efekty více genů vytváří proměnlivost, většinou s normálním rozdělením, kterou lze analyzovat matematicko-statistickými operacemi. Teorie: přenos Gl u kvantitativních vlastností je polygenní (velký počet lokusů s mendelistickým přenosem + větší či menší vliv prostředí - vnitřní a vnější). Operační metody pro analýzu přenosu této Gl: biometrické. Analýza variance (ANOVA) Funkce ANOVA (Fisher 1918): 2 _ 2 2 2 1. odhad pevných efektů ^celková- ®\ "^^"2 + • • • + ^ 2. odhad komponent (složek) variance - podíl jednotlivých variancí, např. varianci genotypovou nebo prostředí 3. testování hypotéz o příčinách variance modelem (jak vznikla, velikost vlivu faktorů) ANOVA nebalancované metody speciální případ ti c balancovaných 4 X - Balancované metody -výjimečné -speciální případ nebalancované metody 1. velké systém rovnic s využitím matic 2. nelze realizovat podle plánu -náhodný efekt (využití u zvířat) 3. hodnotí se chovy šlechtění (software: Harvey, SAS, BMPD) -metody nejmenších čtverců, maximální věrohodnosti 1. přesnější 2. plánované pokusy (u zvířat toho nelze dosáhnout) 1. otec má 100 potomků, 2. jich má 50 a 3. 10 -> to je nebalancované - stejný počet pozorování ve všech podtřídách Biometrické modely - lineární Biometrické metody spočívají na lineárních biometrických modelech. Pravdivý (skutečný, teoretický) model popisuje data přesně, bez reziduálni nebo nevysvětlené variance. Variance P je vyčerpána faktory. Pravdivý model není nikdy přesně znám. Ideálni (praktický) model je vytvořen výzkumníkem, který je tak blízký skutečnému modelu, jak jen to je možné. Takový model by se měl používat k analýzám, ale často není dostatek informací (chybí). Operační (pracovní, proveditelný) model je zjednodušená forma ideálního modelu a je využíván výzkumníky v analýzách. Na této úrovni se vede široká diskuse o nejlepší operační model. Pozorování Vektor pozorování f obsahuje prvky vyplývající z měření vlastnosti v daných jednotkách - předpoklad - že se jedná o náhodný výběr z nekonečně velké populace Efekty * Efekty (faktory) se vztahují k proměnným, které mohou ovlivňovat nebo být ve vztahu k prvkům ve vektoru pozorování * Diskrétní efekty mají obvykle třídy nebo úrovně * „obtěžující efekty" - musí být zahrnuty —> minimalizace e Pevné a náhodné efekty Pevné efekty (fixní) jsou ty, v kterých úrovně zahrnují všechny možné úrovně, které lze pozorovat. Náhodné efekty jsou efekty, jejichž úrovně jsou považovány za náhodně vybrané z nekonečně velké populace úrovní. 1. Kolik úrovní má efekt v modelu? Jestliže málo, pak je to pravděpodobně pevný efekt, jestliže mnoho, pak se jedná o náhodný efekt. 2. Je počet úrovní efektu v populaci dost velký na to, aby mohla být považována za nekonečnou? Jestliže ano, pak je pravděpodobně efekt náhodný. 3. Budou použity opět stejné úrovně, jestliže by byl experiment opakován podruhé? Jestliže ano, pak se jedná pravděpodobně o pevný efekt. 4. Byly úrovně efektu určeny nenáhodným způsobem? Jestliže ano, pak by měl být efekt určen jako pevný. Modely Lineární modely obsahují řadu efektů (faktorů), které aditivně ovlivňují pozorování V tradičním smyslu jsou lineární modely složeny ze tří částí: 1. Rovnice. 2. Matice očekávaných hodnot a variančně kovarianční matice náhodných proměnných. 3. Předpoklady a omezení, ad 1. Rovnice Rovnice modelu definuje efekty, které mohou mít vliv na pozorovanou vlastnost. Čím více faktorů pokryjeme, tím je vypočet přesnější, tím více se blížíme k variabilitě způsobenou genotypem. Lineární funkce určitých parametrů a proměnných: Vy = ]i + bj + Uj + eijk y = Xb + Zu + e ad 2. Matice očekávaných hodnot a VCV kde G a R jsou základní čtvercové matice s předpokladem nesingularity a pozitivní definovanosti a s prvky, které jsou známé. Takže: V(y) = ZGZ + R. ad 3. Předpoklady a omezení informace o datech nebo způsob jejich sběru, náhodnost výběru, podmínkách chovu apod. y Xb u G 0 u 0 v e — 0 R e 0 Typy lineárních modelů Lineární modely (obecně) Vy = |o, + a, + ey N(0, a2e); a, = faktor s i-tými úrovněmi Regresní modely - funkční vztahy Y i — ^ + Sj a _ konstanta, b, regresní koef., a, b odhadujeme MNČ nebo MV) Mnohonásobné regresní vztahy Yi = a + b^; + b2X2i + b3X3i + ej Modely s pevnými efekty (více faktorové) Yijki = ^ + 31 + ^+^ + eijk< yijk = u. + as + ^ + eijk Modely s náhodnými efekty Yijkl = ^ + «i + Pj + Yk + eijk tti N(°> °2a) Modely se smíšenými efekty yijk = u. + aj + p j + eijk smíšené modely se používají k odhadu PH Komplikuji odhad komponent variance Komplikuji odhad fixních efektů Vyjádření modelů maticovým zápisem Skalární zápis modelu s pevnými efekty: yijk= ji + ai + bj+e^ jedna pozorovaná hodnota (zastupuje všechny pozor, hodnoty) je symbolicky znázorněna Maticový model s pevnými efekty, kde jsou vyjádřeny všechny pozorované hodnoty y = Xb+e y - vektor pozorování X - incidenční matice (designová, strukturní matice) - uvádí, které pevné efekty jsou obsaženy v y) b - vektor odhadovaných parametrů c - vektor náhodných efektů: e ~ N(0, I a2e) Vybalancovaný pokus Analýza množství tuku v mléce u 18 dojnic s vlivem efektů stáda a věku: a, - stádo (i = 1, 2); bj - věk (j = 1, 2, 3) věk b, b2 b3 průměr stádo ai 165 154 148 136 116 128 161 157 165 147,78 168 154 120 115 142 186 112 118 128 138,11 průměr 151,50 137,17 140,17 142,94 = y,..-y... bj = = 4,83 8,56 a2 = -4,83 b2 = -5,78 b3 = -2,78 Mj=y- Information Values The GLM Procedure Class Level Class Levels 2 12 3 123 Dependent Variable: y Source Model Error Corrected Total Sum of DF Squares Mean Square F Value Pr > F 3 1106.277778 368.759259 14 7250.666667 517.904762 17 8356.944444 0.71 0.5608 Number of observations 18 R-Square CoeffVar Root MSE y Mean 0.132378 15.92054 22.75752 142.9444 Source a b DF Type IV SS Mean Square F Value Pr > F 420.5000000 420.5000000 685.7777778 342.8888889 0.81 0.3828 0.66 0.5312 Aritm. BLUE/GLM průměr GLM Procedure 142,9444 V- 142,94444 Least Squares Means 147,7778 A1 4,8333333 147,778 a y LSMEAN 138,1111 A2 -4,833333 138,111 1 147.777778 151,5 B1 8,5555556 151,500 2 138.111111 137,1667 B2 -5,777778 137,167 140,1667 B3 -2,777778 140,167 b y LSMEAN 1 151.500000 2 137.166667 3 140.166667 Nevybalancovaný pokus Analýza množství tuku v mléce u 8 dojnic s vlivem efektů stáda a věku: aj - stádo (i = 1,2);bj-věk (j = 1,2,3) věk stádo ai 165 154 136 161 a2 115 142 186 112 I \x a2 \\ b2 165 ju + a^+b^+e^u 1 1 0 1 0 0 154 ju + o^+b^ +e112 1 1 0 1 0 0 ^112 yi2i 136 ju + o^ + b2 +e121 1 1 0 0 1 0 e121 161 = ju + o^ + b3 + e131 1 1 0 0 0 1 o2 + e131 115 ju + a2 + b2 + e221 1 0 1 0 1 0 ^221 Yin 142 ju + o2+b2+ e222 1 0 1 0 1 0 ^222 y223 186 ju + o2+b2+ e223 1 0 1 0 1 0 ^223 _/231_ 112 ju + o2+b3 + e231 _ 1 0 1 0 0 1 _^231 _ y* 1 y = I Xb + e — X |. b| + e b = ? Values The GLM Procedure The GLM Procedure Class Level Information Class Levels a 2 12 b 3 123 Number of observations 8 Dependent Variable: y Source Model Error Corrected Total Sum of Squares Mean Square F Value Pr > F DF 3 748.575000 249.525000 4 3733.300000 933.325000 7 4481.875000 0.27 0.8465 R-Square CoeffVar Root MSE y Mean 0.167023 20.87130 30.55037 146.3750 Source a b DF Type IV SS Mean Square F Value Pr > F 1 198.4500000 198.4500000 2 283.4500000 141.7250000 0.21 0.6687 0.15 0.8638 Aritm. průměry BLUE/GLM GLM Procedure 146,375 145,867 154,00 A1 6,3 152,167 138,75 A2 -6,3 139,567 159,50 B1 7,33 153,200 144,75 B2 2,03 147,900 136,50 B3 -9,37 136,500 Least Squares Means a y LSMEAN 1 2 1 2 3 152.166667 139.566667 y LSMEAN 153.200000 147.900000 136.500000 2. disperzní (variančně kovarianční, VCV) matice pozorování: Předpoklad: každý náhodný efekt eijk je vybrán ze základního souboru s nulovým průměrem a variancí např. 30 kg V„ = cr2I = ele2 ele3 ac e < ^"e2e3 ae e e3el ^"e3e2 rri e3 30 30 30 30 30 30 30 30 :30 = 30 l8 = 301 = a2l Maticový zápis: je méně názorný než data zapsaná v tabulce - ALE je kratší a úplnější než model skalární musí se definovat matice X (Ta však při větším objemu dat může nabývat velikých rozměrů - nutná výkonná výpočetní technika a softwarové zázemí) Jedinec Plemeno Typ výživa Hmotnost (kg) _intenzivní extenzivní Průměr 1 2 Angus Angus Angus intenzivní intenzivní extenzivní 494 556 542 Angus 494 556 542 530,67 3 Hereford 632 473 544 549,67 4 Hereford extenzivní 473 Průměr 560,67 507,50 540,17 540,17 5 Hereford intenzivní 632 -19,0000 6 Hereford extenzivní 544 53,17 X y Využití lineárního modelu u plem výživa 1 I | 494 y = jj + plemeno + výživa + e 1 1 1 I -1 I I 556 I 542 y = Xb + e 1 -1 -1 I 1 I I 473 I 632 b = (XX)1 Xy = 1 -1 -1 I I 544 b XX Xy Průměr [.1] [1,] 540.1667 [,1][,2] [,3] [1,] 6 0 0 [1,] 3241 Angus =- Hereford [2,] -18.3750 [2,] 0 6 [3,] 0 2 2 6 [2,] -57 [3,] 123 Intensive = - Extenzivní [3,] 26.6250 Jinec Plemeno Typ krmení Hmotnost (kg) věk 1 Angus intenzivní 494 18 2 Angus intenzivní 556 21 3 Angus extenzivní 542 19 4 Hereford extenzivní 473 17 5 Hereford intenzivní 632 23 6 Hereford Extenzivní 544 19 Součet: 3241 117 Využití lineárního modelu y = u + plemeno + výživa + věk + e y = Xb + e b = (XX)1 Xy = hmotnost ve věku = 0 efekt plemene efekt výživy efekt věku [.1] [1 ,]-11.3522013 [2,] -0.6981132 [3,]-12.2641509 [4,] 28.2830189 U plem výživa věk 11 1 18 | | 494 11 1 21 I I 556 1 1 -1 19 I I 542 1 -1 -1 17 I I 473 1-1 1 23 I I 632 1 -1 -1 19 I I 544 XX [,1][,2] [,3] [,4] [1,] 6 0 0 117 [2,] 0 6 2 -1 [3,] 0 2 6 7 [4,] 117 -1 7 2305 Xy Ml [1,] 3241 [2,] -57 [3,] 123 [4,] 63779 Řešení nejmenších čtverců pro zobecněný lineární model (GLM) y = Xb + e (y -Xb) (y -Xb) = e e y y - 2(Xb) y + (Xb) Xb = e e derivace s ohledem, že b = 0 —► získáme normální rovnice (XX) b = X y b =(X^X)-1 X y (V = I a2E) Modifikace (Jsou-li pozorování korelovaná a nemají-li stejné variance) (X V1X) b = X V 1y b = (X V1X)1 X V 1y (V = V) Řešení poslední rovnice se nazývá řešení „zobecněných nejmenších čtverců" —► minimalizuje ee. Biometrické odhady genetických parametrů Problémy aplikace kvantitativní genetiky na populace zvířat jsou ve skutečnosti problémy statistických odhadů Šlechtění je založeno na znalosti genetické struktury populací, kterou zatím pro kvant, vlastnosti nelze určovat přímo (frekvence alel a genotypů) => nutné analyzovat efekty, příčiny genetické a prostřeďové, které se podílejí na celkové proměnlivosti 2 parametrů =^> variance a kovariance. Realizace Zejména odhad PH jedince (OPH) (Estimate of Breeding Value - EBV) - který z odhadů je nejlepší odhad ?!? Nejlepší odhady BLUE Best Linear Unbiased Estimators - nejlepší lineární nevychýlené odhady (nejmenších čtverců) Nejlepší - Best - nejlepší odhad průměru populace = náhodný vzorek (reprezentativní, dostatečný počet), pakje nejlepším odhadem - nejlepší odhad PH - souhrnná PH = vložit do selekčního indexu, který hodnotí všechny PH pro všechny hodnocené vlastnosti; nejlepším odhadem je hodnota, která maximalizuje genetický zisk - minimální variance = metodou nejmenších čtverců (metoda odhadu), které minimalizují varianci, tyto odhady jsou nejlepší, ale i nestranné (nevychýlené) a lineární Využíváme: lineární modely - každý odhad je počítán jako lineární kombinace pozorovaných hodnot nevychýlený - při opakovaném odhadu je střední hodnota odhadu identická se skutečnými parametry y\ /v odhad Ij je nevychýleným parametrem b, když E{b) = b Nevychýlenost (vyrovnanost) a přesnost (variabilita) - (model terče) 0 - nepřesná (vychýlená) s nízkou variabilitou q - přesná (nevychýlená) s velkou variabilitou - přesná (nevychýlená) s nízkou variabilitou - nejlepší odhad => použít metodu BLUE - metoda odhadu nejmenších čtverců s pevnými efekty Nejlepší předpovědi BLUP - Best Linear Unbiased Prediction - nejlepší lineární nevychýlená předpověď NLNP (metoda nejmenších čtverců) - metoda odhadu nejmenších čtverců náhodných nebo smíšených modelů smíšený model: mnohovlastnostní (multitrait) y = Xb + Zu + e X, Z - incidenční matice, udávající, které efekty jsou obsaženy v pozorování b - vektor obsahující všechny fixní efekty (fixní genetické rozdíly a systematické vlivy prostředí) u - vektor všech náhodných systematických efektů (stádo, rok, sezóna); obsahuje také OPH e - náhodné nesystematické zbytkové efekty Metody Metoda nejmenších čtverců (ls) nebo zobecněných nejmenších čtverců (glm), metoda maximální věrohodnosti (ml) nebo restringované maximální věrohodnosti (reml) Lineární modely jsou silným a relativně jednoduchým nástrojem ke korigování rozdílných fixních efektů při nebalancovaných designech plánu pokusu. Způsob řešení pro výběr odhadců je mnoho Ve šlechtění se v současné době využívá metoda • nejmenších čtverců (least square - LS) • zobecněných nejmenších čtverců (generalized least square - GLM) • metoda maximální věrohodnosti (maximum likelihood -ML) • či její modifikovaná metoda restringované maximální věrohodnosti (REML) Metody založené na ML Maximum Likelihood (ML) REstricted Maximum Likelihood (REML) maximilizuje pravděpodobnost pozorovaných dat daných parametrů nebalancovaná data komplexní rodokmenová struktura (matice příbuznosti) simultánní korekce pro fixní efekty Vyžaduje známou distribuci (normální) Odhady jsou nevychýlené a jsou vždy v parametrovém prostoru Funkce hustoty pravděpodobnosti normálního rozdělení: (y-MY f{y) = < Očekávané průměry E(y) = Xb a var(y) = V Logaritmus věrohodnostní funkce: Lib, V I X, y) = -\N log( 2x) - flog( \v\) - \(y - Xb)' V(y - Xb) Rovnice dává pravděpodobnost parametrů (b, V) daných dat (X, y) Na pravé straně první dva výrazy jsou očekávané hodnoty poslední výraz je součet čtverců r-1 S(\ogL)/Sb = -2XV (y-Xb) První derivace: Derivace = 0 b = (XV 1X) 1XV 1y Stejné jako pro LS odhady Příklad algoritmu REML Řešení rovnic smíšeného modelu s a priory hodnotou komponent variance (poměr) ~ X*X \ Xy~ Z'X Z'Z^£VJ a TY 2 Řešení komponent variance z MME <£ = [a/Va + frfA-JC;oJ ] / q a^=J(Yy - frX'y -á'Z'y] / (N-r(X)) ae2/oa2) a iterovat mezi 1 a 2 TT