FYLOGEOGRAFIE A KOALESCENCE 6579 Koalescence Osud jednotlivých kopií genů v populaci ® genové stromy Genetree LF1ca4e9_Kopie_Paroubek_03a d6aa2ff3-f2e2-4053-80b1-6293c3dd033.jpg Chimp with Cracker image by Gypsy48 File:Male silverback Gorilla.JPG Species trees vs. gene trees: gen A LF1ca4e9_Kopie_Paroubek_03a d6aa2ff3-f2e2-4053-80b1-6293c3dd033.jpg Chimp with Cracker image by Gypsy48 File:Male silverback Gorilla.JPG Species trees vs. gene trees: gen B Poly1 Fylogenetické vztahy 2 dceřinných populací (např. mtDNA): polyfylie parafylie reciproční monofylie Ancestrální polymorfismus a sortování linií bariéra polyfylie Ancestrální polymorfismus a sortování linií parafyletická fáze Ancestrální polymorfismus a sortování linií reciproční monofylie druh A druh B Ancestrální polymorfismus a sortování linií druh A druh B Problém: „incomplete lineage sorting“ je většinou obtížné odlišit od důsledků toku genů nekompletní sortování linií recentní tok genů Wrightův-Fisherův model (drift): konstantní velikost populace o N jedincích náhodné párování počet potomků jednotlivých jedinců náhodný (Poissonovo rozdělení) Hardyho-Weinbergova rovnováha nepřekrývající se generace každý jedinec současně samec i samice možné i samooplození gen selektivně neutrální populace není geograficky strukturovaná Koalescence1 Koalescence2 Koalescence3 koalescence MRCA vzorku most recent common ancestor Kingmanova koalescence: vzorek k genových kopií z celkového počtu N (uvažujeme haploidní stav) pravděpodobnost, že 2 kopie pocházejí ze stejného předka v předchozí generaci je rovna 1/N geometrické rozdělení – aproximace exponenciálním rozdělením Analogie procesu koalescence: příklad švábů v krabici pravděpodobnost srážky = k(k – 1)/4N (/2N v případě haploidie) zajímá nás pouze genealogie kopií, které zanechaly potomky do současnosti [JFC Kingman in 2002] Sir John F.C. Kingman Koalescence3 Koalescence5 čím menší počet zbývajících kopií, tím se proces koalescence zpomaluje (pro velká k ~ 4N, pro 2 kopie ~ 2N) splynutí posledních n kopií zabere (1 – 1/n)/(1 – 1/k) Þ prvních 90% kopií splyne během 9% celkového času, zbývajících 91% času se čeká na splynutí posledních 10 kopií! jestliže 100 linií, pravděpodobnost, že 101. linie přidá hlubší kořen je pouze 0,02% Þ přidání další genové kopie pravděpodobně nepovede k hlubší (starší) koalescenci Kingmanova koalescence: Koal_Simtree2 Koal_simtree přidání dalších sekvencí pravděpodobně nepovede k hlubší koalescenci ... s klesajícím počtem volných kopií se proces zpomaluje ... Koalescence5 50 genových kopií, 10 náhodně vybraných: v tomto případě 10 kopií stačí k nalezení nejhlubšího kořene koalescenčního stromu Koalescence je ovlivněna různými faktory, např.: mutací rekombinací selekcí změnami velikosti populace Þ koalescenční teorii lze použít k odhadu těchto parametrů Koalescence je ovlivněna různými faktory, např.: migrací 10.12.jpg Koalescence je ovlivněna různými faktory, např.: rekombinací 10.14.jpg Selekce_tree neutrální recentní balancující selective sweep Vliv selekce na tvar koalescenčního stromu pozitivní selekce vede ke dřívější koalescenci balancující selekce vede k pozdější koalescenci Vliv změn velikosti populace na tvar koalescenčního stromu rostoucí populace: koalescence se postupně zpomalují zmenšující se populace: koalescence se postupně zrychlují Genové vs. druhové stromy ještě jednou: dlouhé intervaly mezi speciačními událostmi ® genové a druhové stromy stejné krátké intervaly mezi speciačními událostmi ® genové stromy mohou být jiné než druhové (hemiplazie) protože odhadujeme divergenci mezi sekvencemi a ne mezi druhy, jsou naše odhady nutně nadhodnocené nesrovnalosti mezi genovými a druhovými stromy lze minimalizovat použitím markerů s nízkou Ne, např. mtDNA nebo chromozom Y Fylogeografie John C. Avise studuje principy a procesy ovlivňující geografické rozložení genealogických linií svým způsobem propojuje mikroevoluční procesy (populační genetika) s makroevolucí (fylogeneze) většinou vnitrodruhové studie nebo blízce příbuzné druhy Phylogeography: The History and Formation of Species macMST Mus macedonicus Mustela erminea mouse Minimum Spanning Tree (MST) Mimum Spanning Network (MSN) Median-joining network Recentní expanze: rychlé rozšíření jednoho haplotypu akumulace malého počtu mutací hvězdicová struktura Změny velikosti populace Tajimův test (Tajima’s D) rozdělení párových rozdílů (mismatch distribution) koalescence, ML nebo BA, MCMC Bayesian Skyline Plots 1. Tajimův test (Tajima’s D) založený na porovnání haplotypové diverzity a nukleotidové diverzity primárně jde o test selektivní neutrality, ale může indikovat i růst populace nebo bottleneck silně záporné hodnoty indikují populační expanzi – převládá „mladý“ polymorfismus, kdy se vytvořily nové haplotypy, ale nukleotidová diverzita je stále nízká programy Arlequin, DnaSP podobně Fu’s test 2. Rozložení párových neshod (mismatch distribution) párová srovnání všech sekvencí ® histogram Divergence (%) Divergence (%) Divergence (%) Sekvence navzájem velmi podobné Sekvence navzájem velmi odlišné Směs podobných a odlišných sekvencí párové rozdíly rostoucí stabilní test shody skutečného rozdělení s teoretickou predikcí: Harpending’s raggedness index (Harpending 1994) sum of squared deviations doba expanze/bottlenecku: t = 1/2u, kde u je mutační frekvence pro celou sekvenci můžeme odhadnout i velikost populace před a po expanzi 10.9.jpg Mismatch Fig2 3. ML a bayesiánské odhady MCMC srovnání modelu stabilní velikosti a modelu exponenciálního růstu/redukce populace pomocí LRT s 1 stupněm volnosti program Fluctuate: parametr růstu g ML i BA přístup LTT LTT stabilní populace exponenciálně rostoucí populace rozložení genealogických linií v čase BSP vychází z tohoto postupu programy BEAST a Tracer 4. Bayesovský panoramatický graf = Bayesian Skyline Plot (BSP) 10.10.jpg 4. Bayesovský panoramatický graf = Bayesian Skyline Plot (BSP) rozložení genealogických linií v čase BSP vychází z tohoto postupu programy BEAST a Tracer 10.jpg domesticus domesticus - Evropa musculus - Evropa původ mimo Evropu expanze do Evropy původ mimo Evropu expanze do Evropy Myší kolonizace Evropy 10.jpg kat_I Možné výsledky fylogeografických studií (Avise 2000) •Kategorie I: •zřetelně odděleníé alopatrické linie •bariéry toku genů nebo nízká disperze •rozdíly díky sortování linií nebo akumulaci nových mutací Apteryx australis Image1 (3) Kiwi2 kat_II •Kategorie II: •sympatrické, ale jasně hluboce oddělené linie Þ sekundární kontakt dříve oddělených populací •Kategorie III: •alopatrické, málo oddělené linie •blízce příbuzné ale geograficky lokalizované haplotypy •populace v nedávném historickém kontaktu •ale: tok genů dostatečně nízký → drift a „lineage sorting“ → divergence populací •často: –na větší škále Kategorie I –na menší škále Kategorie III • př.: Geomys pinetis •Kategorie IV: •sympatrické, málo oddělené linie •silný tok genů •absence geografických bariér nebo •recentní expanze Anguilla rostrata Náhodná disperze larev Panmiktické agregace během tření •Kategorie V: •kombinace III a IV •málo oddělené linie •některé linie značně rozšířeny (zřejmě ancestrální), jiné (nové) geograficky omezeny •jako vhodné znaky je nutné vybrat privátní haplotypy • Genealogické konkordance Ryby JV USA rybystrom rybymap Genealogické konkordance (shody na různých úrovních) •Různé části sekvence genu • •Více sekvencí (genů) od stejného druhu • •Více druhů ve stejné oblasti • •Podpora biogeografických oblastí (více druhů, více oblastí) concj Genetické důsledky ledových dob Chorthippus parallelus Chorthippus_parallelus_F •Refugia (iberské, apeninské, balkánské) • •V refugiích malé populace relativně dlouhou dobu • •Linneage sorting (případně mutace) • •Následné šíření → vnitrodruhové hybridní zóny • •Ale některé druhy měly i severská refugia! b a1 a2 c1 c2 A A B A C a b c a a b c c a2 a1 b c1 c2 B A C disperze vikariance a1 a2 b1 b2 c A A B B C a a b a1,a2 B A C b1,b2 c geografická struktura v: mtDNA ANO autozomy ano chr. Y ano demografická autonomie ANO geografická struktura v: mtDNA NE autozomy ano chr. Y *** demografická autonomie *** geografická struktura v: mtDNA (u samic) ANO autozomy ne chr. Y ne demografická autonomie ANO geografická struktura v: mtDNA NE autozomy ne chr. Y ne demografická autonomie NE Vztah mezi genetickou strukturou populace, pohlavně-specifickou disperzí a režimy toku genů (Avise 2000) samičí disperze a tok genů nízké --------------------------------à vysoké Nested Clade Analysis (NCA) Alan R. Templeton clade distance (Dc): měří, jak daleko se klad rozšířil nested clade dist. (Dn): měří, do jaké míry změnil klad svoji polohu ve vztahu ke kladu, ze kterého vzniknul Nested Clade Analysis (NCA) Ambystoma tigrinum programy GeoDis, TCS lokální procesy → zdánlivé expanze… Nested Clade Analysis (NCA) Problémy: absence evolučního modelu simulace: vysoké procento „false positives“ (>75%; Petit 2008) markery: mtDNA Y mikrosatelity Control region ?Malá (15-20 kb), kruhová molekula ? ?Bez intronů ? ?Minimum nekódujících oblastí ? ?Dědí se jen po jednom rodiči (po matce) ? ?Nerekombinuje ? ?V buňce jen jeden typ v mnoha kopiích ? ?Neutralita (různé varianty v populaci mají stejnou fitness) Proč je mtDNA výhodná? ... a proč ty otazníky? Problémy pro populační genetiku: •Neutralita • •Mezidruhový přenos • •Nukleární pseudogeny • •Biparentální dědičnost • •Rekombinace • Neutralita? vliv variant mtDNA na fitness (experimentální důkazy): myš (Mus) octomilka (Drosophila) člověk Mezidruhový přenos: zajíci ve Španělsku: existence mtDNA Lepus timidus u druhů L. granatensis, L. castroviejoi a L. europaeus L. timidus však vymizel na konci posledního glaciálu několikanásobný přenos různých mtDNA linií = „mtDNA capture“ Jaderné pseudogeny mitochondriálního původu = NUMT (Nuclear Mitochondrial DNA) kopie segmentů mtDNA integrované do jaderné DNA ztráta funkce molekulární fosilie podobnost s původní sekvencí ® riziko amplifikace namísto mtDNA Þ problém!! výskyt různý u různých skupin i u různých druhů téže skupiny např. u 7 druhů kočkovitých šelem: numt > 12,5 kb člověk: 27 numt v linii po oddělení od společného předka se šimpanzem Jak odhalit numt? ultracentrifugace (většinou nutný čerstvý vzorek, nebo alespoň hluboce zmražený) použití tkání s velkým množstvím mitochondrií (např. svaly) long-range PCR RT-PCR elektronická PCR (u druhů se známým genomem) Rekombinace mtDNA nutné podmínky: biparentální dědičnost - fúze mitochondrií existence proteinového aparátu pro rekombinaci: existuje i u člověka biparentální dědičnost: navzdory mýtům, mitochondrie otce obvykle přeneseny do zygoty – tam jsou označeny a následně zlikvidovány (u savců značení provádí jaderné geny otce) u někt. druhů „paternal leakage“: Mus, Drosophila, Parus, Homo Zbývá zodpovědět: •Frekvence biparentální dědičnosti • •Frekvence rekombinací • •Jen somatické tkáně? • •Dědičnost rekombinantních molekul • •Rekombinace s nukleárními pseudogeny? • •Mechanismus biparentální dědičnosti a rekombinace • •Výjimečné události u živočichů?