>gi|5835135|ref|NC_001644.1| Pan paniscus mitochondrion, complete genome
GTTTATGTAGCTTACCCCCTTAAAGCAATACACTGAAAATGTTTCGACGGGTTTATATCACCCCATAAAC
AAACAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCGTCCCGTGAG
TCACCCTCTAAATCACCATGATCAAAAGGAACAAGTATCAAGCACACAGCAATGCAGCTCAAGACGCTTA
GCCTAGCCACACCCCCACGGGAGACAGCAGTGATAAACCTTTAGCAATAAACGAAAGTTTAACTAAGCCA
TACTAACCTCAGGGTTGGTCAATTTCGTGCTAGCCACCGCGGTCACACGATTAACCCAAGTCAATAGAAA
CCGGCGTAAAGAGTGTTTTAGATCACCCCCCCCCCAATAAAGCTAAAATTCACCTGAGTTGTAAAAAACT
CCAGCTGATACAAAATAAACTACGAAAGTGGCTTTAACACATCTGAACACACAATAGCTAAGACCCAAAC
TGGGATTAGATACCCCACTATGCTTAGCCCTAAACTTCAACAGTTAAATTAACAAAACTGCTCGCCAGAA
CACTACGAGCCACAGCTTAAAACTCAAAGGACCTGGCGGTGCTTCATATCCCTCTAGAGGAGCCTGTTCT
GTAATCGATAAACCCCGATCAACCTCACCGCCTCTTGCTCAGCCTATATACCGCCATCTTCAGCAAACCC
TGATGAAGGTTACAAAGTAAGCGCAAGTACCCACGTAAAGACGTTAGGTCAAGGTGTAGCCTATGAGGCG
GCAAGAAATGGGCTACATTTTCTACCCCAGAAAATTACGATAACCCTTATGAAACCTAAGGGTCGAAGGT
GGATTTAGCAGTAAACTAAGAGTAGAGTGCTTAGTTGAACAGGGCCCTGAAGCGCGTACACACCGCCCGT
CACCCTCCTCAAGTATACTTCAAAGGATATTTAACTTAAACCCCTACGCATTTATATAGAGGAGATAAGT
CGTAACATGGTAAGTGTACTGGAAAGTGCACTTGGACGAACCAGAGTGTAGCTTAACATAAAGCACCCAA
CTTACACTTAGGAGATTTCAACTCAACTTGACCACTCTGAGCCAAACCTAGCCCCAAACCCCCTCCACCC
TACTACCAAACAACCTTAACCAAACCATTTACCCAAATAAAGTATAGGCGATAGAAATTGTAAATCGGCG
CAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTACACCCAAGCATAATACAGCAAGGACTAACCCC
TGTACCTTTTGCATAATGAATTAACTAGAAATAACTTTGCAAAGAGAACTAAAGCCAAGATCCCCGAAAC
CAGACGAGCTACCTAAGAACAGCTAAAAGAGCACACCCGTCTATGTAGCAAAATAGTGGGAAGATTTATA
GGTAGAGGCGACAAACCTACCGAGCCTGGTGATAGCTGGTTGTCCAAGATAGAATCTTAGTTCAACTTTA
AATTTACCTACAGAACCCTCTAAATCCCCCTGTAAATTTAACTGTTAGTCCAAAGAGGAACAGCTCTTTA
GACACTAGGAAAAAACCTTATGAAGAGAGTAAAAAATTTAATGCCCATAGTAGGCCTAAAAGCAGCCACC
AATTAAGAAAGCGTTCAAGCTCAACACCCACAACCTCAAAAAATCCCAAGCATACAAGCGAACTCCTTAC
GCTCAATTGGACCAATCTATTACCCCATAGAAGAGCTAATGTTAGTATAAGTAACATGAAAACATTCTCC
TCCGCATAAGCCTACTACAGACCAAAATATTAAACTGACAATTAACAGCCCAATATCTACAATCAACCAA


MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE
CZ.1.07/2.2.00/15.0204
PF_72_100_grey_tr ubz_cz_black_transparent

1_1
 fylogenetický strom = fylogenie (phylogeny): s kořenem, bez kořene
 větve (branches, edges): vnější, vnitřní, centrální
 uzly (nodes, vertices): vnitřní, terminální (externí)
 dichotomie, polytomie
 OTU, HTU
 topologie
Definice základních pojmů:

1_1
dráha
linie
spojuje dva terminální uzly
spojuje terminální uzel s kořenem
Definice základních pojmů:

1_2
Definice základních pojmů:


http://www.almob.org/content/figures/1748-7188-2-8-1-l.jpg
http://www.vizachero.com/R1b1/R1bSplits.png


Kolik existuje stromů?


počet elektronů ve viditelném vesmíru
(Eddingtonovo číslo)
> Avogadrova
konstanta*)
*) 6,022 141 79×1023 mol−1

Jaké typy dat můžeme použít?
DATA
Distance
Diskrétní
znaky
Imunologie
DNA-DNA hybridizace
Binární
Vícestavové
neseřazené
ACGTTAGCT
seřazené
  A®B®C
11010010011
ABCDEF

Typy dat
Nukleotidové a proteinové sekvence:
H_sapiens MTPMRKINPLMKLINHSFIDLPTPSNISAWWNFGS
P_troglod ATGACCCCGACACGCAAAATTAACCCACTAATAAA
pozice (site) = znak
báze = stav znaku

retroelementy: SINE (Alu, B1, B2), LINE
mikrosatelity, SNP
Typy dat

Grafika1
Problém homologie sekvencí


Problém homologie sekvencí
Pozor, ani jednotlivá místa v sekvenci DNA nejsou
vzájemně zcela nezávislá!
1.3.tif

DNA databáze:
EMBL (European Molecular Biology Laboratory) – European Bioinformatics Institute,
               Hinxton, UK: http://www.ebi.ac.uk/embl/
GenBank – NCBI (National Center for Biotechnology Information), Bethesda,
               Maryland, USA: http://www.ncbi.nlm.nih.gov/Genbank/
DDBJ (DNA Data Bank of Japan) – National Institute of Genetics, Mishima, Japan:
               http://www.ddbj.nig.ac.jp/
Správa databází: většinou balíky programů Sybase nebo ORACLE
výstupy: ASCII (American Standard Code for Information Interchange)
Práce se sekvencemi

Práce se sekvencemi
Proteinové databáze:
SWISS-PROT – University of Geneve & Swis Institute of Bioinformatics:
          http://www.expasy.ch/sprot/ a http://www.ebi.ac.uk/swissprot/
PIR (Protein Information Resource) – NBRF (National Biomedical Research Foundation,
          Washington, D.C., USA) & Tokyo University & JIPID (Japanese International Protein
          Information Database, Tokyo) & MIPS (Martinsried Institute for Protein Sequences,
          Martinsried, Germany): http://www-nbrf.georgetown.edu/
PRF/SEQDB (Protein Resource Foundation) – Ósaka, Japan:
          http://www.prf.or.jp/en/os.htm
PDB (Protein Data Bank) – University of New Jersey, San Diego & Super-computer
          Center, University of California & National Institute of Standards and Technology:
          http://www.rcsb.org/pdb/

FASTA:
>H_sapiens
ATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGACCTCCCCACCC
CATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCAC
AGGACTATTCCTAGCCATACACTACTCACCAGACGCCTCAACCGCCTTTTCATCAATCGCCCACATCACT
CGAGACGTAAATTATGGCTGAATCATCCGCTACCTTCACGCCAATGGCGCCTCAATATTCTTTATCTGCC
TCTTCCTACACATCGGGCGAGGCCTATATTACGGATCATTTCTCTACTCAGAAACCTGAAACATCGGCAT
...
>P_troglod
ATGACCCCGACACGCAAAATTAACCCACTAATAAAATTAATTAATCACTCATTTATCGACCTCCCCACCC
CATCCAACATTTCCGCATGATGGAACTTCGGCTCACTTCTCGGCGCCTGCCTAATCCTTCAAATTACCAC
AGGATTATTCCTAGCTATACACTACTCACCAGACGCCTCAACCGCCTTCTCGTCGATCGCCCACATCACC
CGAGACGTAAACTATGGTTGGATCATCCGCTACCTCCACGCTAACGGCGCCTCAATATTTTTTATCTGCC
TCTTCCTACACATCGGCCGAGGTCTATATTACGGCTCATTTCTCTACCTAGAAACCTGAAACATTGGCAT
...
>P_paniscus
ATGACCCCAACACGCAAAATCAACCCACTAATAAAATTAATTAATCACTCATTTATCGACCTCCCCACCC
CATCCAATATTTCCACATGATGAAACTTCGGCTCACTTCTCGGCGCCTGCCTAATCCTTCAAATCACCAC
AGGACTATTCCTAGCTATACACTACTCACCAGACGCCTCAACCGCCTTCTCATCGATCGCCCACATTACC
CGAGACGTAAACTATGGTTGAATCATCCGCTACCTTCACGCTAACGGCGCCTCAATACTTTTCATCTGCC
TCTTCCTACACGTCGGTCGAGGCCTATATTACGGCTCATTTCTCTACCTAGAAACCTGAAACATTGGCAT
...
Formáty souborů:

GenBank:
ORIGIN
        1 tgaaatgaag atattctctt ctcaagacat caagaagaag gaactactcc ccaccaccag
       61 cacccaaagc tggcattcta attaaactac ttcttgtgta cataaattta catagtacaa
      121 tagtacattt atgtatatcg tacattaaac tattttcccc aagcatataa gcaagtacat
      181 ttaatcaatg atataggcca taaaacaatt atcaacataa actgatacaa accatgaata
      241 ttatactaat acatcaaatt aatgctttaa agacatatct gtgttatctg acatacacca
      301 tacagtcata aactcttctc ttccatatga ctatcccctt ccccatttgg tctattaatc
      361 taccatcctc cgtgaaacca acaacccgcc caccaatgcc cctcttctcg ctccgggccc
      421 attaaacttg ggggtagcta aactgaaact ttatcagaca tctggttctt acttcagggc
      481 catcaaatgc gttatcgccc atacgttccc cttaaataag acatctcgat ggtatcgggt
      541 ctaatcagcc catgaccaac ataactgtgg tgtcatgcat ttggtatttt tttattttgg
      601 cctactttca tcaacatagc cgtcaaggca tgaaaggaca gcacacagtc tagacgcacc
      661 tacggtgaag aatcattagt ccgcaaaacc caatcaccta aggctaatta ttcatgcttg
      721 ttagacataa atgctactca ataccaaatt ttaactctcc aaacccccca accccctcct
      781 cttaatgcca aaccccaaaa acactaagaa cttgaaagac atatattatt aactatcaaa
      841 ccctatgtcc tgatcgattc tagtagttcc caaaatatga ctcatatttt agtacttgta
      901 aaaattttac aaaatcatgc tccgtgaacc aaaactctaa tcacactcta ttacgcaata
      961 aatattaaca agttaatgta gcttaataac aaagcaaagc actgaaaatg cttagatgga
     1021 taattttatc cca
//
Formáty souborů:

PHYLIP (“interleaved” format):
6 1120
H_sapiens    ATGACCCCAA TACGCAAAAT TAACCCCCTA ATAAAATTAA TTAACCACTC
P_troglod    ATGACCCCGA CACGCAAAAT TAACCCACTA ATAAAATTAA TTAATCACTC
P_paniscus   ATGACCCCAA CACGCAAAAT CAACCCACTA ATAAAATTAA TTAATCACTC
G_gorilla    ATGACCCCTA TACGCAAAAC TAACCCACTA GCAAAACTAA TTAACCACTC
P_pygmaeus   ATGACCCCAA TACGCAAAAC CAACCCACTA ATAAAATTAA TTAACCACTC
H_lar        ATGACCCCCC TGCGCAAAAC TAACCCACTA ATAAAACTAA TCAACCACTC
             ATTCATCGAC CTCCCCACCC CATCCAACAT CTCCGCATGA TGAAACTTCG
             ATTTATCGAC CTCCCCACCC CATCCAACAT TTCCGCATGA TGGAACTTCG
             ATTTATCGAC CTCCCCACCC CATCCAATAT TTCCACATGA TGAAACTTCG
             ATTCATTGAC CTCCCTACCC CGTCCAACAT CTCCACATGA TGAAACTTCG
             ACTCATCGAC CTCCCCACCC CATCAAACAT CTCTGCATGA TGGAACTTCG
             ACTTATCGAC CTTCCAGCCC CATCCAACAT TTCTATATGA TGAAACTTTG
Formáty souborů:

NEXUS (PAUP*, “interleaved”):
#NEXUS
begin data;
dimensions ntax=6 nchar=1120;
format datatype=DNA interleave datatype=DNA missing=? gap=-;
matrix
P_troglod   ATGACCCCGACACGCAAAATTAACCCACTAATAAAATTAATTAATCACTC
P_paniscus  ATGACCCCAACACGCAAAATCAACCCACTAATAAAATTAATTAATCACTC
H_sapiens   ATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAATTAACCACTC
G_gorilla   ATGACCCCTATACGCAAAACTAACCCACTAGCAAAACTAATTAACCACTC
P_pygmaeus  ATGACCCCAATACGCAAAACCAACCCACTAATAAAATTAATTAACCACTC
H_lar       ATGACCCCCCTGCGCAAAACTAACCCACTAATAAAACTAATCAACCACTC
P_troglod   ATTTATCGACCTCCCCACCCCATCCAACATTTCCGCATGATGGAACTTCG
P_paniscus  ATTTATCGACCTCCCCACCCCATCCAATATTTCCACATGATGAAACTTCG
H_sapiens   ATTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCG
G_gorilla   ATTCATTGACCTCCCTACCCCGTCCAACATCTCCACATGATGAAACTTCG
P_pygmaeus  ACTCATCGACCTCCCCACCCCATCAAACATCTCTGCATGATGGAACTTCG
H_lar       ACTTATCGACCTTCCAGCCCCATCCAACATTTCTATATGATGAAACTTTG
end;
Formáty souborů:

Clustal X:
P_troglod  ATGACCCCGACACGCAAAATTAACCCACTAATAAAATTAATTAATCACTCATTTATCGAC
P_paniscus ATGACCCCAACACGCAAAATCAACCCACTAATAAAATTAATTAATCACTCATTTATCGAC
H_sapiens  ATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAATTAACCACTCATTCATCGAC
G_gorilla  ATGACCCCTATACGCAAAACTAACCCACTAGCAAAACTAATTAACCACTCATTCATTGAC
P_pygmaeus ATGACCCCAATACGCAAAACCAACCCACTAATAAAATTAATTAACCACTCACTCATCGAC
H_lar      ATGACCCCCCTGCGCAAAACTAACCCACTAATAAAACTAATCAACCACTCACTTATCGAC
           ********    *******  ***** ***  **** **** ** ****** * ** ***
P_troglod CTCCCCACCCCATCCAACATTTCCGCATGATGGAACTTCGGCTCACTTCTCGGCGCCTGC
P_paniscus CTCCCCACCCCATCCAATATTTCCACATGATGAAACTTCGGCTCACTTCTCGGCGCCTGC
H_sapiens  CTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGC
G_gorilla  CTCCCTACCCCGTCCAACATCTCCACATGATGAAACTTCGGCTCACTCCTTGGTGCCTGC
P_pygmaeus CTCCCCACCCCATCAAACATCTCTGCATGATGGAACTTCGGCTCACTTCTAGGCGCCTGC
H_lar      CTTCCAGCCCCATCCAACATTTCTATATGATGAAACTTTGGTTCACTCCTAGGCGCCTGC
           ** **  **** ** ** ** **   ****** ***** ** ***** ** ** ******
Formáty souborů:

BLAST
GenBank
ClustalX

Seřazení sekvencí (alignment):
Sekvence 1 TTGTACGACGG
Sekvence 2 TTGTACGACG
TTGTACGACGG TTGT---ACGACGG
½½½½½½½½½½ ½½½½   ½½½
TTGTACGACG TTGTACGACG
Sekvence 1 ACTTGTGCTTC
Sekvence 2 ACGTGCTGCTC
ACTTG-TGCTTC
   Path 1 ½½ ½½ ½½½½
ACGTGCTGCTC
ACTTGTGCTTC
   Path 2 ½½ ½½½½½ ½
AC--GTGCTGCTC

Seřazení sekvencí (alignment):
GP = g + hl
g - gap penalty
h – gap extension
penalty
l – gap length
Penalizace mezer (gap penalty):
g = penalizace za výskyt mezery (1´)
h = extenze za každou „pomlčku“
l = délka mezery (= počet „pomlček“)
Př.: GC‒ ‒ ‒ ‒ ‒TTAA
l = 5, g = x, h = 5x

Progresivní seřazení - ClustalX
1.Seřazení dvojic sekvencí ® párové distance
2.Konstrukce „guide tree“ (NJ)
3.Seřazení všech sekvencí podle stromu
I.
I.
II.
III.
3 fáze:

Problém progresivního seřazení
gorila AGGTT
kůň AG-TT
panda AG-TT
6 druhů:
tučňák A-GTT
kuře A-GTT
pštros AGGTT
gorila AGGTT
kůň AG-TT
panda AG-TT
tučňák A-GTT
kuře A-GTT
pštros AGGTT
AGGTT
AG-TT
AG-TT
AG-TT
AG-TT
AGGTT
AGGTT
A-GTT
A-GTT
A-GTT
A-GTT
AGGTT

Existují i metody bez seřazení:


 UPGMA
 neighbor-
joining
 Fitch-
Margoliash
 minimum
evolution
 maximum
parsimony
 maximum
likelihood
 Bayesian a.
distance
znaky
Typy dat
Rozdělení metod

výkonnost (efficiency): jak rychlá je metoda?
síla (power): kolik znaků je třeba?
konzistence (consistency): vede zvyšující se počet znaků
ke správnému stromu?
robustnost (robustness): jak metoda funguje při neplatnosti předpokladů?
falzifikovatelnost (falsifiability): umožňuje testování platnosti předpokladů?
Jak hodnotit jednotlivé metody?

MAXIMÁLNÍ  ÚSPORNOST
(maximum parsimony, MP)
I
II
III
A
1
0
1
B
0
0
1
C
1
0
0
D
0
1
0
E
1
0
1
2 kroky
1 krok
2 kroky
minimální počet kroků = 3
skutečný počet kroků = 5
Þ 2 extra kroky ® homoplasie
William of Ockham (c. 1287 – 1347)
Occamova břitva

MP1
Odhad počtu kroků: Fitchův algoritmus
1. arbitrární kořen

MP1
1. arbitrární kořen
2. Shora dolů:
w = C, nebo T
x = T
y = A, nebo T
z = T
Odhad počtu kroků: Fitchův algoritmus

MP1
1. arbitrární kořen
2. Shora dolů:
w = C, nebo T
x = T
y = A, nebo T
z = T
3. Zdola nahoru:
z = T, nebo A
celková délka = 3
Odhad počtu kroků: Fitchův algoritmus

MP1
1. arbitrární kořen
2. Shora dolů:
w = C, nebo T
x = T
y = A, nebo T
z = T
3. Zdola nahoru:
z = T, nebo A
DELTRAN
(DELayed TRANsformation)
ACCTRAN
(ACCelerated TRANsformation)
celková délka = 3
Odhad počtu kroků: Fitchův algoritmus

parsimony-informative and non-informative characters (sites)
  - invariant sites (symplesiomorphies)
  - singletons (autapomorphies)
•
•
index konzistence (consistency i., CI)
retenční index (retention i., RI)
upravený CI (rescaled CI, RC)
index homoplasie (homoplasy i., HI)
RC = CI ´ RI
HI = 1 - CI
Problém homoplasie:
m = min. no. of possible steps
s = min. no. needed for explaining the tree
g = max. no. of steps for any tree

Metody parsimonie:
Fitchova: X ® Y a Y ® X
neseřazené znaky (A ® T nebo A ® G etc.)
Wagnerova: X ® Y a Y ® X
seřazené znaky (1 ® 2 ® 3)
Dollo
Dollova: X ® Y a Y ® X, potom nelze X ® Y

  … restriction-site and
  restriction-fragment data
Caminova-Sokalova: X ® Y,
ne Y ® X
  … SINE, LINE
vážená (weighed, transversion):
generalizovaná: matice nákladů (cost matrix) = kroková matice (step matrix)
“relaxed Dollo criterion”

2.5.tif
*) M je libovolně velké číslo zaručující, že bude povolena pouze jedna transformace
do každého odvozeného stavu.
Wagnerova
Fitchova
Dollova
vážená (transverzní)
*)

Parsimonie a konzistence
((A,B),(C,D))
p>>q
“správný”
((A,C),(B,D))
“chybný”

Konzistence_obr
„Felsensteinova
zóna“
Ve Felsensteinově zóně je parsimonie nekonzistentní
Parsimonie a konzistence

Simulation
Parsimonie a konzistence


LBA
dlouhé větve
Konzistence_tab2
„přitažlivost dlouhých větví“
(long-branch attraction, LBA)
Parsimonie a konzistence

Hledání optimálního stromu
1.Exaktní metody:
a) vyčerpávající hledání (exhaustive search)
b) branch-and-bound

BaB1
na začátku 3 taxony, postupné přidávání
je-li strom delší než náhodně vybraný, algoritmus dál nepokračuje
branch-and-bound

Bayes1
všechny možné stromy
2. Heuristické hledání

stepwise addition
star decomposition
branch swapping
Bayes1
heuristické hledání

Swap
nearest-neighbor
interchanges (NNI)
subtree prunning
and regrafting (SPR)
tree bisection and
reconnection (TBR)

Jukes-Cantor (JC): stejné frekvence bází
stejné frekvence substitucí
Evoluční modely a distanční metody
 Báze po substituci
A C G T
A -¾ ¼ ¼ ¼
Původní báze C ¼ -¾ ¼ ¼
G ¼ ¼ -¾ ¼
T ¼ ¼ ¼ -¾
- a a a
a - a a
a a - a
a a a -
Q =

Kimura 2-parameter (K2P): transice ≠ transverze
TsTv
- b a b
b - b a
a b - b
b a b -
Q =
Jestliže a = b, K2P = JC

 - pCb  pGa pTb
pAb   -  pGb  pTa
pAa pCb   -  pTb
pAb  pCa pGb   -
Q =
Jestliže pA = pC = pG = pT, F81 = JC
Felsenstein (F81): různé frekvence bází
 - pC   pG  pT
pA   -  pG   pT
pA  pC    -  pT
pA   pC  pG    -
Q =
Hasegawa-Kishino-Yano (HKY): různé frekvence bází
transice ≠ transverze
General time-reversible (GTR, REV): různé frekvence bází
různé frekvence jednotlivých typů
    substitucí

Jukes-Cantor (JC)
pA=pC=pG=pT
a=b
Felsenstein (F81)
pA¹pC¹pG¹pT
a=b
Kimura‘s two-parameter (K2P)
pA=pC=pG=pT
a¹b
Hasegawa-Kishino-Yano (HKY)
pA¹pC¹pG¹pT
a¹b
Felsenstein (F84)
pA¹pC¹pG¹pT
a=c=d=f=1, b=(1+K/pR), e=(1+K/pY), kde pR=pA+pG pY=pC+pT
Kimura’s three-substitution-type (K3ST)
pA=pC=pG=pT
a¹b
Tamura-Nei (TrN)
pA¹pC¹pG¹pT
a¹b
General-time reversible (GTR)
pA¹pC¹pG¹pT
a, b, c, d, e, f
nestejné frekvence bází
více než 1 typ substituce
2 typy transicí

Heterogenita substitučních rychlostí
v různých částech sekvence
Gama
Gama (Γ) rozdělení:
parametr tvaru α
diskrétní gama model
invariantní pozice
   ® GTR+ Γ+I
čím je a vyšší, tím jsou frekvence substitucí homogennější

Porovnání modelů:
Likelihood ratio test (LRT):
zahnízděné modely (nested models)
LR = 2(lnL2 – lnL1)
c2 rozdělení, p2 – p1 stupňů volnosti
Akaike information criterion (AIC):
nonnested models
AIC = -2lnL + 2p, kde p = počet volných parametrů
lepší model ® nižší AIC
Bayesian information criterion (BIC):
nonested models
BIC = -2lnL + plnN, kde N = velikost vzorku

hierarchický LRT – ModelTest (Crandall and Posada)
Porovnání modelů:


dynamický LRT:
LRT
Porovnání modelů:

Comparison
Více parametrů Þ více realismu, ale …
•
… také více neurčitosti, protože jsou odhadovány ze stejného
  množství dat
Porovnání modelů:
chyba!

Distance
počítány pro každý pár taxonů, z matice distancí (nebo podobností)
konstruován strom
distanční metody založeny na předpokladu, že pokud bychom znali
skutečné distance mezi všemi studovanými taxony, mohli bychom
velmi jednoduše rekonstruovat správnou fylogenii
•
výhoda: velmi rychlé a jednoduché (lze i na kalkulačce)

                            1                        10
20                          30
sekvence 1:   ACCCGTTAAGCTTAACGTACTTGGATCGAT
sekvence 2:   ACCCGTTAGGCTTAATGTACGTGGATCGAT
p-distance:  p = k/n = 3/30 = 0,10
Diff
problém
saturace:

Distance pro některé modely:


Dist2


Shluková analýza - UPGMA
1.Najdi min d(ij)
2.Vypočítej novou matici: d(ŠB-k) = [d(B-k)+d(Š-k)]/2
3.Opakuj 1 a 2.
šimp. bonobo gorila člověk orang.
šimpanz (Š)    --
bonobo (B) 0,0118    --
gorila (G) 0,0427 0,0416    --
člověk (Č) 0,0382 0,0327 0,0371    --
orangutan (O) 0,0953 0,0916 0,0965 0,0928    --

Š
B
Č
G
O
UPGMA (unweighted pair-group method using arithmetic means):
d[(BŠČ)G] = {d(BG)+d(ŠG)+d(ČG)}/3
WPGMA: d[(BŠČ)G] = {d[(BŠ)G] + d(ČG)}/2
single-linkage (metoda nejbližšího souseda)
complete-linkage (m. nejvzdálenějšího souseda)
  ŠB gorila člověk orang.
ŠB    --
gorila (G) 0,0422    --
člověk (Č) 0,0355 0,0371    --
orangutan (O) 0,0935 0,0965 0,0928    --

UPGMA a konzistence
aditivní distance: dAB + dCD £ max (dAC + dBD, dAD + dBC)
tj. vzdálenost mezi 2 taxony je rovna součtu větví,
  které je spojují
ultrametrické distance: dAC £ max (dAB, dBC)
A
B
C
D
A
B
C
aditivní strom           ultrametrický strom

Simulation
UPGMA a konzistence


Algoritmická metoda
Princip minimální evoluce ® minimalizuje součet délek větví S
Každý pár uzlů adjustován na základě divergence od ostatních
Konstrukce jediného aditivního stromu
Spojení sousedů (neighbor-joining, NJ)

NJ2
hvězdicový strom


NJ2
hvězdicový strom
nalezení nejbližších sousedů

NJ2
hvězdicový strom
nalezení nejbližších sousedů
přepočítání distancí

NJ2
S = 32,4
S = 29,5
S = 28,0
hvězdicový strom
nalezení nejbližších sousedů
přepočítání distancí
opakování postupu ...

     Nevýhody distančních dat:
1.ztráta části informace během transformace
2.jakmile data transformována na distance, nelze se vrátit zpět
(odlišné sekvence mohou dát stejné distance)
3.
3.nelze sledovat evoluci na různých částech sekvence
4.
4.obtížná biologická interpretace délek větví
5.
5.nelze kombinovat různé distanční matice