Моделирование и реконструкция эволюции гена


  • C помощью графического редактора Paint было нарисовано дерево
  • Данное дерево является бинарным, не ультраметрическим (так как растояния от корня до листьев не одинаковые). Корнем является ген yahk.
  • Описание ветвей дерева как разбиения множества листьев
  • A B C D E F . . * * * * . . . * * * . . . * * .


  • Получение искусcтвенных мутантных последовательностей с помощью программы msbar пакета EMBOSS

  • Длина гена 1050 нуклеотидов
    Формула для пересчета расстояний в число мутаций:
    N=1.33*S*a/100
    N - число мутаций S - длина гена а - количество замен на 100 н.п Коэффициент 1.33: При генерации мутантных последовательностей программа msbar осуществляет с равной вероятностью замены нуклеотидов на один из четырех возможных вариантов. Например, нуклеотид A может быть заменен не только на G, C или T, но и на A с той же вероятностью. Поэтому, значение параметра count (общее количество вносимых замен) в 4/3 раза превышает количество замен, приводящих к изменению нуклеотидного состава последовательности. Следовательно, для введения в последовательность n замен необходимо задать значение параметра count равным 4/3 n = 1.33n.
    Мутантные последовательности были полученны с помощью скрипта:
    msbar 1uufn.fasta abc.fasta -point 4 -count 279 -auto msbar abc.fasta c.fasta -point 4 -count 1117 -auto msbar abc.fasta ab.fasta -point 4 -count 210 -auto msbar ab.fasta a.fasta -point 4 -count 1117 -auto msbar ab.fasta b.fasta -point 4 -count 1117 -auto msbar 1uufn.fasta def.fasta -point 4 -count 419 -auto msbar def.fasta de.fasta -point 4 -count 43 -auto msbar de.fasta d.fasta -point 4 -count 698 -auto msbar de.fasta e.fasta -point 4 -count 698 -auto msbar def.fasta f.fasta -point 4 -count 978 -auto
  • Реконструкция дерева
  • Файл с выравниванием листьев дерева : listya.fasta Реконструкция дерева алгоритмом максимального правдоподобия программы fdnaml fdnaml listya.fasta -ttratio 1 -auto результат: fdnaml_results.txt +----------------------b | | +----------------------f | +--4 | +------------------3 +---------------e | | | 1-------2 +-------------d | | | +----------------------c | +-------------------------a (b:0.76281,(((f:0.76567,e:0.51260):0.09166,d:0.45527):0.62289,c:0.76458):0.25596,a:0.87273); Реконструкция дерева алгоритмом Neighbor-joining: fdnadist lystya.fasta -ttratio 1 -auto fneighbor lystya.fdnadist -auto результат: neighbor_joining_results.txt +-------------b ! ! +-------------c 1------2 ! ! +------d ! +--------------3 ! ! +---------e ! +---4 ! +---------------f ! +------------------a (b:0.71780,(c:0.71649,(d:0.36992,(e:0.50426,f:0.79928):0.19289):0.72491):0.35823,a:0.92998); Реконструкция дерева алгоритмом UPGMA: fdnadist lystya.fasta -ttratio 1 -auto fneighbor lystya.fdnadist -outfile list.fneighbor результат:upgma_results.txt +------------------------a +---3 +-------4 +------------------------b ! ! ! +----------------------------c --5 ! +---------------d ! +---1 +----------------2 +---------------e ! +-------------------f (((a:0.82389,b:0.82389):0.12542,c:0.94931):0.26981,((d:0.53497,e:0.53497):0.13073,f:0.66570):0.55342);
  • Сравнение деревьев:
  • ABCDEF real fdnaml Neighbor-joining UPGMA
    . . . . * * - + + -
    . . . * * * + + + +
    . . * * * * + + + +
    . . . * * . + - - +
    Как видно из таблицы, больше всего на исходное дерево похоже дерево, реконструированное по методу UPGMA.
    Деревья, построенные по алгоритму fdnaml и Neighbor-joining, вместо ветви, содержащей листья D и E,
    имеют ветвь с листьями E и F. Возможно, это связано с тем, что  между ветками F и (DE) 
    всего 3 замены на 100 пар нуклеотидов.
     	Алгоритм UPGMA реконструирует ход эволюции основываясь на предположении о справедливости гипотезы "молекулярных 
    часов" (скорость накопления мутаций поcтоянна). Вследствие этого суммарные расстояния от корня дерева
    до каждого из его листьев равны друг другу. Возможно, более высокое сходство дерева,
    реконструированного по методу UPGMA, с исходным деревом связано с тем, что, помимо матриц расстояний, 
    данный алгоритм использует дополнительное предположение о справедливости гипотезы "молекулярных часов".
    Также стоит отметить, что алгоритм UPGMA, в отличии от NJ и ML строит укорененное дерево
    	     Методы NJ(эвристический) и ML(переборный) учитывают различия в скорости накопления мутаций в разных последовательностях.
    Это дает определенные преимущества при анализе выборок реальных последовательностей. Но для рассмотренной
    модели эволюции имеют место значительные расхождения между истинными эволюционными расстояниями и их оценками.
    Например, истинные расстояния от точки расхождения последовательностей А и B равны 80, метод  NJ оценил их равными
    93 и 80 соответственно, а метод ML -  87 и 76 соответственно. Алгоритм ML, в отличие от NJ, позволил оценить
    доверительные интервалы длин ветвей уровня значимости 0.01 .
    
        Следует отметить, что метод NJ справился с реконструкцией дерева значительно быстрее, чем метод ML.
    Для выборки из шести последовательностей различия во времени работы составляют секунды, однако для выборок
    реально существующих последовательностей большего объема различия по времени работы могут оказать влияние на выбор алгоритма.
    
    
    на страницу IV семестра
    на главную