Страница курса биоинформатики
Факультет биоинженерии и биоинформатики

Моделирование и реконструкция эволюции гена


Скобочная формула: (((А:40,B:40):25,C:90):10,((D:80,E:80):5,F:90):10);
Соответствующее дерево:
Описание ветвей дерева как разбиения множества листьев (дерево считаем бескорневым):
 	A  B  C  D  E  F 
        *  *  .  .  .  .
	*  *  *  .  .  .
	*  *  *  .  .  *

В этом случае мы не учитываем ветви, которые отделяют отдельные листы, т.к. такие ветви есть в любом дереве, и они не несут никакой полезной нам информации.

Получение искуственных мутантных последовательностей, соответствующих листьям и узлам дерева.


Считаем, что в корне лежит последовательность белка Mode_ECOLI.
Длина гена: 789 нуклеотидов.
Формула для пересчета расстояний в число мутаций в данном гене:
число мутаций в гене = кол-во мутаций * длина последовательности / 100
Скрипт с помощью которого получаются мутантные последовательности:
 
msbar mode.fasta ABC -point 4 -count 79 -auto
msbar ABC C -point 4 -count 710 -auto
msbar ABC AB -point 4 -count 197 -auto
msbar AB A -point 4 -count 316 -auto
msbar AB B -point 4 -count 316 -auto
msbar mode.fasta DEF -point 4 -count 79 -auto
msbar DEF F -point 4 -count 710 -auto
msbar DEF DE -point 4 -count 39 -auto
msbar DE D -point 4 -count 631 -auto
msbar DE E -point 4 -count 631 -auto

Реконструкция дерева при помощи различных алгоритмов.


Исходное дерево:

          +---------- F
          !
          !
  +-------!
  !       !     +---- E
  !       !     !
  !       +-----!
  !             !
  !             +---- D
  !
  !
  !       +---------- C
  !       !
  !       !
  +-------!
          !     +---- B
          !     !
          +-----!
                !
                +---- A



Для начала был создан файл all.fasta , где лежат все последовательности, соответствующие листьям исходного дерева.
На основе последовательностей, соответствующих листьям, реконструируем дерево при помощи следующих алгоритмов:
I. UPGMA:


                            +-----------------a         
        +-------------------1 
  +-----3                   +-----------------b         
  !     ! 
  !     +-------------------------------------c         
--5 
  !          +---------------------------------d         
  ! +--------2 
  +-4        +---------------------------------e         
    ! 
    +------------------------------------------f         


II. Neighbor-joining:

  +---------b         
  ! 
  !          +------------------c         
  !          ! 
  1----------2      +-----------------d         
  !          !   +--3 
  !          +---4  +---------------e         
  !              ! 
  !              +----------------------f         
  ! 
  +-------a         


Для этих 2 алгоритмов сначала мы с помощью программы fdnadist посчитали попарные расстояния между последовательностями:
fdnadist all.fasta -ttratio 1 -auto , подав на вход файл all.fasta (содержащий последовательности, соответствующие листьям исходного дерева). Полученный файл all.fdnadist был подан на вход программе fneighbor
fneighbor all.fdnadist -outfile neighbor.txt для Neighbor-joining;
fneighbor all.fdnadist -treetype u -outfile upgma.txt для UPGMA.
III. максимального правдоподобия:

  +----------b         
  |  
  |             +----------------------f         
  |         +---4  
  |         |   |   +---------------e         
  1---------2   +---3  
  |         |       +----------------d         
  |         |  
  |         +-----------------c         
  |  
  +-------a         

Запускаем программу fdnaml :
fdnaml all.fasta -ttratio 1 -auto
на входе у нас все тот же файл all.fasta. Получаем 2 файла: с расширениями .treefile и .dnaml. Для отчета нам нужен второй файл, т.к. именно там лежит "текстово-графическое изображение" необходиного дерева.

Сравнение алгоритмов



  A  B  C  D  E  F     real     UPGMA     N-J     Max
  *  *  .  .  .  .      +         +        +       +  
  *  *  *  .  .  .      +         +        +       +
  *  *  *  .  .  *      +         +        +       +



Итак, что мы видим? Мы получили одинаковые деревья, и по топологии, и по разбиению по ветвям. Алгоритмы действуют по разным принципам, учитывая или нет теорию молекулярных часов. Укорененное дерево получено лишь с помощью алгоритма UPGMA. И все же, деревья одинаковы. Возможно, данное дерево можно реконструировать однозначно. Поэтому мы и получили такие результаты.
© Суворова Анастасия