На главную страницу четвертого семестра

Занятие 2. Моделирование эволюции гена.

Модель судьбы гена deoC_ECOLI в виде скобочной формулы:
  ((А:30,В:30):80,(((Е:30,F:30):5,D:35):40,С:85):25);
Расстояния даны как число мутаций на 100 нуклеотидных остатков.

  1. Создание изображения дерева, описанного заданной формулой.
    Для визуализации заданного скобочной формулой дерева можно использовать программу drawgram из Online-версии пакета Phylip.

  2. Описание ветвей дерева как разбиения множества листьев (дерево считается бескорневым).
    Описание разбиений оформлено в виде таблички, столбцы которой соответствуют листьям дерева, а строки - ветвям дерева. Описание ветвей, отделяющих один лист от всех остальных, опущено ввиду своей тривиальности.

    ABCDEF
    110000
    111000
    111100

  3. Получение искуственных мутантных последовательностей, соответствующих листьям и узлам дерева с последовательностью гена deoC_ECOLI в корне.
    Ген имеет длину 780 н.о. (259 а.о. белка *3 + 1 стоп-кодон). Мутацию в стоп-кодоне будем считать равнозначной мутации в любом другом кодоне (на самом деле стоп-кодон не сохранился ни в одном из листьев дерева, но если бы и сохранился, работоспособность полученных в ходе нашей "случайной" эволюции белков маловероятна).

    Формула для пересчёта расстояний M в число мутаций в гене N: N=M*780/100

    Для получения "мутантов" используется программа msbar пакета EMBOSS. Она делает в гене заданное число замен, причем нуклеотид заменяется на любой из четырех (а не трех остальных). Поэтому четверть замен заменами не являются и программе на вход необходимо задавать в 4/3 раз больше замен, т.е. N =4*M*780/(3*100) =10.4*M

    Формула для пересчёта расстояний M в значение параметра -count программы msbar N': N'=10.4*M

    Скрипт для получения мутантных последовательностей:

    msbar DeoC_gene.fasta AB.fasta   -point 4 -count 832 -auto
    msbar DeoC_gene.fasta CDEF.fasta -point 4 -count 260 -auto
    msbar CDEF.fasta DEF.fasta       -point 4 -count 416 -auto
    msbar DEF.fasta EF.fasta         -point 4 -count 52 -auto
    msbar AB.fasta A.fasta           -point 4 -count 312 -auto
    msbar AB.fasta B.fasta           -point 4 -count 312 -auto
    msbar CDEF.fasta C.fasta         -point 4 -count 884 -auto
    msbar DEF.fasta D.fasta          -point 4 -count 364 -auto
    msbar EF.fasta E.fasta           -point 4 -count 312 -auto
    msbar EF.fasta F.fasta           -point 4 -count 312 -auto
    

  4. Реконструкция дерева на основе последовательностей, соответсвующих листьям.
    Помещаем последовательности, соответствующие листьям дерева, в один файл в fasta-формате (он является "самым правильным" выравниванием, поскольку в ходе "эволюции" производились только замены и положения н.о. в последовательностях не изменялись).
  5. Полученные деревья:

    АлгоритмДерево Скобочная структураВетви (ABCDEF)
    110000111000111100
    Нет
    (исходное дерево)
    См. выше ((А:30,В:30):80,(((Е:30,F:30):5,D:35):40,С:85):25); +++
    UPGMA
                                +---------A
      +-------------------------2 
      !                         +---------B
    --5 
      !        +--------------------------C
      +--------4 
               !               +----------D
               +---------------3 
                               ! +--------E
                               +-1 
                                 +--------F
    ((A:32.8,B:32.8):85.9,(C:87.9,(D:35.9,(E:29.7,F:29.7):6.2):52.0):30.8); +++
    Neighbor-joining
      +--B         
      ! 
      !                     +-------------C         
      1---------------------2 
      !                     !            +-----D     
      !                     +------------3 
      !                                  !  +-------E
      !                                  +--4 
      !                                     +---F    
      ! 
      +---------A
    (B:15.6,(C:73.0,(D:28.9,(E:39.9,F:19.6):13.2):64.6):109.3,A:49.9); +++
    Максимального
    правдоподобия
      +----B         
      |  
      |                                +-------D  
      |                    +-----------4  
      |                    |           |  +------E
      1--------------------2           +--3  
      |                    |              +----F  
      |                    |  
      |                    +--------------C       
      |  
      +-------A
    (B:24.594,((D:38.7,(E:36.7,F:23.2):4.0):62.1,C:76.9):103.1,A:40.6); +++

    Сравнение деревьев

    Все деревья имеют одинаковую топологию. Исходное дерево не было ультраметрическим, но посроенное по алгоритму UPGMA ультраметрическое дерево по длинам ветвей очень близко к исходному. В построенных по алгоритмам Neighbor-joining и максимального правдоподобия деревьях расстояния отличаются от исходных сильнее, в парах A-B и E-F листья A и E эволюционировали заметно быстрее листьев B и F (особенно в дереве NJ).







  6. Бутстреп-анализ выравнивания мутированных последовательностей, соответствующих листьям исходного дерева.
    Этапы работы:

    Консенсусное дерево совпало по топологии с реальным деревом, но одна из внутренних ветвей встречается только в 41 дереве из 100:

    Sets included in the consensus tree
    
    Set (species in order)     How many times out of  100.00
    cfedba
    ....**                     100.00
    .***..                     85.00
    .**...                     41.00
    Внутренняя ветвь ABCD-EF оказалась недостоверной, первые две из ветвей-аутсайдеров - конкуренты именно этой ветви:
    Sets NOT included in consensus tree:
    
    Set (species in order)     How many times out of  100.00
    
    .*.*..                     29.00
    ..**..                     18.00
    Такую недостоверность можно объяснить малой длиной этой ветви в исходном дереве (5 мутаций на 100 нуклеотидов). Две другие внутренние ветви и все внешние достаточно достоверны (встречаются более 70 раз). Неукорененное дерево:
      +---------------------------C
      |
      |                    +------A
      |      +-------100.0-|
      |      |             +------B
      +------|
             |             +------F
             |      +-41.0-|
             +-85.0-|      +------E
                    |
                    +-------------D
    Скобочная структура:
     (C:100.0,((A:100.0,B:100.0):100.0,((F:100.0,E:100.0):41.0,D:100.0):85.0):100.0);
    (в скобках - достоверность ветви).
     

  7. Создание изображения исходного дерева программой fdrawtree.
    1. Поместите скобочную формулу в отдельный файл.
    2. Подать файл на вход fdrawtree.
    3. Результат перевести в GIF-формат.


©Хайруллин Альберт