Моделирование и реконструкция эволюции гена

 
     

 

Модель судьбы вашего гена описана в виде скобочной формулы здесь. Расстояния даны как число мутаций на 100 нуклеотидных остатков.

  1. Создайте изображение дерева, описанного заданной Вам формулой. Подпишите листья и длины ветвей.
  2. Опишите ветви дерева как разбиения множества листьев (считая дерево бескорневым).
  3. Получите искуственные мутантные последовательности, соответствующие листьям и узлам дерева, считая, что в корне находится последовательность гена вашего белка (см. упражнение 2 второго практикума прошлого семестра). В отчёте приведите длину гена, формулу для пересчёта расстояний в число мутаций в вашем гене и текст скрипта, которым получаются мутантные последовательности.
  4. На основе последовательностей, соответствующих листьям, реконструируйте дерево алгоритмами UPGMA, Neighbor-joining и максимального правдоподобия. Сравните деревья между собой и с правильным деревом.
Будущий отчёт (в формате MS-Word или HTML) по этому и следующему занятиям должен будет содержать: рисунок дерева, таблицу ветвей как разбиений, информацию из упр. 3 (см. выше), а также деревья, полученные при реконструкции и результат их сравнения (рекомендуемую форму описания сравнения деревьев см. в подсказках).







Дополнительное упражнение

Сравнение разных способов оценки эволюционных расстояний между 2-мя генами

  • Определите "истинные" эволюционные расстояния между конечными мутантами в cозданной Вами модели эволюции
    (т.е. расстояния в числе замен между листьями заданного дерева)
    Не забудьте, что расстояния принято приводить в расчете на 100 позиций.

    Cоздайте новую рабочую книгу Excel "Dist.xls", содержащую 2 листа c названиями "All_data" и "Comparison".

    На стр. "All_data" создайте таблицу с "истинными" попарными расстояниями (число замен на 100 нуклеотидов):

      Gene... Mutant_A Mutant_B :..
    Gene... 0 85 40  
    Mutant_A   0 15  
    Mutant_B     0  
    ::        

  • Определите попарные эволюционные расстояния между всеми последовательностями (включая исходную) c помощью программы distmat пакета EMBOSS. Синтаксис:
    distmat -sequence <file name > -outfile <outfile name> -nucmethod <метод оценки> <номер метода, см. help> 

    На вход программе подается множественное выравнивание, но т.к. в Вашей модели были только замены, то просто файл с последовательностями и будет соответствовать биологически значимому выравниванию.

    Выбирая соответствующие пункты меню программы, получите 2 матрицы попарных расстояний:

    1. матрицу попарных различий (D) (uncorrected distances);
    2. матрицу попарных расстояний, вычисленных по формуле Джукса - Кантора (JC)
    3. *матрицу попарных расстояний, вычисленных по любой другой приглянувшейся Вам модели.

  • На стр. "All_data" импортируйте данные из выходных файлов distmat. Т.е. на странице должны быть минимум 3 матрицы попарных расстояний: "истинных", неоткорректированных расстояний или несовпадений (D) и расстояний по Джуксу - Кантору (JC)

    Ваша следующая задача - на стр. "Comparison" собрать все данные в единую таблицу вида:
    Имя пары "Истинное" расстояние (T) Несовпадения (D) Jukes-Cantor (JC)
    Gene....Gene.... 0 0 0
    Gene_MutantА 35 33 34
    Gene_MutantВ 78 ... ...

    Один из возможных способов преобразовать матрицы расстояний в таблицу нужного вида можно найти в задании №12, пп.4-7, 2004 и подсказках к нему.

    Отсортируйте всю таблицу по убыванию "истинных расстояний". По полученным данным постройте график зависимости 2-х оценок расстояния (D, JC) от величины "истинного" расстояния (T).

  • В отчете (HTML-страничка) кратко опишите, что и зачем делали. Приведите ссылку на книгу Excel. Приведите картинку с полученным графиком.
  • Опишите диапазон, в котором полученные оценки эволюционных расстояний близки к "истинным". Укажите, начиная с каких эволюционных расстояний полученные оценки сильно отклоняются от реального числа эволюционных событий.

    Сделайте выводы.