Занятие 12. Сравнение разных способов оценки эволюционных расстояний между гомологичными нуклеотидными последовательностями

Ваша задача — определить границы применимости 2-х способов оценки эволюционного расстояния между нуклеотидными последовательностями :
1) простейшего способа оценки расстояния как доли несовпадающих нуклеотидов;
2) оценки расстояния по методу Джукса – Кантора.
Для этого нужно
1) посчитать"истинные" попарные эволюционные расстояния, заложенные в Вашу модель;
2) определить соответствующие попарные расстояния с помощью программы distmat пакета EMBOSS;
2) построить и исследовать график зависимости попарных эволюционных расстояний, определенных разными способами, от "истинных" расстояний.
Рекомендуемая последовательность Ваших действий:
  1. Разберитесь с названиями мутантных нуклеотидных последовательностей в Вашей модели

    Названия последовательностей должны быть обязательно разными, желательно, короткими, не используйте названия, состоящие из одних цифр. Примеры возможных названий: AB, CDE,……
    Названия узлов на исходном дереве Вашей модели, названия файлов и названия мутантных последовательностей внутри файлов должны совпадать.


  2. Оцените "истинные" попарные эволюционные расстояния в Вашей эволюционной модели

    В рабочей директории создайте новую рабочую книгу Excel "Dist.xls", содержащую 2 листа. Первый лист назовите "Dist_data", а второй "Dist_comparison".
    На листе "Dist_data" создайте таблицу следующего вида

    "Истинные расстояния в моей модели:
    число точечных замен на 100 нуклеотидов"
      Seq_name1 Seq_name2 Seq_name3 …..
    Seq_name1 0 85 40  
    Seq_name2   0 15  
    Seq_name3     0  
    ……        

    В таблице приведите расстояния между всеми узлами Вашего дерева, включая исходную последовательность Вашего гена. Расстояния определите как число мутаций , разделяющих последовательности (число мутаций на 100 п.н. ).

  3. Постройте множественное выравнивание всех последовательностей. Выравнивание не должно содержать гэпов, т.к. Ваша модель не предусматривала ни вставки, ни делеции.

    См. подсказку.

  4. Постройте матрицу попарных различий (D).

    Для этого используйте программу distmat пакета EMBOSS, используя пункт 0 меню (uncorrected distances). Полученный файл скопируйте в рабочую директорию. Матрицу из него перенесите на первый лист книги "Dist_data" и назовите ее "Матрица попарного различия: среднее число несовпадающих нуклеотидов на 100 позиций".

  5. Постройте матрицу попарных расстояний, вычисленных по формуле Джукса – Кантора (JC).

    Используйте программу distmat пакета EMBOSS, выбрав соответствующий пункт меню.
    Полученную матрицу также перенесите на первый лист рабочей книги и назовите "Матрица попарных эволюционных расстояний, вычисленных по методу Джукса – Кантора".
     

  6. Превратите каждую из 3-х матриц попарных расстояний в таблицу следующего вида :

    Имя пары Истинное расстояние
    A_A 0
    A_AВ 35
    A_C 78

    Все 3 такие таблицы сохраните на листе "Dist_comparison".
    Прочитайте в подсказке, как можно быстро это сделать (один из возможных способов, но похоже, позволяющий избежать ошибок).

  7. Построение диаграммы

    На листе "Dist_comparison" создайте копии всех 3-х таблиц, получившихся в п.6., и соедините их в одну.
    Проверьте, чтобы в каждой строчке оказались три одинаковых пары.

    Затем уберите лишние столбцы с именами пар.
    Для построения графика требуемого вида надо добавить еще один столбец с истинными расстояниями.
    В итоге должна получится таблица вида:

    Имя пары   "Истинное расстояние" D Jukes – Cantor
    А_А 0 0 0 0
    А_AB 35 35 33 34
    А_B 78 78 50 67

    Отсортируйте всю таблицу по убыванию "истинных расстояний"
    По полученным данным постройте график зависимости 2-х оценок расстояния от величины "истинного" расстояния.
    Определите диапазон, в котором полученные оценки эволюционных расстояний, близки к "истинным".
    Полученные результаты, а также другие Ваши наблюдения опишите в отчете.