Теперь предположим, что этой информации у нас нет, и оценим расстояние между последовательностями с помощью двух обозначенных выше методов. При этом нужно вычислять расстояния между всеми возможными парами последовательностей, так как мы не можем знать, какая из них является предковой.
Уточню соответствия названий последовательностей, которые будут встречаться в таблицах далее, указанным на дереве элементам. Листья сохраняют те же названия, а все узлы, а также корень, получают названия соответственно Seq1, Seq2, Seq3, Seq4 и Seq5.
Подсчет реальных эволюционных расстояний для каждой пары последовательностей был осуществлен с использованием приведенного выше дерева. В результате я получила следующую матрицу:
Seq1 | Seq2 | Seq3 | Seq4 | Seq5 | A | B | C | D | E | F | |
Seq1 | 0 | ||||||||||
Seq2 | 34 | 0 | |||||||||
Seq3 | 40 | 74 | 0 | ||||||||
Seq4 | 50 | 84 | 10 | 0 | |||||||
Seq5 | 70 | 104 | 30 | 30 | 0 | ||||||
A | 100 | 66 | 140 | 150 | 170 | 0 | |||||
B | 100 | 66 | 140 | 150 | 170 | 132 | |||||
C | 100 | 134 | 60 | 50 | 90 | 200 | 200 | 0 | |||
D | 100 | 134 | 60 | 50 | 90 | 200 | 200 | 100 | 0 | ||
E | 100 | 134 | 60 | 70 | 30 | 200 | 200 | 120 | 120 | 0 | |
F | 100 | 134 | 60 | 70 | 30 | 200 | 200 | 120 | 120 | 60 | 0 |
Программа distmat предназначена для подсчета расстояний между последовательностями во множественном выравнивании. Поскольку гэпов при точечных заменах нуклеотидов мы получить не могли, можно не использовать программу emma для построения выравнивания, а просто поместить все последовательности в один файл одну под другой. При разных значениях параметра -nucmethod программа distmat позволяет получить как матрицу для среднего числа несовпадающих нуклеотидов (в расчете на 100 нуклеотидов), так и для посчитанных по методу Джукса-Кантора попарных эволюционных расстояний. Параметр -nucmetod 0 используется в первом случае, а параметр -nucmethod 1 во втором.
Матрица попарных различий (среднее число несовпадающих нуклеотидов на 100 нуклеотидов) | Матрица попарных расстояний (метод Джукса-Кантора) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
Теперь с помощью Excel можно просто составить из этих трех матриц одну отсортированную по убыванию истинных расстояний таблицу, в которой для каждой из возможных пар последовательностей указано истинное расстояние и два посчитанных программой distmat расстояния. Построенный по этой таблице график приведен ниже.
Как можно видеть по этому графику, модель Джукса-Кантора
лучше высчитывает истинное расстояние между последовательностями,
нежели простой подсчет несовпадений нуклеотидов. При малых
расстояниях между последовательностями обе модели дают хорошо
согласующиеся с истинными данными цифры. Границы применимости
модели Джукса-Кантора шире, чем при использовании числа
попарных различий, и это график отражает особенно ярко.
Мы видим, что при большом значении истинного расстояния
между последовательностями процент несовпадений стремится к 75%
т.е. к проценту несовпадения двух случайных нуклеотидных
последовательностей, поэтому, разумеется, перестает отражать
истинную суть процесса дивергенции последовательностей.
Обе модели предсказывают меньшее попарное расстояние между последовательностями, чем оно есть на самом деле. |