Практикум 2. Филогенетическая реконструкция и сравнение дереевьев

Подготовка к построению деревьев:

Я создал список из идентификаторов цитохромов в Swiss-prot, затем по ним извлек их белковые последовательности в формате FASTA (файл) , затем выровнял при помощи алгоритма MUSCLE (файл), посмотрел выравнивание в jalview, все белки имели примерно одну и ту же длину и слишком длинных гэпов не было.

Затем при помощи скрипта из презентации конвертировал файл из формата fasta в phy (файл).

Построение деревьев

Первое дерево я построил при помощи программы fastme по алгоритму измерения расстояний p-distance, используя следующую команду:

fastme -i cyb.phy -pP -o cyb_p-distance.fastme

Второе дерево я построил снова при помощи программы fastme, но уже использовал алгоритм измерения расстояний — MtREV, поэтому применил вот такую команду:

fastme -i cyb.phy -pM -o cyb_MtREV.fastme

А третье дерево строилось программой iqtree с параметрами по умолчанию:

iqtree -s cyb.phy

Визуализация деревьев при помощи iTOL

На этом этапе я впал в ступор. Деревья визуализировались, однако нужно было выбрать, где его укоренить. Проблема в том, что два базальных вида Spiralia с мнемониками: BRAPC и PARGO из клады Gnathifera оказались отделены друг от друга. Я не знаю, насколько это хорошая идея, но я принял решения укоренить дерево за одного из них - PARGO. Для большего контроля я решил во всех деревьях сделать один и тот же корень, чтобы легче было сравнивать:

Приведу сначала скобочную формулу деревьев:

P-distance: (CYB_PARGO,((CYB_HETBL,(CYB_LUMTE,CYB_LOXAA)),(CYB_BUGNE,((CYB_MYZSE,CYB_LEPTH),(CYB_BRAPC,(CYB_MYTED,(CYB_CEPNE,CYB_ALBCA)))))))

MtREV: (CYB_PARGO,(CYB_HETBL,((CYB_LUMTE,CYB_LOXAA),(CYB_BUGNE,((CYB_BRAPC,(CYB_MYZSE,CYB_LEPTH)),(CYB_MYTED,(CYB_CEPNE,CYB_ALBCA)))))))

IQTree: (CYB_PARGO,((CYB_LOXAA,CYB_LUMTE),(CYB_MYTED,(CYB_HETBL,(CYB_BUGNE,((CYB_CEPNE,CYB_ALBCA),(CYB_BRAPC,(CYB_LEPTH,CYB_MYZSE))))))))

Теперь пройдемся по изображениям и сравним их с систематическим деревом, отметим ошибки реконструкции, а также правильные участки (их оказалось меньше, чем ошибок):

P-distance

Рис. 1 - Сравнение филогенетических деревьев по последовательностям цитохрома B в кладе Spiralia; Сверху дерево построенное при помощи оценки расстояний P-distance (т.е эволюционной модели равновероятных замен) и по алгоритму минимальной эволюции с помощью программы Fastme; снизу - референсное

Поверх дерева P-distance я построил референсное дерево в виде стрелочек, чтобы было было легче их сравнивать (хотя выглядит запутанно). Синим цветом обозначил одинаковые ветви: они имеются и в таксономическом древе, и в референсном дереве

Красным цветом обозначил отличаюшиеся ветви: они есть в таксономическом дереве, но их нет в дереве p-distance

Стрелками обозначил направление от корня к листьям. Укоренение таксономического дерево я изобразил в виде черного круга, а точки ветвления синим или красным кругом (в зависимости от того, имеется ли это группа не дереве p-distance или нет)

Аналогичные действия я проделал для деревьев, построенных при помощи MtREV и IQTree.

Правильные участки P-distance: CEPNE и ALBCA в одной группе — род Helicina, MYTED с ( CEPNE и ALBCA ) в одной группе - тип Mollusca

Ошибки реконструкции: PARGO и BRAPC не находятся в одной базальной группе — Gnathifera, LUMTE находится в одной группе с LOXAA, а не с MYZSE (LUMTE и MYZSE принадлежат к типу Annelida), HETBL должен был находится рядом с MYTED, а не с LUMTE и LOXAA и т.д. Если кратко, то все организмы, кроме CEPNE, ALBCA и MYTED, сгруппированы неправильно.

MtREV

Рис. 2 - Сравнение филогенетических деревьев по последовательностям цитохрома B в кладе Spiralia; Сверху дерево построенное при помощи оценки расстояний MtREV (эволюционная модель учитывает какие замены более часто или редко происходят в митохондриальных белках), алгоритм тот же — минимальная эволюция; снизу - референсное дерево.

Дерево, построенное по MtREV, почти не отличается от дерева, построенного по P-distance. По-прежнему, единственный правильный участок: CEPNE, ALBCA и MYTED

От дерева построенного по P-distance отличается положением на дереве групп HETBL и BRAPC

IQTree

Рис. 3 - Сравнение филогенетических деревьев по последовательностям цитохрома B в кладе Spiralia; Сверху дерево построенное при помощи программы IQTree, которая подбирает модель по обстоятельствам (мне он выбрал модель mtART+I+G4, где mtART – белки митохондрий членистоногих, I – учитывает не изменяющиеся в процессе эволюции позиции, G4 – описывает неоднородность скоростей эволюций для разных участков), а алгоритм реконструкции - максимальное подобие; снизу - референсное.

Дерево, построенное по IQTree отличается в более худшую сторону от предыдущих двух деревьев:

Единственная правильная группа: CEPNE и ALBCA.

MYTED же расположено неправильно и отходит от точки, близкой к корню дерева.

Неправильные группы: ( LUMTE с LOXAA ) и ( MYZSE с LEPTH ) сохраняются, HETBL имеет отличное от предыдущих двух леревьев положение, BRAPC расположен так же, как в дереве MtREV.

Выводы

В моём случае алгоритм построения дерева по консервативным аминокислотным последовательностям показал себя плохо

Возможные причины такого результата:

1) Исходное таксономическое дерево оказалось слишком неразрешённым, поэтому алгоритмы построения деревьев при такой выборке не справляются с задачей.

2) Построение деревьев по одному белку - изначально плохая идея. При построении деревьев должны учитываться и другие белки.

3) Виды в моей выборке оказались слишком далёкими, поэтому алгоритмы не смогли справиться и поделить их правильно на группы. Возможно имеет место быть конвергенция аминокислотных последовательностей, вследствие чего неродственные организмы стали иметь схожие последовательности цитохрома.