Филогенетическая реконструкция и сравнение деревьев

Практикум №2 заключался в выравнивании аминокислотных последовательностей цитохрома B у выбранных в предыдущем практикуме животных с дальнейшей реконструкцией филогенетического дерева тремя различными методами: программой fastme, оценивая эволюционные расстояния между видами с помощью модели p-distance; той же программой, но оценивая расстояния моделью MtREV, а также с помощью программы IQ-Tree, выбрав все параметры по умолчанию. В результате проводилось сравнение реконструированных деревьев с деревом видов (см. Практикум 1) и для каждого были описаны ошибки реконструкции.

Выравнивание аминокислотных последовательностей цитохрома B из разных видов животных

С помощью программы Jalview было проведено множественное выравнивание алгоритмом Muscle последовательностей цитохрома B из 14 видов животных, по таксономии которых строилось филогенетическое дерево в предыдущем практикуме (см. Рис. 1.). Ссылка на файл с выравниванием.


Рис. 1. Фрагмент выравнивания последовательностей цитохрома B для 14 видов животных, по которым строилось дерево в первом практикуме. По выравниванию видно (см. файл с выравниванием), что все белки очень консервативны, одинаковой длины, неурезанные и само выравнивание не содержит гэпов, следовательно, выравнивание проведено корректно.

Реконструкция филогенетических деревьев

Далее проводилась реконструкция дерева для 14 видов животных программой fastme с эволюционной моделью p-distance. В данной модели эволюционные расстояния между последовательностями оцениваются путём деления количества отличающихся аминокислот/нуклеотидов на общую длину выравненных последовательностей. Недостатоком этой модели является то, что она не учитывает множественные замены в одном положении (в т.ч. обратные замены), а также неодинаковую частоту различных замен (транзиции статистически происходят чаще трансверсий; замены аминокислот тоже имеют разную вероятность, как видно из матриц BLOSUM). Таким образом, дерево, реконструированное с помощью модели p-distance, скорее всего, будет не очень достоверным и с большой вероятностью будет содержать ошибки (см. Рис. 2.). Команда на bash:

fastme -i term4_pr2_cyb_alignment.phy -o term4_pr2_cyb_p-distance -pp


Рис. 2. Филогенетическое дерево, реконструированное с помощью программы fastme с использованием модели p-distance. Укоренение осуществлялось в среднюю точку.

Как видно из рисунка, на дереве полностью правильно реконструирована клада Odontoceti (Зубатые киты, виды с TURTR по PHYMC), в то время как клада Mysticeti (Усатые киты, виды с BALAC по BALMY) содержит значительные неточности. Так, организм с мнемоникой CAPMR должен был составлять одну кладу с видами MEGNO, BALBO и BALAC, вместо этого он составляет единую кладу с Odontoceti. Эволюционные взаимоотношения между BALAC, MEGNO и BALBO также нарушены: вид MEGNO должен быть сестринской группой по отношению к кладе, содеражащей виды BALAC и BALBO, вместо этого MEGNO объединён в одну кладу с BALBO.

Затем, с помощью той же программы fastme, но уже с использованием другой модели MtREV аналогично было реконструировано филогенетическое дерево для выбранных организмов. Данная модель предназначена исключительно для митохондриальных белков, коим и является цитохром B. Она учитывает различную вероятность превращения одних аминокислот в другие, основываясь на химических свойствах аминокислот и на свойствах генетического кода. Теоретически дерево, построенное с использованием модели MtREV, должно содержать меньше ошибок, однако на практике полученное дерево содержало те же ошибки реконструкции, что и построенное с моделью p-distance: CAPMR объединён с Odontoceti в одну кладу, а MEGNO объединён с BALBO (см. Рис. 3.). Команда на bash:

fastme -i term4_pr2_cyb_alignment.phy -o term4_pr2_cyb_p-distance -pM


Рис. 3. Филогенетическое дерево, реконструированное с помощью программы fastme с использованием модели MtREV. Укоренение проводилось в среднюю точку.

Наконец, было получено филогенетическое дерево, реконструированное с помощью программы IQ-Tree. В основе работы алгоритма этой программы лежит метод наибольшего правдоподобия (Maximum likelihood).

Программа IQ-Tree является одной из самых эффективных программ по реконструкции филогенетических деревьев, а посему ожидается на выходе получить дерево, топология которого будет максимально приближена к топологии исходного дерева (см. Рис. 4.). Команда на bash:
iqtree -s term4_pr2_cyb_alignment.phy


Рис. 4. Филогенетическое дерево, реконструированное с помощью программы IQ-Tree, основанной на методе наибольшего правдоподобия. Дерево укоренялось в среднюю точку.

Как нетрудно заметить из рисунка, дерево, построенное программой IQ-Tree, не содержит ошибок и имеет точно такую же топологию, что и исходное дерево. Таким образом, эмпирическим путём было показано, что программа IQ-Tree действительно наиболее точно и эффективно справляется с задачей реконструкции филогенетических деревьев по последовательностям.