Добро пожаловать на учебный сайт Аркуша Вероники

Реконструкция филогенетического дерева по последовательностям цитохрома B

Задание 1. Получение последовательностей и выравнивание

Для построения филогенетического дерева были взяты последовательности цитохрома B тех же 11 видов млекопитающих, что и в предыдущей работе.

Был создан файл cyb.list со списком идентификаторов. Последовательности получены командой seqret из пакета EMBOSS, выравнивание построено программой MUSCLE:

#получение последовательностей 
seqret @cyb.list cyb.fasta

#волшебное выравнивание 
muscle -align cyb.fasta -output cyb-alignment.fasta

Длина выравнивания составила 384 позиции, доля гэпов у каждой последовательности не превысила 1,30% (максимум 5 гэпов из 384). Это свидетельствует о высоком качестве выравнивания — цитохром B является консервативным митохондриальным белком.


Задание 2. Конвертация в формат phylip-relaxed

Программа FastME принимает выравнивания только в формате phylip-relaxed. Для конвертации из FASTA был написан (списан из презентации) скрипт на Python с использованием библиотеки BioPython:

from Bio import AlignIO

inh  = open("cyb-alignment.fasta", "r")
outh = open("cyb.phy", "w")

alignment = AlignIO.parse(inh, "fasta")
AlignIO.write(alignment, outh, "phylip-relaxed")

inh.close()
outh.close()

После запуска python3 convert.py создался файл cyb.phy. Первая строка содержит число последовательностей и длину выравнивания (11 и 384), каждая следующая — имя последовательности и её аминокислотный состав.


Задание 3. Реконструкция дерева программой FastME

Дерево строилось двумя способами — с моделью p-distance и MtREV. Описание использованных опций:

  • -i cyb.phy — входной файл с выравниванием в формате phylip-relaxed.
  • -pp — флаг -p указывает на белковые последовательности, буква p задаёт модель расстояний p-distance — долю различающихся позиций между двумя последовательностями без поправок на множественные замены.
  • -pM — флаг -p — белковые данные, буква M задаёт модель MtREV (Mitochondrial REVersible model) — специальную матрицу замен, разработанную для митохондриальных белков. Более реалистична биологически по сравнению с p-distance (в теории).
  • -o <файл> — имя выходного файла с деревом в формате Newick.
#p-distance
fastme -i cyb.phy -pp -o cyb_fastme_p.nwk

#MtREV
fastme -i cyb.phy -pM -o cyb_fastme_mtrev.nwk

Задание 4. Реконструкция дерева программой IQ-Tree

IQ-Tree строит дерево методом максимального правдоподобия и автоматически подбирает наилучшую модель замен.

iqtree -s cyb.phy

Из созданных программой файлов использовался cyb.phy.treefile — финальное дерево в формате Newick. Все три дерева визуализированы в сервисе iTOL и укоренены в ветвь, наиболее близкую к правильной (нефакт) аутгруппе согласно дереву видов.


Задание 5. Дерево видов

Дерево видов построено в предыдущей работе на основе таксономии NCBI. Давайте восхитимся им еще раз (нет). Скобочная запись (формат Newick):

((((PSAVE,HYSAF),(LEPYA,SYLPA)),((LEMCA,PONPY),TUPGL)),((SORCI,SORCO),(PIPKU,MYOMA)));

Корень дерева делит все виды на две крупные клады — Laurasiatheria: (SORCI, SORCO) и (PIPKU, MYOMA), то есть землеройки и рукокрылые; и Euarchontoglires: ((PSAVE, HYSAF), (LEPYA, SYLPA)) и ((LEMCA, PONPY), TUPGL) - грызуны, зайцеобразные, приматы и тупайи.

Дерево видов по таксономии NCBI
Рис. 1. Дерево видов 11 представителей класса Mammalia. Корень — между надотрядами Euarchontoglires и Laurasiatheria.

Задание 6. Сравнение дерева видов с деревом FastME (p-distance)

Ниже представлено сравнение дерева, полученного с помощью программы FastME и модели p-distance, с деревом, основанным на таксономии NCBI. Дерево укоренено в ветвь, объединяющую MYOMA, PIPKU, TUPGL, SORCI и SORCO — наиболее близкую к правильной аутгруппе из доступных в данной топологии.

Дерево видов
Дерево FastME p-distance
Рис. 2. Дерево видов (таксономия NCBI)
Рис. 3. FastME, модель p-distance

Видно, что ошибки реконструкции следующие:

  • Вид TUPGL стал сестринским к кладе (SORCI, SORCO), создав ошибочную кладу (TUPGL, (SORCI, SORCO)). По таксономии TUPGL (Tupaia glis, тупайя) относится к Euarchontoglires и должна быть сестринской к кладе приматов (PONPY, LEMCA).
  • Клада (PONPY, LEMCA) стала сестринской к кладе (LEPYA, SYLPA), хотя должна входить в кладу (TUPGL, (PONPY, LEMCA)), которая является сестринской к кладе ((HYSAF, PSAVE), (LEPYA, SYLPA)). Из-за «ухода» TUPGL приматы лишились своего ближайшего соседа по таксономии.
  • Из-за вида TUPGL нарушена структура двух глобальных клад, тех, что отходят от корня на дереве таксономии (эти две клады соответствуют Эуархонтоглирам и Лавразиатериям), т.е вклинилась в "лауразиатерийную" группу, разрушив обе клады одновременно.

Клады, восстановленные верно: (SORCI, SORCO), (MYOMA, PIPKU), (PONPY, LEMCA), (LEPYA, SYLPA) — все пары близкородственных видов реконструированы правильно. Ошибки касаются только более глубоких ветвлений.


Задание 7. Сравнение дерева видов с деревом FastME (MtREV)

Далее приведено сравнение дерева, построенного той же программой FastME, но уже с моделью MtREV, с тем же таксономическим деревом. Дерево укоренено в ветвь, объединяющую TUPGL, SORCI, SORCO, HYSAF, MYOMA и PIPKU.

Дерево видов
Дерево FastME MtREV
Рис. 2. Дерево видов (таксономия NCBI)
Рис. 4. FastME, модель MtREV

Ошибки реконструкции здесь следующие:

  • Образовалась ошибочная клада (TUPGL, (SORCI, SORCO)). Как и в предыдущем случае, TUPGL оказалась среди лауразиатерийных видов вместо правильного положения рядом с приматами.
  • Образовалась ошибочная клада (HYSAF, (MYOMA, PIPKU)). Вид HYSAF (Hystrix africaeaustralis, дикобраз) относится к Rodentia в составе Euarchontoglires и должен образовывать кладу с PSAVE, однако объединился с рукокрылыми (Chiroptera, Laurasiatheria).
  • Вид PSAVE стал сестринским к кладе приматов (PONPY, LEMCA), хотя должен входить в кладу (PSAVE, HYSAF), которая ближе к кладе (LEPYA, SYLPA). Из-за «ухода» HYSAF к рукокрылым PSAVE остался без своего таксономического партнёра.
  • Из-за двух видов HYSAF и TUPGL вновь нарушена структура двух глобальных клад. Ни Laurasiatheria, ни Euarchontoglires не восстановлены в правильном составе.

Клады, восстановленные верно: те же четыре пары — (SORCI, SORCO), (MYOMA, PIPKU), (PONPY, LEMCA), (LEPYA, SYLPA). Модель MtREV, несмотря на бо́льшую биологическую реалистичность, не исправила ошибку с TUPGL и добавила новую с HYSAF.


Задание 8. Сравнение дерева видов с деревом IQ-Tree

Наконец, сравнивается дерево, построенное программой IQ-Tree, с таксономическим деревом. Дерево укоренено в ветвь, объединяющую PSAVE, TUPGL, SORCI, SORCO, MYOMA и PIPKU.

Дерево видов
Дерево IQ-Tree
Рис. 2. Дерево видов (таксономия NCBI)
Рис. 5. IQ-Tree, Maximum Likelihood

Ошибки реконструкции следующие:

  • Образовалась ложная клада (PSAVE, TUPGL), которая стала сестринской к кладе (SORCI, SORCO), хотя оба этих вида должны быть в другой глобальной кладе — Euarchontoglires. TUPGL должна быть сестринской к приматам, а PSAVE — образовывать кладу с HYSAF.
  • Вид HYSAF стал сестринским к кладе (PONPY, LEMCA), хотя вместе с видом PSAVE должен образовывать кладу, сестринскую к кладе (LEPYA, SYLPA). Поскольку PSAVE «ушёл» к TUPGL, HYSAF остался без партнёра и оказался рядом с приматами.
  • Вновь глобальное нарушение двух клад, на этот раз из-за видов TUPGL и PSAVE. Оба вида покинули Euarchontoglires и оказались рядом с Laurasiatheria, разрушив структуру обеих глобальных клад, отходящих от корня.

Клады, восстановленные верно: (SORCI, SORCO), (MYOMA, PIPKU), (PONPY, LEMCA), (LEPYA, SYLPA). Метод максимального правдоподобия не справился с правильным размещением TUPGL и PSAVE лучше, чем дистанционные методы.


Задание 9. Итоговое сравнение методов

Все три метода реконструкции одинаково успешно восстановили клады на уровне близкородственных пар видов: (SORCI, SORCO), (MYOMA, PIPKU), (PONPY, LEMCA) и (LEPYA, SYLPA). Однако ни один метод не смог верно разрешить положение TUPGL, HYSAF и PSAVE — видов, у которых цитохром B эволюционировал с нетипичной скоростью. Это классический пример эффекта притяжения длинных ветвей (long branch attraction): алгоритмы группируют быстро эволюционирующие виды вместе независимо от их истинного таксономического положения, что приводит к нарушению обеих глобальных клад — Euarchontoglires и Laurasiatheria.

Если сравнивать методы между собой, то FastME с моделью p-distance допустил наименьшее число ошибок — не на своём месте оказалась только TUPGL. FastME с моделью MtREV добавил ещё одну ошибку — неверное положение HYSAF, что неожиданно, поскольку MtREV теоретически более реалистична для митохондриальных белков. IQ-Tree, несмотря на использование метода максимального правдоподобия, также допустил две ошибки — неверное положение TUPGL и PSAVE. Таким образом, в данном конкретном случае ни один из более сложных методов не превзошёл простую p-distance. Вероятно, проблема не в выборе метода, а в самом маркере: один ген цитохрома B содержит недостаточно филогенетического сигнала для надёжного разрешения глубоких ветвлений при данном наборе таксонов. Для получения более точного результата вероятно стоит использовать несколько независимых генов или полные митохондриальные геномы.