Практические аспекты реконструкции филогении
Петренко Павел
Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова
Составление списка гомологичных белков, включающих паралоги
Для этого практикума я выбрал следующие бактерии из отдела Pseudomonadota (в дальнейшем будут использоваться буквенные сокращения):
Из протеомов данных бактерий составили библиотеку, по которой затем с помощью blastp провели поиск гомологов белка CLPX_ECOL (ATP-dependent Clp protease ATP-binding subunit ClpX). Использовали следующие команды:
blastp -db all_db -query proteom.fasta -out results.txt -outfmt 7 -evalue 1e-4
Получили вот такой список находок: выдача BLAST. Важно отметить, что некоторые из выравниваний находятся на одних и тех же последовательностях.
Реконструкция и визуализация
Сначала полученные находки были скачаны в один fasta-файл, выровнены с помощью алгоритма muscle на кодомо и переведены в формат phylip-relaxed (см. практикум 2), после чего было построено дерево с помощью программы fastme:
Получили скобочную формулу в формате Newick: тык
Пары паралогов: Q7CT50_AGRFC и HSLU_AGRFC, A0A5P8YCE6_YERPE и A0A5P8YB42_YERPE, CLPX_THIDA и Q3SFW1_THIDA (гомологичные белки из одного организма).
Пары ортологов: CLPX_THIDA и CLPX_AROAE, HSLU_SHEDO и HSLU_RHIME, CLPX_SACD2 и CLPX_YERPE (гомологичные белки из разных организмов).
На рисунке 1а видно, что образовались клады: фиолетовая клада с АТФазными протеазами; одиночный АТФазный белок, не вошедший ни в одну кладу; красная клада с АТФазной субъединицей комплекса HslUV; синяя клада АТФ-зависимой разворачивающей субъединицы. При сравнении этих клад видно, что синяя клада CLPX полная, то есть содержит гомологичные белки всех выбранных организмов. Красная клада также очень хорошо выделяется с отсутствием гомолога HSLU у POLAQ, что может быть связано со вторичной утратой этого белка. Если считать, что приведённое в задании дерево содержит верную филогению, то синяя клада CLPX отображает почти верную филогению бактерий, единственная ошибка - THIDA и AROAE должны быть ближе, чем POLAQ и AROAE. В красной кладе же вся филогения соответствует истинной, за исключением отсутствия POLAQ.