Я выбрал бактерии: AROAE, BARHE, HAEIN, RHIME, SERP5, SHEDO, YERPE. На основании последовательности белка
CLPX_ECOLI осуществил поиск гомологов этого белка среди выбранных мною бактерий.
Рисунок 1. Филогенетическое дерево 15 бактерий отдела Pseudomonata.
Сначала все протеомы были объединены в один файл, затем создана белковая локальная база данных, а затем поиск
гомологов по этой базе для CLPX_ECOLI. Файл с выдачей списка находок тут.
Итоговый fasta с короткими мнемониками и последовательностями найденных гомологов тут.
Формула Newick тут
Рисунок 2. Филогенетическое дерево, построенное по белкам - гомологам CLPX_ECOLI
при помощи программы IQTree, использующей алгоритм максимального
правдоподобия, реплик бутстреп - 1000.
Если считать это дерево реконструированным верно, то примеры пары ортологов можно назвать следующие: HSLU-RHIME и HSLU SHEDO,
HSLU-HAEIN и HSLU-YERPE, CLPX-AROAE и CPLX-SERP5. Если считать все белки гомологами, то парой паралогов будет любая пара белков,
относящаяся к одному организму: HSLU-BARHE и CLPX-BARHE, CLPX-YERPE и HSLU-YERPE и т.д.
Затем дерево было укоренено в среднюю точку(A0A5P8YB42 YERPE) и покрашено в цвета по наборам попарно ортологичных белков.
Рисунок 3. Филогенетическое дерево, построенное по белкам - гомологам CLPX_ECOLI
при помощи программы IQTree, использующей алгоритм максимального
правдоподобия, реплик бутстреп - 1000, укоренено в среднюю точку. Выделение цветами: желтым - ATP-зависимые цинковые
металлопротеазы FtsH,
красным - ATP-азные субъединицы HslU ATP-зависимой протеазы, зелёным -
ATP-связывающие субъединицы ATP-зависимой Clp протеазы.
По общему виду дерева видно, что последовательности распадаются на несколько хорошо различимых клад. FtsH-группа отделена от
остальных ветвей наиболее глубоко,
что согласуется с тем, что это отдельное семейство ATP-зависимых мембранных металлопротеаз.П ри этом две последовательности —
Q92M98_RHIME и A0A0H3LXZ4_BARHE — не попадают в
основную ортологическую группу FtsH и выглядят как более удалённые, отдельные гомологи.
Красная группа, соответствующая HslU, образует кладу и включает представителей всех рассматриваемых организмов.
Аналогично, зелёная группа
ClpX также формирует отдельную ортологическую кладу. Таким образом, на уровне семейства дерево разделяет три
основные линии: FtsH, HslU и ClpX.
Рисунок 4. Дерево гомологов CLPX_ECOLI со схлопнутыми ортологическими группами. Во всех схлопнутых группах располагаются все
те же белки, что были ранее указаны в кладах с соответствующим цветом, из все тех же бактерий.
На рисунке 4 показано то же дерево после схлопывания ортологических групп.
Одиночные или слабо представленные
последовательности оставлены как отдельные ветви.
Реконструированная филогения белков лишь частично соответствует филогении бактерий. Наиболее хорошо согласование
наблюдается для ортологической группы HslU: в ней корректно выделяется клада энтеробактерий, а также объединяются
представители α-протеобактерий. Для группы ClpX соответствие
хуже: часть последовательностей группируется не в полном соответствии с таксономией. Для FtsH филогенетический сигнал ещё
менее надёжен, поскольку эта группа представлена
меньшим числом последовательностей и содержит отдельные ветви, не входящие в основную кладу.
С точки зрения сравнения с филогенией бактерий, наиболее информативны две большие группы — HslU и ClpX. В обеих
ортологических группах дерево в целом воспроизводит ожидаемое объединение близких таксонов: особенно хорошо видна кладу
энтеробактерий, куда входят ECOLI, SERP5 и YERPE. Это говорит о том, что для этих белков сигнал вертикального наследования
выражен достаточно чётко.
В группе FtsH присутствуют только 3
представителя, поэтому делать столь же уверенные выводы о внутренней топологии, как для HslU и ClpX, уже нельзя.
Тем не менее сама по себе отдельная кластеризация FtsH-последовательностей подтверждает, что это действительно
самостоятельная ортологическая группа, отличная от двух других семейств.
Помимо трёх основных ортологических групп, на дереве присутствуют последовательности, не входящие ни в одну из них.
Наиболее заметны A0A5P8YB42_YERPE и A8GCD8_SERP5, которые занимают промежуточное положение рядом с крупными
кладами, но не включаются в них монофилетически. Такие последовательности, вероятно, представляют собой более удалённые
гомологи, паралоги или частично аннотированные белки.