Деревья гомологичных белков

Составление списка гомологичных белков

Я взял протеомы выбранных мной бактерий, создал для каждой из них базу данных blast и выполнил в них поиск последовательностей, гомологичных белку CLPX_ECOLI (порог E-value 0.001, формат выдачи- табулированная таблица). Файл выдачи бласта со всеми найденными белками вы можете скачать по ссылке.

Реконструкция и визуализация

Последовательности всех хитов я записал в один фаста файл и загрузил на сайт ngphylogeny.fr для проведения филогенетического анализа. Там, используя программу FastME я построил дерево (Рис.1), его в формате Newick вы можете скачать по ссылке.

Рис. 1. Дерево белковых последовательностей, укорененное в мидпоинт.

Найдем на дереве ортологи и паралоги, 3 пары ортологов: CLPX YERPE-CLPX SHEDO, CLPX HAEIN-CLPX POLAQ, RUVB PARDP-RUVB AGRFC. Три пары паралогов (т.к. мы считаем, что выдача наша выдача бласта является достаточным основанием для определения гомологии, то все представленные белки из одной бактерии будут паралогами): A5FYF6 ACICJ-A5FVF9 ACICJ, A5G1K5 ACICJ-CLPX ACICJ, RUVB PARDP-HSLU PARDP.

Рассмотрим ортологические группы, представленные на первом дереве. Красный цвет соответствует CLPX белкам разных бактерий, зеленый соответствует HSLU белкам разных бактерий, фиолетовый соответствует FTSH (только один из белков этой группы имеет нормальное название, поэтому всю группу будем называть его именем) белкам разных бактерий (группы с менее чем 4 белками тут не перечислены).

В группе, обозначенной синим цветом, все интереснее. Назовем ее CLPB. Согласно нашему определению ортологичных белков (белки называются ортологами, если они: а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования) мы не можем в эту группу включить белки A1AY35 PARDP и A1B8N4 PARDP, т.к. A1AY35 PARDP и A1B8N4 PARDP не являются сестринскими группами и для них и любого белка из группы CLPB не выполняется условие ортологичности б). По моему мнению, скорее всего A1B8N4 PARDP входит в группу CLPB, а A1AY35 PARDP возник у PARDP горизонтальным переносом, но пока мы это подтвердить не можем, поэтому группу CLPB оставим в том виде, в котором она выделена на дереве.

Рис. 2. Дерево белковых последовательностей со схлопнутыми ортологическими группами.

Пройдемся подробнее по ортологическим группам:

  1. CLPX, красный цвет, по одному белку из каждой из 7 бактерий. Топология этой группы не совсем соответствует истинному дереву бактерий, HAEIN и SHEDO должны быть помяняны местами, ровно как и ACICJ и PARDP.
  2. HSLU, зеленый цвет, по одному белку из каждой из 7 бактерий кроме POLAQ. Отличия в топологии ровно такие же, как и внутри группы CLPX
  3. FTSH, фиолетовый цвет по одному белку из каждой из 7 бактерий. Топология этой группы полностью совпадает с истинным деревом бактерий (ура)
  4. CLPB, синий цвет, по одному белку из каждой из 7 бактерий кроме PARDP и AGRFC (хоть PARDP и есть внутри этой клады, мы не включаем его в CLPB- обсудили ранее). Топология этой группы также отличается от истинного дерева- HAEIN здесь самая базальная, а должна быть сестринской к YERPE