Ортологичные и паралогичные белки

Для работы использованы гомологи АТФ-связывающей субъединицы протеазы Clp E.coli (fasta), принадлежащие бактериям, приведенным в таблице ниже.

Организм Мнемоника
Streptomyces avermitilis STRAW
Thermobifida fusca THEFY
Nocardioides sp. NOCSJ
Clavibacter michiganensis CLAMS
Bifidobacterium longum BIFLO
Mycobacterium tuberculosis MYCTU
Corynebacterium diphtheriae CORDI

Составление списка гомологов

Для выполнения задания была создана локальная база данных по выбранным бактериям с помощью набора комманд, с которыми можно ознакомиться по ссылке.
В результате поиска были получены следующие находки:

Blast hit Bit-score E-value
sp|Q820F8|CLPX_STRAW ATP-dependent Clp protease ATP-binding sub... 535 0.0
sp|A1SME0|CLPX_NOCSJ ATP-dependent Clp protease ATP-binding sub... 528 0.0
sp|P9WPB9|CLPX_MYCTU ATP-dependent Clp protease ATP-binding sub... 519 0.0
sp|Q6NFU7|CLPX_CORDI ATP-dependent Clp protease ATP-binding sub... 518 0.0
tr|Q47MU4|Q47MU4_THEFY ATP-dependent Clp protease ATP-binding s... 516 0.0
sp|B0RAS4|CLPX_CLAMS ATP-dependent Clp protease ATP-binding sub... 491 1e-173
sp|Q8G5R1|CLPX_BIFLO ATP-dependent Clp protease ATP-binding sub... 432 9e-150
tr|Q8G871|Q8G871_BIFLO Protease OS=Bifidobacterium longum (stra... 51.2 7e-07
tr|Q6NFB1|Q6NFB1_CORDI ATP-dependent Clp protease ATP-binding s... 45.8 3e-05
tr|Q47MZ2|Q47MZ2_THEFY ATPase OS=Thermobifida fusca (strain YX)... 43.9 1e-04
sp|Q8G6B7|RUVB_BIFLO Holliday junction ATP-dependent DNA helica... 42.7 2e-04
tr|Q8G3S2|Q8G3S2_BIFLO ATP-dependent zinc metalloprotease FtsH ... 43.1 2e-04
tr|Q82QV8|Q82QV8_STRAW Putative AAA family ATPase OS=Streptomyc... 41.6 3e-04
tr|A1SDV1|A1SDV1_NOCSJ ATP-dependent zinc metalloprotease FtsH ... 42.0 4e-04
tr|Q47KU4|Q47KU4_THEFY ATP-dependent zinc metalloprotease FtsH ... 42.0 5e-04
tr|Q82EE9|Q82EE9_STRAW ATP-dependent zinc metalloprotease FtsH ... 41.6 5e-04
tr|Q82EB8|Q82EB8_STRAW Putative ATP-dependent Clp protease OS=S... 41.6 7e-04
sp|P9WQN3|FTSH_MYCTU ATP-dependent zinc metalloprotease FtsH OS... 41.2 7e-04
tr|B0RHW4|B0RHW4_CLAMS ATP-dependent zinc metalloprotease FtsH ... 41.2 8e-04

Сразу бросается в глаза, что находками с лучшим E-value являются АТФ-зависимые протеазы Clp. Все найденные белки обладают АТФазной активностью и, более того, 16/19 находок являются протеазами.

AC полученных находок были собраны в файл и с ними была запущена программа seqret по объединенным протеомам нужных бактерий. С выдачей можно ознакомиться по ссылке.
Полученные последовательности затем были выравнены алгоритмом muscle. Полученное множественное выравнивание доступно по ссылке.

Реконструкция филогении

Множественное выравнивание с отредактированными именами последовательностей было загружено в программу MEGAX и использовано для построения дерева методом Neighbor-joining. С результатом можно ознакомиться по картинке ниже.

Newick-формат данного дерева доступен по ссылке.

По данному дереву можно предсказать возможный путь гомологии выбранных белков:

На дереве четко выделяются 2 крупные ортологичные группы белков: FtsH и ClpX. В следующем изображении ортологи из этих групп объединены в одну кладу.

Ортологичная группа FtsH представлена АТФ-зависимой цинковой металлопротеазой FtsH, найденной у всех бактерий кроме CORDI. Данная клада соответствует исходной филогении бактерий, единственное отличие - ветвь (MYCTU, CORDI) отсутствует в данной реконструкции, так как белок FtsH у CORDI не был найден blast'ом (вероятно, он не гомологичен остальным).

Ортологичная группа ClpX представлена АТФ-связывающей субъединицей АТФ-зависимой протеазы Clp, найденной у всех бактерий, выбранных для работы. Данная клада значительно отличается от исходной филогении. Совпадает только ветвь (THEFY, STRAW), которая теперь оказывается ближе к новой кладе (MYCTU, CORDI).