Практикум 4. Визуализация деревьев

Составление списка гомологичных белков

Для поиска гомологов CLPX_ECOLI в наших бактериях был использован белковый BLAST протеомов с помощью программы blastp:

makeblastdb -dbtype prot -in proteomes.fasta

blastp -query clpx.fasta -evalue 0.001 -outfmt 7 -db proteomes.fasta 1>> out.txt

Получили следующую таблицу гомологов: out.txt

Всего было найдено 20 последовательностей белков со следующими функциями:

Q1AU05_RUBXD ATPase AAA-2
Q82QV8_STRAW AAA family ATPase
CLPX_MYCTU ATP-dependent Clp protease ATP-binding subunit ClpX
Q82EE9_STRAW ATP-dependent zinc metalloprotease FtsH
A1TG43_MYCVP ATP-dependent zinc metalloprotease FtsH
A1TG29_MYCVP ATPase AAA-2 domain protein
CLPX_MYCLE ATP-dependent Clp protease ATP-binding subunit ClpX
CLPX_MYCVP ATP-dependent Clp protease ATP-binding subunit ClpX
Q1AVT0_RUBXD ATP-dependent Clp protease ATP-binding subunit ClpX
Q47MU4_THEFY ATP-dependent Clp protease ATP-binding subunit ClpX
Q1AY82_RUBXD ATPase AAA-2
CLPX_NOCSJ ATP-dependent Clp protease ATP-binding subunit ClpX
Q47MZ2_THEFY ATPase
Q0S6Y7_RHOJR Chaperone protein ClpB
A1SDV1_NOCSJ ATP-dependent zinc metalloprotease FtsH
CLPX_STRAW ATP-dependent Clp protease ATP-binding subunit ClpX
Q47KU4_THEFY ATP-dependent zinc metalloprotease FtsH
Q0S8C7_RHOJR ATP-binding subunit of ATP-dependent Clp protease
CLPX_RHOJR ATP-dependent Clp protease ATP-binding subunit ClpX
Q82EB8_STRAW ATP-dependent Clp protease

Реконструкция и визуализация

Был получен объединенный fasta файл со всеми последовательностями полученных белков. Его можно посмотреть здесь.

С помощью программы FastMe по этим последовательностям было построено дерево со следующими параметрами:

Gamma distributed rates across sites — No

Starting tree — BIONJ

No refinement

100 бутстреп реплик

Само дерево в Newick формате можно посмотреть здесь.

После переукоренения в среднюю точку, по результатам построения был обнаружен ряд ортологов:

Q82EE9_STRAW, A1SDV1_NOCSJ - на дереве ветка отмечена красным

Q47MU4_THEFY, CLPX_STRAW - желтая ветка

CLPX_MYCTU, CLPX_MYCLE - желтая ветка

А также ряд паралогов, таких как:

Q82QV8_STRAW, Q82EE9_STRAW

A1TG43_MYCVP, A1TG29_MYCVP

CLPX_RHOJR, Q0S8C7_RHOJR

Дерево было построено в двух вариациях: с окрашеными группами ортологов (Рис. 1) и со скрытыми группами (Рис. 2):

Рисунок 1: Дерево с выделенными цветом группами ортологов
Рисунок 2: Дерево со скрытыми группами ортологов

Деление на клады производилось на основе функций белков: красная клада представлена АТФ-зависимыми металлопротеазами (ATP-dependent zinc metalloprotease FtsH), а желтая - субъединицей АТФ-зависимой протеазы Clp (ATP-dependent Clp protease ATP-binding subunit ClpX).

Если сравнить с эталонным деревом из первого практикума, можно заметить, что выделенные группы согласуются с филогенией, а остальные узлы - практически нет. Так, например, организмы RUBXD и RHOJR находятся далеко друг от друга эволюционно, но их белки на нашем дереве определились как близкородственные, при чем бутстреп поддержка составляет 100 реплик из 100. В противовес достоверно близкие организмы THEFY и STRAW оказываются на дереве довольно далеко друг от друга.

Красную кладу составляют белки цинковых пальцев. Эта ветвь не в полной мере отражает филогению: вместо (NOCSJ,(THEFY,STRAW)); мы получили (THEFY,(NOCSJ,STRAW));.Хотя поддержка у ветви (NOCSJ,STRAW) довольно высокая.

Желтая клада напротив, в некоторых узлах имеет низкую поддержку, но согласуется с филогенией.

Можно заметить также, что группа белков, относящихся к семейству ААА атфаз, группируется на средней (не отмеченной цветом) ветке. Но поскольку группа не обособляется от других белков (например, ААА атфаза Q1AY82_RUBXD находится на одной ветке с шапероном ClpB - Q0S6Y7_RHOJR), выделять ее в отдельную кладу я не стала.