Эволюция белковых доменов




Цель работы

Построение эволюционной модели формирования доменной архитектуры белков, содержащих домен Pentapeptide.

Домен

Для анализа был выбран домен PF00805, характерный для пентапептидных белков.
Этот домен черезвычайно широко распространен,- по данным Pfam описано 11082 последовательности домена, относящиеся к 1513 видам.
Функции пентапептидных доменов до конца не выяснены, однако считается, что многие белки, их содержащие, структурно мимикрируют под ДНК.
Домен входит в 346 архитектур.

Из 346 возможных архитектур для работы были выбраны 2:

Что интересно, домен Pentapeptide_4 всего на 1 пятиаминокислотный повтор длиннее чем интересующий нас домен (9 повторов против 8).

Выборка

Для создания репрезентативной выборки последовательностей содержащих домен Pentapeptide, из всех последовательностей Uniprot были отобраны только содержащие последовательность домена (Input, лист1).
На основе данного списка была создана сводная таблица (Сводная таблица, лист3), в которой для каждой последовательности из Uniprot приведена ее доменная архитектура.
Для всех последовательностей была получена таксономия организмов, их содержащих (Taxonomy, лист 2).
Далее, из сводной таблицы были удалены все домены, не входящие в интересующие нас архитектуры (Results, лист4).
По этой таблице была создана выборка (Выборка, лист5), охватывающая эукариот и бактерий.

Архитектура Число последовательностей Bacteria Archaea Eukaryota
Firmicutes Actinobacteria Proteobacteria Cyanobacteria Euryarchaeota Thaumarchaeota Viridiplanta Metazoa Amoebozoa
2P 30 5 5 4 4 3 2 6 1 0
P+P 24 4 5 4 4 0 0 5 1 1
Всего 54 9 10 8 8 3 2 11 2 1

Таблица 1. Характеристики выборки. 2P - архитектура Pentapeptide х 2, P+P - архитектура Pentapeptide_4, Pentapeptide

Анализ данных

Для всех последовательностей из общей таблицы Results, лист4, было получено множественное выравнивание доменов PF00805.
Для одной из последовательностей приведена доступная структура домена. Выравнивание раскрашено по матрице BLOSUM62 с порогом консервативности 20%.

Далее, из исходного множественного выравнивания были отобраны только последовательности из созданной выборки. Названия последовательностей закодированы следующим образом:
X_Y_Z_VVVVVV_SSSSS_A
где В результате было получено итоговое выравнивание. Первой строкой добавлено дополнительная последовательность с известной структурой. Выравнивание раскрашено по матрице BLOSUM62 с порогом консервативности 30%.

Филогенетическое дерево

Для построения дерева использовалась программа MEGA 6.06, метод - Maximum Likelihood.
Для проверки качества ветвей использовался bootstrap-анализ с количеством итераций -25. Такое небольшое значение связано с малой длиной домена - 35-40 аминокислот.

Пробное дерево показало малую надежность дерева - много ветвей имеет поддержку менее 10. В результате было построено несколько деревьев: Синим цветом выделен лист архитектуры P+P. Зеленым - листья доменов из архитектуры 2P Viridiplanta. Красно-оранжевым - достоверные листья Actinobacteria и Firmicutes.

Скобочные формулы деревьев могут быть получены по ссылкам: Не смотря на сомнительность построений можно попытаться выявить некоторые закономерности (Выводы):
  1. Если не обращать внимание на несколько выбросов, на всех деревьях архитектуры 2P и Р+Р образуют 2 сестринские ветви (синим цветом на рисунках выделена ветвь P+P). Это говорит в пользу гипотезы, согласно которой обе структуры уже существовали у LUCA и обе присутствуют у всех доменов современных живых организмов
  2. На всех деревьях наибольшую поддержку (больше 30) имеют листья: Из этого можно сделать вывод об относительной молодости этих эволюционных событий.
  3. Домены архитектуры 2Р не группируются попарно для каждого организма, и могут быть разнесены очень далеко для одного организма. Это также подтверждает очень раннее формирование такой структуры. Либо малую консервативность и высокую скорость эволюции структуры. К сожалению не представляется возможностью сгруппировать домены в группы. Возможно, часто происходили транслокации и рекомбинации (поскольку структуры регулярные).
  4. На деревьях 1 и 3 либо оба листа Viridiplanta с архитектурой 2P, либо один из них входят в кладу P+P. Можно предположить, что приобретение архитектуры 2Р у растение происходило вторично из архитектуры P+P. Самый простой вариант - потеря 9го повтора у домена Pentapeptide_4.
  5. Многочисленные выбросы и малая поддержка ветвей может быть объяснена несколькими факторами:
  6. В поддержку адекватности дерева следует добавить, что положение аутгруппы (Cyanothece из Cyanobacteria) более или менее согласуется с данными систематики - на деревьях она группируется вместе с доменом из P+P представителей Viridiplanta.

© 2014; Sutormin Dmitry