Эволюционные домены(части 1 и 2)

9 Практикум

1 - Выбор домена и архитектур

Домен
AC - PF02171
ID - Piwi
Белки, содержащие домен Piwi (P-element induced wimpy proteins) это регуляторные белки, ответственные за осуществление неполной дифференциации стволовых клеток и стабильности скорости деления клеток зародышевого пути.
ссылка на страницу домена
Архитектуры
В PFam домен содержат 30 архитектур, 2067 последовательностей
ссылка на страницу со списком архитектур
Часто в архитектурах домен Piwi встречается с доменом PAZ
Выравнивание
В JalView было получено выравнивание всех белков, содержащих домен, также на PDB была найдена структура белка с PDB ID: 1W9H белка PIWI_ARCFU, которую я связал с выравниванием

2 - Архитектуры, включающие домен

Я выбрал две простые, но распространенные архитектуры.
1 - включающая только домен Piwi, такую архитектуру имеют 543 последовательности
Piwi architecture
2 - включающая домены Paz и Piwi, такую архитектуру имеют 532 последовательности
Paz, Piwi architecture
Домен PAZ(Piwi Argonaut and Zwille) найден в белках с доменами семейств Piwi и Dicer, функция неизвестна, но, возможно, он помогает гетеродимеризоваться белкам с указанными доменами.
сводная таблица
С помощью скрипта swisspfam-to-xls.py была получена таблица, результаты которой (айдишники белков) были использованы для получения последовательностей для работы скрипта uniprot-to-taxonomy.py В результате я получил сводную таблицу с информацией о белках, содержащих домен Piwi.

Выбор таксона

В качестве исследуемого таксона я выбрал всех живых организмов, а субтаксоны - соответственно - Bacteria, Archaea и Eucaryota

Выбор белков

Во втором листе таблицы, упоминавшейся выше, я отобрал по 20 представителей 2х выбранных мной доменных архитектур,(позже я удалил "нехорошие" белки в каждом выравнивании, так что представителей оказалось по 19)

Выравнивание архитектур

С помощью еще одного скрипта я взял из выравнивания всех доменов Piwi, выбранные мной, удалил пару совсем невыровненных последовательностей, обрезал N и С концы, из которых "торчало" по одной-две последовательности, убрал пустые колонки, сгруппировал и раскрасил оставшиеся белки.
проект JalView

10 практикум

Построение филогенетического древа

Названия всех доменов белков были отредактированы и имеют вид X_Y_ZZZZZZ, где
X это порядковый номер доменной архитектуры, принимает значения 1 -для архитектуры, содержащей только домен Piwi, и 2 для архитектуры, содержащей домены PAZ и Piwi
Y это обозначение таксона, принимает значения E для эукариот, A для архей и B для бактерий
ZZZZZZ это ID белка без указания организма.
В программе MEGA методом minimal-evolution(далее ME) было построено дерево, к которому был применен бутстреп анализ 100 деревьев. Такое же дерево было построено методом maximal likelihood(далее ML).
treeME+ML
скобочная формула ME скобочная формула ML

Деревья получились откровенно плохими, что видно по результатам бутстрепа. Все клады около корня получили плохую оценку, некоторые не дотягивают даже до 10. в одной и той же кладе встречаются домены из разных архитектур или таксонов, и только небольшие клады (не более 7 листьев) получили оценку выше 50. Метод neighbor-joiningдал такое же дерево, как и ME, так что его для сравнения я использовать не буду. Обращать внимание я буду только на клады, получившие более чем 40% поддержку с помощью бутстрепа, поскольку, как я сказал, прикорневые ноды, имеющие малую поддержку реконструированы из рук вон плохо. Это можно объяснить плохим выравниванием, тем, что я безграмотно "подправил" выравнивания или тем, что уже у луки было несколько белков с доменной архитектурой 1.(архитектура 2 обнаружилась только у эукариот) Я буду исходить из последнего предположения, просто, потому что первые два не могут стать почвой ни для каких гипотез. Итак, посмотрим на хорошие клады. Довольно уверенно найдена клада для 7 бактериальных белков.
treeME1
построена методом ME
treeML1
построена методом ML
Можно сказать, что эта бактериальная клада хорошо находится обоими методами с почти идентичной топологией ветвей. Также она довольно хорошо обособлена от других клад в реконструкции ME, но в реконструкции ML от нее отхтодит клада с архейскими и другими бактериальными белками, так что возможно, хотя это и трудно сказать, эти белки имели непосредственного предшественника в геноме луки. Для лучшего понимания, конечно, нужно построить дерево существенно большего размера.

Также хорошо обособлена клада с тремя архейскими и двумя бактериальными белками.
treeME2
построена методом ME
treeML2
построена методом ML
Возможно, наряду с первой рассмотренной группой эта группа имела своего предшественника у луки, поскольку "отпочковывание" бактериальной клады от архей вполне убедительно.
"плохой" 1_A_ B6YTQ5
Этот архейский (я во избежание ошибок проверил его по юнипроту) белок стоит особняком, а в реконструкции ML он и вовсе в самой гуще эукариотических белков со второй архитектурой(но с ужасной поддержкой бутстрепом), взглянув на описание в юнипроте я понял, что этот белок плохо аннотирован и не изучен(ни функция неизвестна, ни статей нет), так что можно было бы предположить, что он аннотирован, как архейский из-за ошибок при секвенировании(загрязнении образца), однако бласт показал, что его ближайшие гомологи тоже принадлежат археям, что сильно затрудняет причину построения такого дерева. Я, если честно, не знаю, возможен ли в каком либо виде горизонтальный перенос генов между археями и эукариотами, но, если он возможен, то эту аномалию я бы объяснил именно так, в противном случае видно, что в дереве ME(но не ML) он вместе с 1_B_A8YDH3 образует кладу(очень неуверенную и плохо поддержанную бутстрепом), что, если подробнее изучить, может привести к тому, что у луки был еще один белок с такой архитектурой, однако, вероятно, это просто плохое выравнивание, плохая "обрезка" мной выравнивания и несовершенство методов реконструкции филогении.
Эукариоты
По большей части эукаротические домены выделяются в отдельную большую кладу, в которой перемешаны белки с 1 и 2 архитектурами, так что, учитывая печальные результаты бутстрепа, можно сказать, что сказать ничего нельзя. Даже то, сколько раз домены PAZ и Piwi объединялись.

Итог

Вероятнее всего эволюция доменных архитектур происходила таким образом: У луки было 2 белка, содержащих домен Piwi, один из которых закрепился только в бактериях, второй - и в бактериях и в археях, и один из них дал начало эукариотической кладе белков с данным доменом, где к нему добавлялся(однократно или многократно) домен PAZ