Эволюционные домены

Выбор домена, архитектур и таксонов, их краткое описание

Для исследования был выбран домен MMR_HSR1, он встречается в ГТФазах, в том числе таких древних, как Obg и MnmE. В таблице ниже указана некоторая информация о нём:
AC ID Функция домена Число разных доменных архитектур с этим доменом Число последовательностей Число видов
PF01926 MMR_HSR1 50S ribosome-binding GTPase 181 46032 5181
Скачали выравнивание из Pfam, раскрасили по консервативности (порог 30%). Выравнивание: (.jar,.fasta)

Выбор архитектур

С использованием скрипта swisspfam-to-xls.py и файла swisspfam.gz, содержащего информацию об архитектуре всех последовательностей UniProt, была получена таблица с информацией об архитектуре последовательностей, содержащих домен . Команда:
	python swisspfam-to-xls.py -p PF01926 -i swisspfam.gz -z -o swisspfam-to-xls-out.txt
	
На её основе в Excel была составлена сводная таблица, которая содержит AC записей, домены Pfam и таксономическую принадлежность белков. Для получения таблицы использовали команду: Для дальнейшего изучения эволюции доменных архитектур, содержащих домен MMR_HSR1, были выбраны следующие архитектуры:
Домены Изображение Число представителей Характеристика других доменов
MMR_HSR1
YchF-GTPase_C (PF06071)
4737 YchF-GTPase_C: Домен, обнаруживающийся на C-конце ГТФазы YchF. Функция неизвестна, однако, возможно, домен важен для функционирования рибосом или для передачи сигнала от рибосомы на участвующие в его передаче мишени.
MMR_HSR1
HR_2 (PF07650)
4214 HR_2: РНК-связывающий домен, также может связываться с одноцепочечной ДНК.

Для изучения указанных выше архитектур в качестве таксона были выбраны все клеточные организмы с подтаксонами Eukaryota и Bacteria. Из них были выбраны последовательности, содержащие одну из архитектур; использовались только белки из определённых до вида организмов (мнемоника не начинается с цифры 9), последовательности отбирались из разных подгрупп каждого подтаксона (не более одной из каждого филума бактерий). Лист "VYBORKA" в таблице содержит идентификаторы выбранных поседовательностей с указанием архитектуры и подтаксонов.

Для архитектуры MMR_HSR1+YchF-GTPase_C было выбрано 23 последовательностей из Bacteria и 14 последовательностей из Eukaryota. Для второй архитектуры - MMR_HSR1 + HR_2 - было выбрано 20 последовательностей из Bacteria и 10 последовательностей из Eukaryota. Чтобы оставить в выравнивании нужные последовательности из двух групп был использован скрипт filter_alignment.py, файл с последовательностями - curr.fasta.

Полученное выравнивание было загружено в JalView и отредактировано (удалены пустые колонки). В нём были выделены группы согласно архитектуре, в каждой из них была выполнена раскраска последовательностей с порогом на консервативность 30%. Так же были удалены N- и C-концевые участки, в которых выравнивание было явно плохим. На рисунке представлено полученное выравнивание:

Проект .jar

Часть 2

Для того, чтобы построить филогенетическое дерево, для удобства доменные архитектуры и подтаксоны были зашифрованы следующим образом: Для построения дерева использовались последовательности из файла out_selected.fasta и метод Maximum-likelihood (не использует гипотезу о молекулярных часах и строит неукоренённое дерево) программы MEGA. Дерево было укоренено в ветвь, отделяющую две архейных последовательности из других архитектур. Был произведён бутстреп-анализ (до того некоторые ветви имели поддержку 0). Скобочная архитектура дерева - в файле tree.nwk. Для визуализации дерева была использована программа iTOL. Изображение, полученное с помощью программы iTOL, приведено ниже. Раскраска ветвей:

Скобочная формула

Возможные пути эволюции архитектур домена

  1. Разделение архитектур на дереве происходит раньше, чем разделение таксонов, следовательно, хотя бы одна архитектура была представлены у общего предка бактерий и эукариот (См. пункт 2).
  2. Для архитектуры MMR_HSR1+YchF-GTPase_C разделение ветвей соотвестствуют видообразованию. Эта архитектура явно была у общего предка.
  3. Несколько эукариотных последовательностей (E_Y_B1X5F9_PAUCH, E_Y_B7G217_PHATC, E_Y_A9UXF4_MONBE) в бактериальной ветви MMR_HSR1+YchF-GTPase_C (синяя ветвь) могут быть получены путём переноса генов из митохондрий или хлоропластов. Заключение не поддерживается соседним бактериальным таксоном (не цианобактерия и не протеобактерии).
  4. Включение двух ветвей E_H может предполагать, что изначально архитектура имеет бактериальное происхождение, поэтому её не могло быть у общего предка бактерий и эукариот, она могла быть заимствована последними потом.
  5. Несколько бактериальных последовательностей со второй архитектурой (Y) у корня дерева (B_Y_B5YEN7_DICT6, B_Y_B5YKH5_THEYD, B_Y_D5EDD8_AMICL) могут говорить о том, что она эволюционно первична по отношению ко первой
Все эти заключения не очень достоверны, т.к. крупные ветви имеют очень низкую поддержку