Эволюционные домены
Выбор домена, архитектур и таксонов, их краткое описание
Для исследования был выбран домен MMR_HSR1, он встречается в ГТФазах, в том числе таких древних, как Obg и MnmE. В таблице ниже указана некоторая информация о нём:AC | ID | Функция домена | Число разных доменных архитектур с этим доменом | Число последовательностей | Число видов |
PF01926 | MMR_HSR1 | 50S ribosome-binding GTPase | 181 | 46032 | 5181 |
Выбор архитектур
С использованием скрипта swisspfam-to-xls.py и файла swisspfam.gz, содержащего информацию об архитектуре всех последовательностей UniProt, была получена таблица с информацией об архитектуре последовательностей, содержащих домен . Команда:python swisspfam-to-xls.py -p PF01926 -i swisspfam.gz -z -o swisspfam-to-xls-out.txtНа её основе в Excel была составлена сводная таблица, которая содержит AC записей, домены Pfam и таксономическую принадлежность белков. Для получения таблицы использовали команду: Для дальнейшего изучения эволюции доменных архитектур, содержащих домен MMR_HSR1, были выбраны следующие архитектуры:
Домены | Изображение | Число представителей | Характеристика других доменов |
MMR_HSR1 YchF-GTPase_C (PF06071) |
4737 | YchF-GTPase_C: Домен, обнаруживающийся на C-конце ГТФазы YchF. Функция неизвестна, однако, возможно, домен важен для функционирования рибосом или для передачи сигнала от рибосомы на участвующие в его передаче мишени. | |
MMR_HSR1 HR_2 (PF07650) |
4214 | HR_2: РНК-связывающий домен, также может связываться с одноцепочечной ДНК. |
Для изучения указанных выше архитектур в качестве таксона были выбраны все клеточные организмы с подтаксонами Eukaryota и Bacteria. Из них были выбраны последовательности, содержащие одну из архитектур; использовались только белки из определённых до вида организмов (мнемоника не начинается с цифры 9), последовательности отбирались из разных подгрупп каждого подтаксона (не более одной из каждого филума бактерий). Лист "VYBORKA" в таблице содержит идентификаторы выбранных поседовательностей с указанием архитектуры и подтаксонов.
Для архитектуры MMR_HSR1+YchF-GTPase_C было выбрано 23 последовательностей из Bacteria и 14 последовательностей из Eukaryota. Для второй архитектуры - MMR_HSR1 + HR_2 - было выбрано 20 последовательностей из Bacteria и 10 последовательностей из Eukaryota. Чтобы оставить в выравнивании нужные последовательности из двух групп был использован скрипт filter_alignment.py, файл с последовательностями - curr.fasta.
Полученное выравнивание было загружено в JalView и отредактировано (удалены пустые колонки). В нём были выделены группы согласно архитектуре, в каждой из них была выполнена раскраска последовательностей с порогом на консервативность 30%. Так же были удалены N- и C-концевые участки, в которых выравнивание было явно плохим. На рисунке представлено полученное выравнивание:
Проект .jarЧасть 2
Для того, чтобы построить филогенетическое дерево, для удобства доменные архитектуры и подтаксоны были зашифрованы следующим образом:- Eukaryota - E
- Bacteria - B
- Архитектура MMR_HSR1+YchF-GTPase_C - Y
- MMR_HSR1 + HR_2 - H
- B_H - фиолетовый
- E_H - оранжевый
- B_Y - синий
- E_Y - красный
- Археи (А) - салатовый
Возможные пути эволюции архитектур домена
- Разделение архитектур на дереве происходит раньше, чем разделение таксонов, следовательно, хотя бы одна архитектура была представлены у общего предка бактерий и эукариот (См. пункт 2).
- Для архитектуры MMR_HSR1+YchF-GTPase_C разделение ветвей соотвестствуют видообразованию. Эта архитектура явно была у общего предка.
- Несколько эукариотных последовательностей (E_Y_B1X5F9_PAUCH, E_Y_B7G217_PHATC, E_Y_A9UXF4_MONBE) в бактериальной ветви MMR_HSR1+YchF-GTPase_C (синяя ветвь) могут быть получены путём переноса генов из митохондрий или хлоропластов. Заключение не поддерживается соседним бактериальным таксоном (не цианобактерия и не протеобактерии).
- Включение двух ветвей E_H может предполагать, что изначально архитектура имеет бактериальное происхождение, поэтому её не могло быть у общего предка бактерий и эукариот, она могла быть заимствована последними потом.
- Несколько бактериальных последовательностей со второй архитектурой (Y) у корня дерева (B_Y_B5YEN7_DICT6, B_Y_B5YKH5_THEYD, B_Y_D5EDD8_AMICL) могут говорить о том, что она эволюционно первична по отношению ко первой