Реконструкция эволюции доменной архитектуры
Построение выравнивания представителей домена Pfam белков с разной доменной архитектурой
Я выбрала домен HWE_HK (ID: HWE_HK; AC: PF07536) HWE гистидиновая киназа (HWE histidine kinase).
HWE домен обнаруживается в составе двухкомпонентной системы, состоящей из гистидиновой киназы и родственного регуляторного белка. Отличительная черта -- присутствие высококонсервативного остатка Гистидина в киназном домене.В выбранном семействе 1627 последоватальностей, которые принадлежат 377 видам. Домен входит в 228 архитектур (ссылка). Для 4 последовательностей имеется 3D структура.
Для дальнейшей работы я выбрала 2 архитектуры. Информация о них представлена в таблице 1.
Таблица 1. Информация о выбранных доменных архитектурах
Домены, входящие в архитектуру | Число последовательностей | Изображение доменной архитектуры |
---|---|---|
HWE_HK | 269 | |
PAS_4, HWE_HK | 113 |
A Per-Arnt-Sim (PAS) domain ( PAS_4 )-- это белковый домен, обнаруживаемый во всех царствах. PAS играет роль молекулярной "липучки". Этот мотив вовлечен в белок-белковые взаимодействия и взаимодействие белков с малыми молекулами. Также это типичный мотив сигнальных белков,в которых функционирует в качестве сенсора.
С помощью Jalview построили выравнивание доменных участков всех белков, содержащих домен HWE_HK (окраска ClustalX порог консервативности 30%).
Также была добавили 3D структура одного домена. Для этого последовательность LOVHK_BRUA2 была связана с PDB ID 5EPV.
Соответствие между Uniprot ID и PDB кодами можно было наити в разделе Structures.
Ссылка на Jalview-проект: pr11_pfam.jvp .
Для получения информации об архитектуре всех последовательностей, содеражщих выбранный домен, был использован скрипт
swisspfam-to-xls.py, который преобразует информацию о доменах в последовательности из файла swisspfam в таблицу для Excel.
python swisspfam-to-xls.py -z /srv/databases/pfam/swisspfam.gz -p PF07536 -o PF07536.xls
В результате получили таблицу PF07536.xls
Добавили в таблицу таксономию при помощи VLOOKUP (ВПР).
Сама таксономия была получена при помощи скрипта. Для этого была создана таблица с информацией о таксономии из Uniprot:
python uniprot-to-taxonomy.py -i uniprot.txt -o taxonomy.xls
Получили файл taxonomy.xls
Для дальнейшей работы выбрали таксон: Класс Alphaproteobacteria и подтаксоны: порядки Rhizobiales и Rhodobacterales.
python filter-alignment.py -i align_pr11.mfa -m ids -o my_align.fasta -a "/"
Итоговая таблица:
table.xlsx
Построение филогенетического дерева домена
Bспользуя полученное выше выравнивание постороили филогенетическое дерево методом Neighbor-Joining. Для удобства ввели обозначения -- расшифровка в таблице 2.
Таблица 2. Используемые обозначения:
Обозначение |
Расшифровка | |
---|---|---|
Подтаксон | Доменная архитектура | |
H_rhiz | Rhizobiales | HWE_HK |
P_rhiz | Rhizobiales | PAS_4 &HWE_HK |
H_rho | Rhodobacterales | HWE_HK |
P_rho | Rhodobacterales | PAS_4 & HWE_HK |
Скобочная формула дерева tree.txt
Рис. 1. Дерево, построенное методом Neighbor-Joining в программе MEGA
Рис. 2. Дерево, раскрашеное с помощью ITOL
Дерево получилось довольно странным, некоторые последовательности выбиваются из клад. В целом нет групировки клад по таксонам или по типам архитектуры, только на отдельных ветвях.
Рис. 3. Ветвь дерева, ветвление в соответствии с таксономией.
Рис. 4. Ветвь дерева, ветвление в соответствии типам архитектур
Возможно, выбор таксонов для работы оказался неудачным -- я выбрала системетические группы класс и порядки.