Для последующего анализа был выбран домен ATP_bind_4 (PF01902) . Он был найден через список архитектур моего белка с 1го курса. Немного про тот белок (кое-что поменялось):
YABJ_BACSU, нынешний RIDA_BACSU [P37552]
Судя по uniprot, его сейчас активно изучают и наконец установили функцию. Она, кстати, отличается от предсказанной. Теперь его назвали енамин/имин деаминазой.
RIDA_BACSU катализирует реакцию Iminobutyrate + H2O = 2-oxobutanoate + NH3 и участвует в синтезе аминокислот, например L-изолейцина.
Изначально предполагалось, что белок играет роль в пуринозависимой регуляции purA. То есть за год был установлен pathway, в котором участвует белок, окончательно определена его функция и вообще проделано много работы.
Итак, домен - ATP_bind_4 (PF01902). Семейство белков с этим доменом, вероятно, связывает АТР (о чем и говорит название). Длина домена составляет около 200 аа и содержит очень консервативный фрагмент SGGKD на N-конце, что заметно в проекте JalView (см. ниже). Этот домен ассоциирован с доменом рибонуклеазы. Список архитектур домена, в котором видно, что чаще всего этот домен действительно встречается вместе с рибонуклеазным.
Его выравнивание (870 последовательностей) были загружены в JalvView, остатки раскрашены по консервативности (ClustalX, порог 12). В приложенном файле - выравнивание и приложенная структура последовательности O58996_PYRHO (2D13)
С помощью команды python sw.py -z -i /srv/databases/pfam/swisspfam.gz -p ATP_bind_4 -o arch.xls была получена таблица с информацией об архитектуре всех последовательностей (лист "output").
Было выбрано три архитектуры: ATP_bind_4,ATP_bind_4 + Ribonuc_L-PSP и ATP_bind_4 + Ribonuc_L-PSPx2, для соответствующих доменов получена свобдная таблица (лист "joined").
О выбранных архитектурах:
Архитектура | Число представителей |
---|---|
ATP_bind_4 | 659 |
ATP_bind_4 + Ribonuc_L-PSP | 85 |
ATP_bind_4 + Ribonuc_L-PSPx2 | 59 |
Эндорибонуклеаза L-PSP - рибунуклеаза, активная на одноцепочечных mRNA. Логично, что так как она расщепляет mRNA, она ингибирует синтез соответствующих белков. Рибонуклеаза участвует в том числе в регуляции синтеза пурина. Именно этот домен отвечает за активность белков семейства RidA (представителем которого и является выбранный вначале белок RIDA_BACSU).
С помощью uniprot были получены АС всех соответствующих организмов, а потом построена их гомология.
Был выбран таксон Eukaryota. Я понимаю, что этот таксон крайне широк, но этот выбор действительно показался мне лучшим для последующего выбора последовательностей каждой архитектуры, в более мелких таксонах нужное количество не набирается. Есть подтаксоны, иногда даже довольно мелкие [далее будут упомянуты подтаксоны совершенно разного уровня], где явно представлена только одна архитектура (Mammalia, Nematoda, Bacillariophyta, Euglenozoa, Alveolata, Chlorophyta для первой архитектуры; Actinopterygii, Coelacanthiformes для второй; Arthropoda, Oomycetes, Streptophyta для третьей). Однако, например, у Dikarya (Ascomycota; и Saccharomycotina, и Pezizomycotina) хорошо представлены все три архитектуры.
Для каждой архитектуры было выбрано около 20 последовательностей (отдельный лист "selected" в excel-файле). Затем с помощью скрипта были оставлены только нужные последовательности из двух групп + последовательность с установленной 3D-структурой домена (output - filter_out.msf). Затем в JalView выравнивание было отредактировано, разбито по группам, были удалены фрагменты, удалена С-концевая часть с плохим выраваниванием и так далее. Покраска ClustalX с conservation threshold 40. Вторичная структура размечена вручную по известной 3D (один консервативный участок почему-то не представлен в 3D-модели вообще, там цепь просто обрывается). Фрагментов среди выбранных последовательностей оказалось достаточно много. Последовательности объединены по группам, которые соответствуют выбранным трем архитектурам. Выравнивание (точнее, консервативные участки) в целом совпадают со структурой, гэпов в альфа-спиралях в оставшихся последовательностях нет.
Проект JalView - pfam_out.jar.