Алгоритмы множественного выравнивания, эволюционные домены белков

Описание домена с кодом доступа PF14246 в базе данных Pfam

Судя по информации Pfam, выбранный домен принадлежит транскрипционным регуляторам из семейства TetR и формирует AefR-подобный транскрипционный репрессор, распологается на C-конце белка и обеспечивает обратную связь в процессе транскрипции. Данный домен находится в ассоциации с доменом с кодом доступа PF00440; он был выделен, например, из Pseudomonas syringae

Информация о домене, полученная с Pfam, отображена в таблице 1:

Таблица 1. Информация о домене PF14246
Характеристика Значение
ID семейства домена TetR_C_7
AC семейства домена PF14246
Число последовательностей, включающих домен 4732
Число последовательностей в выравнивании seed 84
Число доменных архитектур с этим доменом 16
"Приятель" данного домена TetR_N в архитектурах:
Число 3D структур доменов из разных последовательностей 4
Таксон Proteobacteria Actinobacteria Cyanobacteria Firmicutes
Количество последоваельностей (видов) 3440 (1419) 735 (384) 290 (111) 125 (109)
Количество позиций профиля 119
Дата и время последнего изменения HMM профиля 5 августа 2018, 02:41:02

Анализ выравнивания из Pfam

Для проведения множественного выравнивания были использованы последовательности бактерий из рода Streptomycetes. Были скачаны 278 последовательностей из 134 видов, увидеть которые можно тут.

При выравнивании были исключены последовательности с более чем 85% схожести, а также непохожие в наиболее консервативных блоках. Итог представлен тут.

Этот файл был раскрашен в программе Genedoc. Ниже представлены следующие блоки: консервативный (рис. 1); консервативный блок, включающий не все последовательности (рис. 2); минус блок (рис. 3).

Кроме того, на рис. 4 можно заметить, что последние две аминокислоты полностью совпадают у всех последовательностей, а значит очень вероятна их гомология, то есть индели стоило бы при составлении выравнивания расположить перед ними.

Рис. 1, 2, 3. Консервативный блок; лонсервативный блок, включающий не все последовательности; vинус блок

Рис. 4. Ошибка выравнивания

Поиск белков с доменом PF14246 в Uniprot

По запросу database:(type:pfam pf14246) было обнаружено 21514 записей, ни одна из которых не находится в Swiss-Prot. Уточненный запрос database:(type:pfam pf14246) taxonomy:actinobacteria выдал уже всего 2565 записей, информация о которых находится в таблице.

Среди этих белков доменная архитектура "PF00248;PF14246;PF00440" встречается в 11 случаях, в таксоне о протеобактериях упоминалось 34455 раз, об актинобактериях - 5159, о цианобактериях - 1390, о фирмикутах - 865 раз.

Это в несколько раз больше записей о белках, чем в базе данных Pfam, что может говорить как об избыточности и вырожденности записей Uniprot, так и о недостатке информации о доменах в Pfam.

Судя по полученной таблице, выбранному домену Pfam соответствует домен с кодом доступа PS50977 из PROSITE

Результаты

Как итоги проделанной работы можно выделить: