Алгоритмы множественного выравнивания, эволюционные домены белков
Описание домена с кодом доступа PF14246 в базе данных Pfam
Судя по информации Pfam, выбранный домен принадлежит транскрипционным регуляторам из семейства TetR и формирует AefR-подобный транскрипционный репрессор, распологается на C-конце белка и обеспечивает обратную связь в процессе транскрипции. Данный домен находится в ассоциации с доменом с кодом доступа PF00440; он был выделен, например, из Pseudomonas syringae
Информация о домене, полученная с Pfam, отображена в таблице 1:
Характеристика | Значение | |||
---|---|---|---|---|
ID семейства домена | TetR_C_7 | |||
AC семейства домена | PF14246 | |||
Число последовательностей, включающих домен | 4732 | |||
Число последовательностей в выравнивании seed | 84 | |||
Число доменных архитектур с этим доменом | 16 | |||
"Приятель" данного домена | TetR_N в архитектурах: | |||
Число 3D структур доменов из разных последовательностей | 4 | |||
Таксон | Proteobacteria | Actinobacteria | Cyanobacteria | Firmicutes |
Количество последоваельностей (видов) | 3440 (1419) | 735 (384) | 290 (111) | 125 (109) |
Количество позиций профиля | 119 | |||
Дата и время последнего изменения HMM профиля | 5 августа 2018, 02:41:02 |
Анализ выравнивания из Pfam
Для проведения множественного выравнивания были использованы последовательности бактерий из рода Streptomycetes. Были скачаны 278 последовательностей из 134 видов, увидеть которые можно тут.
При выравнивании были исключены последовательности с более чем 85% схожести, а также непохожие в наиболее консервативных блоках. Итог представлен тут.
Этот файл был раскрашен в программе Genedoc. Ниже представлены следующие блоки: консервативный (рис. 1); консервативный блок, включающий не все последовательности (рис. 2); минус блок (рис. 3).
Кроме того, на рис. 4 можно заметить, что последние две аминокислоты полностью совпадают у всех последовательностей, а значит очень вероятна их гомология, то есть индели стоило бы при составлении выравнивания расположить перед ними.
Поиск белков с доменом PF14246 в Uniprot
По запросу database:(type:pfam pf14246) было обнаружено 21514 записей, ни одна из которых не находится в Swiss-Prot. Уточненный запрос database:(type:pfam pf14246) taxonomy:actinobacteria выдал уже всего 2565 записей, информация о которых находится в таблице.
Среди этих белков доменная архитектура "PF00248;PF14246;PF00440" встречается в 11 случаях, в таксоне о протеобактериях упоминалось 34455 раз, об актинобактериях - 5159, о цианобактериях - 1390, о фирмикутах - 865 раз.
Это в несколько раз больше записей о белках, чем в базе данных Pfam, что может говорить как об избыточности и вырожденности записей Uniprot, так и о недостатке информации о доменах в Pfam.
Судя по полученной таблице, выбранному домену Pfam соответствует домен с кодом доступа PS50977 из PROSITE
Результаты
Как итоги проделанной работы можно выделить: