Эволюционные домены. Банки Pfam и InterPro

1.Описываю доменную архитектуру данного мне белка в соответствии с банком Pfam.

С главной страницы Pfam доступны разные виды поиска. В частности, "JUMP TO" позволяет искать по ID белка.

Таблица. Доменная структура белка HutP_Bacsu по данным Pfam

Cхема из Pfam:
На схеме показан домен Pfam, найденный в последовательности моего белка.
Pfam AC Pfam ID Полное название семейства доменов Положение в последовательности белка HutP_Bacsu Клан
1. PF09021 HutP Семейство доменов имеет название HutP, т.к. данное семейство белков регулирует экспрессию структурного гена 'hut' у Bacillus посредством комплекса антитерминации, который распознает три UAG триплета, разделенных четырьмя неконсервативными нуклеотидами терминаторного региона РНК. При этом необходимы L-гистидин и ионы магния. 8-146 Нет информации

2. Привожу данные о единственном домене моего белка.

Домен входит в 2 архитектуры: HutP и CBS x 2, HutP.

Для 209 белков, содержащих домен, известна последовательность.

Пространственная структура (домена или всего белка) определена для 33 белков, содержащих домен.

Далее сохраняю выравнивание "seed" фрагментов белков, соответствующих домену - в меню "Alignments", выбираю формат MSF, Seed (а не Full — все последовательности), "Generate". Получаю файл PF09021_seed.msf.

(*) Полученное выравнивание можно посмотреть, например, в JalView.

Изображение при окраске BLOSSUM62 по консервативности с порогом 10:

Увеличенная версия.

Наглядно, что даже при малом пороге консервативности, последовательности раскрашены слабо, т.е. мало схожи между собой. Конечно, сходство тоже есть. Но при этом ни в одном стоблце не наблюдается индекса консервативности больше 9-ти, напротив, в основном это значения меньше 4-х. Тем не менее, если рассматривать некоторые отдельные участки выравнивания, консервативность резко возрастает. Да и так видно, что 11-17 последовательности скорее гомологичны и обладают высокой консервативностью. Т.е. на мой взгляд, выравнивание все-таки подтверждает консервативность домена, и в случае 11-17 последовательностей это довольно наглядно.

3. Выбираю доменную архитектуру, в которой присутствует два или более разных домена. Описываю, как часто и в каких организмах встречаются домены по отдельности.

Мой белок включает только один домен, поэтому на страничке домена я выбираю в меню сверху "Achitecture, затем B8D0A1_HALOH, c тремя доменами, один из которых - домен моего белка, два другие - идентичны.

Изображение архитектуры из Pfam:

К сожалению, при дальнейшей работе оказалось, что для домена CBS изображение дерева нереально, т.к. семейство содержит 3078 видов.

Беру другой белок - AMY_BACSU, который также содержит один домен, но зато этот домен входит в 269 других структур. Выбираю F0DT86_9FIRMБ.

Изображение архитектуры из Pfam:

Открывая странички домена и переходя по ссылкам "Species", далее — "Tree", затем выбирая "Expand to depth" = 2, узнаю число последовательностей с данным доменом в таксоне.

Таблица. Представленность домена PF00395 в организмах разных таксонов

Таксон
Количество белков с доменом PF00395.
Эукариоты (Eukaryota) Зеленые растения (Viridiplantae) 0
Грибы (Fungi) 0
Животные (Metazoa) 0
Остальные эукариоты 16
Археи (Archaea) 0
Бактерии (Bacteria) 3532
Вирусы (Viruses) 1

Домен SLH (S-layer homology domain, PF00395) широко представлен у бактерий, но практически отсутствует у эукариот. Дело в том, что S-слои - это однослойные паракристаллические (глико-)протеины, на поверхности бактерий, играют роль в связывании пептидогликана. Понятно, что состав клеточной стенки бактерий специфичен, и многие ее компоненты для эукариот не характерны.

Таблица. Представленность домена PF00686 в организмах разных таксонов

Таксон
Количество белков с доменом PF00686.
Эукариоты (Eukaryota) Зеленые растения (Viridiplantae) 185
Грибы (Fungi) 0
Животные (Metazoa) 136
Остальные эукариоты 276
Археи (Archaea) 5
Бактерии (Bacteria) 321
Вирусы (Viruses) 0

Домен CBM_20 (Starch binding domain, PF00686) представлен как у эукариот, так и у бактерии (хотя примерно в дра раза меньше, чем у эукариот).

Группа ферментов О-гликозилгидролаз EC, для которой характерен данный домен, - широко распространенная группа ферментов, которые гидролизуют гликозидную связь между двумя или большим количеством углеводных остатков, а также связи между углеводоной и неуглеводоной частями.

Данный домен связывается с крахмалом, и часто находится на C-конце гликозилгидролаз, более специфичных к полрисахаридам. Осуществляемые реакции включают: гидролиз терминальных 1,4-связанных остатков альфа-D-глюкозы последовательно от нередуцирующих концов цепи с образованием бета-D-глюкозы, деградацию крахмала до циклодекстринов посредством образования 1,4-альфа-D-гликозидных связей и гидролиза 1,4-альфа-гликозидных связей в полисахаридах, чтобы удалить мальтозу от нередуцирующих концов цепей.

4. Сравниваю описание мотивов в разных банках семейств, по данным InterPro.

Открываю главную страничку InterPro. По идентификатору UniProt моего белка нахожу описание всех подписей (signatures), интегрированных в InterPro, т.е. имеющих InterPro ID. Картинка с разметкой всех мотивов:

Самый короткий мотив - PF09021 (HutP, IPR015111), описан в банке Pfam.

Самый длинный мотив - MF_00779 (такжеHutP, IPR023552), описан в банке HAMAP.

В InterPro не интегрировано никаких структурных подписей, кроме уже приведенных.

Границы структурных доменов шире (1-148) границ доменов Pfam (8-146).


© Eugenia Prokhorova 2011