Практикум 11

Выбор и описание семейства доменов из Pfam

Для проведения анализа было выбрано следующее семество доменов из Pfam: Nuclear receptor repeat. Формальные характеристики:

  • AC: PF14046
  • ID: NR_Repeat
  • Name: Nuclear receptor repeat
  • Seed: 37 (по данным таблицы 2023 их 38)
  • Full: 174 (по данным таблицы 2023 их 354), 8 из Swiss-Prot
  • 3D-structure: известна у 2 белков (по данным таблицы 2023 у 1)
  • Domain Architectures: 10 (по данным таблицы 2023 их 7)

Данный домен участвует в регуляции транскрипции, конкретно он позвляет ядерному рецептору связываться с другим ядерным рецептором, запуская тем самым процесс их димеризации, этот домен также позволяет связаться ядерному рецептору с его корегулятором. В составе доменных архитектур этот очень любит повторяться (часто встречается 2, 3 и даже 4 раза в одном белке), интересно отметить, что он встречается вместе только с одним доменом другого типа (это домен PF00104, это уже другой Nuclear receptor repeat, причем он всегда стоит с С-конца, а анализируемый домен с N-конца, когда они в одной доменной архитектуре). Среди организмов анализируемый домен был обнаружен только у 1 бактерии и у Хордовых животных (преимущественно у Млекопитающих, в равной степени у Грызунов, Парнокопытных, Хищных и Приматов), всего у 151 вида (в частности у человека).

Домен довольно короткий (длина его порядка 50 аминокислотных остатков). В своей структуре он имеет важный мотив (или очень похожий на него) Leu-Xaa-Xaa-Leu-Leu (LXXLL), который и играет ключевую роль в димеризации ядерных рецепторов, а также связывании корегулятора с ними. На Рис. 1 показан этот важный мотив в составе вторичной структуры (фрагмент структуры ядерного рецептора DAX-1 (NR0B1)), а на Рис. 2 можно наблюдать процесс димеризации с помощью этого мотива (ядерный рецептор DAX-1 (NR0B1) взаимодействует с ядерным рецептором LRH-1).

Рис. 1. Фрагмент анализируемого домена длиной 15 аминокислотных остатков в составе белка DAX-1. Бирюзово-серым выделен мотив LXXLL в составе альфа-спирали.
Рис. 2. Димеризация ядерных рецепторов LRH-1 и DAX-1 за счет мотива. Зеленым выделен белок LRH-1, фиолетовым – главная цепь белка DAX-1 (боковые радикалы остова не показаны), белые кружочки показывают три гидрофобных кармана, где происходит взаимодействие боковых радикалов лейцинов, способствующее димеризации.

Описание выравнивания seed

Был проведен анализ выравнивания seed (ссылка на проект). Максимально достоверных блоков, включающих все последовательности, нет, поскольку нет колонок, где наблюдалась бы абсолютная или функциональная идентичность (смотри окно seed_all). Разбиение последовательностей на подмножества было сделано по позициям 3-5 (одни из почти полностью консервативных). В самом первом и крупном подмножестве (смотри окно not_all) можно обнаружить единственный крупный максимально достоверный блок 1-16 (есть абсолютно консервативные колонки 1, 3-5 и функционально консервативная 16). В выравнивании не нашлось участка, где нет достоверных подблоков (нет колонок, где были бы слишком разные комбинации аминокислот у разных белков в перемшку с гэпами), поэтому был найден участок 23-27 у второго подмножества, маловероятно, что он отражает ход эволюции (нет идентичных колонок вовсе, имеются гэпы).

Учитывая отсутствие достоверных блоков для всех последовательностей, но большое число почти идентичных колонок практически на протяжении всего выравнивания, можно утверждать о гомологии и достоверности выравнивания в начале и в конце (по крайней мере для большей части белков), наименее достоверная область – это небольшая зона около единственного общего инделя.

Исследование двух доменных архитектур

Для данного анализа были выбраны следующие доменные архитектуры (Рис. 3): PF14046 - PF14046 - PF14046 - PF00104 (первая архитектура, 13 белков) и PF14046 - PF00104 (вторая архитекутар, 23 белка). Было проведено выравнивание всех этих белков (ссылка на проект, само исходное выравнивание в окне Alignment).

Рис. 3. Доменные архитектуры.

1.Описание белков с первой доменной архитектурой

Для начала рассмотрим результаты выравнивания только для белков с первой доменной архитектурой. Как видно из результата выравнивая (смотри окно DA_1 в проекте), имеется большое число достоверных блоков и абсолютно консервативных колонок, как в пределах трех доменов PF140046 – колонки 45, 60, 75, 92, 188, 198, 211 и блоки 35-36, 63-67, 87-90 (полностью абсолютно консервативны), 162-177 (состоит практически из абсолютно консервативных колонок), 221-233; так и в пределах концевого домена PF00104 – блоки 304-385 и 423-466 (крупные блоки со множеством достоверных подблоков и абсолютно консервативных колонок). На протяжении всего выравнивания можно наблюдать большое число функционально консервативных колонок. Это позволяет сделать вывод о гомологичности всех этих белков и о достоверности всего выравнивания.

2.Описание белков со второй доменной архитектурой

Теперь проделаем тоже самое для белков со второй доменной архитектурой (смотри окно DA_2, пустые колонки от выравнивания с белками первой доменной архитектуры были удалены). Видно, что в домене PF14046 наблюдаются консервативность: крупные блоки 1-33 (много абсолютно консервативных колонок и соотвественно достоверных подблоков) и концевой блок 74-79 (полностью абсолютно консервативен),также абсолютно консервативная колонка 71, однако это наблюдается для 17 белков (выделены в группу), остальные 6 отклоняются от наблюдаемой картины, особенно последние 3 белка: у них много гэпов и большие индели. Что же касается второго домена (PF00104), то он обладает также большим числом консервативных участков (абсолютно и функционально консервативные колонки наблюдаются практически по всему блоку с 83 позиции и до конца для всех белков). Благодаря чему можно также утвердать, что данные белки гомологичны и выравнивание достоверно для подавляющего числа белков, что же касается тех сомнительных 3, то скорее всего у них анализируемый домен просто исчез в ходе эволюции (по всей видимости он стал функционально не нужен из-за доминирования второго домена с аналогичной функцией).

3.Различия для двух доменных архитектур

Теперь перейдем к сравнению доменов в составе различных архитектур. Были обнаружены следующие различия в структуре домена PF14046 в составе первой и второй архитектур:

  • Во-первых, это 5 позиций, расположенных перед важным мотивом LXXLL в составе второй копии домена с первой архитектурой (смотри окно Pre-m и Рис. 4), по ним было сделано разбиение белков на группы. Видно, что все белки с первой доменной архитектурой сгруппировались полностью отдельно от белков со второй доменной архитектурой (среди них также произошло много разделений на группы).
  • Рис. 4. Различие в позициях перед мотивом. Позиции с различием выделены красным.
  • Во-вторых, аналогично разошлись 5 позиций, расположенных после этого мотива в том же месте (смотри окно Post-m и Рис. 5), здесь образовалось много групп, и опять же все белки с первой доменной архитектурой не попадают ни в одну группу с белками второй.
  • Рис. 5. Различие в позициях после мотива. Позиции с различием выделены красным.

4.Консервативные участки для двух доменных архитектур

Несмотря на большое число различий, приведенных в прошлом пункте, у белков с разной доменной архитектурой имеются два главных консервативных участка (смотри окно Conservation). Во-первых, это сам домен PF00104 (начиная с 302 позиции можно наблюдать на протяжении всего выравнивания преобладающее число абсолютно или почти полностью идентичных колонок). Во-вторых, это важный мотив LXXLL в составе анализируемого домена PF14046 (этот мотив и еще 1-2 довольно консервативные позиции перед ним выделены в 3 группы, соответственно по трем копиям домена для белков с первой доменной архитектурой). Из выравнивания видно, что мотив белков со второй доменной архитектурой лучше всего совпадает с мотивом второй копии этого домена у белков первой доменной архитектуры, и эта группа наиболее консервативна (Рис. 9). В первой (Рис. 10) копии состав мотива очень похож на предыдущий и здесь он очень консервативен. В третьей (Рис. 11) копии состав мотива уже не консервативен и сильно отличается от исходного LXXLL.

Рис. 9. Мотив второй копии и второй доменной архитектуры. Видна высокая консервативность, примечательно, что второй лейцин в большинстве случаев заменен на M или I.
Рис. 10. Мотив первой копии. Высоко консервативен и похож на таковой у второй копии.
Рис. 11. Мотив третьей копии. Неконсервативен и сильно изменен (первый и третий лейцины почти исчезли и заменены на F и P).

5.Вывод и итоги

На основании всего выше написанного можно сделать следующий вывод: домены PF14046 достоверно разошлись в разных доменных архитектурах, причем третья копия этого домена отличается от первых двух в случае первой доменной архитектуры (по крайней мере по мотиву), домен же PF00104 достоверно консервативен и довольно схож в составе обеих архитектур. Это позволяет предположить два возможных эволюционных сценария:

  1. Общий предок двух архитектур сам имел доменную архитектуру похожую на вторую, первая возникла в результате двойной дупликации анализируемого домена (причем так появились первая и третья копии). Такое усложнение могло пригодиться для связывания с большим числом корегуляторов или же других рецепторов (отличие мотива третьей копии можно объяснить как приспособление для связывания с другим типом рецепторов или корегуляторов). Этот сценарий также может объяснить причины появления различий в области перед и после мотива в составе второй копии, а также наличие крупных инсерций, все они могли понадобиться для создания правильной геометрии и топологии всех трех доменов в пространстве.
  2. Общий предок двух архитектур исходно имел сложную архитектуру близкую к первой, однако в ходе эволюции у каких-то белков второй домен PF00104 (он преимущественно отвечает за связывание с гормонами) стал доминировать функционально и повторы доменов PF14046 стали ему мешать, поэтому их число сократилось до одного (осталась только вторая копия), а у некоторых белков (те 3 из рассуждений пункта 2) почти до конца произошла и потеря последней копии, такие белки стали очень специализированными на выполнении функции домена PF00104.

Карта локального сходства

Доменные архитектуры те же, что и в прошлом пункте, были выбраны следующие две последовательности: белок G1NZP4 (с первой доменной архитектурой) и белок Q9PTE9 (со второй доменной архитектурой). С помощью blastp NCBI была построена карта локального сходства для этих двух последовательностей (Рис. 12).

Рис. 12. Карта локального сходства белков G1NZP4 (ось X) и Q9PTE9 (ось Y). Значение E-value составило 6 · 10-97.

Из графика сразу видны 3 линии, показывающие сходство участков белков, вполне очевидно, что первая линия соответствуют первому домену PF14046 из G1NZP4 и этому же домену из Q9PTE9, вторая линия – второму домену PF14046 из G1NZP4 и этому же домену из Q9PTE9, третья линия – третьему домену PF14046 и домену PF00104 из G1NZP4 и им же из Q9PTE9. Чтобы лучше посмотреть на домены были построены еще две карты локального сходства для этих же белков (для каждого из двух доменов поотдельности), но ограничив участки сравнения. В первом случае (Рис. 13) первый белок рассматривался на участке 1-178, а второй на участке 1-60, а во втором случае (Рис. 14) соответственно 180-399 и 60-263.

Рис. 13. Карта локального сходства участков белков G1NZP4 (ось X) и Q9PTE9 (ось Y) без домена PF00104. Значение E-value составило 5 · 10-8.
Рис. 14. Карта локального сходства участков белков G1NZP4 (ось X) и Q9PTE9 (ось Y) без домена PF14046. Значение E-value составило 1 · 10-91.

Из графиков можно наблюдать, что в случае домена PF00104 имеются два небольших инделя в составе белка Q9PTE9 (два разрыва), в остальном же гэпов нет (непрерывная линия). В случае анализируемого домена видно, что пробелы между концами и началами линий соответствуют описанным в различиях в прошлом пункте крупным инделям, при сравнении с первой копией обнаружился один внутренний крупный индель (крупный разрыв), со второй копией один небольшой индель, а с третьей – 2 небольших соответственно, это подтверждает, что домен PF14046 из Q9PTE9 больше всего похож на вторую копию этого домена из G1NZP4 в том смысле, что произошло меньше всего инсерций или делеций, в плане же схожести по таким графикам судить нельзя, поскольку точка на графике соответствуют любым двум аминокислотам в сравнении, пробел лишь соответствуют гэпу.