Для проведения анализа было выбрано следующее семество доменов из Pfam: Nuclear receptor repeat. Формальные характеристики:
Данный домен участвует в регуляции транскрипции, конкретно он позвляет ядерному рецептору связываться с другим ядерным рецептором, запуская тем самым процесс их димеризации, этот домен также позволяет связаться ядерному рецептору с его корегулятором. В составе доменных архитектур этот очень любит повторяться (часто встречается 2, 3 и даже 4 раза в одном белке), интересно отметить, что он встречается вместе только с одним доменом другого типа (это домен PF00104, это уже другой Nuclear receptor repeat, причем он всегда стоит с С-конца, а анализируемый домен с N-конца, когда они в одной доменной архитектуре). Среди организмов анализируемый домен был обнаружен только у 1 бактерии и у Хордовых животных (преимущественно у Млекопитающих, в равной степени у Грызунов, Парнокопытных, Хищных и Приматов), всего у 151 вида (в частности у человека).
Домен довольно короткий (длина его порядка 50 аминокислотных остатков). В своей структуре он имеет важный мотив (или очень похожий на него) Leu-Xaa-Xaa-Leu-Leu (LXXLL), который и играет ключевую роль в димеризации ядерных рецепторов, а также связывании корегулятора с ними. На Рис. 1 показан этот важный мотив в составе вторичной структуры (фрагмент структуры ядерного рецептора DAX-1 (NR0B1)), а на Рис. 2 можно наблюдать процесс димеризации с помощью этого мотива (ядерный рецептор DAX-1 (NR0B1) взаимодействует с ядерным рецептором LRH-1).
Был проведен анализ выравнивания seed (ссылка на проект). Максимально достоверных блоков, включающих все последовательности, нет, поскольку нет колонок, где наблюдалась бы абсолютная или функциональная идентичность (смотри окно seed_all). Разбиение последовательностей на подмножества было сделано по позициям 3-5 (одни из почти полностью консервативных). В самом первом и крупном подмножестве (смотри окно not_all) можно обнаружить единственный крупный максимально достоверный блок 1-16 (есть абсолютно консервативные колонки 1, 3-5 и функционально консервативная 16). В выравнивании не нашлось участка, где нет достоверных подблоков (нет колонок, где были бы слишком разные комбинации аминокислот у разных белков в перемшку с гэпами), поэтому был найден участок 23-27 у второго подмножества, маловероятно, что он отражает ход эволюции (нет идентичных колонок вовсе, имеются гэпы).
Учитывая отсутствие достоверных блоков для всех последовательностей, но большое число почти идентичных колонок практически на протяжении всего выравнивания, можно утверждать о гомологии и достоверности выравнивания в начале и в конце (по крайней мере для большей части белков), наименее достоверная область – это небольшая зона около единственного общего инделя.
Для данного анализа были выбраны следующие доменные архитектуры (Рис. 3): PF14046 - PF14046 - PF14046 - PF00104 (первая архитектура, 13 белков) и PF14046 - PF00104 (вторая архитекутар, 23 белка). Было проведено выравнивание всех этих белков (ссылка на проект, само исходное выравнивание в окне Alignment).
Для начала рассмотрим результаты выравнивания только для белков с первой доменной архитектурой. Как видно из результата выравнивая (смотри окно DA_1 в проекте), имеется большое число достоверных блоков и абсолютно консервативных колонок, как в пределах трех доменов PF140046 – колонки 45, 60, 75, 92, 188, 198, 211 и блоки 35-36, 63-67, 87-90 (полностью абсолютно консервативны), 162-177 (состоит практически из абсолютно консервативных колонок), 221-233; так и в пределах концевого домена PF00104 – блоки 304-385 и 423-466 (крупные блоки со множеством достоверных подблоков и абсолютно консервативных колонок). На протяжении всего выравнивания можно наблюдать большое число функционально консервативных колонок. Это позволяет сделать вывод о гомологичности всех этих белков и о достоверности всего выравнивания.
Теперь проделаем тоже самое для белков со второй доменной архитектурой (смотри окно DA_2, пустые колонки от выравнивания с белками первой доменной архитектуры были удалены). Видно, что в домене PF14046 наблюдаются консервативность: крупные блоки 1-33 (много абсолютно консервативных колонок и соотвественно достоверных подблоков) и концевой блок 74-79 (полностью абсолютно консервативен),также абсолютно консервативная колонка 71, однако это наблюдается для 17 белков (выделены в группу), остальные 6 отклоняются от наблюдаемой картины, особенно последние 3 белка: у них много гэпов и большие индели. Что же касается второго домена (PF00104), то он обладает также большим числом консервативных участков (абсолютно и функционально консервативные колонки наблюдаются практически по всему блоку с 83 позиции и до конца для всех белков). Благодаря чему можно также утвердать, что данные белки гомологичны и выравнивание достоверно для подавляющего числа белков, что же касается тех сомнительных 3, то скорее всего у них анализируемый домен просто исчез в ходе эволюции (по всей видимости он стал функционально не нужен из-за доминирования второго домена с аналогичной функцией).
Теперь перейдем к сравнению доменов в составе различных архитектур. Были обнаружены следующие различия в структуре домена PF14046 в составе первой и второй архитектур:
Несмотря на большое число различий, приведенных в прошлом пункте, у белков с разной доменной архитектурой имеются два главных консервативных участка (смотри окно Conservation). Во-первых, это сам домен PF00104 (начиная с 302 позиции можно наблюдать на протяжении всего выравнивания преобладающее число абсолютно или почти полностью идентичных колонок). Во-вторых, это важный мотив LXXLL в составе анализируемого домена PF14046 (этот мотив и еще 1-2 довольно консервативные позиции перед ним выделены в 3 группы, соответственно по трем копиям домена для белков с первой доменной архитектурой). Из выравнивания видно, что мотив белков со второй доменной архитектурой лучше всего совпадает с мотивом второй копии этого домена у белков первой доменной архитектуры, и эта группа наиболее консервативна (Рис. 9). В первой (Рис. 10) копии состав мотива очень похож на предыдущий и здесь он очень консервативен. В третьей (Рис. 11) копии состав мотива уже не консервативен и сильно отличается от исходного LXXLL.
На основании всего выше написанного можно сделать следующий вывод: домены PF14046 достоверно разошлись в разных доменных архитектурах, причем третья копия этого домена отличается от первых двух в случае первой доменной архитектуры (по крайней мере по мотиву), домен же PF00104 достоверно консервативен и довольно схож в составе обеих архитектур. Это позволяет предположить два возможных эволюционных сценария:
Доменные архитектуры те же, что и в прошлом пункте, были выбраны следующие две последовательности: белок G1NZP4 (с первой доменной архитектурой) и белок Q9PTE9 (со второй доменной архитектурой). С помощью blastp NCBI была построена карта локального сходства для этих двух последовательностей (Рис. 12).
Из графика сразу видны 3 линии, показывающие сходство участков белков, вполне очевидно, что первая линия соответствуют первому домену PF14046 из G1NZP4 и этому же домену из Q9PTE9, вторая линия – второму домену PF14046 из G1NZP4 и этому же домену из Q9PTE9, третья линия – третьему домену PF14046 и домену PF00104 из G1NZP4 и им же из Q9PTE9. Чтобы лучше посмотреть на домены были построены еще две карты локального сходства для этих же белков (для каждого из двух доменов поотдельности), но ограничив участки сравнения. В первом случае (Рис. 13) первый белок рассматривался на участке 1-178, а второй на участке 1-60, а во втором случае (Рис. 14) соответственно 180-399 и 60-263.
Из графиков можно наблюдать, что в случае домена PF00104 имеются два небольших инделя в составе белка Q9PTE9 (два разрыва), в остальном же гэпов нет (непрерывная линия). В случае анализируемого домена видно, что пробелы между концами и началами линий соответствуют описанным в различиях в прошлом пункте крупным инделям, при сравнении с первой копией обнаружился один внутренний крупный индель (крупный разрыв), со второй копией один небольшой индель, а с третьей – 2 небольших соответственно, это подтверждает, что домен PF14046 из Q9PTE9 больше всего похож на вторую копию этого домена из G1NZP4 в том смысле, что произошло меньше всего инсерций или делеций, в плане же схожести по таким графикам судить нельзя, поскольку точка на графике соответствуют любым двум аминокислотам в сравнении, пробел лишь соответствуют гэпу.