Семейства белковых доменов

Я произвела поиск по последовательности моего белка D-аланил-D-аланин карбоксипептидазе (последовательность в формате fasta) на сайте Pfam, чтобы найти домены, встречающиеся в белке. Было найдено одно семейство - Peptidase_S13 (PF02113). Я сохранила seed выравнивание этого семейства и построила множественное выравнивание 9 последовательностей, входящих в состав seed, в программе JalView. Множественное выравнивание seed можно посмотреть в формате fasta, а также в проекте JalView (проект в формате jvp). На рисунке 1 представлено выравнивание с раскраской ClustalX.

Множественное выравнивание seed PF02113

Рисунок 1. Множественное выравнивание последовательностей seed семейства Peptidase_S13 (PF02113) из банка Pfam. Черной рамкой выделен блок, с которым я в дальнейшем работала в практикуме. Раскраска ClustalX.

Я сохранила консенсусную последовательность для всего выравнивания с помощью JalView. Она представлена в формате fasta. Далее я выбрала блок (позиции 432-448, на рисунке 1 обведен черной рамкой), для которого сохранила графическое представление LOGO. Оно было получено с помощью WebLogo 3 на сайте http://weblogo.threeplusone.com/. LOGO для данного блока представлено на рисунке 2. Консенсусная последовательность данного блока в формате fasta - по ссылке.

LOGO для блока

Рисунок 2. LOGO для одного из блоков в выравнивании последовательностей seed семейства Peptidase_S13 (PF02113). Построено с помощью программы WebLogo 3.4.

Также я проверила, какая из последовательностей seed наиболее похожа на консенсусную. Для этого я построила парные глобальные выравнивания всех последовательностей из выравнивания с полученной консенсусной. Результаты приведены в таблице 1.

Таблица 1. Score попарных выравниваний последовательностей из seed с консенсусной последовательностью их множественного выравнивания.
Идентификатор Score
1 Q55728_SYNY3 505
2 Q9Z541_STRCO 711.5
3 DACC_BACSU 839.5
4 DAC_ACTSP 802
5 DACB_ECOLI 778
6 DACB_HAEIN 704.5
7 O85665_NEIGO 548.5
8 O06380_MYCTU 901
9 O69539_MYCLE 858.5

Как видно из таблицы 1, на консенсусную последовательность наиболее похож белок O06380_MYCTU из организма Mycobacterium tuberculosis.

Я составила сильный и слабый паттерны для выбранного блока и попыталась найти последовательности, содержащие мотив с данным паттерном, в SwissProt. Для поиска я использовала сайт http://prosite.expasy.org/scanprosite/. По сильному паттерну найдено 6 последовательностей. Пять из них соответствуют гомологичным последовательностям из семейства, с которым я работала в предыдущем практикуме по PSI-BLAST. Шестая - синтаза пептидоглюкана из зеленой водоросли Nephroselmis olivacea (идентификатор Q9TL36). Возможно, этот белок не является полностью гомологичным моему белку (его длина 709 аминокислотных остатков, что примерно на 300 а.о. превышает длину моего белка), однако он содержит данный мотив, который, скорее всего, отвечает за связывание каких-то компонентов клеточной стенки. Для поиска я использовала следующий сильный паттерн: [AILMV]-x(2)-K-T-G-[TS]-[AILMV]-x(2)-[AILMV]-x(2)-L-x-G-[AILMVFYW]. Те позиции, в которых колонки были абсолютно консервативными, я записывала в паттерн однозначно (одной буквой). Функционально консервативные колонки я расширила до всех гидрофобных аминокислот, причем в последней позиции я также добавила ароматические аминокислоты, так как в колонке в выравнивании имеются тирозин и фенилаланин. Те позиции, в которых наблюдается высокая вариативность аминокислот, и сложно указать функциональную группу, я обозначила символами "x" (любая аминокислота).
Для составления слабого паттерна я убрала условия для одной из позиций (в самом выравнивании в этой колонке стоит V, I или A, то есть колонка абсолютно функционально консервативная, однако она окружена с обеих сторон парой колонок с достаточно неспецифичными аминокислотами, то есть этот участок можно считать изменчивым, поэтому ослабление паттерна в этом месте может привести к обнаружению новых гомологичных последовательностей). Также я ослабила условия для абсолютно консервативных колонок, например, для четвертой позиции, в которой стоит лизин, я разрешила также другие положительно заряженные аминокислоты. Слабый паттерн: [AILMV]-x(2)-[KHR]-[TS]-G-[TS]-[AILMV]-x(5)-[AILMV]-x-G-[AILMVFYW]. По нему в базе данных SwissProt найдено 43 последовательности. Среди них есть те 6 белков, которые найдены по сильному паттерну. Из новых находок можно выделить, например, липид-A-дисахарид синтазу, которая, возможно, также взаимодействует с компонентами клеточной стенки. Также было найдено несколько митохондриальных белков и субъединиц ДНК-лигаз и РНК-полимераз. Сложно установить функциональную связь этих белков с моим белком. Тем более, если бы этот мотив действительно входил во все последовательности белков с такими функциями, то нашлось бы гораздо больше белков. Поэтому можно считать, что в этих находках данный мотив не выполняет какие-то особые функции.

© Наталия Кашко, 2015