Паттерны и банк PROSITE

Банк PROSITE содержит в качестве записей информацию о паттернах. Паттерн - это нечто вроде "маски" последовательности белка, он включает в себя информацию о консервативных позициях какой-либо из функционально важных частей белка. Паттерны составляются по множественным выравниваниям. Использование этого банка - альтернативный BLAST-у способ поиска гомологов.

Содержит ли Swissprot послание инопланетян?

Теоретическое предсказание: исходя из частоты каждой аминокислоты

и общего числа аминокислотных остатков в банке Swissprot - 191670831, слово crane, составленное из однобуквенных кодов аминокислотных остатков, должно встретиться нам 32,8 ~ 33 раза в последовательностях из этой базы данных. При поиске паттерна C-R-A-N-E с помощью SCANPROSITE получено всего 10 хитов, то есть в три раза меньше. Возможно, такая разница обусловлена тем, что практически гидрофобный цистеин реже встречается рядом с такими аминокислотными остатками, как заряженные аргинин и глутамат.
В то же время, паттерн R-I-T-A-L-E-E встречается в банке в два раза чаще ожидаемого :)

Нахождение вероятных гомологов белка OXDC_BACSU с использованием паттернов

По выравниванию оксалат декарбоксилазы Bacillus subtilis и её гомологов (см. практикум 8 ) было составлено четыре паттерна: сильный, средний, слабый и очень слабый. Чем сильнее паттерн, тем больше в него включено условий, и тем с большей уверенностью можно утверждать, что найденные последовательности гомологичны тем, что составляют выравнивание, по которому написан паттерн. Во все паттерны включались три аминокислотных остатка, связывающих кофермент, а также окрестные достаточно консервативные участки. Все последовательности из выравнивания удовлетворяют условиям паттерна. Ограничения для сильного паттерна не слишком строгие, так как его усложнение приводит к нахождению всё тех же двух последовательностей. По этим паттернам был проведён поиск в банке Swissprot (тем же инструментом SCANPROSITE). Результаты представлены в таблице 1.


Табл.1 Результаты поиска последовательностей по разным паттернам
Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Предполагаемое число последовательностей с таким мотивом в банке Все ли последовательности из вашего выравнивания найдены? (если нет, то сколько)
Очень слабый R-x(2)-H-x-H-x(4)-E 483 368 1 - Bacillus subtilis
Слабый [EQ]-x-H-x-H-x(4)-E-[LMW] 102 93,7 1 - Bacillus subtilis
Средний R-x(2)-H-x-H-x(4)-E-x(6)-G 29 26,06 1 - Bacillus subtilis
Сильный R-[EQ]-x-H-[FW]-H-x(5)-E-[LMW]-x-[CYFM]-x(3)-G 2 0,0019 1 - Bacillus subtilis
Комментарии к таблице:

При всех трёх операциях поиска не было найдено ни одной последовательности из выравнивания, за исключением собственно OXDC_BACSU. Скорее всего, это связано с отсутствием этих записей в банке Swissprot. Последовательности из выравнивания представляют собой в основном результаты геномных проектов, в связи с этим для многие белки из выравнивания в банке Refseq не были идентифицированы как оксалат-декарбоксилазы и не имели указаний на функцию в записях, большая часть записей была неотрецензированной. Не нашлось гомологов не только в дальних таксонах, но и в роде Bacillus (за исключением паралога - оксалат-декарбоксилазы OxdD). Возможно, больших успехов можно было бы добиться, проводя поиск также и в базе TrEMBL
Число хитов, сильно превосходящее теоретическое, в случае очень слабого паттерна может объясняться тем, что паттерн предполагает расположение заряженных аминокислот достаточно близко в последовательности, два гистидина, например, часто что-нибудь координируют; ну или чем-нибудь ещё.

Поиск всех мотивов PROSITE в последовательности OXDC_BACSU

Был произведён поиск всех мотивов (паттернов, которые характеризуют возможность белка иметь какую-либо особенность, например модифицироваться каким-либо ферментом, с чем-нибудь связываться, обладать какой-либо ферментативной активностью или характерным элементом структуры), записи о которых имеются в банке PROSITE. Результаты представлены в таблице 2.



Табл. 2 Мотивы в OXDC_BACSU
Идентификатор документа Prosite (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00016 RGD Последовательность клеточной адгезии паттерн R-G-D неспецифична 1
PS00005 PKC_PHOSPHO_SITE Сайт фосфорилирования киназой C паттерн [ST]-x-[RK] неспецифична 7
PS00008 MYRISTYL Сайт N-миристоилирования паттерн G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} неспецифична 2
PS00006 CK2_PHOSPHO_SITE Сайт фосфорилирования казеинкиназой II паттерн [ST]-x(2)-[DE] неспецифична 8
PS00007 TYR_PHOSPHO_SITE Сайт фосфорилирования тирозинкиназами паттерн [RK]-x(2)-[DE]-x(3)-Y или [RK]-x(3)-[DE]-x(2)-Y неспецифична 1
PS00029 LEUCINE_ZIPPER Лейциновая молния паттерн L-x(6)-L-x(6)-L-x(6)-L неспецифична 1
PS00001 ASN_GLYCOSYLATION Сайт N-гликозилирования паттерн N-{P}-[ST]-{P} неспецифична 1
PS00004 CAMP_PHOSPHO_SITE Сайт фосфорилирования цАМФ- и цГМФ-зависимыми киназами паттерн [RK](2)-x-[ST] неспецифична 1

Комментарии к таблице: Все обнаруженные мотивы являются неспецифическими - характерны для большого числа белков, имеют простое устройство и потому большую вероятность попасться в случайном белке. Некоторые из найденных мотивов не могут иметь функциональную значимость, так как представляют собой возможные сайты модификации эукариотическими ферментами. Лейциновая молния - паттерн, играющий важную роль в стабилизации формы белка за счёт гидрофобных взаимодействий.
Для хорошо изученных семейств белков (к которым наша оксалат-декарбоксилаза OxdC не относится) известны свои характерные (специфичные) мотивы, которым тоже соответстуют записи в PROSITE.

Гомологичность обнаруженных с использованием паттернов белков

С целью проверить, являются ли найденные последовательности гомологами, было построено программой MUSCLE их множественное выравнивание (рис.1). Это было сделано для последовательностей паттерна "средней" силы. Никакого значимого сходства между оксалат-декарбоксилазой и найденными белками не обнаружено (за исключением OxdD, паралога), последовательности не выравниваются по паттерну. Некоторые из них явно гомологичны между собой.


align1
Рис.1 Выравнивание последовательностей, полученных поиском по "среднему" паттерну (кликабельно)

Сравнение гипотетического числа мотивов с реальным числом найденных последовательностей

Для всех четырёх паттернов, построенных по выравниванию гомологов OXDC_BACSU, было посчитано число последовательностей, которые могли бы им соответствовать (табл. 3).

Табл. 3
ПаттернЧисло теоретически соотвествующих ему последовательностей

R-x(2)-H-x-H-x(4)-E 109
[EQ]-x-H-x-H-x(4)-E-[LMW]4*108
R-x(2)-H-x-H-x(4)-E-x(6)-G8*1016
R-[EQ]-x-H-[FW]-H-x(4)-E-[LMW]-x-[CYFM]-x(3)-G2*1013

Эти числа больше числа записей в Swissprot. Однако, если мы сравним их с реальным числом находок, станет понятно, что даже в "бесконечно большой" выборке белков часть последовательностей наверняка не реализуется, потому как они - вовсе не случайный набор аминокислот. Некоторые структуры могут не встречаться в живых организмах, например, из-за стерических затруднений. Или от того, что такая последовательность не несёт никакого функционального смысла. Или могла бы нести, но никогда не появлялась в результате мутаций. Может быть тут, как и в случае анатомических приспособлений, есть запрещённые состояния, несовместимые с существованием организма?
В общем, странно было бы ожидать от биообъектов всё возможное разнообразие белковых последовательностей.