Паттерны и банк PROSITE
Банк PROSITE содержит в качестве записей информацию о паттернах. Паттерн - это нечто вроде "маски" последовательности белка, он включает в себя информацию о консервативных позициях какой-либо из функционально важных частей белка. Паттерны составляются по множественным выравниваниям. Использование этого банка - альтернативный BLAST-у способ поиска гомологов.
Содержит ли Swissprot послание инопланетян?
Теоретическое предсказание: исходя из частоты каждой аминокислоты
- С - 0,0137
- R - 0,0553
- A - 0,0825
- N - 0,0406
- E - 0,0675
В то же время, паттерн R-I-T-A-L-E-E встречается в банке в два раза чаще ожидаемого :)
Нахождение вероятных гомологов белка OXDC_BACSU с использованием паттернов
По выравниванию оксалат декарбоксилазы Bacillus subtilis и её гомологов (см. практикум 8 ) было составлено четыре паттерна: сильный, средний, слабый и очень слабый. Чем сильнее паттерн, тем больше в него включено условий, и тем с большей уверенностью можно утверждать, что найденные последовательности гомологичны тем, что составляют выравнивание, по которому написан паттерн. Во все паттерны включались три аминокислотных остатка, связывающих кофермент, а также окрестные достаточно консервативные участки. Все последовательности из выравнивания удовлетворяют условиям паттерна. Ограничения для сильного паттерна не слишком строгие, так как его усложнение приводит к нахождению всё тех же двух последовательностей. По этим паттернам был проведён поиск в банке Swissprot (тем же инструментом SCANPROSITE). Результаты представлены в таблице 1.
Табл.1 Результаты поиска последовательностей по разным паттернам
Паттерн | В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? | Предполагаемое число последовательностей с таким мотивом в банке | Все ли последовательности из вашего выравнивания найдены? (если нет, то сколько) | |
Очень слабый | R-x(2)-H-x-H-x(4)-E | 483 | 368 | 1 - Bacillus subtilis |
Слабый | [EQ]-x-H-x-H-x(4)-E-[LMW] | 102 | 93,7 | 1 - Bacillus subtilis |
Средний | R-x(2)-H-x-H-x(4)-E-x(6)-G | 29 | 26,06 | 1 - Bacillus subtilis |
Сильный | R-[EQ]-x-H-[FW]-H-x(5)-E-[LMW]-x-[CYFM]-x(3)-G | 2 | 0,0019 | 1 - Bacillus subtilis |
При всех трёх операциях поиска не было найдено ни одной последовательности из выравнивания, за исключением
собственно OXDC_BACSU. Скорее всего, это связано с отсутствием этих записей в банке Swissprot. Последовательности из выравнивания представляют
собой в основном результаты геномных проектов, в связи с этим для многие белки из выравнивания в банке Refseq не
были идентифицированы как оксалат-декарбоксилазы и не имели указаний на функцию в записях, большая часть записей была неотрецензированной.
Не нашлось гомологов не только в дальних таксонах, но и в роде Bacillus (за исключением паралога - оксалат-декарбоксилазы OxdD). Возможно, больших успехов можно было бы добиться, проводя поиск
также и в базе TrEMBL
Число хитов, сильно превосходящее теоретическое, в случае очень слабого паттерна может объясняться тем, что паттерн предполагает расположение заряженных аминокислот
достаточно близко в последовательности, два гистидина, например, часто что-нибудь координируют; ну или чем-нибудь ещё.
Поиск всех мотивов PROSITE в последовательности OXDC_BACSU
Был произведён поиск всех мотивов (паттернов, которые характеризуют возможность белка иметь какую-либо особенность, например модифицироваться каким-либо ферментом, с чем-нибудь связываться, обладать какой-либо ферментативной активностью или характерным элементом структуры), записи о которых имеются в банке PROSITE. Результаты представлены в таблице 2.
Табл. 2 Мотивы в OXDC_BACSU
Идентификатор документа Prosite (AC) | Название мотива | Краткое описание мотива | Тип подписи (паттерн, профиль) | Паттерн | Специфична ли подпись? | Сколько мотивов нашлось в белке? |
PS00016 | RGD | Последовательность клеточной адгезии | паттерн | R-G-D | неспецифична | 1 |
PS00005 | PKC_PHOSPHO_SITE | Сайт фосфорилирования киназой C | паттерн | [ST]-x-[RK] | неспецифична | 7 |
PS00008 | MYRISTYL | Сайт N-миристоилирования | паттерн | G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} | неспецифична | 2 |
PS00006 | CK2_PHOSPHO_SITE | Сайт фосфорилирования казеинкиназой II | паттерн | [ST]-x(2)-[DE] | неспецифична | 8 |
PS00007 | TYR_PHOSPHO_SITE | Сайт фосфорилирования тирозинкиназами | паттерн | [RK]-x(2)-[DE]-x(3)-Y или [RK]-x(3)-[DE]-x(2)-Y | неспецифична | 1 |
PS00029 | LEUCINE_ZIPPER | Лейциновая молния | паттерн | L-x(6)-L-x(6)-L-x(6)-L | неспецифична | 1 |
PS00001 | ASN_GLYCOSYLATION | Сайт N-гликозилирования | паттерн | N-{P}-[ST]-{P} | неспецифична | 1 |
PS00004 | CAMP_PHOSPHO_SITE | Сайт фосфорилирования цАМФ- и цГМФ-зависимыми киназами | паттерн | [RK](2)-x-[ST] | неспецифична | 1 |
Комментарии к таблице: Все обнаруженные мотивы являются неспецифическими - характерны для большого числа белков, имеют простое устройство
и потому большую вероятность попасться в случайном белке. Некоторые из найденных мотивов не могут иметь функциональную значимость, так как
представляют собой возможные сайты модификации эукариотическими ферментами.
Лейциновая молния - паттерн, играющий важную роль в стабилизации формы белка за счёт гидрофобных взаимодействий.
Для хорошо изученных семейств белков (к которым наша оксалат-декарбоксилаза OxdC не относится)
известны свои характерные (специфичные) мотивы, которым тоже соответстуют записи в PROSITE.
Гомологичность обнаруженных с использованием паттернов белков
С целью проверить, являются ли найденные последовательности гомологами, было построено программой MUSCLE их множественное выравнивание (рис.1). Это было сделано для последовательностей паттерна "средней" силы. Никакого значимого сходства между оксалат-декарбоксилазой и найденными белками не обнаружено (за исключением OxdD, паралога), последовательности не выравниваются по паттерну. Некоторые из них явно гомологичны между собой.
![align1](aliprosite_mini.png)
Рис.1 Выравнивание последовательностей, полученных поиском по "среднему" паттерну (кликабельно)
Сравнение гипотетического числа мотивов с реальным числом найденных последовательностей
Для всех четырёх паттернов, построенных по выравниванию гомологов OXDC_BACSU, было посчитано число последовательностей, которые могли бы им соответствовать (табл. 3).Табл. 3
Паттерн | Число теоретически соотвествующих ему последовательностей |
R-x(2)-H-x-H-x(4)-E | 109 |
[EQ]-x-H-x-H-x(4)-E-[LMW] | 4*108 |
R-x(2)-H-x-H-x(4)-E-x(6)-G | 8*1016 |
R-[EQ]-x-H-[FW]-H-x(4)-E-[LMW]-x-[CYFM]-x(3)-G | 2*1013 |
Эти числа больше числа записей в Swissprot. Однако, если мы сравним их с реальным числом находок, станет понятно, что даже в "бесконечно большой" выборке белков часть последовательностей наверняка не реализуется, потому как они - вовсе не случайный набор аминокислот. Некоторые структуры могут не встречаться в живых организмах, например, из-за стерических затруднений. Или от того, что такая последовательность не несёт никакого функционального смысла. Или могла бы нести, но никогда не появлялась в результате мутаций. Может быть тут, как и в случае анатомических приспособлений, есть запрещённые состояния, несовместимые с существованием организма?
В общем, странно было бы ожидать от биообъектов всё возможное разнообразие белковых последовательностей.