Паттерны и банк PROSITE
Банк PROSITE содержит в качестве записей информацию о паттернах. Паттерн - это нечто вроде "маски" последовательности белка, он включает в себя информацию о консервативных позициях какой-либо из функционально важных частей белка. Паттерны составляются по множественным выравниваниям. Использование этого банка - альтернативный BLAST-у способ поиска гомологов.
Содержит ли Swissprot послание инопланетян?
Теоретическое предсказание: исходя из частоты каждой аминокислоты
- С - 0,0137
- R - 0,0553
- A - 0,0825
- N - 0,0406
- E - 0,0675
В то же время, паттерн R-I-T-A-L-E-E встречается в банке в два раза чаще ожидаемого :)
Нахождение вероятных гомологов белка OXDC_BACSU с использованием паттернов
По выравниванию оксалат декарбоксилазы Bacillus subtilis и её гомологов (см. практикум 8 ) было составлено четыре паттерна: сильный, средний, слабый и очень слабый. Чем сильнее паттерн, тем больше в него включено условий, и тем с большей уверенностью можно утверждать, что найденные последовательности гомологичны тем, что составляют выравнивание, по которому написан паттерн. Во все паттерны включались три аминокислотных остатка, связывающих кофермент, а также окрестные достаточно консервативные участки. Все последовательности из выравнивания удовлетворяют условиям паттерна. Ограничения для сильного паттерна не слишком строгие, так как его усложнение приводит к нахождению всё тех же двух последовательностей. По этим паттернам был проведён поиск в банке Swissprot (тем же инструментом SCANPROSITE). Результаты представлены в таблице 1.
Табл.1 Результаты поиска последовательностей по разным паттернам
Паттерн | В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? | Предполагаемое число последовательностей с таким мотивом в банке | Все ли последовательности из вашего выравнивания найдены? (если нет, то сколько) | |
Очень слабый | R-x(2)-H-x-H-x(4)-E | 483 | 368 | 1 - Bacillus subtilis |
Слабый | [EQ]-x-H-x-H-x(4)-E-[LMW] | 102 | 93,7 | 1 - Bacillus subtilis |
Средний | R-x(2)-H-x-H-x(4)-E-x(6)-G | 29 | 26,06 | 1 - Bacillus subtilis |
Сильный | R-[EQ]-x-H-[FW]-H-x(5)-E-[LMW]-x-[CYFM]-x(3)-G | 2 | 0,0019 | 1 - Bacillus subtilis |
При всех трёх операциях поиска не было найдено ни одной последовательности из выравнивания, за исключением
собственно OXDC_BACSU. Скорее всего, это связано с отсутствием этих записей в банке Swissprot. Последовательности из выравнивания представляют
собой в основном результаты геномных проектов, в связи с этим для многие белки из выравнивания в банке Refseq не
были идентифицированы как оксалат-декарбоксилазы и не имели указаний на функцию в записях, большая часть записей была неотрецензированной.
Не нашлось гомологов не только в дальних таксонах, но и в роде Bacillus (за исключением паралога - оксалат-декарбоксилазы OxdD). Возможно, больших успехов можно было бы добиться, проводя поиск
также и в базе TrEMBL
Число хитов, сильно превосходящее теоретическое, в случае очень слабого паттерна может объясняться тем, что паттерн предполагает расположение заряженных аминокислот
достаточно близко в последовательности, два гистидина, например, часто что-нибудь координируют; ну или чем-нибудь ещё.
Поиск всех мотивов PROSITE в последовательности OXDC_BACSU
Был произведён поиск всех мотивов (паттернов, которые характеризуют возможность белка иметь какую-либо особенность, например модифицироваться каким-либо ферментом, с чем-нибудь связываться, обладать какой-либо ферментативной активностью или характерным элементом структуры), записи о которых имеются в банке PROSITE. Результаты представлены в таблице 2.
Табл. 2 Мотивы в OXDC_BACSU
Идентификатор документа Prosite (AC) | Название мотива | Краткое описание мотива | Тип подписи (паттерн, профиль) | Паттерн | Специфична ли подпись? | Сколько мотивов нашлось в белке? |
PS00016 | RGD | Последовательность клеточной адгезии | паттерн | R-G-D | неспецифична | 1 |
PS00005 | PKC_PHOSPHO_SITE | Сайт фосфорилирования киназой C | паттерн | [ST]-x-[RK] | неспецифична | 7 |
PS00008 | MYRISTYL | Сайт N-миристоилирования | паттерн | G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} | неспецифична | 2 |
PS00006 | CK2_PHOSPHO_SITE | Сайт фосфорилирования казеинкиназой II | паттерн | [ST]-x(2)-[DE] | неспецифична | 8 |
PS00007 | TYR_PHOSPHO_SITE | Сайт фосфорилирования тирозинкиназами | паттерн | [RK]-x(2)-[DE]-x(3)-Y или [RK]-x(3)-[DE]-x(2)-Y | неспецифична | 1 |
PS00029 | LEUCINE_ZIPPER | Лейциновая молния | паттерн | L-x(6)-L-x(6)-L-x(6)-L | неспецифична | 1 |
PS00001 | ASN_GLYCOSYLATION | Сайт N-гликозилирования | паттерн | N-{P}-[ST]-{P} | неспецифична | 1 |
PS00004 | CAMP_PHOSPHO_SITE | Сайт фосфорилирования цАМФ- и цГМФ-зависимыми киназами | паттерн | [RK](2)-x-[ST] | неспецифична | 1 |
Комментарии к таблице: Все обнаруженные мотивы являются неспецифическими - характерны для большого числа белков, имеют простое устройство
и потому большую вероятность попасться в случайном белке. Некоторые из найденных мотивов не могут иметь функциональную значимость, так как
представляют собой возможные сайты модификации эукариотическими ферментами.
Лейциновая молния - паттерн, играющий важную роль в стабилизации формы белка за счёт гидрофобных взаимодействий.
Для хорошо изученных семейств белков (к которым наша оксалат-декарбоксилаза OxdC не относится)
известны свои характерные (специфичные) мотивы, которым тоже соответстуют записи в PROSITE.
Гомологичность обнаруженных с использованием паттернов белков
С целью проверить, являются ли найденные последовательности гомологами, было построено программой MUSCLE их множественное выравнивание (рис.1). Это было сделано для последовательностей паттерна "средней" силы. Никакого значимого сходства между оксалат-декарбоксилазой и найденными белками не обнаружено (за исключением OxdD, паралога), последовательности не выравниваются по паттерну. Некоторые из них явно гомологичны между собой.
Рис.1 Выравнивание последовательностей, полученных поиском по "среднему" паттерну (кликабельно)
Сравнение гипотетического числа мотивов с реальным числом найденных последовательностей
Для всех четырёх паттернов, построенных по выравниванию гомологов OXDC_BACSU, было посчитано число последовательностей, которые могли бы им соответствовать (табл. 3).Табл. 3
Паттерн | Число теоретически соотвествующих ему последовательностей |
R-x(2)-H-x-H-x(4)-E | 109 |
[EQ]-x-H-x-H-x(4)-E-[LMW] | 4*108 |
R-x(2)-H-x-H-x(4)-E-x(6)-G | 8*1016 |
R-[EQ]-x-H-[FW]-H-x(4)-E-[LMW]-x-[CYFM]-x(3)-G | 2*1013 |
Эти числа больше числа записей в Swissprot. Однако, если мы сравним их с реальным числом находок, станет понятно, что даже в "бесконечно большой" выборке белков часть последовательностей наверняка не реализуется, потому как они - вовсе не случайный набор аминокислот. Некоторые структуры могут не встречаться в живых организмах, например, из-за стерических затруднений. Или от того, что такая последовательность не несёт никакого функционального смысла. Или могла бы нести, но никогда не появлялась в результате мутаций. Может быть тут, как и в случае анатомических приспособлений, есть запрещённые состояния, несовместимые с существованием организма?
В общем, странно было бы ожидать от биообъектов всё возможное разнообразие белковых последовательностей.