Упражнение 1: в поисках паттерна
Вспомним множественное выравнивание из прошлого занятия:
Сразу на себя обращают внимание остатки 70—81, образующие какую-то невероятно консервативную группировку. Напрашивается такой незамысловатый паттерн: LVYGG-x(3)-GLMG
1e-10
и тоже по SwissProt находит 24. В голову закрадывается предчувствие и... да: 23 белка, найденные PROSITE — это ровно те же самые, которые находит BLAST (кроме одного, об этом чуть ниже). Это, собственно:
- YVDD_BACSU (сенная палочка)
- Y4923_PSEAE (синегнойная палочка)
- YJF5_YEAST (дрожжи)
- FAS6_RHOFA (Rhodococcus fascians)
- 11 белков из азиатского риса: LOG_ORYSJ, LOGL1_ORYSJ, ..., LOGL9_ORYSJ, LOGLA_ORYSJ
- 8 белков из арабидопсиса: LOG1_ARATH, ..., LOG8_ARATH
Разница в один белок — это LOG9_ARATH, который находит BLAST, но не находит PROSITE, и вот почему: по какой-то причине последовательность LOG9_ARATH начинается с места, соответствующего 145-й позиции множественного выравнивания. Паттерн остался далеко вначале. Возможно, это не баг, а фича, то есть нормальное эволюционное изменение; возможно, какая-то ошибка закралась в SwissProt. Это сейчас неважно, главное, что цель фактически достигнута с первой попытки — упражнение можно заканчивать.
...шутка :-) Ведь один-то белок не попался на наш паттерн, что же, махнуть на него рукой теперь? Поищем паттерны в той части множественного выравнивания, в которую входит и эта уполовиненная версия белка. Возьмем участок 166—174, паттерн PGGxGTxEE
Но все-таки попытаемся добить паттерн, чтобы туда таки вошел этот неуловимый белок. В третий раз закинем невод — возьмем остатки 181—194, которые идеально походят для создания слабого паттерна. Он будет таков: Wx[QH][ILV]GxHxK
W{FYWPHRK}[QH][LIV][GR][LIVY]HxK
(этот условно будем считать «средним»). По нему наконец-то нашлись все 24 белка — явных гомолога. (Те четыре, из кишечной палочки и шигеллы, все-таки в расчет брать не стоит, я думаю, слишком уж они непохожи.) Пояснения он не требует, кроме, разве что, второй позиции. Разнобой в буквах во множественном выравнивании COBALT был немал: A, C, S, G, и я подумал, что, поскольку у всех них небольшой радикал, то, может быть, позиция эта не так важна сама по себе, просто что-то мешает воткнуть туда радикал побольше, и поэтому исключил оттуда все аминокислоты с более-менее заметными радикалами. Что интересно, когда я уже после этого проверил модель YVDD_BACSU, некоторое обоснование у этого предположения нашлось: в этом месте в белке расположен реверсивный поворот, и большой радикал действительно бы упирался в ближайшую альфа-спираль. Красным отмечен 121-й остаток (здесь — аланин), желтым — радикал и сиреневым — соседняя альфа-спираль:
Сводная таблица:
Тип паттерна | Паттерн | Нашлось белков из SwissProt | Соотношение с выравниванием [6] | Соотношение с выдачей BLAST [24] |
Фрагмент последовательности | LVYGG-x(3)-GLMG | 23 | все | 23/24, лишних нет |
Средний | W{FYWPHRK}[QH][LIV][GR][LIVY]HxK | 24 | все | все, лишних нет |
Слабый | PGGxGTxEE | 27 | все | 23/24, 4 условно «лишних»: малая схожесть, хотя в описании и указано то же семейство |
Теперь подсчитаем, сколько бы раз, например, «средний» паттерн встретился в рандомизированном банке размером с SwissProt. Для этого перемножим вероятности встречи каждого остатка с учетом их процентного распределения и размер базы (статистика):
189901164 остатков ×
Проверка в PROSITE с опцией «shuffled», конечно, тоже не оставляет от случайности камня на камне: не находится ровным счетом ничего.
Упражнение 2: мотивы из PROSITE
К сожалению, ни одного специфичного мотива в моем белке нет. Это печально. Но есть хотя бы шесть неспецифичных паттернов:
AC | Название | Краткое описание | Паттерн | Количество |
PS00008 | MYRISTYL | N-myristoylation site сайт N-миристоилирования | G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} G — сайт миристоилирования | 10 |
PS00007 | TYR_PHOSPHO_SITE | Tyrosine kinase phosphorylation site сайт фосфорилирования тирозинкиназой | [RK]-x(2)-[DE]-x(3)-Y или [RK]-x(3)-[DE]-x(2)-Y Y — сайт фосфорилирования | 1 |
PS00006 | CK2_PHOSPHO_SITE | Casein kinase II phosphorylation site сайт фосфорилирования | [ST]-x(2)-[DE] [ST] — сайт фосфорилирования | 4 |
PS00001 | ASN_GLYCOSYLATION | N-glycosylation site сайт N-гликозилирования | N-{P}-[ST]-{P} N — сайт гликозилирования | 3 |
PS00005 | PKC_PHOSPHO_SITE | Protein kinase C phosphorylation site сайт фосфорилирования | [ST]-x-[RK] [ST] — сайт фосфорилирования | 1 |
PS00004 | CAMP_PHOSPHO_SITE | cAMP- and cGMP-dependent protein kinase phosphorylation site сайт фосфорилирования cAMP/cGMP-зависимой протеинкиназой | [RK](2)-x-[ST] [ST] — сайт фосфорилирования | 1 |