Учебный сайт Кирилла Цуканова → Второй семестр

Паттерны и банк PROSITE

Упражнение 1: в поисках паттерна

Вспомним множественное выравнивание из прошлого занятия:

Сразу на себя обращают внимание остатки 70—81, образующие какую-то невероятно консервативную группировку. Напрашивается такой незамысловатый паттерн: LVYGG-x(3)-GLMG (это будет первый паттерн — «фрагмент последовательности»). Запустим поиск в PROSITE (по SwissProt); он находит 23 белка. BLAST с отсечением e-value 1e-10 и тоже по SwissProt находит 24. В голову закрадывается предчувствие и... да: 23 белка, найденные PROSITE — это ровно те же самые, которые находит BLAST (кроме одного, об этом чуть ниже). Это, собственно:

Разница в один белок — это LOG9_ARATH, который находит BLAST, но не находит PROSITE, и вот почему: по какой-то причине последовательность LOG9_ARATH начинается с места, соответствующего 145-й позиции множественного выравнивания. Паттерн остался далеко вначале. Возможно, это не баг, а фича, то есть нормальное эволюционное изменение; возможно, какая-то ошибка закралась в SwissProt. Это сейчас неважно, главное, что цель фактически достигнута с первой попытки — упражнение можно заканчивать.

...шутка :-) Ведь один-то белок не попался на наш паттерн, что же, махнуть на него рукой теперь? Поищем паттерны в той части множественного выравнивания, в которую входит и эта уполовиненная версия белка. Возьмем участок 166—174, паттерн PGGxGTxEE (условно назовем его «слабым»). Теперь PROSITE выдает уже 27 результатов: 23 прежних и 4 новых. К сожалению, LOG9_ARATH опять не попал в выдачу, потому что именно этот консервативный участок у него одного неожиданного оказался совершенно неконсервативным (да что ж такое!). Зато попались четыре новых белка, которых раньше не было (и которые совершенно отказывается находить BLAST даже при самых либеральных параметрах): три из кишечной палочки — YGDH_ECO57, YGDH_ECOL6, YGDH_ECOLI — и один из шигеллы Флекснера, возбудителя дизентерии: YGDH_SHIFL. Для всех этих белков в описании указано, что они относятся к семейству LOG, то есть к тому же, что и все ранее исследованные белки. Наконец-то паттерн принес плоды: мы нашли четыре новых белка, относящихся к тому же семейству, хотя BLAST их не находил (и, в принципе, правильно делал, в остальном белки с нашими очень несхожи).

Но все-таки попытаемся добить паттерн, чтобы туда таки вошел этот неуловимый белок. В третий раз закинем невод — возьмем остатки 181—194, которые идеально походят для создания слабого паттерна. Он будет таков: Wx[QH][ILV]GxHxK. Вновь 23 результата: LOG9_ARATH теперь нашелся, зато отвалился LOGL5_ORYSJ (а-а-а!). В конце концов я не выдержал, построил множественное выравнивание всего, что находит BLAST, его средствами (COBALT) и построил адский паттерн (соответствует позициям 181—189 множественного выравнивания выше): W{FYWPHRK}[QH][LIV][GR][LIVY]HxK (этот условно будем считать «средним»). По нему наконец-то нашлись все 24 белка — явных гомолога. (Те четыре, из кишечной палочки и шигеллы, все-таки в расчет брать не стоит, я думаю, слишком уж они непохожи.) Пояснения он не требует, кроме, разве что, второй позиции. Разнобой в буквах во множественном выравнивании COBALT был немал: A, C, S, G, и я подумал, что, поскольку у всех них небольшой радикал, то, может быть, позиция эта не так важна сама по себе, просто что-то мешает воткнуть туда радикал побольше, и поэтому исключил оттуда все аминокислоты с более-менее заметными радикалами. Что интересно, когда я уже после этого проверил модель YVDD_BACSU, некоторое обоснование у этого предположения нашлось: в этом месте в белке расположен реверсивный поворот, и большой радикал действительно бы упирался в ближайшую альфа-спираль. Красным отмечен 121-й остаток (здесь — аланин), желтым — радикал и сиреневым — соседняя альфа-спираль:

Сводная таблица:

Тип паттернаПаттернНашлось белков из SwissProtСоотношение с выравниванием [6]Соотношение с выдачей BLAST [24]
Фрагмент последовательностиLVYGG-x(3)-GLMG23все23/24, лишних нет
СреднийW{FYWPHRK}[QH][LIV][GR][LIVY]HxK24всевсе, лишних нет
СлабыйPGGxGTxEE27все23/24, 4 условно «лишних»: малая схожесть, хотя в описании и указано то же семейство

Теперь подсчитаем, сколько бы раз, например, «средний» паттерн встретился в рандомизированном банке размером с SwissProt. Для этого перемножим вероятности встречи каждого остатка с учетом их процентного распределения и размер базы (статистика):

189901164 остатков × [ W=1.08% ] × [ !FYWPHRK=52.87% ] × [ QH=6.2% ] × [ LIV=18.55% ] × [ GR=12.61 ] × [ LIVY=21.47% ] × [ H=2.27% ] × [ K=5.84 ] = 0.44 последовательности :-) Как видно, все эти белки очень даже неслучайны. Спасибо эволюции ^___^

Проверка в PROSITE с опцией «shuffled», конечно, тоже не оставляет от случайности камня на камне: не находится ровным счетом ничего.

Упражнение 2: мотивы из PROSITE

К сожалению, ни одного специфичного мотива в моем белке нет. Это печально. Но есть хотя бы шесть неспецифичных паттернов:

ACНазваниеКраткое описаниеПаттернКоличество
PS00008MYRISTYLN-myristoylation site
сайт N-миристоилирования
G-{EDRKHPFYW}-x(2)-[STAGCN]-{P}
G — сайт миристоилирования
10
PS00007TYR_PHOSPHO_SITETyrosine kinase phosphorylation site
сайт фосфорилирования тирозинкиназой
[RK]-x(2)-[DE]-x(3)-Y или [RK]-x(3)-[DE]-x(2)-Y
Y — сайт фосфорилирования
1
PS00006CK2_PHOSPHO_SITECasein kinase II phosphorylation site
сайт фосфорилирования казеинкиназой 2
[ST]-x(2)-[DE]
[ST] — сайт фосфорилирования
4
PS00001ASN_GLYCOSYLATIONN-glycosylation site
сайт N-гликозилирования
N-{P}-[ST]-{P}
N — сайт гликозилирования
3
PS00005PKC_PHOSPHO_SITEProtein kinase C phosphorylation site
сайт фосфорилирования протеинкиназой C
[ST]-x-[RK]
[ST] — сайт фосфорилирования
1
PS00004CAMP_PHOSPHO_SITEcAMP- and cGMP-dependent protein kinase phosphorylation site
сайт фосфорилирования cAMP/cGMP-зависимой протеинкиназой
[RK](2)-x-[ST]
[ST] — сайт фосфорилирования
1