PROSITE

Содержит ли Swiss-Prot слово "drink"

Теоретическое предсказание

Мы знаем частоты встречаемости каждой аминокислоты в банке Swiss-Prot. Поэтому мы без труда сможем посчитать вероятность появления слова "drink" в Swiss-Prot, перемножив эти величины:
P = 0.0545*0.0553*0.0596*0.0406*0.0584 ~4.26*10-7
Зная общее количество аминокислотных остатков во всём банке Swiss-Prot и вероятность появления слова, несложно узнать, сколько раз должно встретиться искомое слово:
N = 4.26*10-7 * 191670831 = 81.63 ~ 82 раза

Встречаемость на практике

С помощью PROSITE найдем число, соответсвующее реальному появлению слова "drink" в Swiss-Prot, для чего нужно воспользоваться паттерном D-R-I-N-K. Итого, 83 мотива в 83 записях.

Как видно на данном примере,- результат полученный теоретически и на практике практически не отличимы, что говорит о том, что белковые последовательности построены случайным образом.

Поиск вероятных гомологов белка TENA_BACSU в банке SwissProt с помощью паттернов

Для создания сильного и слабого паттернов было использовано множественное выравнивание из практикума №8, в котором были окрашены аминокислоты с выставленым в JalView уровнем консервативности 100%. Опираясь на полученную картину (ссылка на картинку) построен паттерн - результат его применения представлен в таблице 1.

Таблица 1. Результаты поиска гомологов по паттернам.
Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из вашего выравнивания найдены? (если нет, то сколько)
Сильный [LI]-[LIV]-[AV]-[AV]-x(2)-P-C-[LMY] 15 нет (только TENA_BACSU)
Слабый [LCFWA]-x(3,5)-[CLVFA]-x(5,11)-[WIAY]-x(6,8)-P-F-x(4,7)-G-[TSEVA]-x(0,2)-[IL]-x(3,6)-[FL]-x(4,6)-Q 203 нет (всего 3)

Как видно из таблицы, далеко не все белки, по которым строились паттерны, найдены. Одной из причин того, что найдены не все белки является то, что данные об исходных белках брались из банка данных Reference Sequences, а поиск осуществлялся по банку Swiss-Prot.

Второй запрос действительно является более слабым, по сравнению с первым, расстояние в последовательности аминокислот указывалось не так строго (-x(5,11)), да и вариантов аминокислот, которые могли находиться на той или иной позиции было гораздо больше ([CLVFA]).

Поиск всех мотивов PROSITE в последовательности белка TENA_BACSU

На сервере ExPASy через Prosite был проведён поиск имеющихся в их банке данных мотивов в белке TENA_BACSU. Ни одного "специфичного" мотива обнаружено не было. Результаты представлены в таблице 2.

Таблица 2. Поиск мотивов в белке TENA_BACSU.
Идентификатор документа Prosite Название мотива Краткое описание мотива Тип подписи Паттерн Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00008 MYRISTYL Сайт N-миристоилирования Паттерн G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} Неспецифична 4
PS00005 PKC_PHOSPHO_SITE Сайт фосфорилирования протеинкиназы С Паттерн [ST]-x-[RK] Неспецифична 1
PS00006 CK2_PHOSPHO_SITE Сайт фосфорилирования казеинкиназы II Паттерн [ST]-x(2)-[DE] Неспецифична 3
PS00001 ASN_GLYCOSYLATION Сайт N-гликозилирования Паттерн N-{P}-[ST]-{P} Неспецифична 1
© Nosikova Kate, 2012