"drink"
Мы знаем частоты встречаемости каждой аминокислоты в банке Swiss-Prot. Поэтому мы без труда сможем посчитать вероятность появления слова "drink" в Swiss-Prot, перемножив эти величины:
P = 0.0545*0.0553*0.0596*0.0406*0.0584 ~4.26*10-7
Зная общее количество аминокислотных остатков во всём банке Swiss-Prot и вероятность появления слова, несложно узнать, сколько раз должно встретиться искомое слово:
N = 4.26*10-7 * 191670831 = 81.63 ~ 82 раза
С помощью PROSITE найдем число, соответсвующее реальному появлению слова "drink" в Swiss-Prot, для чего нужно воспользоваться паттерном D-R-I-N-K
. Итого, 83 мотива в 83 записях.
Как видно на данном примере,- результат полученный теоретически и на практике практически не отличимы, что говорит о том, что белковые последовательности построены случайным образом.
Для создания сильного и слабого паттернов было использовано множественное выравнивание из практикума №8, в котором были окрашены аминокислоты с выставленым в JalView уровнем консервативности 100%. Опираясь на полученную картину (ссылка на картинку) построен паттерн - результат его применения представлен в таблице 1.
Таблица 1. Результаты поиска гомологов по паттернам. | |||
---|---|---|---|
Характеристика паттерна | Паттерн | В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? | Все ли последовательности из вашего выравнивания найдены? (если нет, то сколько) |
Сильный | [LI]-[LIV]-[AV]-[AV]-x(2)-P-C-[LMY] | 15 | нет (только TENA_BACSU) |
Слабый | [LCFWA]-x(3,5)-[CLVFA]-x(5,11)-[WIAY]-x(6,8)-P-F-x(4,7)-G-[TSEVA]-x(0,2)-[IL]-x(3,6)-[FL]-x(4,6)-Q | 203 | нет (всего 3) |
Как видно из таблицы, далеко не все белки, по которым строились паттерны, найдены. Одной из причин того, что найдены не все белки является то, что данные об исходных белках брались из банка данных Reference Sequences, а поиск осуществлялся по банку Swiss-Prot.
Второй запрос действительно является более слабым, по сравнению с первым, расстояние в последовательности аминокислот указывалось не так строго (-x(5,11)), да и вариантов аминокислот, которые могли находиться на той или иной позиции было гораздо больше ([CLVFA]).
На сервере ExPASy через Prosite был проведён поиск имеющихся в их банке данных мотивов в белке TENA_BACSU. Ни одного "специфичного" мотива обнаружено не было. Результаты представлены в таблице 2.
Таблица 2. Поиск мотивов в белке TENA_BACSU. | ||||||
---|---|---|---|---|---|---|
Идентификатор документа Prosite | Название мотива | Краткое описание мотива | Тип подписи | Паттерн | Специфична ли подпись? | Сколько мотивов нашлось в белке? |
PS00008 | MYRISTYL | Сайт N-миристоилирования | Паттерн | G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} | Неспецифична | 4 |
PS00005 | PKC_PHOSPHO_SITE | Сайт фосфорилирования протеинкиназы С | Паттерн | [ST]-x-[RK] | Неспецифична | 1 |
PS00006 | CK2_PHOSPHO_SITE | Сайт фосфорилирования казеинкиназы II | Паттерн | [ST]-x(2)-[DE] | Неспецифична | 3 |
PS00001 | ASN_GLYCOSYLATION | Сайт N-гликозилирования | Паттерн | N-{P}-[ST]-{P} | Неспецифична | 1 |