PROSITE позволяет искать в БД паттерны, выделенные в последовательностях. Простейший паттерн - это идущие подряд знаки (слово). Посмотрим, сколько раз встречается в БД SwissProt слово "dance".
Теоретически это вероятность такого сочетания букв в таком порядке (произведение частот встречаемости аминокислот D,A,N,C,E делить на 5!), умноженная на количество остатков в БД. Расчеты в excel показывают, что это число равно 0,269635. То есть такое сочетание не должно встречаться. Тем не менее паттерн D-A-N-C-E встречается в шести белках.
Теперь мы будем искать не слова, а вероятные гомологи белка с ID QUEC_BACSU. Результаты поиска представлены в табл. 1.
Харктеристика паттерна | Паттерн | В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? | Все ли последовательности из вашего выравнивания найдены? (если нет, то сколько) |
Сильный | D-S-x(17,22)-Y-x(1)-Q-x(3,6)-E-x(55,75)-R-N-x(28,30)-Y-P-D-x(30,41)-K | 285 | 1 |
Слабый | D-S-X(17,25)-Y-X(1)-Q-[RL]-X(3,5)-E | 618 | 1 |
Табл. 1. Результаты поиска гомологов белка по различным паттернам. Столь малое количество гомологов среди находок, вероятно, связано с выбором БД (выравнивание строилось по RefSeq, а паттерн искал по SwissProt).
Выравнивания, по которым строились паттерны: ccылка.
Результаты поиска мотивов Prosite в белке зафиксированы в табл. 2.
Идентификатор документа Prosite (AC) | Название мотива | Краткое описание мотива | Тип подписи | Паттерн | Специфична ли подпись? | Сколько мотивов нашлось в белке? |
PS00008 | MYRISTYL | Сайт N-миристоилирования | Паттерн | G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} | Нет | 3 |
PS00006 | CK2_PHOSPHO_SITE | Сайт фосфорилирования казеин-киназы II | Паттерн | [ST]-x(2)-[DE] | Нет | 2 |
PS00001 | ASN_GLYCOSYLATION | Сайт N-гликозилирования | Паттерн | N-{P}-[ST]-{P} | Нет | 2 |
PS00005 | PKC_PHOSPHO_SITE | Сайт фосфорилирования протеин-киназы С | Паттерн | [ST]-x-[RK] | Нет | 1 |
Табл. 2. Мотивы, встрчающиеся в белке QUEC_BACSU.