Паттерны и банк PROSITE
Для начала нужно рассчитать вероятность нахождения слова china в банке. Это делается путем перемножения частот встречаемости аминокислот, соответствующих данному слову. Итак, частоты встречаемости цистеина(C), гистидина(H), изолейцина(I), аспарагина(N) и аланина(А) равны 1.37, 2.27, 5.96, 4.06, 8.25 соответственно. Перемножая их, получаем:
0.0137*0.0227*0.0596*0.0406*0.0825 = 0.62*10-7.
Зная вероятность появления данного слова и общее количество аминокислотных остатков в банке, можно узнать, сколько раз слово china встречается в банке SwissProt:
0.62*10-7 * 191670831 = 11,88
Таким образом, теоритически слово china встречается 12 раз.
А теперь узнаем, сколько раз слово china действительно встречается в банке SwissProt. Для этого используем паттерн C-H-I-N-A и получим 24 мотива, содержащихся в 28-и последовательностях, то есть некоторые из мотивов повторяются.
Для создания паттернов было проанализировано множественное выравнивание гомологичных белков из предыдущего практикума. Используемое выравнивание представлено в fasta-формате: alignment.fasta. Таким образом, были созданы сильный и слабый паттерн, по которым проводился поиск вероятных гомологов белка URHG2_BACSU. Результаты поиска представлены в табл.1.
Табл.1. Результаты поиска гомологов по паттернам.
Характеристика паттерна | Паттерн | В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? | Все ли последовательности из вашего выравнивания найдены? (если нет, то сколько) |
Сильный | E-[AST]-S-x-[TS]-x(4)-Y-x(4)-G-x(4)-[YLI] | 5 | нет |
Слабый | E-[AST]-S-x-[TS]-x(2,4)-[YF]-x(1,4)-[GA]-x(3,4)-[YLI] | 459 | нет |
Был проведен поиск мотивов в белке URHG2_BACSU. Всего было найдено 6 мотивов. Информация о них представлена в табл.2.
Табл.2. Результаты поиска мотивов белка URHG2_BACSU.
Идентификатор документа Prosite (AC) | Название мотива | Краткое описание мотива | Тип подписи (паттерн, профиль) | Паттерн (если это паттерн) | Специфична ли подпись? | Сколько мотивов нашлось в белке |
PS00006 | CK2_PHOSPHO_SITE | Сайт фосфорилирования казеинкиназы II | Паттерн | [ST]-x(2)-[DE] | неспецифична | 8 |
PS00008 | MYRISTYL | Сайт N-миристоилирования | Паттерн | G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} | неспецифична | 5 |
PS00029 | LEUCINE_ZIPPER | Образует лейциновую молнию | Паттерн | L-x(6)-L-x(6)-L-x(6)-L | неспецифична | 1 |
PS00001 | ASN_GLYCOSYLATION | Сайт N-гликозилирования | Паттерн | N-{P}-[ST]-{P} | неспецифична | 1 |
PS00004 | CAMP_PHOSPHO_SITE | Сайт фосфорилирования цАМФ- и цГМФ-зависимой протеинкиназы | Паттерн | [RK](2)-x-[ST] | неспецифична | 1 |
PS00007 | TYR_PHOSPHO_SITE | Сайт фосфорилирования тирозинкиназы | Паттерн | [RK]-x(2)-[DE]-x(3)-Yor[RK]-x(3)-[DE]-x(2)-Y | неспецифична | 1 |