Паттерны и банк PROSITE

  1. Содержит ли SwissProt слово "china"

    Для начала нужно рассчитать вероятность нахождения слова china в банке. Это делается путем перемножения частот встречаемости аминокислот, соответствующих данному слову. Итак, частоты встречаемости цистеина(C), гистидина(H), изолейцина(I), аспарагина(N) и аланина(А) равны 1.37, 2.27, 5.96, 4.06, 8.25 соответственно. Перемножая их, получаем:

    0.0137*0.0227*0.0596*0.0406*0.0825 = 0.62*10-7.

    Зная вероятность появления данного слова и общее количество аминокислотных остатков в банке, можно узнать, сколько раз слово china встречается в банке SwissProt:

    0.62*10-7 * 191670831 = 11,88

    Таким образом, теоритически слово china встречается 12 раз.

    А теперь узнаем, сколько раз слово china действительно встречается в банке SwissProt. Для этого используем паттерн C-H-I-N-A и получим 24 мотива, содержащихся в 28-и последовательностях, то есть некоторые из мотивов повторяются.

  2. Поиск вероятных гомологов белка URHG2_BACSU в банке SwissProt с помощью паттернов

    Для создания паттернов было проанализировано множественное выравнивание гомологичных белков из предыдущего практикума. Используемое выравнивание представлено в fasta-формате: alignment.fasta. Таким образом, были созданы сильный и слабый паттерн, по которым проводился поиск вероятных гомологов белка URHG2_BACSU. Результаты поиска представлены в табл.1.

    Табл.1. Результаты поиска гомологов по паттернам.

    Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из вашего выравнивания найдены? (если нет, то сколько)
    Сильный E-[AST]-S-x-[TS]-x(4)-Y-x(4)-G-x(4)-[YLI] 5 нет
    Слабый E-[AST]-S-x-[TS]-x(2,4)-[YF]-x(1,4)-[GA]-x(3,4)-[YLI] 459 нет
  3. Поиск всех мотивов PROSITE в последовательности белка URHG2_BACSU

    Был проведен поиск мотивов в белке URHG2_BACSU. Всего было найдено 6 мотивов. Информация о них представлена в табл.2.

    Табл.2. Результаты поиска мотивов белка URHG2_BACSU.

    Идентификатор документа Prosite (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (если это паттерн) Специфична ли подпись? Сколько мотивов нашлось в белке
    PS00006 CK2_PHOSPHO_SITE Сайт фосфорилирования казеинкиназы II Паттерн [ST]-x(2)-[DE] неспецифична 8
    PS00008 MYRISTYL Сайт N-миристоилирования Паттерн G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} неспецифична 5
    PS00029 LEUCINE_ZIPPER Образует лейциновую молнию Паттерн L-x(6)-L-x(6)-L-x(6)-L неспецифична 1
    PS00001 ASN_GLYCOSYLATION Сайт N-гликозилирования Паттерн N-{P}-[ST]-{P} неспецифична 1
    PS00004 CAMP_PHOSPHO_SITE Сайт фосфорилирования цАМФ- и цГМФ-зависимой протеинкиназы Паттерн [RK](2)-x-[ST] неспецифична 1
    PS00007 TYR_PHOSPHO_SITE Сайт фосфорилирования тирозинкиназы Паттерн [RK]-x(2)-[DE]-x(3)-Yor[RK]-x(3)-[DE]-x(2)-Y неспецифична 1