Паттерны и банк PROSITE
Задание 1
Теоретически слово camel может встретиться в банке SwissProt 34 раза.
Для вычисления необходимо знать частоты встречаемости аминокислотных остатков соответствующих буквам заданного слова (C = 1.37, A = 8.25, M=2.42, E = 6.75, L = 9.66). Вероятность нахождения слова camel равна 0.0137*0.0825*0.0242*0.0675*0.0966 = 1.78e-7, умножая на общее количество слов (191670831) получаем искомую величину, равную 34,18.
Слово camel встречается в SwissProt ровно 100 раз.
Вероятность того, что это слово встретится в базе данных равна 1.78e-7.
Слово camel встречается в базе с большей частотой, чем ожидалось.
Задание 2. Поиск вероятных гомологов белка PDXK_BACSU в банке SwissProt с помощью паттернов
Характеристика паттерна | Паттерн | В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? | Все ли последовательности из вашего выравнивания найдены? |
Сильный | [DQ]-x(2)-K-[TI]-G-M-L-x(20,23)-V-x(1)-D-P-V-M | 7 | 3 из 10 |
Слабый | Q-x(13,15)-K-x(1)-G-M-L | 94 | Все |
Задание 3. Поиск всех мотивов PROSITE в последовательности белка PDXK_BACSU
Идентификатор документа Prosite (AC) | Название мотива | Краткое описание мотива | Тип подписи (паттерн, профиль) | Паттерн (если это паттерн) | Специфична ли подпись? | Сколько мотивов нашлось в белке? |
PS00008 | MYRISTYL | N-myristoylation site | PATTERN | G-{EDRKHPFYW}-x(2)-[STAGCN]-{P}[GistheN-myristoylationsite] | неспецифична | 4 |
PS00007 | TYR_PHOSPHO_SITE | Tyrosine kinase phosphorylation site | PATTERN | [RK]-x(2)-[DE]-x(3)-Yor[RK]-x(3)-[DE]-x(2)-Y | неспецифична | 3 |
PS00006 | CK2_PHOSPHO_SITE | Casein kinase II phosphorylation site | PATTERN | [ST]-x(2)-[DE][SorTisthephosphorylationsite] | неспецифична | 5 |
PS00001 | ASN_GLYCOSYLATION | N-glycosylation site | PATTERN | N-{P}-[ST]-{P} | неспецифична | 1 |
PS00005 | PKC_PHOSPHO_SITE | Protein kinase C phosphorylation site | PATTERN | [ST]-x-[RK] | неспецифична | 2 |