Паттерны и банк PROSITE

Паттерны и банк PROSITE


Задание 1

Теоретически слово camel может встретиться в банке SwissProt 34 раза.

Для вычисления необходимо знать частоты встречаемости аминокислотных остатков соответствующих буквам заданного слова (C = 1.37, A = 8.25, M=2.42, E = 6.75, L = 9.66). Вероятность нахождения слова camel равна 0.0137*0.0825*0.0242*0.0675*0.0966 = 1.78e-7, умножая на общее количество слов (191670831) получаем искомую величину, равную 34,18.

Слово camel встречается в SwissProt ровно 100 раз.

Вероятность того, что это слово встретится в базе данных равна 1.78e-7.

Слово camel встречается в базе с большей частотой, чем ожидалось.

Задание 2. Поиск вероятных гомологов белка PDXK_BACSU в банке SwissProt с помощью паттернов

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из вашего выравнивания найдены?
Сильный [DQ]-x(2)-K-[TI]-G-M-L-x(20,23)-V-x(1)-D-P-V-M 7 3 из 10
Слабый Q-x(13,15)-K-x(1)-G-M-L 94 Все

Задание 3. Поиск всех мотивов PROSITE в последовательности белка PDXK_BACSU

Идентификатор документа Prosite (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (если это паттерн) Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00008 MYRISTYL N-myristoylation site PATTERN G-{EDRKHPFYW}-x(2)-[STAGCN]-{P}[GistheN-myristoylationsite] неспецифична 4
PS00007 TYR_PHOSPHO_SITE Tyrosine kinase phosphorylation site PATTERN [RK]-x(2)-[DE]-x(3)-Yor[RK]-x(3)-[DE]-x(2)-Y неспецифична 3
PS00006 CK2_PHOSPHO_SITE Casein kinase II phosphorylation site PATTERN [ST]-x(2)-[DE][SorTisthephosphorylationsite] неспецифична 5
PS00001 ASN_GLYCOSYLATION N-glycosylation site PATTERN N-{P}-[ST]-{P} неспецифична 1
PS00005 PKC_PHOSPHO_SITE Protein kinase C phosphorylation site PATTERN [ST]-x-[RK] неспецифична 2