Известно частота (переводится в доли), с которой встречается каждый аминокислотный остаток в данном банке (в процентах значения приведены в таблице 1). Перемножим эти частоты (1,2 *10-7) и домножим на число всех аминокислотных остатков в Swiss-Prot (191670831), чтобы найти вероятность появления данного слова в банке Swiss-Prot.
Таблица 1. Таблица с частотами встречаемости (в процентах) каждой аминокислоты в банке Swiss-Prot.
Ala | (A) | 45870 | Gln | (Q) | 34029 | Leu | (L) | 24351 | Ser | (S) |
Arg | (R) | 19480 | Glu | (E) | 27546 | Lys | (K) | 30803 | Thr | (T) |
Asn | (N) | 41429 | Gly | (G) | 41462 | Met | (M) | 15373 | Trp | (W) |
Asp | (D) | 16558 | His | (H) | 46419 | Phe | (F) | 31472 | Tyr | (Y) |
Cys | (C) | 13516 | Ile | (I) | 35186 | Pro | (P) | 25659 | Val | (V) |
Эта вероятность равна 22.090807, то есть слово magic встречается около 22 раз.
С помощью Prosite определяем, сколько таких результатов, на самом деле. Для этого проводим поиск по паттерну M-A-G-I-C. Немного магии… И был получен 21 результат, что почти совпадает с предсказанным теоретически.
При создании паттернов можно задавать неизменяющиеся аминокислотные остатки, остатки по выбору из каких-либо заданных, любые остатки и промежутки между всеми ними. В зависимости от этих параметров определяется сила паттерна (условно). Паттерны создавались по достаточно консервативным участкам полного выравнивания гомологов белка YPJD_BACSU.
Рисунок 1. Множественное выравнивание 40 последовательностей, по которому был написаны паттерны из таблицы. Ссылка на выравнивание в формате fasta.
В таблице 2 приведены два разных паттерна и сравниваются результаты, полученные при поиске по ним. Поиск предполагаемых гомологов белка YPJD_BACSU проводился по банку данных refseq, программа ScanProsite не может искать последовательности по этому банку, вместо него был выбран SwissProt, который менее объемен, но состоит из более достоверных последовательностей. Из-за этого не все последовательности, использованные при построении множественных выравниваний могут быть найдены по созданным паттернам, но найденные последовательности с довольно высокой вероятностью могут принадлежать гомологичным белкам.
Паттерны были написаны по визуально наиболее консервативным участкам, в которые во всех последовательностях входит 66-ой аминокислотный остаток глутаминовой кислоты, в белке YPJD_BACSU участвующий в связывании лиганда.
Таблица 2. Количество вероятных гомологов в зависимости от силы паттерна.
Характеристика паттерна | Паттерн | В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? | Все ли последовательности из вашего выравнивания найдены? |
Сильный | [ED]-E-[LI]-[GAS]-D-[VLI]-[LF]-[FAWLI] | 53 | Нет |
Слабый | E-[LIMVF]-[GAS]-D-[VLIC]-[LMF]-[FAWLI] | 467 | Нет |
В белке YPJD_BACSU представлены только неспецифичные мотивы, так как запрос с их исключением не дал результатов. Всего было найдено 9 хитов в данной последовательности. Все мотивы связаны с фосфорилированием, что говорит о высокой специфичности белка.
Таблица 3. Все мотивы исследуемого белка по банку Prosite.
Идентификатор документа Prosite (AC) | Название мотива | Краткое описание мотива | Тип подписи (паттерн, профиль) | Паттерн (если это паттерн) | Специфична ли подпись? | Сколько мотивов нашлось в белке? |
PS00005 | PKC_PHOSPHO_SITE | Сайт фосфорилирования киназы C | паттерн | [ST]-x-[RK] | неспецифична | 3 |
PS00006 | CK2_PHOSPHO_SITE | Сайт фосфорилирования CAMP_PHOSPHO_SITE | паттерн | [ST]-x(2)-[DE][SorTisthephospho-rylationsite] | неспецифична | 5 |
PS00004 | CAMP_PHOSPHO_SITE | Сайт фосфорилирования cAMP- и cGMP-зависимой киназы | паттерн | [RK](2)-x-[ST] | неспецифична | 1 |
Источники: