Паттерны

Сколько раз слово magic встречается в банке Swiss-Prot?

Известно частота (переводится в доли), с которой встречается каждый аминокислотный остаток в данном банке (в процентах значения приведены в таблице 1). Перемножим эти частоты (1,2 *10-7) и домножим на число всех аминокислотных остатков в Swiss-Prot (191670831), чтобы найти вероятность появления данного слова в банке Swiss-Prot.

Таблица 1. Таблица с частотами встречаемости (в процентах) каждой аминокислоты в банке Swiss-Prot.
Ala (A) 45870 Gln (Q) 34029 Leu (L) 24351 Ser (S)
Arg (R) 19480 Glu (E) 27546 Lys (K) 30803 Thr (T)
Asn (N) 41429 Gly (G) 41462 Met (M) 15373 Trp (W)
Asp (D) 16558 His (H) 46419 Phe (F) 31472 Tyr (Y)
Cys (C) 13516 Ile (I) 35186 Pro (P) 25659 Val (V)

Эта вероятность равна 22.090807, то есть слово magic встречается около 22 раз.

С помощью Prosite определяем, сколько таких результатов, на самом деле. Для этого проводим поиск по паттерну M-A-G-I-C. Немного магии… И был получен 21 результат, что почти совпадает с предсказанным теоретически.

Поиск вероятных гомологов белка в банке SwissProt с помощью паттернов

При создании паттернов можно задавать неизменяющиеся аминокислотные остатки, остатки по выбору из каких-либо заданных, любые остатки и промежутки между всеми ними. В зависимости от этих параметров определяется сила паттерна (условно). Паттерны создавались по достаточно консервативным участкам полного выравнивания гомологов белка YPJD_BACSU.

Рисунок 1. Множественное выравнивание 40 последовательностей, по которому был написаны паттерны из таблицы. Ссылка на выравнивание в формате fasta.

В таблице 2 приведены два разных паттерна и сравниваются результаты, полученные при поиске по ним. Поиск предполагаемых гомологов белка YPJD_BACSU проводился по банку данных refseq, программа ScanProsite не может искать последовательности по этому банку, вместо него был выбран SwissProt, который менее объемен, но состоит из более достоверных последовательностей. Из-за этого не все последовательности, использованные при построении множественных выравниваний могут быть найдены по созданным паттернам, но найденные последовательности с довольно высокой вероятностью могут принадлежать гомологичным белкам.

Паттерны были написаны по визуально наиболее консервативным участкам, в которые во всех последовательностях входит 66-ой аминокислотный остаток глутаминовой кислоты, в белке YPJD_BACSU участвующий в связывании лиганда.

Таблица 2. Количество вероятных гомологов в зависимости от силы паттерна.
Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из вашего выравнивания найдены?
Сильный [ED]-E-[LI]-[GAS]-D-[VLI]-[LF]-[FAWLI] 53 Нет
Слабый E-[LIMVF]-[GAS]-D-[VLIC]-[LMF]-[FAWLI] 467 Нет

Все мотивы PROSITE в последовательности белка YPJD_BACSU

В белке YPJD_BACSU представлены только неспецифичные мотивы, так как запрос с их исключением не дал результатов. Всего было найдено 9 хитов в данной последовательности. Все мотивы связаны с фосфорилированием, что говорит о высокой специфичности белка.

Таблица 3. Все мотивы исследуемого белка по банку Prosite.
Идентификатор документа Prosite (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (если это паттерн) Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00005 PKC_PHOSPHO_SITE Сайт фосфорилирования киназы C паттерн [ST]-x-[RK] неспецифична 3
PS00006 CK2_PHOSPHO_SITE Сайт фосфорилирования CAMP_PHOSPHO_SITE паттерн [ST]-x(2)-[DE][SorTisthephospho-rylationsite] неспецифична 5
PS00004 CAMP_PHOSPHO_SITE Сайт фосфорилирования cAMP- и cGMP-зависимой киназы паттерн [RK](2)-x-[ST] неспецифична 1

Источники:

Дата последнего изменения: 26/04/2013. Сайт kodomo © Trushina Nataliya