Паттерны и банк PROSITE

Послание инопланетян

Сколько раз встречается слово EARTH в последовательностях банка SwissProt? Зная частоты встречаемости аминокислотных остатков (6,75%, 8,25%, 5,53%, 5,34% и 2,27% для глутамата, аланина, аргинина, треонина и гистидина соответственно) и количество последовательностей в банке (191670831), рассчитаем теоретическое число таких повторов.

0,0675*0,0825*0,0553*0,0534*0,0227=0,00000037329... - вероятность нахождения последовательности EARTH

191670831*0,00000037329=71,549... - теоретическое количество искомых слов в банке.

Если задать в ProSite поиск с паттерном EARTH, выдаётся 62 последовательности, немного меньше теоретически предсказанного количества.

Поиск вероятных гомологов белка YXIM_BACSU в банке SwissProt с помощью паттернов

Чтобы найти вероятные гомологи белка YXIM_BACSU составим два паттерна - сильный и слабый, определяя консервативность остатков по сделанному ранее выравниванию (см. практикум 8).

При поиске по банку Swiss-Prot выдаётся мало находок, причём среди них неспецифична белков из выравнивания. Записи об этих белках есть только в банке Trembl, поэтому произведём поиск и по нему. Результаты использования сильного и слабого паттерна при поиске по разным банкам приведены в таблице 1.

Таблица 1. Результаты использования различных паттернов. Паттерн №1 - [VLIM]-X(1,5)-S-T-X(1,23)-[WY]-G-X(1,29)-A-X(1,2)-G-X(1,23)-[GA]-X-N-D-X(1,44)-[YF]-X(1,8)-[VILA]-X(1,7)-[AIGV]-X-[PV]-[IVL], паттерн №2 - [VLIM]-X(1,5)-S-T-X(1,23)-[WY]-G-X(1,29)-A-X(1,2)-G-X(1,23)-[GA]-X-N-D-X(1,44)-[YF] (в таблицу вставлять неудобно из-за длины).

Характеристика паттерна Паттерн Кол-во последовательностей банка Swiss-Prot Кол-во последовательностей банка Trembl Кол-во последовательностей из выравнивания при поиске по Swiss-prot Кол-во последовательностей из выравнивания при поиске по Trembl
Сильный №1 4 349 0 24 (все)
Слабый №2 71 2966 0 24 (все)

Поиск мотивов PROSITE в последовательности белка YXIM_BACSU

Через Prosite найдём мотивы из этого банка, содержащиеся в белке YXIM_BACSU. Результаты представлены в таблице 2.

Таблица 2. Мотивы в последовательности белка YXIM_BACSU

Идентификатор документа Prosite (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (если это паттерн) Специфичность Кол-во мотивово в белке
PS00008 MYRISTYL N-myristoylation site паттерн G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} неспецифична 10
PS00007 TYR_PHOSPHO_SITE Tyrosine kinase phosphorylation site паттерн [RK]-x(2)-[DE]-x(3)-Yor[RK]-x(3)-[DE]-x(2)-Y неспецифична 1
PS00005 PKC_PHOSPHO_SITE Protein kinase C phosphorylation site паттерн [ST]-x-[RK] неспецифична 4
PS00001 ASN_GLYCOSYLATION N-glycosylation site паттерн N-{P}-[ST]-{P} неспецифична 5
PS00004 CAMP_PHOSPHO_SITE cAMP- and cGMP-dependent protein kinase phosphorylation site паттерн [RK](2)-x-[ST] неспецифична 1
PS00006 CK2_PHOSPHO_SITE Casein kinase II phosphorylation site паттерн [ST]-x(2)-[DE] неспецифична 1