Паттерны и банк PROSITE
Вероятная встреча моего слова (CHICK) в базе Prosite (перемножение частот букв слова и количества букв) - 0.0137*0.0227*0.0596*0.0137*0.0584*191670831 = 2.842379905 - 2-3 раза.
В ответ на запрос c-h-i-c-k Prosite дал ответ «The search term has not been found in PROSITE entries.»
Создала "сильный" и "слабый" паттерны для поиска гомологов моего белка YWHB_BACSU в банке SwissProt, результаты поиска представила в таблице 1.
Характеристика паттерна | Паттерн | В скольких последовательностях банка Swiss-Prot и Trembl найден мотив, удовлетворяющий паттерну | Сколько последовательностей из моего выравнивания найдено | Вероятность получения случайной последовательности в Swiss-Prot по такому паттерну |
Сильный | P-x(3)-V-x(6)-[ST]-x(1)-[EK]-x(1)-K-x(2)-[LV]-[AV]-x(3)-T-x(15)-[VI]-x(3)-E-x(5)-[YW]-x(2)-[AG]-G-x(4)-[DE] | 208 | 14 | 3,30819E-07 |
Слабый | [PV]-x(3)-[VIM]-x(6,9)-[STIND]-x(1)-[EDS]-x(1)-K-x(3)-[AIV]-x(1,3)-[TS]-x(15)-[VILM] | 2363 | 23 | 60 |
Таблица 1. Результаты поиска гомологов белков из моего множественного выравнивания по слабому и сильному паттерну.
Выводы, которые можно сделать из результатов поиска: так как поиск последовательностей для множественного выравнивания производился по базе данных refseq, то, скорее всего, не все последовательности должны найтись при поиске в Swiss-Prot и Trembl, тем более только в Swiss-Prot. Но были найдены другие гомологи моего белка, поэтому результаты поиска с помощью паттернов PROSITE следует признать удовлетворительными. Правильность сделанных выводов доказывает рисунок 1.
Рис. 1. Распределение хитов по таксонам.
Нашла все мотивы PROSITE в последовательности моего белка. Находки представила в таблице 2.
Идентификатор документа Prosite (AC) | Название мотива | Краткое описание мотива | Тип подписи (паттерн, профиль) | Паттерн (если это паттерн) | Специфична ли подпись? | Сколько мотивов нашлось в белке? |
PS00005 | PKC_PHOSPHO_SITE | Protein kinase C phosphorylation site | Паттерн | [ST]-x-[RK] | Неспецифична | 1 |
PS00009 | AMIDATION | Amidation site | Паттерн | x-G-[RK]-[RK] | Неспецифична | 1 |
PS00004 | CAMP_PHOSPHO_SITE | cAMP- and cGMP-dependent protein kinase phosphorylation site | Паттерн | [RK](2)-x-[ST] | Неспецифична | 1 |
PS00006 | CK2_PHOSPHO_SITE | Casein kinase II phosphorylation site | Паттерн | [ST]-x(2)-[DE] | Неспецифична | 1 |
Таблица 2. Мотивы PROSITE в последовательности моего белка.
Выбрала сильный паттерн, нашла еще раз и сохранила все находки в формате fasta, открыла в JalView и построила выравнивание последовательностей. На рисунке 2 представлено множественное выравнивание последовательностей, найденных по сильному паттерну.
Рис. 2. Множественное выравнивание последовательностей, найденных по сильному паттерну. Порог консервативности, используемый для окраски - 50.
Заметим особенности выравнивания: многие участки сильно консервативны, и это немного зависит от вторичной структуры, на которую мы опирались - YWHB_BACSU; отсутствуют гэпы.