|
При помощи сканирования PROSITE можно искать белки, в которых встречаются определённые последовательности (мотивы).
Для примера, возьмём мотив C-A-N-D-Y. Все белки в БД SwissProt включают 191'670'831 аминокислотных остатков. Если учитывать частоты встречаемости этих
аминокислот (C - 1,37%; A - 8,25%; N - 4,06%; D - 5,45%; Y - 2,92%), то в SwissProt должно найтись 14 белков с таким мотивом:
191'670'831 х 1,37% x 8,25% x 4,06% x 5,45% x 2,92% = 13,997
Однако при поиске через PROSITE было найдено целых 15 белков с таким мотивом, что можно считать нормой при вероятностном построении этого мотива.
|
C помощью PROSITE можно дополнительно искать гомологи белка по характерным мотивам, если поиска по BLAST было недостаточно.
Здесь я приведу примеры cлабых (широкие рамки поиска) и сильных паттернов (узкие).
|
Тип паттерна |
Паттерн |
Кол-во находок по Swiss Prot |
Из них входят в выравнивание (не считая YokD_BacSu) |
Комментарий |
Cильный |
[GDSKN]-[DMGWESPI]-[TIVHLAM]-[VLIT]- [LIMV]-[VALF]-H-[SCATGLV]-[SAKR]- [LMFVY]-[SKRQN]-[SARKGNE]-[ILVMF]-[GK] |
9 |
2 |
Малое кол-во находок связано с тем, что сам паттерн довольно длинный и при этом проодит поиск только по конкретным АО. |
Cильный |
R-S-X-[HNS]-[PL]-X(2)-[SA]-X(2)-[AG]-X-G-X(2)-[AKS]-X(6)-[HQDE] |
10 |
2 |
В этом и предыдущем поиске 9 находок сходны. Несмотря на применение "масок" АО, паттерн слишком длинный и имеет несколько строго определённых
аминокислот. |
Средний |
R-S-X(2)-[PL]-X(2)-[SA]-X(2)-[AG]-X-G-x(2)-[AKS] |
39 |
2 |
Это тоже довольно сильный паттерн, так как даёт не многим больше находок, чем предыдущие. Несмотря на большее кол-во "масок", как и в прошлом
варианте, паттерн имеет несколько строго определённых участков. Однако, в результатах уже появляется значительное количество явно посторонних
белков, среди которых есть очень длинные последовательности вирусов и позвоночных, в т.ч.человека. Оставшиеся послед-ти были обнаружены ещё
помощи BLAST, хотя три явных гомолога от протеобактерий всё же были новыми, они не попали в результаты BLAST, т.к. имели слишком большой Е-критерий. |
Слабый |
[LVF]-[LMF]-X-G-X(6)-[TS]-X(2)-[HY]-X(2)-E |
169 |
2 |
Очень много лишних выравниваний. При проверке многих белков на парное выравнивание результат неудовлетворителен. |
|
Таким образом, можно заявить, что поиск гомологов по мотивам белка менее достоверный способ, чем через BLAST, поскольку невозможно провести поиск
по объединённым базам данных (nr), и при задании слабых паттернов находится слишком много лишних белков, а при задании сильных – слишком мало.
|
При помощи PROSITE можно также проводить поиск мотивов в белках. При поиске специфичных мотивов в YokD_BacSu не было найдено ни одного специфичного мотива,
однако было найдено несколько неспецифичных (часто встречаемых), обзор которых приведён в табл.2.
|
Идентификатор PROSITE |
Название мотива |
Краткое описание |
Тип |
Паттерн |
Кол-во в белке |
Специфичность |
PS00006 |
CK2_PHOSPHO_SITE |
Casein kinase II phosphorylation site |
Паттерн |
[ST]-x(2)-[DE] |
3 |
Неспецифичный |
PS00008 |
MYRISTYL |
N-myristoylation site |
G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} |
3 |
PS00005 |
PKC_PHOSPHO_SITE |
Protein kinase C phosphorylation site |
[ST]-x-[RK] |
1 |
PS00001 |
ASN_GLYCOSYLATION |
N-glycosylation site |
N-{P}-[ST]-{P} |
2 |
PS00009 |
AMIDATION |
Amidation site |
x-G-[RK]-[RK] |
1 |
|