"Паттерны и банк Prosite"


Вернуться на главную

Страница проектов

Заметки

1. Содержит ли Swissprot послание инопланетян?

Проветем предсказание встречаемости слова fever в базе данных Swissprot.
Всего база содержит 191670831 аминокислот во всех последовательностях.
Встречаемость букв в базе Swissprot такова:
F: 3,86%
E: 6,75%
V: 6,87%
R: 5,53%

Таким образом теоретически слово fever должно встретиться 191670831*3,86*6,75*6,75*6,87*5,53*10^(-10)=128,06.

Слово fever может встречаетя в базе данных 128 раз.

Проверка встречаемости слова fever через PROSITE показала, что реально в базе встречается 101 раз.

Полученные данные говорят, что к базе белков применимы модели для случайных выборок (т.к. формула для теор.рассчета сделана исходя из этого.)


2. Поиск вероятных гомологов белка cdd_bacsu в банке SwissProt с помощью паттернов

Участок выравнивания, по которому я строил паттерн:

Для поиска гомологов были составленны паттерны представленные в Таблице 1.

Таблица 1. Составленные паттерны на основе множественного выравнивания.
Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из множественного выравнивания найдены? e-value паттерна
Сильный G-[ACSTV]-N-x-E-[NS]-x-[AST]-x-[GPST]-x-[ACGST]-x-C-[AG]-E-[DQR]-x-[AT] 9 не все, это обусловлено разными базами данных, по которым велся поиск 1.155866e-05
Слабый G-[ACSTV]-N-x-E-[NS]-x-[AST] 163 почти все, это обусловленно раличием баз, по которым велся поиск 56

3. Поиск всех мотивов PROSITE в последовательности белка CDD_BACSU

Поиск проведен через веб интерфейс, результат представлен в Таблице 2.

Таблица 2. Результаты поиска мотивов PROSITE в последовательности белка CDD_BACSU
Идентификатор документа Prosite (AC) Название мотива Краткое описание мотива Тип подписи Паттерн (если это паттерн) Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00903 CYT_DCMP_DEAMINASES сайт связывания цинка паттерн [CH]-[AGV]-E-x(2)-[LIVMFGAT]-[LIVM]-x(17,33)-P-C-x(2,8)-C-x(3)-[LIVM] да 1
PS00008 MYRISTYL Сайт N-миристоилирования паттерн G-{EDRKHPFYW}- x(2)- [STAGCN]-{P} нет 1
PS00006 CK2_PHOSPHO_SITE Сайт фосфорилирования казеинкиназой II паттерн [ST]-x(2)-[DE] нет 3
PS00007 TYR_PHOSPHO_SITE Сайт фосфорилирования тирозина паттерн [RK]-x(2)-[DE]-x(3)-Yor[RK]-x(3)-[DE]-x(2)-Y нет 1


© Прозоров Данила