Паттерны и банк PROSITE

Содержит ли Swissprot послание инопланетян? :)

Предскажем теоретически сколько раз слово eagle встречается в банке SwissProt. Для этого нам нужно знать количество аминокислот во всех последовательностях банка: 191670831 и процент встречаемости каждой аминокислоты (буквы нашего слова в данном конкретном случае) в Swissprot.

При помощи этих данных рассчитываем: 8.25 * 6.75 * 7.07 * 9.66 * 191670831 * 10-10 = 72.9 , то есть слово eagle встречается в банке SwissProt примерно 73 раза. Теперь проверим наши теоритические расчеты на практике. Зайдем на страницу Prosite и введем паттерн E-A-G-L-E. Посмотрим на результаты нашего поиска: найдено 600 хитов в 594 последовательностях.


Нахождение вероятных гомологов белка YQGN_BACSU в банке SwissProt с помощью паттернов

"Сильный" паттерн - тот, в который включены много условий; его роль - принаходить входные последовательности и последовательности, с большой долей уверенности гомологичные данные. При этом может пропускать много других гомологов.
"Слабый" паттерн - тот, в котором мало условий; он находит много последовательностей. Однако уверенности в том, что все находки - действительно, последовательности гомологичных белков, меньше, чем в случае сильного паттерна. Зато можно ожидать, что меньше гомологичных последовательностей пропущено.

Табл. 1. Находки по патерну

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из вашего выравнивания найдены?
Сильный E-[VILAPT]-X(1)-[TVL]-X(2)-[LVIA]-X(14)-P-X(63)-P 558 Найдены 4
Слабый E-[VILAPT]-X(1)-[TVL]-X(2)-[LVIA]-X(14)-P 10000 Найдены 6

Такое маленькое количество находок среди найденных ранее гомологов объясняется тем, что очень большое число из них содержится в базе UniProtKB/TrEMBL(макс кол-во находок превышает >= 10000 ), а некоторые содержатся только в PDB.

Мотивы PROSITE в последовательности белка YQGN_BACSU

Откроем главную страничку PROSITE. Введем в нужное окошко (в разделе PROSITE tools) AC белка - P54491. В чекбоксе "Exclude patterns with a high probability of occurrence" снимем галочку, чтобы были выданы не только "специфичные" мотивы — те, которые отвечают семействам белков, но также и "неспецифичные", часто встречающиеся. Нажмем кнопку "Quick Scan".

Табл. 2. Мотивы PROSITE в последовательности белка YQGN_BACSU

Идентификатор документа Prosite (AC) Название мотива Краткое описание мотива Тип подписи Паттерн Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00004 CAMP_PHOSPHO_SITE Сайт фосфолирирования cAMP- и cGMP-зависимых белковых киназ. Паттерн [RK](2)-x-[ST] Неспецифична 1
PS00006 CK2_PHOSPHO_SITE Сайт фосфолирирования казеин киназы II. Casein kinase II (CK-2) is a protein serine/threonine kinase whose activity is independent of cyclic nucleotides and calcium. Паттерн [ST]-x(2)-[DE] Неспецифична 4
PS00005 PKS_PHOSPHO_SITE Сайт фосфолирирования белковой киназы C: In vivo, protein kinase C exhibits a preference for the phosphorylation of serine or threonine residues found close to a C-terminal basic residue. Паттерн [ST]-x-[RK] Неспецифична 2

© Nuzhdina Ekaterina, 2012