Паттерны и банк PROSITE
Содержит ли Swissprot послание инопланетян? :)
Предскажем теоретически сколько раз слово eagle встречается в банке SwissProt. Для этого нам нужно знать количество аминокислот во всех последовательностях банка: 191670831 и процент встречаемости каждой аминокислоты (буквы нашего слова в данном конкретном случае) в Swissprot.
При помощи этих данных рассчитываем: 8.25 * 6.75 * 7.07 * 9.66 * 191670831 * 10-10 = 72.9 , то есть слово eagle встречается в банке SwissProt примерно 73 раза. Теперь проверим наши теоритические расчеты на практике. Зайдем на страницу Prosite и введем паттерн E-A-G-L-E. Посмотрим на результаты нашего поиска: найдено 600 хитов в 594 последовательностях.
Нахождение вероятных гомологов белка YQGN_BACSU в банке SwissProt с помощью паттернов
"Сильный" паттерн - тот, в который включены много условий; его роль - принаходить входные последовательности и
последовательности, с большой долей уверенности гомологичные данные. При этом может пропускать много других гомологов.
"Слабый" паттерн - тот, в котором мало условий; он находит много последовательностей. Однако уверенности в том,
что все находки - действительно, последовательности гомологичных белков, меньше, чем в случае сильного паттерна.
Зато можно ожидать, что меньше гомологичных последовательностей пропущено.
Характеристика паттерна | Паттерн | В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? | Все ли последовательности из вашего выравнивания найдены? |
Сильный | E-[VILAPT]-X(1)-[TVL]-X(2)-[LVIA]-X(14)-P-X(63)-P | 558 | Найдены 4 |
Слабый | E-[VILAPT]-X(1)-[TVL]-X(2)-[LVIA]-X(14)-P | 10000 | Найдены 6 |
Такое маленькое количество находок среди найденных ранее гомологов объясняется тем, что очень большое число из них содержится в базе UniProtKB/TrEMBL(макс кол-во находок превышает >= 10000 ), а некоторые содержатся только в PDB.
Мотивы PROSITE в последовательности белка YQGN_BACSU
Откроем главную страничку PROSITE. Введем в нужное окошко (в разделе PROSITE tools)
AC белка - P54491.
В чекбоксе "Exclude patterns with a high probability of occurrence" снимем галочку, чтобы были выданы не только "специфичные" мотивы
— те, которые отвечают семействам белков, но также и "неспецифичные", часто встречающиеся. Нажмем кнопку "Quick Scan".
Идентификатор документа Prosite (AC) | Название мотива | Краткое описание мотива | Тип подписи | Паттерн | Специфична ли подпись? | Сколько мотивов нашлось в белке? |
PS00004 | CAMP_PHOSPHO_SITE | Сайт фосфолирирования cAMP- и cGMP-зависимых белковых киназ. | Паттерн | [RK](2)-x-[ST] | Неспецифична | 1 |
PS00006 | CK2_PHOSPHO_SITE | Сайт фосфолирирования казеин киназы II. Casein kinase II (CK-2) is a protein serine/threonine kinase whose activity is independent of cyclic nucleotides and calcium. | Паттерн | [ST]-x(2)-[DE] | Неспецифична | 4 |
PS00005 | PKS_PHOSPHO_SITE | Сайт фосфолирирования белковой киназы C: In vivo, protein kinase C exhibits a preference for the phosphorylation of serine or threonine residues found close to a C-terminal basic residue. | Паттерн | [ST]-x-[RK] | Неспецифична | 2 |
© Nuzhdina Ekaterina, 2012