Содержит ли Swiss-Prot слово "empty"
Теоретическое предсказание
Известны частоты встречаемости каждой аминокислоты в банке Swiss-Prot. Поэтому возможно найти вероятность появления слова "empty" в Swiss-Prot, перемножив эти величины:
p = 0.0675*0.0242*0.047*0.0534*0.0292 ~ 1.2*10-7
Зная общее количество аминокислотных остатков во всём банке Swiss-Prot и вероятность появления слова, можно узнать, сколько раз должно встретиться искомое слово:
N = 1.2*10-7 * 191 670 831 = 22.95 ~ 23 раза
Встречаемость на практике
С помощью PROSITE узнаем число, соответсвующее реальному появлению слова "empty" в Swiss-Prot, для чего используем паттерн E-M-P-T-Y
. Итого, 9 мотивов в 9 записях.
Такое несоответсвие может быть связано с тем, что "empty" - пустое слово, т.е. врядли содержит полезную информацию для структуры белка. А с большей вероятностью будут встречаться более информативные мотивы.
Поиск вероятных гомологов белка YojM_BACSU в банке SwissProt с помощью паттернов
Для создания сильного паттерна было использовано множественное выравнивание из практикума №8, в котором были окрашены аминокислоты с выставленым в JalView уровнем консервативности 100%. Опираясь на полученную картину и построен паттерн - результат его применения в таблице 1.
При составлении слабого паттерна ...
Таблица 1. Результаты поиска гомологов по паттернам. | |||
---|---|---|---|
Характеристика паттерна | Паттерн | В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? | Все ли последовательности из вашего выравнивания найдены? |
Сильный | G-x(25,36)-[GAM]-x-H-x-H-x(14,24)-H-x(2)-[PVL]-x(3,18)-[HTE]-x(7,11)-H-x(1,8)-G-D-x(33,46)-[HD]-x(3)-[DN]-x(7,25)-[GV]-x(2)-[GK]-x-[RM]-x(3)-[GA] | 148 | нет |
Слабый | G-x(23,38)-[GAVLIM]-x-H-x-H-x(12,26)-H-x(2)-[PVLIA]-x(2,20)-[HRTE]-x(6,12)-H-x(1,9)-G-D-x(31,48)-[HRDE]-x(3)-[DNEQ]-x(6,27)-[GAV]-x(2)-[GK]-x-[RKM]-x(3)-[GAV] | 148 | нет |
Слабый | G-x(23,38)-[GAVLIM]-x-H-x-H-x(12,26)-H-x(2)-[PVLIA]-x(2,20)-[HRTE]-x(6,12)-H-x(0,9)-G-D-x(31,48)-[HRDE]-x(3)-[DNEQ]-x(6,27)-[GAVLI]-x(4)-[RKM]-x(3)-[GAVLI] | 156 | нет |
Очень слабый | PS51257 and PS00008 and PS00006 and PS00005 and PS00004 | 178 (5000 находок) | нет |
Как видно, не все белки, по которым строились паттерны, найдены (как минимум не хватает Ixodes scapularis). Это связано с тем, что данные об исходных белках брались из банка данных Reference Sequences, а поиск осуществлялся по банку Swiss-Prot. (Провести поиск по самой RefSeq у меня не получилось..)
Второй запрос действительно является более слабым, по сравнению с первым. Приближённое число ожидаемых случайных совпадений в 100 000 последовательностях (50 000 000 аминокислотных остатков) для первого запроса - 4*10-4, а для второго - 0,23. (Числа взяты из "Rich View" Prosite для каждого из запросов). В случае третьего запроса - это 5,9 случайных совпадений.
Также, основываясь на следующем задании, был проведён запрос, которым осуществлялся поиск белков, содержащие паттерны, найденные сервером Prosite в белке YojM_BACSU. К сожалению, запрос оказался абсолютно неинформативным, и в результате нашлись одни лишь явные негомологи; к тому же был достигнут порог в 5000 хитов.
Поиск всех мотивов PROSITE в последовательности белка YojM_BACSU
На сервере ExPASy через Prosite был проведён поиск имеющихся в их банке данных мотивов в белке YojM_BACSU. Результаты представлены в таблице 2.
Таблица 2. Поиск мотивов в белке YojM_BACSU. | ||||||
---|---|---|---|---|---|---|
Идентификатор документа Prosite | Название мотива | Краткое описание мотива | Тип подписи | Паттерн | Специфична ли подпись? | Сколько мотивов нашлось в белке? |
PS51257 | PROKAR_LIPOPROTEIN | Сайт присоединения липидов для прокариотических мембранных белков | Профиль | Специфична | 1 | |
PS00008 | MYRISTYL | Сайт N-миристоилирования | Паттерн | G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} | Неспецифична | 5 |
PS00006 | CK2_PHOSPHO_SITE | Сайт фосфорилирования казеинкиназы II | Паттерн | [ST]-x(2)-[DE] | Неспецифична | 1 |
PS00005 | PKC_PHOSPHO_SITE | Сайт фосфорилирования протеинкиназы С | Паттерн | [ST]-x-[RK] | Неспецифична | 2 |
PS00004 | CAMP_PHOSPHO_SITE | Сайт фосфорилирования цАМФ- и цГМФ-зависимой протеинкиназы | Паттерн | [RK](2)-x-[ST] | Неспецифична | 1 |
Проверка гомологичности найденных белков
С помощью сервера UniProt были получены полные аминокислотные последовательности белков, найденных с помощью сильного паттерна из первого задания. Затем на сервере Европейского Биоинформатического Института программой "Muscle" проведено множественное выравнивание. Полученное выравнивание в программе "JalView" окрашено стандартной схемой ClustalX с процентом консервативности в 20%. Результат изображён на рисунке 1. Изображение без ограничения на консервативность можно посмотреть на рисунке 2 (на странице не представлено).
Главная задача белка YojM_BACSU - связывать ионы меди и цинка. Как было выяснено в предыдущем практикуме, вторичная структура белка не столь консервативна, сколько аминокислоты, связывающие лиганды. А в полученном выравнивании наглядно прослеживаются консервативные почти по всей длине колонки. Значит, вполне оправдан вывод, что найденные белки действительно являются гомологами белка Yojm_BACU.
Увидеть результат поиска гомологов по сильному паттерну можно на рисунке 3 (на странице не представлен). Как видно, найденные последовательности вполне консервативны.