Множественное выравнивание. Мотивы и паттерны.

Материалы к занятию 11
 
     

 

Упражнение 1. Создать множественное выравнивание последовательности Вашего белка и 4–5-ти его гипотетических ортологов

С помощью программы blastp найдите в банке Swiss-Prot предпологаемые гомологи вашего белка. Из них выберите 4–5 наиболее вероятных ортологов (в первом приближении будем считать признаком ортологичности cовпадение названий белков из разных организмов), с процентом идентичности в диапазоне 40–80% (если таких не набирается 5, то можно выйти из этого диапазона, но процент идентичности должен быть не более 90%, а E-value находки не хуже (т.е., не больше) 0,001).

Получите файл с последовательностями Вашего белка и всех отобранных "ортологов" в формате FASTA, названия последовательностей должны представлять собой ID записей Swiss-Prot

Внимание! Сервер NCBI позволяет получить сразу несколько последовательностей в формате FASTA, подробнее см. подсказку. Правда, названия последовательностей придется редактировать "руками".

С помощью программы muscle постройте множественное выравнивание Вашего белка и его "ортологов". Импортируйте его в GeneDoc. Выберите консервативный фрагмент выравнивания длиной 8–20 а.о. для дальнейшего исследования. Экспортируйте фрагмент в HTML-формат.

Упражнение 2. Создать паттерны по множественному выравниванию и провести поиск по паттернам в банке данных Swiss-Prot

Рассмотрите выбранный Вами фрагмент множественного выравнивания. Создайте паттерны и запишите их в таблицу, см. ниже.
  1. Первый паттерн в точности является фрагментом последовательности Вашего белка.
  2. Второй ("сильный") паттерн надо постараться построить так, чтобы он распознавал все белки Вашей выборки, и только их (другой вопрос, что паттерн будет находить в действительности…)
  3. Третий ("слабый") паттерн надо создать на основе второго, сделав требования к последовательности более мягкими.
В этом упражнении надо показать умение использовать три основные элемента синтаксиса паттернов:
[ALK] — в данной позиции разрешены только остатки в квадратных скобках;
Х(3) — интервал в 3 любых остатка;
{WY} — запрет на остатки в фигурных скобках,
подробнее см. в правилах написания патернов (ссылки — в подсказке).

Имеет смысл в сильный паттерн включить все позиции вашего фрагмента выравнивания, а в каждой позиции (кроме, разумеется, тех, в которых оказались гэпы) разрешить все буквы, встретившиеся в какой-либо из последовательностей. При создании слабого паттерна можно пользоваться (одновременно или по отдельности) следующими приёмами:
 –    в позициях, в которых все 5 букв оказались разными, заменить 5 букв в квадратных скобках буквой X;
 –   сократить паттерн, убрав по 2–3 позиции с каждого из концов;
 –   вместо, например, [RKYW] написать {AG} (то есть если Вы видите, что в вашей выборке все остатки в данной позиции обладают большой боковой цепью, то вместо перечисления всех встретившихся букв напишите запрет на маленькие остатки)
и т.п.

Проведите поиск последовательностей банка Swiss-Prot, включающих мотивы, соответствующие каждому из полученных паттернов.

По результатам упражнения заполните табличку следующего вида:

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
Фрагмент последовательности      
Сильный      
Слабый      

Формат отчета

Упражнение 3. Найти и описать все мотивы в Вашем белке (по данным БД PROSITE)

Найдите в последовательности вашего белка все мотивы, описанные в PROSITE, в том числе неспецифичные (часто встречающиеся). По результатам поиска составьте следующую таблицу.

Идентификатор документа PROSITE (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (регулярное выражение) Специфична ли подпись? Сколько мотивов нашлось в белке?
Например,
PS00008 MYRISTYL Сайт N-миристоилирования паттерн G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} неспецифична 12
             
             

Формат отчета