Занятие 10. Мотивы, паттерны и профили

Упражнение 1. Создать паттерны по множественному выравниванию и провести поиск по паттернам в банке данных Swiss-Prot

Импортируем в Genedoc множественное выравнивание, полученное с помощью muscle.
Выберите фрагмент выравнивания длиной 8-20 а.о. для дальнейшего исследования. Выбранный фрагмент
Самый длинный участок выбранного фрагмента, не содержащий гэпов в формате FASTA - part2.txt,

Рассмотрим выбранный фрагмент множественного выравнивания. Создали 3 паттерна, запишите их в таблицу.

В этом упражнении используем три основные элемента синтаксиса паттернов:
[ALK] — в данной позиции разрешены только остатки в квадратных скобках;
Х(3) — интервал в 3 любых остатка;
{WY} — запрет на остатки в фигурных скобках,

Провели поиск последовательностей банка Swiss-Prot, включающих мотивы, соответствующие каждому из полученных паттернов.

По результатам упражнения заполнили таблицу:

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
Фрагмент последовательности KNTYGTGCFMLMNTGEKAVKS/td> 18 из выборки только одна
Сильный KNTYGTGCF-[LMIT]-LMNTG-[TQEKDL]-[RKEQ]-[PMA]-[IVQA]-[INLEVKQ]-S 36 не все
Слабый KNTYGTG-[CST]-F-X-[LIM]-[CVM]-[NH]-[ITS]-G-X(5)-S 148 все

Упражнение 2. Найти и описать все мотивы в белке (по данным БД PROSITE)

Найдем в последовательности белка GLPK_ECOLI все мотивы, описанные в PROSITE, в том числе неспецифичные (часто встречающиеся). По результатам поиска составьте следующую таблицу.

Идентификатор документа PROSITE (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (регулярное выражение) Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00933 FGGY_KINASES_1 FGGY семейство углевод-киназ, подпись 1 (FGGY family of carbohydrate kinases signature 1) паттерн [MFYGS] - x - [PST] - x(2) - K - [LIVMFYW] - {G} - W - [LIVMF] - {E} - [DENQTKR] - [ENQH] да 1
PS00445 FGGY_KINASES_2 FGGY семейство углевод-киназ, подпись 2 (FGGY family of carbohydrate kinases signature 2) паттерн [GSA] - x - [LIVMFYW] - {D} - G - [LIVM] - x(7,8) - [HDENQ] - [LIVMF] - {PEQ} - {DTAI} - [AS] - [STALIVM] - [LIVMFY] - [DEQ] да 1
PS00005 PKC_PHOSPHO_SITE Сайт фосфориляции протеин-киназы С (Protein kinase C phosphorylation site) паттерн [ST] - x - [RK] нет 5
PS00008 MYRISTYL Сайт N-миристоилирования паттерн G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} нет 12
PS00006 CK2_PHOSPHO_SITE Сайт фосфориляции казеин-киназы II (Casein kinase II phosphorylation site) паттерн [ST] - x(2) - [DE] нет 3
PS00007 TYR_PHOSPHO_SITE Сайт фосфориляции тирозин-киназы (Tyrosine kinase phosphorylation site)e паттерн [RK] - x(2) - [DE] - x(3) - Y or [RK] - x(3) - [DE] - x(2) - Y нет 2
PS00001 ASN_GLYCOSYLATION Сайт N-гликозилирования (N-glycosylation site) паттерн N - {P} - [ST] - {P} нет 1
PS00004 CAMP_PHOSPHO_SITE Сайт фосфориляции cAMP- и cGMP- зависимой протеин-киназы (cAMP- and cGMP-dependent protein kinase phosphorylation site) паттерн [RK](2) - x - [ST] нет 1

Упражнение 3. Создать позиционно-специфичную матрицу частот аминокислотных остатков (PSSM), получить вес последовательности по этой матрице

Файлы с выдачей программ :

part2.prophecy - выходной файл программы prophecy
part2.profit - выходной файл программы profit

Запрос программы "Enter threshold reporting percentage" устанавливает пороговую величину процентного веса последовательности при выводе отчета. Матрица представляет собой таблицу:колонки - аминокислоты в алфавитном порядке, строки - номера позиций в последовательности. В каждой ячейке таблицы указано сколько раз встречается аминокислота (указанная в столбце) в данной позиции (указанной в строке). Запустили программу profit пакета EMBOSS на сервере kodomo-count. В качестве профиля на вход подали файл, полученный с помощью prophecy, а в качестве последовательностей - part2.txt. В результате выполнения программы получили файл "profit.txt", в котором указан вес каждой последовательности в процентах согласно построенной командой prophecy матрицы PSSM. Выводятся последовательности только со сходством более 75% (так как это было указано в запросе программы prophecy "Enter threshold reporting percentage"), но этому условию удовлетворяют все 8 белков.



©Маврин Сергей,2007