Был использован самый простой способ создать отчет в формате HTML — скопировать страничку задания, а затем ее отредактировать!

Занятие 10. Мотивы, паттерны и профили

Упражнение 1. Создание паттернов по множественному выравниванию и проведение поиска по паттернам в банке данных Swiss-Prot

Импортировали в Genedoc множественное выравнивание, полученное на прошлом занятии с помощью muscle.
Выбирали фрагмент выравнивания длиной 20 а.о. для дальнейшего исследования. 25% колонок консервативны на 70-100%. Экспортировали выбранный фрагмент в HTML-файл Самый длинный участок выбранного фрагмента, не содержащий гэпов, экспортировали в формате FASTA в текстовой файл part2.txt

Рассмотрели выбранный фрагмент множественного выравнивания. Создали 3 паттерна, записали их в таблицу (см. ниже).

  1. Первый паттерн в точности являетсяе фрагментом последовательности моего белка(GLYA_ECOLI).
  2. Второй ("сильный") паттерн был построен так, чтобы он распознавал все белки моей выборки, и только их. Для этого в каждой из позиций были разрешены все буквы, встретившиеся в какой-либо из позиций выборки.
  3. Третий ("слабый") паттерн был создан на основе второго, но условия в нём были заменены на более мягкие. Так, если буквы в какой -либо из позиций выравнивания во всех последовательностях выборки разнились, то я заменяла их на Х, что означало любой аминокислотный остаток.

Затем был проведён поиск последовательностей банка Swiss-Prot, включающих мотивы, соответствующие каждому из полученных паттернов.

По результатам упражнения была заполнена табличка следующего вида:

Tаблица сравнения паттернов, построенных по результатам выравнивания muscle для участка выравнивания диной 20 а.о.

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из моего выравнивания найдены?
Фрагмент последовательности  Q-V-A-K-N-A-K-A-M-V-E-V-F-L-E-R-G-Y-K  11  нет
Сильный  [QN]-[VI]-[VLIA]-[KAD]-N-[AI]-[KQRA]-[AIT]-[ML]-[VACS]- [SNAQE]-[VTH]-[LF]-[QIDKL]-[SAQEK]-[RSLQ]-[GD]-[YL]-X(0,1)-[KRD]  47  да
Слабый  [QN]-[VI]-[AVLI]-X-N-[AI]-X(2)-[ML]-X(3)-[LF]- X(3)-[GD]-[YL]-X(0,1)-[KRD]  131  да
В результате поиска по первому паттерну все белки можно разделить на 2 группы по их ID (ну и, судя по всему, по родству):

  1. GLYA_ECO24; GLYA_ECO57; GLYA_ECO57; GLYA_ECOL5; GLYA_ECOL6; GLYA_ECOLI.
  2. GLYA_SHIBS; GLYA_SHIDS; GLYA_SHIF8; GLYA_SHIFL; GLYA_SHISS.
При поиске по второму паттерну не смотря на то, что он был направлен на то, чтобы найти только последовательности из моей выборки, были обнаружены ещё и ближайшие "родственники" последовательностей выборки (т.е. последовательности, чьи ID отличались от ID вышеназванных только последними двумя символами). Присутствуют так же и последовательности, чьих "родственников" в выборке не оказалось. Интересно, что как в случае поиска по "сильному", так и по "слабому" паттернам нашлась только одна аминокислотная последовательность, в которой присутствует аминокислотный остатк в позиции 19 выравнивания (у остальных последовательностей там гэп). Это как раз последовательность GLYA_LACSS из моей выборки.

Упражнение 2. Найти и описать все мотивы в белке (по данным БД PROSITE)

Я попробовала найти в последовательности своего белка все мотивы, описанные в PROSITE, в том числе неспецифичные (часто встречающиеся). По результатам поиска составила следующую таблицу

Идентификатор документа PROSITE (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (регулярное выражение) Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00096 SHMT Сайт связывания с пиридоксаль-фосфатом (Serine hydroxymethyltransferase pyridoxal-phosphate attachment site) паттерн H-V-х-T-T-T-T-H-K-T-L-х-G-P-R-G-G специфична 1
 PS00001   ASN_GLYCOSYLATION  Сайт гликозилирования (N-glycosylation site)  паттерн  N-[FYLI]-[TS]-[GSV]  неспецифична  3
 PS00005  PKC_PHOSPHO_SITE  Сайт фосфорилирования протеинкиназы С (Protein kinase C phosphorylation site )  паттерн  [TS]-x-[KR]  несппецифична  6
 PS00008   MYRISTYL  Сайт N-миристоилирования (N-myristoylation site)  паттерн  G-{EDRKHPFYW}-x(2)-[STAGCN]-{P}  неспецифична  12
PS00009 AMIDATION Сайт амидирования (Amidation site) паттерн х-G-K-R неспецифична 1
 PS00007  TYR_PHOSPHO_SITE  Сайт фосфорилирования тирозинкиназы (Tyrosine kinase phosphorylation site)  паттерн  K-x(3)-E-x(2)-Y  неспецифична  1
 PS00006  CK2_PHOSPHO_SITE  Сайт фосфорилирования казеинкиназы II (Casein kinase II phosphorylation site)  паттерн  [ST]-x(2)-[ED]  неспецифична  2
Меня так же очень заинтересовало это задание, так как только 1 мотив был найден для моего белка. Между тем, при рассматривании трёхмерной модели, можно увидеть, что белок связывается не только с пиридоксаль-фосфатом, но и с ещё одной молекулой, которая в записи PDB называется 5-FORMYL-6-HYDROFOLIC ACID. Странно, что для неё никакого мотива связывания не предусмотрено. Однако он существует и убедиться в этом можно здесь. На картинке ниже показано взаимное расположение молекул (PLG - пиридоксаль-фосфат, FFO - 5-FORMYL-6-HYDROFOLIC ACID) и сайта связывания с пиридоксаль-фосфатом.


Упражнение 3. Создать позиционно-специфичную матрицу частот аминокислотных остатков (PSSM), получить вес последовательности по этой матрице

Я построила PSSM с помощью программы prophecy пакета EMBOSS на сервере kodomo-count.
На вход был подан файл с выравниванием фрагмента part2.txt, созданный при выполнении упр.1.
Проверила, что по умолчанию выбран тип профиля 'F'.
Запрос программы "Enter threshold reporting percentage" означает пороговое значение в процентах от максимального результата, который может быть получен. Запустила программу profit пакета EMBOSS на сервере kodomo-count. В качестве профиля на вход подайли файл, полученный с помощью prophecy, а в качестве последовательностей - part2.txt.
В результате получила файл.

Первая программа строит на основе сделанного выравнивания позиционно-специфичную матрицу частот аминокислотных остатков. При этом строками матрицы являются все позиции выравнивания, а колонками - буквы латинского алфавита. Так как их 27, а аминокислотных остатков только 20 (да ещё не все присутствуют в выравнивании), то многие колонки остаются пустыми.

Программа profit насколько я поняла по предложенной матрице, созданой с помощью программы prophecy, вычисляет вес каждой последовательности из списка, поданного на вход. Если вес какой-либо из последовательностей больше порогового процента (в данном случае выше 75%), то программа выдаёт информацию о весе этой последовательности. В моём случае максимальный результат составляет 62, 75% от него не имеется ни у одной из предложенных последовательностей, поэтому программа ничего и не выдала.

<Второй семестр

<<Главная страница


©ХАЧАТРЯН ЛУСИНЕ, 2007