Занятие 10. Мотивы, паттерны и профили
Упражнение 1. Создание паттернов по множественному выравниванию и проведение
поиска по паттернам в банке данных Swiss-Prot
Импортировали в Genedoc множественное выравнивание, полученное на прошлом
занятии с помощью muscle.
Выбирали фрагмент выравнивания длиной 20 а.о. для дальнейшего исследования.
25% колонок консервативны на 70-100%.
Экспортировали выбранный фрагмент в HTML-файл
Самый длинный участок выбранного фрагмента, не содержащий гэпов,
экспортировали в формате FASTA в текстовой файл part2.txt
Рассмотрели выбранный фрагмент множественного выравнивания. Создали
3 паттерна, записали их в таблицу (см. ниже).
- Первый паттерн в точности являетсяе фрагментом последовательности моего белка(GLYA_ECOLI).
- Второй ("сильный") паттерн был построен так,
чтобы он распознавал все белки моей выборки, и только их. Для этого в каждой из позиций были разрешены все буквы,
встретившиеся в какой-либо из позиций выборки.
- Третий ("слабый") паттерн был создан на основе второго, но условия в нём были заменены на более мягкие. Так, если буквы в какой
-либо из позиций выравнивания во всех последовательностях выборки разнились, то я заменяла их на Х, что означало любой аминокислотный остаток.
Затем был проведён поиск последовательностей банка Swiss-Prot, включающих
мотивы, соответствующие каждому из полученных паттернов.
По результатам упражнения была заполнена табличка следующего вида:
Tаблица сравнения паттернов, построенных по результатам выравнивания muscle для участка выравнивания диной 20 а.о.
Характеристика паттерна |
Паттерн |
В скольких последовательностях банка Swiss-Prot
найден мотив, удовлетворяющий паттерну? |
Все ли последовательности из моего выравнивания найдены? |
Фрагмент последовательности |
Q-V-A-K-N-A-K-A-M-V-E-V-F-L-E-R-G-Y-K |
11 |
нет |
Сильный |
[QN]-[VI]-[VLIA]-[KAD]-N-[AI]-[KQRA]-[AIT]-[ML]-[VACS]-
[SNAQE]-[VTH]-[LF]-[QIDKL]-[SAQEK]-[RSLQ]-[GD]-[YL]-X(0,1)-[KRD] |
47 |
да |
Слабый |
[QN]-[VI]-[AVLI]-X-N-[AI]-X(2)-[ML]-X(3)-[LF]-
X(3)-[GD]-[YL]-X(0,1)-[KRD] |
131 |
да |
В результате поиска по первому паттерну все белки можно разделить на 2 группы по их ID (ну и, судя по всему, по родству):
- GLYA_ECO24; GLYA_ECO57; GLYA_ECO57; GLYA_ECOL5; GLYA_ECOL6; GLYA_ECOLI.
- GLYA_SHIBS; GLYA_SHIDS; GLYA_SHIF8; GLYA_SHIFL; GLYA_SHISS.
При поиске по второму паттерну не смотря на то, что он был направлен на то, чтобы найти только последовательности из моей выборки, были обнаружены ещё
и ближайшие "родственники" последовательностей выборки (т.е. последовательности, чьи ID отличались от ID
вышеназванных только последними двумя символами). Присутствуют так же и последовательности, чьих "родственников" в выборке не оказалось.
Интересно, что как в случае поиска по "сильному", так и по "слабому" паттернам
нашлась только одна аминокислотная последовательность, в которой присутствует
аминокислотный остатк в позиции 19 выравнивания (у остальных последовательностей
там гэп). Это как раз последовательность GLYA_LACSS из моей выборки.
Упражнение 2. Найти и описать все мотивы в белке (по данным БД
PROSITE)
Я попробовала найти в последовательности своего белка все мотивы, описанные
в PROSITE, в том числе неспецифичные (часто встречающиеся).
По результатам поиска составила следующую таблицу
Идентификатор документа PROSITE (AC) |
Название мотива |
Краткое описание мотива |
Тип подписи (паттерн, профиль) |
Паттерн (регулярное выражение) |
Специфична ли подпись? |
Сколько мотивов нашлось в белке? |
PS00096 |
SHMT |
Сайт связывания с пиридоксаль-фосфатом (Serine hydroxymethyltransferase pyridoxal-phosphate attachment site) |
паттерн |
H-V-х-T-T-T-T-H-K-T-L-х-G-P-R-G-G |
специфична |
1 |
PS00001 |
ASN_GLYCOSYLATION |
Сайт гликозилирования
(N-glycosylation site) |
паттерн |
N-[FYLI]-[TS]-[GSV] |
неспецифична |
3 |
PS00005 |
PKC_PHOSPHO_SITE |
Сайт фосфорилирования протеинкиназы С
(Protein kinase C phosphorylation site ) |
паттерн |
[TS]-x-[KR] |
несппецифична |
6 |
PS00008 |
MYRISTYL |
Сайт N-миристоилирования
(N-myristoylation site) |
паттерн |
G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} |
неспецифична |
12 |
PS00009 |
AMIDATION |
Сайт амидирования
(Amidation site) |
паттерн |
х-G-K-R |
неспецифична |
1 |
PS00007 |
TYR_PHOSPHO_SITE |
Сайт фосфорилирования тирозинкиназы
(Tyrosine kinase phosphorylation site) |
паттерн |
K-x(3)-E-x(2)-Y |
неспецифична |
1 |
PS00006 |
CK2_PHOSPHO_SITE |
Сайт фосфорилирования казеинкиназы II
(Casein kinase II phosphorylation site) |
паттерн |
[ST]-x(2)-[ED] |
неспецифична |
2 |
Меня так же очень заинтересовало это задание, так как только 1 мотив был найден для моего белка. Между тем, при рассматривании трёхмерной модели,
можно увидеть, что белок связывается не только с пиридоксаль-фосфатом, но и с ещё одной молекулой, которая в записи PDB называется
5-FORMYL-6-HYDROFOLIC ACID. Странно, что для неё никакого мотива связывания не
предусмотрено. Однако он существует и убедиться в этом можно здесь. На картинке ниже показано взаимное расположение молекул (PLG -
пиридоксаль-фосфат, FFO - 5-FORMYL-6-HYDROFOLIC ACID) и сайта связывания с
пиридоксаль-фосфатом.
Упражнение 3. Создать позиционно-специфичную матрицу частот аминокислотных остатков (PSSM), получить вес последовательности по этой матрице
Я построила PSSM с помощью программы prophecy пакета EMBOSS на сервере kodomo-count.
На вход был подан файл с выравниванием фрагмента part2.txt, созданный при выполнении упр.1.
Проверила, что по умолчанию выбран тип профиля 'F'.
Запрос программы "Enter threshold reporting percentage" означает пороговое
значение в процентах от максимального результата, который может быть получен.
Запустила программу profit пакета EMBOSS на сервере kodomo-count. В качестве профиля на вход подайли файл, полученный
с помощью prophecy, а в качестве
последовательностей - part2.txt.
В результате получила файл.
Первая программа строит на основе сделанного выравнивания позиционно-специфичную
матрицу частот аминокислотных остатков. При этом строками матрицы являются все
позиции выравнивания, а колонками - буквы латинского алфавита. Так как их 27, а
аминокислотных остатков только 20 (да ещё не все присутствуют в выравнивании),
то многие колонки остаются пустыми.
Программа profit насколько я поняла по предложенной матрице, созданой с помощью программы prophecy, вычисляет вес каждой последовательности из
списка, поданного на вход. Если вес какой-либо из последовательностей больше порогового процента (в данном случае выше 75%), то программа выдаёт
информацию о весе этой последовательности. В моём случае максимальный
результат составляет 62, 75% от него не имеется ни у одной из предложенных
последовательностей, поэтому программа ничего и не выдала.
<Второй семестр
<<Главная страница
©ХАЧАТРЯН ЛУСИНЕ, 2007
|