Паттерны и профили

1.

Cоздание паттернов по заданному участку выравнивания.

Выбранный участок

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
Фрагмент последовательности  r-m-g-f-n-n-l-g-v-d-n-l-v-e-n-v-k-k-a-h-y-d- g-v-l-g-i-n-i-g-k-n-k-d-t  11 Найдена только PYRD_Ecoli. (По последовательности которой паттерн, собственно и строился.)
Сильный  r-[ml]-g-f-n-n-[aelsk]-g-[ahiv]-[dge]-[vayqn]-[calf]-[val]-[ranke]-[rnq]-[lv]-[akqmi]

-x(0,3)-[akq]-[tcsak]-[askrh]-[rfysi]-[mekrd]-[agi]-[plivm]-[vil]-g-

[vil]-n-[vi]-g-[ka]-n-[ka]-[td]-[ts]

 63 Найдены все последовательности.
Слабый R-[ML]-G-F-N-N-x-G-x(17,20)-G-x-N-[IV]-G-[KA]-N-[KA]-[DT]-[TS] 100 Найдены все последовательности.

Выбор паттерна зависит от целей и задач для которых он строиться.Слабый находит более далекие последовательности.Но если знать/или предполагать какие именно позиции помимо того что консервативны, являются необходими для выполнение каких-либо функций, то результаты поиска по слабому паттерну будут более информативны.

Упражнение 2. Найти и описать все мотивы в Вашем белке (по данным БД PROSITE)

Все описанные в PROSITE мотивы в заданном белке PYRD_Ecoli

Идентификатор документа PROSITE (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (регулярное выражение) Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00911 DHODEHASE_1 Dihydroorotate dehydrogenase signature 1 (Дегидрооротатдегидрогеназа подпись1) паттерн [GSA] - x(4) - [GK] - [GSTA] - [LIVFSTA] - [GST] - x(3) - [NQRK] - x - G - [NHY] - x(2) - P - [RTV] специфична 1
 PS00912  DHODEHASE_2  Dihydroorotate dehydrogenase signature 2 (Дегидрооротатдегидрогеназа подпись2)  паттерн  [LIVM](2) - [GSA] - x - G(2) - [IV] - x - [STGDN] - x(3) - [ACV] - x(2) - {A} - {R} - x - {L} - G - A  специфична  1
 PS00004   CAMP_PHOSPHO_SITE  cAMP- and cGMP-dependent protein kinase phosphorylation site (Сайт фосфорилирования cAMP- и cGMP- зависимой протеинкиназы )  паттерн  [RK](2) - x - [ST]  неспецифична  2
 PS00006  CK2_PHOSPHO_SITE   Casein kinase II phosphorylation site (Сайт фосфорилирования казеинкиназы II)  паттерн   [ST] - x(2) - [DE] [S or T is the phosphorylation site]  неспецифична  4
 PS00005  PKC_PHOSPHO_SITE  Protein kinase C phosphorylation site (Сайт фосфорилирования протеинкиназы С) :  паттерн  [ST] - x - [RK]  неспецифична  3
 PS00008   MYRISTYL  N-myristoylation site (N-миристоилирования )  паттерн  G - {EDRKHPFYW} - x(2) - [STAGCN] - {P} [G is the N - myristoylation site]  неспецифична  6
 PS00001   ASN_GLYCOSYLATION  N-glycosylation site : (сайт N-гликозилирования)  паттерн   N - {P} - [ST] - {P}  неспецифична  2
 PS00342  MICROBODIES_CTER  Microbodies C-terminal targeting signal (С концевой сигнал микротелец)  паттерн   [STAGCN] - [RKH] - [LIVMAFY]>  неспецифична  1

3. Создание позиционно-специфичной матрицы частот аминокислотных остатков (PSSM).

Фрагмент выравнивания

Выходной файл программы prophecy

Выходной файл программы profit

Создание PSSM:

Программа prophecy (пакета EMBOSS) создает матрицу (профиль) по заданному множественному выравниванию. В моем случае -part2.txt.
Программа может работать в 3 режимах: F- (Frequency) установлен по умолчанию ,G-(Gribskov) ,H-(Henikoff)

По умолчанию для расчетов:
- в режиме F, H поумолчанию используется -EBLOSUM62, для G -Epprofile
-штраф за открытие гэпа 3.0
-штраф за продление гэпа 0.3

Программа profit использует эту матрицу для определения веса последовательности.

Т.е prophecy строит матрицу в которой количество колонок соответствует количеству позиций в выравнивании, а количество строк 20 -соответственно количеству аминокислот. Такая простая матрица частот строиться исходя из того сколько раз аминокислота встречается в каждой позиции выравнивания. Такая матрица частот создается prophecy с опцией "F".При это выбранный участок выравнивания не должен содержать гэпы.

Далее программа profit используя эту матрицу вычисляет вес, для каждой последовательности из списка по которому проводиться поиск. Вес за совпадение вычисляется исходя из простой матрицы частот, как сумма в каждом положении матрицы. И если вес выше порогового процента от максимального возможного счета для этой матрицы, то о хите сообщают. (Пороговое значение задается на запрос -"Enter threshold reporting percentage").

В моем случае не общается о двух последовательностях - PYRD_Anadf и PYRD_Rhim.

Главная страница Первый семестр Второй семестр


©Петрова Светлана,2007