Паттерны и профили

Cоздание паттернов по заданному участку выравнивания.

Характеристика паттерна	Паттерн	В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну?	Все ли последовательности из Вашего выравнивания найдены?
Фрагмент последовательности	r-m-g-f-n-n-l-g-v-d-n-l-v-e-n-v-k-k-a-h-y-d- g-v-l-g-i-n-i-g-k-n-k-d-t	11	Найдена только PYRD_Ecoli. (По последовательности которой паттерн, собственно и строился.)
Сильный	r-[ml]-g-f-n-n-[aelsk]-g-[ahiv]-[dge]-[vayqn]-[calf]-[val]-[ranke]-[rnq]-[lv]-[akqmi] -x(0,3)-[akq]-[tcsak]-[askrh]-[rfysi]-[mekrd]-[agi]-[plivm]-[vil]-g- [vil]-n-[vi]-g-[ka]-n-[ka]-[td]-[ts]	63	Найдены все последовательности.
Слабый	R-[ML]-G-F-N-N-x-G-x(17,20)-G-x-N-[IV]-G-[KA]-N-[KA]-[DT]-[TS]	100	Найдены все последовательности.

Выбор паттерна зависит от целей и задач для которых он строиться.Слабый находит более далекие последовательности.Но если знать/или предполагать какие именно позиции помимо того что консервативны, являются необходими для выполнение каких-либо функций, то результаты поиска по слабому паттерну будут более информативны.

Упражнение 2. Найти и описать все мотивы в Вашем белке (по данным БД PROSITE)

Все описанные в PROSITE мотивы в заданном белке PYRD_Ecoli

Идентификатор документа PROSITE (AC)	Название мотива	Краткое описание мотива	Тип подписи (паттерн, профиль)	Паттерн (регулярное выражение)	Специфична ли подпись?	Сколько мотивов нашлось в белке?
PS00911	DHODEHASE_1	Dihydroorotate dehydrogenase signature 1 (Дегидрооротатдегидрогеназа подпись1)	паттерн	`[GSA] - x(4) - [GK] - [GSTA] - [LIVFSTA] - [GST] - x(3) - [NQRK] - x - G - [NHY] - x(2) - P - [RTV]`	специфична	1
PS00912	DHODEHASE_2	Dihydroorotate dehydrogenase signature 2 (Дегидрооротатдегидрогеназа подпись2)	паттерн	[LIVM](2) - [GSA] - x - G(2) - [IV] - x - [STGDN] - x(3) - [ACV] - x(2) - {A} - {R} - x - {L} - G - A	специфична	1
PS00004	CAMP_PHOSPHO_SITE	cAMP- and cGMP-dependent protein kinase phosphorylation site (Сайт фосфорилирования cAMP- и cGMP- зависимой протеинкиназы )	паттерн	[RK](2) - x - [ST]	неспецифична	2
PS00006	CK2_PHOSPHO_SITE	Casein kinase II phosphorylation site (Сайт фосфорилирования казеинкиназы II)	паттерн	[ST] - x(2) - [DE] [S or T is the phosphorylation site]	неспецифична	4
PS00005	PKC_PHOSPHO_SITE	Protein kinase C phosphorylation site (Сайт фосфорилирования протеинкиназы С) :	паттерн	[ST] - x - [RK]	неспецифична	3
PS00008	MYRISTYL	N-myristoylation site (N-миристоилирования )	паттерн	G - {EDRKHPFYW} - x(2) - [STAGCN] - {P} [G is the N - myristoylation site]	неспецифична	6
PS00001	ASN_GLYCOSYLATION	N-glycosylation site : (сайт N-гликозилирования)	паттерн	N - {P} - [ST] - {P}	неспецифична	2
PS00342	MICROBODIES_CTER	Microbodies C-terminal targeting signal (С концевой сигнал микротелец)	паттерн	[STAGCN] - [RKH] - [LIVMAFY]>	неспецифична	1

3. Создание позиционно-специфичной матрицы частот аминокислотных остатков (PSSM).

Фрагмент выравнивания

Выходной файл программы prophecy

Выходной файл программы profit

Создание PSSM:

Программа prophecy (пакета EMBOSS) создает матрицу (профиль) по заданному множественному выравниванию. В моем случае -part2.txt.
Программа может работать в 3 режимах: F- (Frequency) установлен по умолчанию ,G-(Gribskov) ,H-(Henikoff)

По умолчанию для расчетов:
- в режиме F, H поумолчанию используется -EBLOSUM62, для G -Epprofile
-штраф за открытие гэпа 3.0
-штраф за продление гэпа 0.3

Программа profit использует эту матрицу для определения веса последовательности.

Т.е prophecy строит матрицу в которой количество колонок соответствует количеству позиций в выравнивании, а количество строк 20 -соответственно количеству аминокислот. Такая простая матрица частот строиться исходя из того сколько раз аминокислота встречается в каждой позиции выравнивания. Такая матрица частот создается prophecy с опцией "F".При это выбранный участок выравнивания не должен содержать гэпы.

Далее программа profit используя эту матрицу вычисляет вес, для каждой последовательности из списка по которому проводиться поиск. Вес за совпадение вычисляется исходя из простой матрицы частот, как сумма в каждом положении матрицы. И если вес выше порогового процента от максимального возможного счета для этой матрицы, то о хите сообщают. (Пороговое значение задается на запрос -"Enter threshold reporting percentage").

В моем случае не общается о двух последовательностях - PYRD_Anadf и PYRD_Rhim.

Главная страница Первый семестр Второй семестр