Паттерны и профили


На главную Назад

Мотивы,паттерны и профили

Я импортировал в Genedoc множественное выравнивание, полученное на прошлом занятии спомошью программы muscle, выбрал фрагмент, состоящий из 16 остатков для дальнейшего исследования (экспортированный фрагмент из Genedoc, сохраненный в HTML формате находится в файле fragment.html Участок данного фрагмента, не содержащий гэпов, экспортированный в формате fasta, находится в файле part2.txt Дальше мною было создано 3 паттерна:первый паттерн - точная копия фрагмента белка, второй паттерн (сильный) был построен так, чтобы он распознавал все белки из моей выборки (в действительности по паттерну были найдены и другие белки), третий паттерн (слабый) - более "мягкий" по требованиям к последовательности, был создан на основе второго сильного паттерна.
По результатам поиска последовательностей в Swiss-Prot, содержащих мотивы, соответствующих каждому составленному паттерну, была составлена табличка:
Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
Фрагмент последовательности TSEIYGRAIVMPNLAP 1 Да, была найдена последовательность из взятого мною белка (PYRC_ECOLI)
Сильный T-[AS]-[RE]-[LQI]-[FY]-[SAG]-R-A-I-[VI]-M-P-N-L-[VKATS]-P 24 все
Слабый {GH}-[FY]-[SAG]-R-A-I-[VI]-M-P-N-L-X 70 все
Из результатов видно, что по первому паттерну, являющемуся точной копией последовательности белка, была найдена только одна последовательность (мой белок). По второму патернну (сильному) было найдено всего 24 белка,а по третьему - 70. Различия обусловлены "силой" паттерна.

Все описанные мотивы в заданном белке PYRC_ECOLI.

Найдены мотивы,в том числе неспецифичные, описанные в PROSITE. По результатам поиска была создана таблица:
Идентификатор документа PROSITE (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (регулярное выражение) Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00006 CK2_PHOSPHO_SITE Сайт фосфорилирования казеин-киназы II (Casein kinase II phosphorylation site) паттерн [ST] - x(2) - [DE] [S or T is the phosphorylation site] неспецифична 7
PS00008 MYRISTYL Сайт N-миристилирования(N-myristoylation site) паттерн G - {EDRKHPFYW} - x(2) - [STAGCN] - {P} неспецифична 4
PS00005 PKC_PHOSPHO_SITE Сайт фосфорилирования белка-киназы С (Protein kinase C phosphorylation site) паттерн [ST] - x - [RK] неспецифична 3
PS00001 ASN_GLYCOSYLATION Сайт N-гликозилирования (N-glycosylation site) паттерн N - {P} - [ST] - {P} неспецифична 3
PS00004 CAMP_PHOSPHO_SITE cAMP- and cGMP-dependent protein kinase phosphorylation site паттерн [RK](2) - x - [ST]{P} неспецифична 1
PS00482 DIHYDROOROTASE_1 Dihydroorotase signature 1 паттерн DWHLHLRdG специфична 1
PS00483 DIHYDROOROTASE_2 Dihydroorotase signature 2 паттерн GTDsAPHarhrK специфична 1


Построение позиционно-специфичной матрицы частот аминокислотных остатков (PSSM)и определение веса последовательности по полученной матрице

С помощью программы prophecy построил PSSM, результаты построения матрицы можно посмотреть здесь.
Матрица представляет собой таблицу:колонки - аминокислоты в алфавитном порядке, строки - номера позиций в последовательности. В каждой ячейке таблицы указано сколько раз встречается аминокислота (указанная в столбце) в данной позиции (указанной в строке)
Результаты, полученные с помощью программы profit находятся в файле profit.txt, в котором указан вес каждой последовательности (в процентах) согласно матрице PSSM, построенной ранее.
©Базылев Сергей, 2007