Создание паттернов аминокислотных последовательностей

Сначала я импортировала в GeneDoc множественное выравнивание, полученное на прошлом занятии с помощью программы muscle.
Затем выбрала фрагмент выравнивания длиной в 20 аминокислот (75% колонок консервативны на 70-100%). Я экспортировала выбранный фрагмент в HTML-файл. Самый длинный участок выбранного фрагмента, не содержащий гепов, я сохранила в формате FASTA в текстовый файл part2.txt

Я создала 3 паттерна и записала их в таблицу:

  1. Первый паттерн в точности являетсяе фрагментом последовательности моего белка(K6PF1_ECOLI).
  2. Второй "сильный" паттерн был построен так, чтобы он распознавал все белки моей выборки, и только их. Для этого в каждой из позиций были разрешены все буквы, встретившиеся в какой-либо из позиций выборки.
  3. Третий "слабый" паттерн был создан на основе второго, но условия в нём были заменены на более мягкие. Для этого, я ставила Х (любой аминокислотный остаток), если буквы в какой -либо из позиций выравнивания во всех последовательностях выборки были разными.

Затем я провела поиск последовательностей банка Swiss-Prot, включающих мотивы, соответствующие каждому из полученных паттернов.

Tаблица сравнения паттернов, построенных по результатам выравнивания muscle для участка выравнивания длиной в 20 аминокислот

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из моего выравнивания найдены?
Фрагмент последовательности  M-I-K-K-I-G-V-L-T-S-G-G-D-A-P-G-M-N-A-A  27  нет
Сильный  X(0,1)-[IM]-[KR]-[KR]-I-[GA]-[VI]-L-T-S-G-G-D-[AS]-P-G-M-N-A-[AI]  109  да
Слабый  I-X(2)-L-T-S-G-G-D-X-P-G-M-N-A  138  найдены все
Из результатов таблицы становится ясно, что чем более слабый паттерн создан, тем у нас больше возможностей для того, чтобы потенциальная находка подошла под паттерн.

Все описанные в PROSITE мотивы в заданном белке k6pf1_ecoli

Идентификатор документа PROSITE (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (регулярное выражение) Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00008 MYRISTYL Сайт N-миристоилирования (N-myristoylation site) паттерн G - {EDRKHPFYW} - x(2) - [STAGCN] - {P} [G is the N - myristoylation site] неспецифична 11
PS00006 CK2_PHOSPHO_SITE Сайт фосфорилирования казеин киназой II(Casein kinase II phosphorylation site) паттерн [ST] - x(2) - [DE] [S or T is the phosphorylation site] неспецифична 6
PS00005 PKC_PHOSPHO_SITE Сайт фосфорилирования протеин-киназы С (Protein kinase C phosphorylation site ) паттерн [ST] - x - [RK] несппецифична 2
PS00009 AMIDATION Сайт амидирования(Amidation site) паттерн x - G - [RK] - [RK] неспецифична 1
PS00433 Phosphofructokinase Подпись фосфофруктокиназы (Phosphofructokinase signature) паттерн [RK] - x(4) - [GAS] - H - x - [QL] - [QR] - [GS] - [GF] - x(5) - [DE] - [RL] специфична 1

Упражнение 3. Создать позиционно-специфичную матрицу частот аминокислотных остатков (PSSM), получить вес последовательности по этой матрице

Я построила PSSM с помощью программы prophecy пакета EMBOSS на сервере kodomo-count.
На вход был подан файл с выравниванием фрагмента part2.txt, созданный при выполнении упр.1.
Проверила, что по умолчанию выбран тип профиля 'F'.
Запрос программы "Enter threshold reporting percentage" означает пороговое значение в процентах от максимального результата, который может быть получен. Запустила программу profit пакета EMBOSS на сервере kodomo-count. В качестве профиля на вход подала файл, полученный с помощью part2.prophecy, а в качестве последовательностей - part2.txt.
В результате получила part2.profit.

Первая программа строит на основе сделанного выравнивания позиционно-специфичную матрицу частот аминокислотных остатков, в которой количество столбцов равно 27, которые соответствуют закреплёнными за ними аминокислотными остатками и их производными, а по горизонтали расположены 19 остатков, соответствующих моему выравниванию. Числа в таблице показывают, сколько раз (во всех последовательностях в этой колонке) встречается аминокислота, отмеченная по горизонтали. Программа сначала строит Consensus - последовательность, элементами которой являются наиболее часто встретившиеся в одной колонке аминокислотные остатки из множественного выравнивания. А программа profit выводит процент идентичности сравнительно с консенсусом.

Вторая программа profit считает вес последовательности по построенной матрице и сравнивает этот все с максимальным весом последовательности по матрице (у меня - 136). Порог составляет 75%. Затем программа отбирает последовательности выше этого порога и выводит список последовательностей с получившимся процентом. Т.е. считает так: (вес последовательности по матрице/136)*100%.


<<Обратно на второй семестр

<<Обратно на главную страницу

©Лелекова Мария,2008