Множественное выравнивание. Мотивы и паттерны.

Целью занятия было ознакомиться с возможностями паттернов и мотивов в применении к множественным выравниваниям.
С помощью программы blastp я нашёл (ortolog.fasta) гомологи своего белка, из которых выбрал 5, с процентами совпадений 40-80%, E-value не хуже (не больше) 10-3. Оказалось (совершенно не специально), что у всех них в описании сказано, что они тоже связывают Витамин B-12. После построения выравнивания в программе muscle я получил выравнивание (aligned.fasta), в котором было видно два довольно консервативных домена – как раз на месте аминокислот, взаимодействующих с витамином. Я выбрал второй из этих участков для дальнейшего исследования, экспортировав его в html-файл aligned.htm и сохранив в fragment.msf.

Паттерны

Паттерн – эдакий «образец» для последовательности, позволяющий без сложных алгоритмов выравнивания получить последовательности по заданному образцу. Моим заданием было создать такие «паттерны» для интересующего меня сайта связывания с витамином. Их должно было быть три – один в точности соответствовать фрагменту моего белка, второй должен был распозновать белки моей выборки и только их, а третий – быть слабым и неправильным, на основе второго. Поиск по паттернам производится на сайте PROSITE с параметрами «not greedy, not overlap», что означает, что найденные последовательности не обязательно должны были быть наибольшей длинны и не должны накладываться друг на друга.
Таблица 1. Результаты поиска по паттернам
Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
Фрагмент последовательности CGGENVFADSRVPWPQVSREQV 3 Нет.
Сильный C-G-G-[ER]N-[IV]-FA-[DN]-S-[RP]-V-P-W-P-Q-V-S-R-E-Q-V 7 Да.
Слабый G-[ER]N-[IV]-FA-[DN]-S-[RP]-V-P-W-P-Q-V-S-R-E 41 Да.
Последним упражнением был поиск мотивов в моём белке с помощью PROSITE. Как мне кажется, из найденных мотивов ценность имеет только первый, весьма подходящий по смыслу, а остальные - лишь издержки мягких условий поиска, без отсортировки неспецифичных паттернов.
Таблица 2. Мотивы в белке BTUF_ECOLI
Идентификатор документа PROSITE (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (регулярное выражение) Специфична ли подпись? Сколько мотивов нашлось в белке?
PS50983 FE_B12_PBP Профиль домена, периплазматически связывающего железо Профиль это матрикс да 5
PS00006 CK2_PHOSPHO_SITE Casein kinase II phosphorylation site Паттерн [ST] - x(2) - [DE] нет 5
PS00005 PKC_PHOSPHO_SITE Protein kinase C phosphorylation site Паттерн [ST] - x - [RK] нет 2