Учебная страничка Васюткиной Ольги

Поиск мотивов в Prosite

Множественное выравнивание: часть последовательностей из практикума 9 (aln1_1.fasta), загрузить.
Проект Jalview с выравниванием: загрузить.
Вначале был осуществлен поиск мотивов в последовательностях с помощью Prosite.
Входные данные: последовательности (не более 10 и без гэпов!), отображение Graphical view.
Обнаружился 1 мотив под названием G_PROTEIN_RECEP_F1_2 (G-protein coupled receptors family 1), то есть семейство рецепторов, сопряженных с G-белком. Это группа рецепторов, которые передают сигнал во внеклеточное пространство путем взаимодействия с белками, связывающими гуанин нуклеотиды (по информации Prosite). Лигандами для этих рецепторов выступают различные вещества, в том числе гормоны, нейромедиаторы, светочувствительные вещества, пахучие вещества, феромоны. В частности, данное множественное выравнивание содержит последовательности рецептора холецистокинина - нейромедиатора. Оно показано на рис. 1, мотив отмечен буквой М. На рис. 2 отдельно выделен обнаруженный мотив. Заметим, что лишь одна позиция абсолютно консервативна: это позиция №13 с аргинином.

Рис. 1

Рис. 1. Множественное выравнивание последовательностей с мотивом G_PROTEIN_RECEP_F1_2 (отмечен буквой М в строке Motif). Раскраска BLOSUM62, консервативность 70%

Рис. 2

Рис. 2. Результат PSI-BLAST и выбранные последовательности

Далее построим паттерн мотива. Паттерн мотива аналогичен маске файла или регулярному выражению программ bash. Для каждой позиции мотива я выписала все встретившиеся аминокислоты. При построении сильного паттерна позиции, в которых было 4 разных аминокислоты, были расширены до функциональной группы, а позиции с 5-6 разными аминокислотами - до любой аминокислоты (х). Чтобы получить слабый паттерн, позиции с 2 аминокислотами были также расширены до функциональной группы, а с 3-6 - до любой аминокислоты (х). Результат представлен в таблице 1.

Таблица 1. Составление паттернов для мотива G_PROTEIN_RECEP_F1_2

№ позиции1234567891011121314151617
А.о. в выравниванииVSASNTGVIAFWLMNNTLMSIVLCMTAGLILFSATLVIAEDRYFGYNHILAVIL
Сильный паттернVSASNXXNTLMSTVIXAGLILFSATAGVILEDRYFXAVIL
Слабый паттернXSTNDXXSTNDXXXXXXEDRYFXAGVILILV


Сильный паттерн: [VSA]-[SN]-X(2)-[NT]-[LMSTVI]-X-[AGL]-[ILF]-[SAT]-[AGVIL]-[ED]-R-[YF]-X-[AV]-[IL]
Слабый паттерн: X-[STND]-X(2)-[STND]-X(6)-[ED]-R-[YF]-X-[AGVIL]-[ILV]
Теперь посмотрим, сколько последовательностей обнаружит Prosite для каждого паттерна. Вначале проведем поиск по сильному паттерну.
В базе данных Swiss-Prot: 38 находок в 38 последовательностях, если включить опцию Include splice variants, иначе 29 находок в 29 последовательностях. Все исходные последовательности были найдены.
В базе данных TrEMBL: 804 находки в 796 последовательностях.
Получилось так, что две последовательности содержали по 5 (!) искомых мотивов. Графическое отображение одной из таких последовательностей показано на рис. 3.

Рис. 3

Рис. 3. Графическое изображение искомых мотивов в последовательности с АС H2STK5. Получено с помощью Prosite

Теперь проведем поиск по слабому паттерну.
В базе данных Swiss-Prot: 754 находки в 754 последовательностях, если включить опцию Include splice variants, иначе 656 находок в 656 последовательностях.
В базе данных TrEMBL: 10013 находки в 10000 последовательностях. 10000 последовательностей - лимит для поиска, то есть вполне вероятно, что действительно их можно найти больше.
Таким образом, в каждом случае обнаружилось довольно много последовательностей. Это неудивительно, ведь искомый мотив небольшой и содержит часто встречаемые аминокислоты. К тому же, исследование нейромедиаторов и их рецепторов очень актуально, например, для разработки лекарств.


Valid HTML 4.01 Transitional