Практикум 10: Поиск специфичных мотивов

В данном задании я занимался поиском специфичных мотивов в белках с помощью MEME, PSI-BLAST, Prosite и построением филогенетического дерева. Для работы было выбрано семейство белковых доменов NurA (PF09376), проявляющих 5'-3'-экзонуклеазную и эндонуклеазную активность и распространённых среди прокариот. Seed-выравнивание содержит 44 последовательности и имеет длину 660 а.о. В результате работы был обнаружен интересный мотив [AGFSTV]-[VITGAL]-D-[GS]-[SGKVH]. Несмотря на некоторую вариативность, по выравниванию найдено 44 верных соответствия и всего 4 «лишних». Во всех случаях на одинаковой позиции стоит D (аспартат), что может указывать на участие мотива в активном центре или важную структурную роль.

Выбранный мотив

Рис. 1. Выбранный мотив.

При работе с MyHits возникла проблема: из-за неспецифичности паттерна сервис находил слишком много совпадений. Я провел оптимизацию, оставив наиболее консервативные аминокислоты. Например, паттерн [AG]-[VIT]-D-[G]-[SG] дал 2249 совпадений, а более строгий A-V-D-G-S — 160. Только одна последовательность из второго варианта совпадала с белком NurA, что говорит о хорошей специфичности.

Выбранная клада

Рис. 2. Выбранная клада на филогенетическом дереве.

На дереве, построенном с помощью Neighbor-Joining, была выделена клада из 7 последовательностей. В их выравнивании обнаружился уникальный мотив: [LIV]..RR[DSTF][QREV].E.{3}L. Этот мотив не встречается больше нигде в общем выравнивании, что подтверждает его специфичность для данной группы.

Специфичный мотив клады

Рис. 3. Специфичный мотив в кладе.

Анализ PSI-BLAST

С помощью PSI-BLAST было отслежено, как по итерациям меняется число совпадений. На ранних итерациях совпадения в основном попадали на белки NurA, но затем начали появляться нерелевантные находки.

PSI-BLAST итерации

Рис. 4. Число совпадений по итерациям PSI-BLAST.

Анализ частот GATC

Для найденного мотива была проведена проверка частот появления тетрануклеотида GATC в геномах. Построено распределение obs/exp всех тетрануклеотидов, где GATC оказался в числе наибольших.

Распределение частот GATC

Рис. 5. Контраст GATC среди всех тетрануклеотидов.

Заключение

В ходе практикума удалось выделить специфичные мотивы, провести их поиск и фильтрацию, и визуализировать результаты с учётом филогенетического контекста. Полученные мотивы демонстрируют высокую специфичность и потенциально играют важную функциональную роль.