Практикум 10


Поиск консервативного мотива в выравнивании

Для выполнения этого практикума я выбрал семейство C-концeвых доменов белка SDE2, который участвует в stress response во время репликации (PF13297). В seed этого семейства 43 последовательности, белков в UniProt с таким доменом - примерно 4 тысячи.

Рис. 1. Выравнивание seed семейства доменов Replication stress response SDE2 C-terminal с обозначенным выбранным мной консервативным мотивом

Я поискал литературу по этому домену, сначала понадеялся вот на эту статью, там даже есть выравнивание с обозначенным консервативным мотивом, но потом я понял, что это другой домен этого же белка(( Поэтому я выбрал мотив на глаз - обозначен на Рис. 1

IC = 29.97, в предположении (очевидно неверном) равновероятности аминокислот
Паттерн Jalview: [GDKNS][LMVI]K[CASTVQ]GG[TSKN][LPVHT]
Паттерн PROSITE:[GDKNS]-[LMVI]-K-[CASTVQ]-G-G-[TSKN]-[LPVHT]

LOGO:

Далее был запущен поиск паттерна при помощи сервиса ScanProsite в база данных Swiss-Prot. Нашлось 84 хита в 84 белках. Далее полученные последовательности были выравнены программой mafft. Мотивы не выравнились. Связано это с тем, что составленный мной паттерн, вообще не отражает разную степень аминокислот в вариабельных позициях. Так, частота G в первой позиции - 91%. Видимо, стоило отфильтровать последовательности в выравнивании, но тогда их было осталось маловато. Если искать по паттерну G-L-K-C-G-G-T (оставлены самые частые аминокислоты в вариабельных позициях), находится 11 белков, мотивы прекрасно выравниваются.

Поиск мотива, специфичного для одной клады

В Jalview было построено филогенетическое дерево алгоритмом NJ

Рис. 2. Филогенетическое дерево, построенное на основе выравнивания seed
Рис. 3. Выравнивание с раскраской по филогенетическим группам

Паттерн Jalview: P.L[FL]AK. Такой паттерн находится только у группы, выделенной синим (последние 6 остатков) и не встречается больше нигде в выравнивании. Таким образом, этот мотив спецефичен для данной клады.

PSI-BLAST

Я выбрал идентификатор C4Z088. Это ингибитор клеточного деления, который блокирует сборку протофиламентов FtsZ, которые необходимы для формирования Z-кольца в месте деления клетки, также этот белок предотвращает полимеризацию FtsZ. Далее запустил PSI-BLAST по базе данных Swiss-Prot. Результаты представлены в Таблице 1.

Таблица 1. Итерации PSI-BLAST поиска гомологов C4Z088
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 162 Q2P036.1 0.004 Q5F5V4.1 0.005
2 188 O25693.2 2e-09 - -
3 188 Q9ZM51.1 1e-11 A7H8E6.1 0.012

На третьей итерации алгоритм сошелся, новых белков не нашлось. Наблюдается сильная разница E-value между худшей находкой выше порога и лучшей находкой ниже порога, то есть четко выделилась группа гомологов белка C4Z088.

Поиск de novo мотивов с помощью MEME

Я выбрал белки с доменной архитектурой Q7QBN1 (180 белков, содержат домен, с которым работали в прошлом задании). Разделил их на две подвыборки: 52 последовательности для meme и 128 для fimo. Далее был произведен de novo поиск мотивов с помощью meme (отчет).

Рис. 4. Выравнивание подвыборки белков с выделенным найденным мотивом
Рис. 5. Лого одного из найденных мотивов (с наименьшим E-value = 3.5e-499)
Хочется верить, что этот мотив (Рис. 5) пересекается с мотивов, выделенным мной в первом пункте (кажется, это правда так, Рис. 4). Удачно, что он еще и наиболее значимый.

Далее для поиска этого мотива была запущена программа fimo (отчет). Нашлось 288 хитов в 128 последовательностях, хотя выбранный мной мотив встречается в домене только один раз, то есть найденный meme паттерн на самом деле включает в себя не только мой мотив.

Оценка представленности сайта GATC в геноме Streptococcus thermophilus

Для вычисления контрастов была использована программа cbcalc:

cbcalc -s sites.txt -M -o res.tsv sequence.fasta
Рис. 6. Гистограмма контрастов obs/exp

Сайт GATC явно "избегается". Вероятно, его функции выполняют похожие сайты. Такая недопредставленность GATC может объясняться наличием у Streptococcus thermophilus рестриктаз, сайты узнавания которых содержат GATC.