Практикум 10
Поиск консервативного мотива в выравнивании
Для выполнения этого практикума я выбрал семейство C-концeвых доменов белка SDE2, который участвует в stress response во время репликации (PF13297). В seed этого семейства 43 последовательности, белков в UniProt с таким доменом - примерно 4 тысячи.

Я поискал литературу по этому домену, сначала понадеялся вот на эту статью, там даже есть выравнивание с обозначенным консервативным мотивом, но потом я понял, что это другой домен этого же белка(( Поэтому я выбрал мотив на глаз - обозначен на Рис. 1
IC = 29.97, в предположении (очевидно неверном) равновероятности аминокислот
Паттерн Jalview: [GDKNS][LMVI]K[CASTVQ]GG[TSKN][LPVHT]
Паттерн PROSITE:[GDKNS]-[LMVI]-K-[CASTVQ]-G-G-[TSKN]-[LPVHT]

Далее был запущен поиск паттерна при помощи сервиса ScanProsite в база данных Swiss-Prot. Нашлось 84 хита в 84 белках. Далее полученные последовательности были выравнены программой mafft. Мотивы не выравнились. Связано это с тем, что составленный мной паттерн, вообще не отражает разную степень аминокислот в вариабельных позициях. Так, частота G в первой позиции - 91%. Видимо, стоило отфильтровать последовательности в выравнивании, но тогда их было осталось маловато. Если искать по паттерну G-L-K-C-G-G-T
(оставлены самые частые аминокислоты в вариабельных позициях), находится 11 белков, мотивы прекрасно выравниваются.
Поиск мотива, специфичного для одной клады
В Jalview было построено филогенетическое дерево алгоритмом NJ


Паттерн Jalview: P.L[FL]AK
. Такой паттерн находится только у группы, выделенной синим (последние 6 остатков) и не встречается больше нигде в выравнивании. Таким образом, этот мотив спецефичен для данной клады.
PSI-BLAST
Я выбрал идентификатор C4Z088. Это ингибитор клеточного деления, который блокирует сборку протофиламентов FtsZ, которые необходимы для формирования Z-кольца в месте деления клетки, также этот белок предотвращает полимеризацию FtsZ. Далее запустил PSI-BLAST по базе данных Swiss-Prot. Результаты представлены в Таблице 1.
Таблица 1. Итерации PSI-BLAST поиска гомологов C4Z088
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 162 | Q2P036.1 | 0.004 | Q5F5V4.1 | 0.005 |
2 | 188 | O25693.2 | 2e-09 | - | - |
3 | 188 | Q9ZM51.1 | 1e-11 | A7H8E6.1 | 0.012 |
На третьей итерации алгоритм сошелся, новых белков не нашлось. Наблюдается сильная разница E-value между худшей находкой выше порога и лучшей находкой ниже порога, то есть четко выделилась группа гомологов белка C4Z088.
Поиск de novo мотивов с помощью MEME
Я выбрал белки с доменной архитектурой Q7QBN1 (180 белков, содержат домен, с которым работали в прошлом задании). Разделил их на две подвыборки: 52 последовательности для meme и 128 для fimo. Далее был произведен de novo поиск мотивов с помощью meme (отчет).


Далее для поиска этого мотива была запущена программа fimo (отчет). Нашлось 288 хитов в 128 последовательностях, хотя выбранный мной мотив встречается в домене только один раз, то есть найденный meme паттерн на самом деле включает в себя не только мой мотив.
Оценка представленности сайта GATC в геноме Streptococcus thermophilus
Для вычисления контрастов была использована программа cbcalc:
cbcalc -s sites.txt -M -o res.tsv sequence.fasta

Сайт GATC явно "избегается". Вероятно, его функции выполняют похожие сайты. Такая недопредставленность GATC может объясняться наличием у Streptococcus thermophilus рестриктаз, сайты узнавания которых содержат GATC.