Практикум 10

Мотивы в белках

Поиск консервативных мотивов в выравнивании

Для этого задания был взят домен DACZ_N(PF19294). DAC_N - N-терминальная диаденилат циклаза, которая катализирует конденсацию 2 молекул АТФ в циклический ди-АМФ. Число последовательностей seed - 54. Я скачала эти последовательности, открыла выравнивание в Jalview и покрасила с помощью Сlustal. Далее я использовала опцию remove redudancy с порогом 75, это помогло уменьшить число последовательностей, их осталось 44. Мой выбор пал на мотив: [ST]G[VLI]Y[DG]LF. Я произвела поиск данного мотива в выравнивании, он нашелся в 35 последовательностях из 44. Это значит, что он достаточно консервативен. В формате ProSite этот паттерн выглядит так: [ST]-G-[VLI]-Y-[DG]-L-F.

picture
Рис.1. Выравнивание последовательностей домена DACZ_N

C помощью онлайн-сервиса MyHints произвела поиск мотивов по базе данных SwissProt. Нашлось 6 паттернов, 5 из них - 4-гидрокси-2-оксовалерат альдолазы и один - рибонуклеаза YxiD.

Консервативные мотивы в выравнивании

В Jalview было построено филогенетическое дерево с помощью NJ (Neighbour Joining), использовалась матрица BLOSUM62. Опираясь на это дерево была выделена клада из 9 последовательностей.

picture
Рис.2. Клада из 9 последовательностей

Для работы был выбран мотив, который немного превышает предыдущий по размерам: [ST]G[VLI]Y[DG]LF[AV]NSRA[ED]. Он был найден в 7 последовательностях из 9 в данном выравнивании.

picture
Рис.3. Поиск мотива в выравнивании всех последовательностей клады
picture
Рис.4. Поиск мотива в выравнивании всех последовательностей

В формате ProSite паттерн выглядит так: [ST]-G-[VLI]-Y-[DG]-L-F-[AV]-N-S-R-A-[ED]. Поиск по всему выравниванию тоже дал результат: он был найден в 16 последовательностях из 44.

PSI-BLAST

Для этого задания я выбрала белок с AC C4Z088. Это идентификатор вероятного белка MinC, который определяет сайт перегородки. Белок ингибирует клеточное деление, блокирующее образование полярных кольцевых перегородок Z путем колебания между полюсами клетки для дестабилизации филаментов FtsZ, прежде чем они соберутся в полярные Z-кольца.

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 162 Q2P036.1 0.004 Q5F5V4.1 0.005
2 188 O25693.2 2e-09 - -
3 188 Q9ZM51.1 1e-11 A7H8E6.1 0.012
4 188 Q9ZM51.1 5e-13 A7H8E6.1 0.016

Было проведено 4 итерации. Из таблицы, которая представлена выше, видно, что стабилизация результата очередной итерации достигнута, то есть список находок выше порога не изменился по сравнению с предыдущей итерацией. Также заметно, что разница между худшей находкой выше порога и лучшей находкой ниже порога довольна большая, а это значит, что с высокой вероятностью эти находки составляют семейство гомологичных белков.

Поиск de novo мотивов при помощи MEME в выборке последовательностей с доменом из SwissProt

Так как для домена, выбранного мной в первом задании получилось только 2 находки, я решила сменить его. Выбрала домен GGDEF (PF00990) - дигуанилат циклаза. Белки, которые содержат её, регулируют оборот циклического дигуанозинмонофосфата. В SwissProt нашлось 125 результатов. Скачала последовательности в формате fasta и сократила выборку до 86 с помощью remove redundancy в Jalview (порог 50). Далее запустила MEME и FIMO:

removed_GGDEF.fa -o meme_results -mod anr -minw 4 -maxw 8 -nmotifs 4

fimo meme_results/meme.txt default.fa

Результаты работы MEME и FIMO

Оценка представленности сайта GATC в геноме Coxiella burnetii RSA 493

Для выполнения этого задания я взяла бактерию из первого семестра. Геномную сборку можно посмотреть тут

С помощью скрипта Карины Каримовой, за который выражаю ей огромную благодарность, были посчитаны контрасты obs/exp по методу Карлина для сайта GATC и для всех сотальных сайтов длины 4, полученных перестановкам нуклеотидов. Также была построена гистограмма

picture
Рис.5. Гистограмма представленности для всех сайтов длины 4

Можно заметить, что сайты GATC представлены реже, чем ожидалось.