Поиск консервативных мотивов в выравнивании
Для этого задания был взят домен DACZ_N(PF19294). DAC_N - N-терминальная диаденилат циклаза, которая катализирует конденсацию 2 молекул АТФ в циклический ди-АМФ. Число последовательностей seed - 54. Я скачала эти последовательности, открыла выравнивание в Jalview и покрасила с помощью Сlustal. Далее я использовала опцию remove redudancy с порогом 75, это помогло уменьшить число последовательностей, их осталось 44. Мой выбор пал на мотив: [ST]G[VLI]Y[DG]LF. Я произвела поиск данного мотива в выравнивании, он нашелся в 35 последовательностях из 44. Это значит, что он достаточно консервативен. В формате ProSite этот паттерн выглядит так: [ST]-G-[VLI]-Y-[DG]-L-F.
C помощью онлайн-сервиса MyHints произвела поиск мотивов по базе данных SwissProt. Нашлось 6 паттернов, 5 из них - 4-гидрокси-2-оксовалерат альдолазы и один - рибонуклеаза YxiD.
Консервативные мотивы в выравнивании
В Jalview было построено филогенетическое дерево с помощью NJ (Neighbour Joining), использовалась матрица BLOSUM62. Опираясь на это дерево была выделена клада из 9 последовательностей.
Для работы был выбран мотив, который немного превышает предыдущий по размерам: [ST]G[VLI]Y[DG]LF[AV]NSRA[ED]. Он был найден в 7 последовательностях из 9 в данном выравнивании.
В формате ProSite паттерн выглядит так: [ST]-G-[VLI]-Y-[DG]-L-F-[AV]-N-S-R-A-[ED]. Поиск по всему выравниванию тоже дал результат: он был найден в 16 последовательностях из 44.
PSI-BLAST
Для этого задания я выбрала белок с AC C4Z088. Это идентификатор вероятного белка MinC, который определяет сайт перегородки. Белок ингибирует клеточное деление, блокирующее образование полярных кольцевых перегородок Z путем колебания между полюсами клетки для дестабилизации филаментов FtsZ, прежде чем они соберутся в полярные Z-кольца.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 162 | Q2P036.1 | 0.004 | Q5F5V4.1 | 0.005 |
2 | 188 | O25693.2 | 2e-09 | - | - |
3 | 188 | Q9ZM51.1 | 1e-11 | A7H8E6.1 | 0.012 |
4 | 188 | Q9ZM51.1 | 5e-13 | A7H8E6.1 | 0.016 |
Было проведено 4 итерации. Из таблицы, которая представлена выше, видно, что стабилизация результата очередной итерации достигнута, то есть список находок выше порога не изменился по сравнению с предыдущей итерацией. Также заметно, что разница между худшей находкой выше порога и лучшей находкой ниже порога довольна большая, а это значит, что с высокой вероятностью эти находки составляют семейство гомологичных белков.
Поиск de novo мотивов при помощи MEME в выборке последовательностей с доменом из SwissProt
Так как для домена, выбранного мной в первом задании получилось только 2 находки, я решила сменить его. Выбрала домен GGDEF (PF00990) - дигуанилат циклаза. Белки, которые содержат её, регулируют оборот циклического дигуанозинмонофосфата. В SwissProt нашлось 125 результатов. Скачала последовательности в формате fasta и сократила выборку до 86 с помощью remove redundancy в Jalview (порог 50). Далее запустила MEME и FIMO:
removed_GGDEF.fa -o meme_results -mod anr -minw 4 -maxw 8 -nmotifs 4
fimo meme_results/meme.txt default.fa
Оценка представленности сайта GATC в геноме Coxiella burnetii RSA 493
Для выполнения этого задания я взяла бактерию из первого семестра. Геномную сборку можно посмотреть тут
С помощью скрипта Карины Каримовой, за который выражаю ей огромную благодарность, были посчитаны контрасты obs/exp по методу Карлина для сайта GATC и для всех сотальных сайтов длины 4, полученных перестановкам нуклеотидов. Также была построена гистограмма
Можно заметить, что сайты GATC представлены реже, чем ожидалось.