Поиск сигналов. Теория

Задание 1. Определить биологическую роль определенного транскрипционного фактора в бактерии

Для данного задания был взят штамм бактерии Bacillus cereus ATCC 14579 (имя выданного файла с участком ДНК, с которыми связывается транскрипционный фактор: LiaR).
Ссылка на файл с участками ДНК, с которыми связывается наш транскрипционный фактор
1) MEME:
Первой частью задания является нахождение мотива связывания с помощью программы MEME.
Были установлены параметры поиска:
Normal mode - DNA, RNA or Protein - Upload sequences (был выбран файл) - Zero or one occurrence per sequence - 1 motif.
PWM (probability position weight matrix): ссылка; E-value: 5.5e-036.

Рис. 1 - Logo найденного MEME мотива связывания


2) RegPrecise ant Tomtom:
Был использован сервис tomtom для поиска мотива, который имеет схожую PWM, с полученным ранее мотивом (задание 1.1), в базе данных RegTransBase. Таким образом, на вход был подан файл MEME (ссылка) и указана база данных Prokaryotes (RegTransBase v4). Были получены 5 находок, была выбрана находка с наилучшим e-value. Название лучшей находки: NarP_Gammaproteobacteria; e-value: 5.59e-02; PWM: ссылка. Можно заметить, что два мотива, хоть и имеют неплохой e-value, отличаются друг от друга довольно сильно.

Рис. 2 - Изображения мотивов


3) FIMO:
Программа FIMO была применена для нахождения мотива из задания 1.1 в геноме бактерии. Поиск был осуществлен в upstream регионе, так как места связывания ТФ находятся, по большей части, в upstream регионе. Таким образом, были выбраны параметры: Upstream Sequences: Prokaryotic - Bacillus cereus ATCC 14579 uid57975, а на вход был подан файл формата MEME (ссылка на файл). На выход были получены файлы с координатами находок и p-value.
Ссылки на выдачу программы: файл формата txt, файл с таблицей Excel
В таблице 1 также представлены результаты (информация по выбранным нами генам). Геномные координаты выбранных генов были получены, благодаря поиску заданных участков по геномному файлу. Были найдены сайты связывания гипотетических белков.

Таблица 1 - Информация о выданных генах

Номер гена Название гена p-value Геномные координаты Совпавшая последовательность
1 NP_830147.1 (guaA) 24.7596 259538..259554 CTCCGCCTCTAGTCTCA
2 NP_832151.1 (BC2389) 18.8462 2332581...2332597 CTAGGTCTTAAGTCTGA
3 NP_832279.1 (BC2520) 8.72115 2493003 ...2493020 CTACAACTTTAGTATGA ("-" цепь)

4) KEGG:
В данном задании необходимо было выяснить: входят ли найденные гены или часть из них в один метаболический путь KEGG (БД STRING). Первый ген входит в метаболический путь: Guanine ribonucleotide biosynthesis IMP => GDP,GTP. Второй и третий гены не входят ни в какие метаболического пути. Функция 2-ого гена: кодирует tellurite resistance protein. Функция 3-го гена: "glyoxalase/bleomycin resistance protein/dioxygenase superfamily protein"

Задание 2. Проверить, может ли метилирование повлиять на связывание вашего ТФ со своим сайтом?

В данном задании необходимо было найти все сайты, пересекающиеся с предсказанными нами сайтами связывания ТФ, в нашей бактерии, используя fuzznuc из пакета EMBOSS с помощью команды (2), где X - входной файл, Y - выходной. Были взяты последовательности: мотив + по 50 нуклеотидов с каждой стороны. Также был использован файл с сайтами метелирования (ссылка).

(2) fuzznuc -sequence X -pattern @MT-sites.pat -outfile Y

Таблица 2 - Полученные данные

Номер гена Входной файл Выходной файл Число совпадений
1 ссылка ссылка 102
2 ссылка ссылка 108
3 ссылка ссылка 102
Однако были много раз найдены псевдопересечения, состоящие из 1-2 нуклеотидов. Но эти псевдопересечения очевидно не несут никакого смысла и не помогают сделать никаких выводов по поводу метилирования. Что с ними делать - вопрос. Далее, используя REBASE, необходимо было проверить есть ли в нашем геноме или геноме того же вида, но другого штамма, ДНК метилтрансферазы с той же специфичностью. Выдача представлена здесь.