Поиск сигналов. Теория
Задание 1. Определить биологическую роль определенного транскрипционного фактора в бактерии
Для данного задания был взят штамм бактерии Bacillus cereus ATCC 14579
(имя выданного файла с участком ДНК, с которыми связывается транскрипционный фактор: LiaR).
Ссылка на файл с участками ДНК, с которыми связывается наш транскрипционный фактор
1) MEME:
Первой частью задания является нахождение мотива связывания с помощью программы MEME.
Были установлены параметры поиска: Normal mode - DNA, RNA or Protein
- Upload sequences (был выбран файл) - Zero or one occurrence per sequence - 1 motif.
PWM (probability position weight matrix): ссылка;
E-value: 5.5e-036.
Рис. 1 - Logo найденного MEME мотива связывания
2)
RegPrecise ant Tomtom:
Был использован сервис tomtom для поиска мотива, который имеет схожую PWM,
с полученным ранее мотивом (задание 1.1), в базе данных RegTransBase.
Таким образом, на вход был подан файл MEME (
ссылка)
и указана база данных Prokaryotes (RegTransBase v4).
Были получены 5 находок, была выбрана находка с наилучшим e-value.
Название лучшей находки: NarP_Gammaproteobacteria; e-value: 5.59e-02;
PWM:
ссылка.
Можно заметить, что два мотива, хоть и имеют неплохой e-value,
отличаются друг от друга довольно сильно.
Рис. 2 - Изображения мотивов
3)
FIMO:
Программа FIMO была применена для нахождения мотива из задания 1.1 в геноме бактерии.
Поиск был осуществлен в upstream регионе,
так как места связывания ТФ находятся, по большей части, в upstream регионе.
Таким образом, были выбраны параметры: Upstream Sequences: Prokaryotic -
Bacillus cereus ATCC 14579 uid57975,
а на вход был подан файл формата MEME (
ссылка на файл).
На выход были получены файлы с координатами находок и p-value.
Ссылки на выдачу программы:
файл формата txt,
файл с таблицей Excel
В таблице 1 также представлены результаты (информация по выбранным нами генам).
Геномные координаты выбранных генов были получены, благодаря поиску заданных участков по геномному файлу.
Были найдены сайты связывания гипотетических белков.
Таблица 1 - Информация о выданных генах
Номер гена |
Название гена |
p-value |
Геномные координаты |
Совпавшая последовательность |
1 |
NP_830147.1 (guaA) |
24.7596 |
259538..259554 |
CTCCGCCTCTAGTCTCA |
2 |
NP_832151.1 (BC2389) |
18.8462 |
2332581...2332597 |
CTAGGTCTTAAGTCTGA |
3 |
NP_832279.1 (BC2520) |
8.72115 |
2493003 ...2493020 |
CTACAACTTTAGTATGA ("-" цепь) |
4)
KEGG:
В данном задании необходимо было выяснить:
входят ли найденные гены или часть из них в один метаболический путь KEGG (БД STRING).
Первый ген входит в метаболический путь: Guanine ribonucleotide biosynthesis IMP => GDP,GTP.
Второй и третий гены не входят ни в какие метаболического пути.
Функция 2-ого гена: кодирует tellurite resistance protein.
Функция 3-го гена: "glyoxalase/bleomycin resistance protein/dioxygenase superfamily protein"
Задание 2. Проверить, может ли метилирование повлиять на связывание вашего ТФ со своим сайтом?
В данном задании необходимо было найти все сайты,
пересекающиеся с предсказанными нами сайтами связывания ТФ, в нашей бактерии,
используя fuzznuc из пакета EMBOSS с помощью команды (2), где X - входной файл,
Y - выходной. Были взяты последовательности: мотив + по 50 нуклеотидов с каждой стороны.
Также был использован файл с сайтами метелирования (ссылка).
(2) fuzznuc -sequence X -pattern @MT-sites.pat -outfile Y
|
Таблица 2 - Полученные данные
Однако были много раз найдены псевдопересечения, состоящие из 1-2 нуклеотидов.
Но эти псевдопересечения очевидно не несут никакого смысла
и не помогают сделать никаких выводов по поводу метилирования.
Что с ними делать - вопрос.
Далее, используя REBASE, необходимо было проверить
есть ли в нашем геноме или геноме того же вида, но другого штамма,
ДНК метилтрансферазы с той же специфичностью.
Выдача представлена
здесь.