Определение биологической роли транскрипционного фактора MurR в бактерии Bacillus subtilis str. 168

Для выполнения задания использовалась ДНК бактерии Bacillus subtilis str.168, а также участки связывания ТФ MurR.
С помощью сервиса MEME были найдены мотивы связывания (все параметры, за исключением E-value = 5, были оставлены неизменными). Результаты поиска можно видеть в таблице1.

Таблица 1. Находки сервиса MEME

Мотив	E-value	PWM	Лого
TGAAATTWTATTTCAS	2.8e-003	PWM

Далее с помощью сервиса TOMTOM в базе данных RegTransBase были найдены мотивы, схожие с тем, что получил MEME. Сведения о находке можно видеть в таблице 2.

Таблица 2. Находки сервиса TOMTOM

Название	E-value	PWM	Выравнивание
Atu4556_Rhizobiales	2.10e+00	PWM-tomtom

Из выравнивания видно, что найденный мотив мало схож с исходным: он длиннее, а также имеет ряд отличий по нескольким позициям. Разница также подтверждается достаточно большим E-value.

С помощью программы FIMO в геноме бактерии были найдены схожие мотивы связывания и их координаты относительно upstream regions. Поиск проводился в области upstream в связи с тем, что ТФ связывается с ДНК в участке, который находится перед регулируемым геном.
Полный список находок можно посмотреть здесь. Т.к. большинство находок обладают достаточно большим q-value, было решено рассматривать последовательности, приведенные в таблице 3.

Таблица 1. Достоверные находки сервиса FIMO

Название последовательности	Цепь	Начало	Конец	p-value	q-value	Найденная последовательность
NP_388051.1\|murQ	-	7	22	5.13e-09	0.0136	TGAAATTTTATTTCAC
NP_391080.2\|dhbA	+	39	54	1.55e-07	0.206	TGAAATTATATTTGAC

Командой featcopy были извлечены координаты соответствующих генов и по ним определены абсолютные координаты связывания ТФ: (193053..193067)и (3292436..3292451) complement.

Поиск данных белков по базе данных STRING показал, отсутствие метаблической связи между ними. Ген murQ кодирует белок N-ацетилмурамовую 6-фосфатэтеразу. Конкретно катализирует расщепление заместителя D-лактилового эфира MurNAc 6 -фосфата, получая GlcNAc 6 -фосфат и D-лактат. Ген dhbA кодирует белок 2,3-дигидроксибензоат-2,3-дегидрогеназу из класса оксиредуктаз.

Метилирование сайта связывания транскрипционного фактора MurR

С помощью базы данных REBASE, которая содержит информацию о бактериальных ДНК метилтрансферазах и их сайтах узнавания, а также предсказанных ранее мотивов,
необходимо было проверить, может ли метилирование повлиять на связывание транскрипционного фактора MurR со своим сайтом.
Метилирование ДНК — это модификация молекулы ДНК без изменения самой нуклеотидной последовательности ДНК, что можно рассматривать как часть эпигенетической
составляющей генома. Метилирование ДНК заключается в присоединении метильной группы к цитозину в составе CpG-динуклеотида в позиции С5 цитозинового кольца.
Метилирование ДНК считается, в основном, присущим эукариотам. У человека метилировано около 1 % геномной ДНК.
Программа fuzznuc пакета EMBOSS предназначена для поиска паттернов в заданной последовательности. Эта программа использовалась для поиска сайтов метилирования,
пересекающихся с двумя находками программы FIMO (были взяты сами мотивы и участки ± 30 нуклеотидов по бокам от них).
Т.к. один из мотивов лежал на обратной цепи, последовательность, извлеченная из NCBI в fasta-формате, предварительно была обработана скриптом seq.py, содержащим команды
модуля BioPython и переводящий последовательность в комплементарную ей(соответствующую обратной цепи). В участках искались сайты из файла sites.pat, содержащего сайты
метилирования:
Команда: fuzznuc -sequence len_1.fa -pattern @sites.pat -outfile fuzz_out_1.out
Итоговые файлы: fuzz_out_1.out fuzz_out_2.out
Численное описание результатов можно увидеть в Таблице n.

Название гена/локуса	Исходные координаты мотива	Число найденных совпадений	Файл с мотивом	Файл с результатом
murQ	193053..193067(+)	32	len_1.fa	fuzz_out_1.out
dhbA	3292436..3292451(-)	24	len_2_final.fa	fuzz_out_2.out

Таблица n. Найденные программой fuzznuc сайты метилирования в участках генома Bacillus subtilis str. 168

В файлах с результатами оказалось много найденных "пересечений", состоящих из 1-3 нуклеотидов, которые были удалены из итогового файла. Итоговые результаты для первого мотива и для второго мотива.
Таким образом осталось 32 находки в первом случае и 24 во втором. Однако такое количество находок сомнительно, так как большинство сайтов представляют собой последовательности из нуклеотидов,
записанных с помощью ambiquity code. Из-за этого число находок завышено. Более того, большинство сайтов маленькой длины, что, опять же, обеспечивает много незначимых находок.

В БД REBASE был найден геном нашей бактерии и закодированные в нем метилтрансферазы. Для всех в БД указана специфичность, но ни один сайт не был найден в наших участках,
так что можно предположить, что связывание ТФ со своими сайтами никак не регулируется их метилированием.

Источники:

[1] Wiki