Для выполнения данного задния была выбрана Escherichia coli - хорошо изученная гаммапротеобактерия, которая относится к домену Bacteria, типу Proteobacteria, классу Gammaproteobacteria, порядку Enterobacterales, семейству Enterobacteriaceae, роду Escherichia и виду Escherichia coli. В данной работе изпользовался штамм K12, который в базе данных Uniprot можно найти по мнемонике ECOLI. Информация о белках, выбранных для поиска сайта связывания транскрипционного фактора, регулирующего синтез пуринов, собрана в Таблицу 1.

Таблица 1. Выбранные белки.

Entry Entry name Proteins name Gene names Coordinates
P0ADG7IMDH_ECOLIInosine-5'-monophosphate dehydrogenaseguaB guaR, b2508, JW5401complement(2631260..2632726)
P04079GUAA_ECOLIGMP synthase [glutamine-hydrolyzing]guaA b2507, JW2491complement(2629614..2631191)
P0AB89PUR8_ECOLIAdenylosuccinate lyasepurB b1131, JW1117complement(1192193..1193563)
P0ACP7PURR_ECOLIHTH-type transcriptional repressor PurRpurR b1658, JW16501739558..1740583
P15254PUR4_ECOLIPhosphoribosylformylglycinamidine synthasepurL purI, b2557, JW2541complement(2690312..2694199)
P0AG16PUR1_ECOLIAmidophosphoribosyltransferasepurF b2312, JW2309complement(2434167..2435684)
P08179PUR3_ECOLIPhosphoribosylglycinamide formyltransferasepurN b2500, JW24852620890..2621528
P0A7D4PURA_ECOLIAdenylosuccinate synthetasepurA adeK, b4177, JW41354409367..4410665
P33221PURT_ECOLIFormate-dependent phosphoribosylglycinamide formyltransferasepurT b1849, JW18381932595..1933773

Для выполнения данного задания из базы данных EMBL был скачан геном выбранной бактерии с AC:AP009048, далее были выбраны Upstream-регионы, которые задавались, как 100 нуклеотидов, предшествующие старт-кодонам, и записаны в файл, доступный по ссылке. Затем производился поиск мотивов с помощью программы MEME, результат можно посмотреть на данной html-странице.
Команда:

ememe seq.fasta meme -nmotifs 3 -revcomp

Информация о найденных мотивах собрана в Таблицу 2. Можно заметить, что не было найдено ни одного хорошего мотива, то есть с E-value < 0.001, однако среди трех мотивов есть и мотивы с довольно большими значениями информативности и энтропии. Из трех мотивов, на мой взгляд, наилучшим является первым, так как значение E-value для него наименьшее, а последнему мотиву, хоть и с большими значениями информативности и энтропии не информативен из-за большого E-value.

Таблица 2. Информация о мотивах.

Номер мотива Информативность Энтропия Длина мотива Число белков, в которых встретился мотив E-value
114.114.39 82.2e-002
215.715.11496.1e+001
317.017.11572.5e+003

Рис. 1. Мотив 1.

Рис. 2. Мотив 2.

Рис. 3. Мотив 1.

На рисунках 1-3 представлены найденные мотивы, а Рис.4 отображает LOGO для сайта связывания пуринового репрессора E.coli. Можно заметить, что сходные паттерны присутствуют в первом мотиве, в частности, он почти полностью находится в оригинальном LOGO кишечной палочки, что говорит о сходстве сайта связывания пуринового репрессора между изучаемыми видами. Так, повторяются GCAA 1-4 позиции мотива 1 и 3-6 у кишечой палочки, далее в мотиве 1 идет в подавляющем большинстве A, в то время как у E.coli далее конкурируют A и C. В следующих 2 позициях снова обнаруживается полное совпадение, а в 8 позиции в мотиве 1 конкурируют G и T, тогда как у кишечной палочки в этом месте (позиция 10) однозначно идет T, следующая позиция совпадает.

Рис. 4. LOGO для сайта связывания пуринового репрессора E.coli [1].

Источники:

[1]LOGO для сайта связывания пуринового репрессора E.coli