Поиск сайта связывания транскрипционного фактора, регулирующего синтез пуринов у Haemophilus influenzae с помощью программы MEME.

Выбранный штамм - HAEN (Haemophilus influenzae (strain ATCC 51907 / DSM 11121 / KW20 / Rd)). Для него существует 16 аннотированных (Reviewed) записей с ключевым словом "Purine biosynthesis" в Uniprot.

Мной было выбрано 9 белков (см. таблицу 1). Их гены с необходимыми для дальнейшей работы координатами были найдены в полном геноме выбранной бактерии в ENA/EMBL (АС записи EMBL, описывающей геном бактерии: L42023).

Штамм (его мнемоника)ID белкамнемоника белкаНазвание белкаНазвание генаКоординаты гена
Haemophilus influenzae
(strain ATCC 51907 / DSM 11121 / KW20 / Rd)
HAEIN
P45283PURA_HAEINAdenylosuccinate synthetasepurA HI_16331695071..1696369
P43847PUR4_HAEINPhosphoribosylformylglycinamidine synthasepurL HI_0752812967..816929
P44334IMDH_HAEINInosine-5'-monophosphate dehydrogenaseguaB HI_0221248948..250414
P44313FOLD_HAEINBifunctional protein FolDfolD HI_0609complement(640075..640923)
P43854PUR1_HAEINAmidophosphoribosyltransferase purF HI_12071273386..1274903
P43850PURK_HAEINN5-carboxyaminoimidazole ribonucleotide synthasepurK HI_16161683529..1684617
P44335GUAA_HAEINGMP synthase [glutamine-hydrolyzing]guaA HI_0222251125..252696
P43845PUR2_HAEINPhosphoribosylamine--glycine ligasepurD HI_0888941550..942839
P44797PUR8_HAEINAdenylosuccinate lyasepurB HI_0639680324..681694

Таблица 1. Отобранные белки

Далее с помощью команды descseq были вырезаны upstream-элементы каждого гена (100 нуклеотидов с 5' конца гена. В случае комплементарной цепи использовался параметр -srev и соответствующие координаты - конец гена + 100). Полученный файл: upstreams.fasta

После чего данные были использованы программой ememe:

| ememe upstreams.fasta -nmotifs 3 -revcomp
Результат: meme.html. Ниже представлены мотивы в формате LOGO (рис. 1-3), а также их запись в виде регулярных выражений.


Рис. 1. Мотив 1
(найден в 7 последовательностях)
CC[GC]C[AT][CT]TTT

Рис. 2. Мотив 2
(найден в 6 последовательностях)
C[AC]A[CA]CGCT[TA]A[AC]

Рис. 3. Мотив 3
(найден в 2 последовательностях)
AGAG[AG]GGG

Все три мотива имеют e-value < 0,00001 во всех находках, что является весьма хорошим показателем, однако все мотивы разбросаны по разным местам upstreams (см. MEME: Combined block diagrams: non-overlapping sites with p-value < 0.0001) имеют не слишком большую, хотя и приличную, длину. Upstream, в котором присутствовали бы все три мотива, только один - PUR4_HAEIN. По два мотива найдено в пяти генах (GUAA_HAEIN, PUR1_HAEIN, PUR2_HAEIN, FOLD_HAEIN, PURA_HAEIN). В гене IMDH_HAEIN не найден ни один из трех мотивов.



НАЗАД ➜
© <Рюмина Екатерина>, 2018