Поиск сайта связывания транскрипционного фактора, регулирующего синтез пуринов у гаммапротеобактерии Haemophilus influenzae , с помощью программы MEME

Следите за обновлениями и дополнениями
Если Вы заметили опечатки, или ссылка испортилась, пожалуйста, напишите мне

В данном практикуме был проанализирован путь биосинтеза пуринов у гаммапротеобактерии Haemophilus influenzae . Поиск сайта связывания транскрипционного фактора, регулирующего данный процесс был произведён с помощью программы MEME.

Для изучаемой бактерии известно 295 последовательностей белков, участвующих в биосинтезе пуринов (Поиск по базе данных UniProtKB keyword:"Purine biosynthesis [KW-0658]" organism:"haemophilus influenzae"). Из них 34 были проверены специалистами, и имели статус Reviewed.

Список Popular organisms для данной бактерии состоял из: HAEIN (16), HAEI8 (6), HAEIE (6), HAEIG (6).

Таблица 1. Информация о выбранном организме

Организм: название	Мнемоника выбранного штамма	Идентификаторы 16 белков, аннотированных в Swiss-Prot
Haemophilus influenzae	HAEIN	P45283, P43847, P44334, P44313, P43854, P43850, P44335, P43845, P44797, P43846, P43852, Q03432, P46456, P43848, P43851, P43849

Таблица 2 содержит в себе информацию о идентификаторах записей белков, UniprotKB ID, именах генов, кодирующих белки.

Таблица 2. Информация о выбранных белках

Entry	Entry name	Protein names	Gene names	Length	Sequence	Start	End
P45283	PURA_HAEIN	Adenylosuccinate synthetase (AMPSase) (AdSS) (EC 6.3.4.4) (IMP--aspartate ligase)	purA HI_1633	432	complement	1352456	1353754
P43847	PUR4_HAEIN	Phosphoribosylformylglycinamidine synthase (FGAM synthase) (FGAMS) (EC 6.3.5.3) (Formylglycinamide ribonucleotide amidotransferase) (FGAR amidotransferase) (FGAR-AT)	purL HI_0752	1297	-	877051	880944
P44334	IMDH_HAEIN	Inosine-5'-monophosphate dehydrogenase (IMP dehydrogenase) (IMPD) (IMPDH) (EC 1.1.1.205)	guaB HI_0221	488	-	334648	336114
P44313	FOLD_HAEIN	Bifunctional protein FolD [Includes: Methylenetetrahydrofolate dehydrogenase (EC 1.5.1.5); Methenyltetrahydrofolate cyclohydrolase (EC 3.5.4.9)]	folD HI_0609	282	-	316317	317165
P43854	PUR1_HAEIN	Amidophosphoribosyltransferase (ATase) (EC 2.4.2.14) (Glutamine phosphoribosylpyrophosphate amidotransferase) (GPATase)	purF HI_1207	505	-	1321053	1322570
P43850	PURK_HAEIN	N5-carboxyaminoimidazole ribonucleotide synthase (N5-CAIR synthase) (EC 6.3.4.18) (5-(carboxyamino)imidazole ribonucleotide synthetase)	purK HI_1616	362	complement	1363442	1364530
P44335	GUAA_HAEIN	GMP synthase [glutamine-hydrolyzing] (EC 6.3.5.2) (GMP synthetase) (Glutamine amidotransferase)	guaA HI_0222	523	-	336224	337795
P43845	PUR2_HAEIN	Phosphoribosylamine--glycine ligase (EC 6.3.4.13) (GARS) (Glycinamide ribonucleotide synthetase) (Phosphoribosylglycinamide synthetase)	purD HI_0888	429	-	1009645	1010931

AC записи EMBL, описывающей геном: CP020006.1. Для данного штама организма по приведённому идентификатору был скачан анотированный геном и геном в fasta формате. Из второго средствами командной строки Linux и пакета EMBOSS (seqret extractfeat, descseq, extractseq) были извлечены upstream области генов длиной 100 нуклеотидов. Учитывалась прямая и обратная цепь. Найденные области были записаны в файл для дальнейшего анализа.

Ссылка на скрипт

Был выполнен анализ последовательностей с помощью программы ememe из пакета EMBOSS.
С помощью команды

ememe -dataset ./files/out.fasta -outdir . -nmotifs 3 -revcomp Y

был получен отчёт в html формате, некоторые моменты из которого обсуждаются ниже.

Как мы и задали, было найдено три мотива. Для каждой находки программа выдаёт LOGO диаграмму, отражающую вероятность встречи определённого нуклеотида в конкретной позиции мотива. Также LOGO содержит дополнительную информацию о информационном содержании данного столбца выравнивания.

Мотив 1

width = 10 sites = 7 llr = 80 E-value = 1.0e-003

Рисунок 1. Мотив 1. LOGO

На рисунке 2 показано выравнивание с сайтами, взятыми в мотив. Видно, что семь последовательностей входит в первый мотив с хорошим p-value, что может говорить о высокой вероятности значимости полученного результата. В целом, мотив имеет низкое значение E-value, что делает находку правдоподобной. Также она содержит всего 7/8 последовательностей.

Рисунок 2. Мотив 1. Сайты

Мотив 2

width = 9 sites = 8 llr = 67 E-value = 9.0e+002

Во второй мотив вошло уже восемь последовательностей; видно, что они имеют по-отдельности p-value как меньше, так и больше последовательностей в первом мотве. Данный мотив имеет высокое значение E-value, что говорит о его низкой превдоподобности.

Рисунок 3. Мотив 2. LOGO

Рисунок 4. Мотив 2. Сайты

Мотив 3

width = 8 sites = 2 llr = 23 E-value = 4.2e+003

В третий мотив входит две последовательности. Данный результат по надёжности, пожалуй, самый неправдоподобный. Значение E-value так же очень большое. Доверия к такому мотиву нет.

Рисунок 5. Мотив 3. LOGO

Рисунок 6. Мотив 3. Сайты

Программа выдаёт также SUMMARY OF MOTIFS, в котором отражены позиции найденных мотивов в рассматриваемом нами фрагменте upstream области. В целом, вервый мотив можно трактовать как надёжный.

Рисунок 7. Summary

Найдите в Интернете LOGO для сайта связывания пуринового репрессора E.coli и сравните его с LOGO вашего мотива (мотивов).

Было найдено несколько LOGO диаграмм:

The PurR regulon in Escherichia coli K-12 MG1655

Рисунок 8. E. Coli LOGO
Involvement of the ribose operon repressor RbsR in regulation of purine nucleotide synthesis in Escherichia coli

Рисунок 9. E. Coli LOGO

Возможно, данный мотив сходен с найденным при выполнении практикума.
Computer analysis of transcription regulatory patterns in completely sequenced bacterial genomes

Рисунок 10. E. Coli LOGO

Диаграммы в статьях заметно отличаются от найденных в нашей работе. Так может получиться из-за различия в последовательностях между рассматриваемыми организмами, малой длины наших последовательностей, их малой численности.

Проведите программой emast поиск найденных мотивов в полном геноме вашей бактерии.

Был проведён анализ с помощью программы meme.emast заданной последовательности. С результатом работы программы вы можете ознакомиться по ссылке ниже.

Отчёт

DATABASE ./CP020006.fasta (nucleotide)
	Last updated on Fri Mar 30 00:00:11 2018
	Database contains 1 sequences, 1857175 residues

	Scores for positive and reverse complement strands are combined.

	MOTIFS ./meme.txt (nucleotide)
	MOTIF WIDTH BEST POSSIBLE MATCH
	----- ----- -------------------
	  1    13   GCAAAAGAGAGCG
	  2    18   AAAGTGCGGCTGTTTTTT
	  3    13   CCCCCTAGCCCCC

	PAIRWISE MOTIF CORRELATIONS:
	MOTIF     1     2
	----- ----- -----
	   2   0.30
	   3   0.23  0.09
	No overly similar pairs (correlation > 0.60) found.

	Random model letter frequencies (from non-redundant database):
	A 0.274 C 0.225 G 0.225 T 0.274