Поиск сайта связывания транскрипционного фактора, регулирующего синтез пуринов у гаммапротеобактерии Haemophilus influenzae , с помощью программы MEME






Следите за обновлениями и дополнениями
Если Вы заметили опечатки, или ссылка испортилась, пожалуйста, напишите мне



В данном практикуме был проанализирован путь биосинтеза пуринов у гаммапротеобактерии Haemophilus influenzae . Поиск сайта связывания транскрипционного фактора, регулирующего данный процесс был произведён с помощью программы MEME.

Для изучаемой бактерии известно 295 последовательностей белков, участвующих в биосинтезе пуринов (Поиск по базе данных UniProtKB keyword:"Purine biosynthesis [KW-0658]" organism:"haemophilus influenzae"). Из них 34 были проверены специалистами, и имели статус Reviewed.

Список Popular organisms для данной бактерии состоял из: HAEIN (16), HAEI8 (6), HAEIE (6), HAEIG (6).


Таблица 1. Информация о выбранном организме
Организм: название
Мнемоника выбранного штамма
Идентификаторы 16 белков, аннотированных в Swiss-Prot
Haemophilus influenzae
HAEIN
P45283, P43847, P44334, P44313, P43854, P43850, P44335, P43845, P44797, P43846, P43852, Q03432, P46456, P43848, P43851, P43849


Таблица 2 содержит в себе информацию о идентификаторах записей белков, UniprotKB ID, именах генов, кодирующих белки.

Таблица 2. Информация о выбранных белках
Entry Entry name Protein names Gene names Length Sequence Start End
P45283 PURA_HAEIN Adenylosuccinate synthetase (AMPSase) (AdSS) (EC 6.3.4.4) (IMP--aspartate ligase) purA HI_1633 432 complement 1352456 1353754
P43847 PUR4_HAEIN Phosphoribosylformylglycinamidine synthase (FGAM synthase) (FGAMS) (EC 6.3.5.3) (Formylglycinamide ribonucleotide amidotransferase) (FGAR amidotransferase) (FGAR-AT) purL HI_0752 1297 - 877051 880944
P44334 IMDH_HAEIN Inosine-5'-monophosphate dehydrogenase (IMP dehydrogenase) (IMPD) (IMPDH) (EC 1.1.1.205) guaB HI_0221 488 - 334648 336114
P44313 FOLD_HAEIN Bifunctional protein FolD [Includes: Methylenetetrahydrofolate dehydrogenase (EC 1.5.1.5); Methenyltetrahydrofolate cyclohydrolase (EC 3.5.4.9)] folD HI_0609 282 - 316317 317165
P43854 PUR1_HAEIN Amidophosphoribosyltransferase (ATase) (EC 2.4.2.14) (Glutamine phosphoribosylpyrophosphate amidotransferase) (GPATase) purF HI_1207 505 - 1321053 1322570
P43850 PURK_HAEIN N5-carboxyaminoimidazole ribonucleotide synthase (N5-CAIR synthase) (EC 6.3.4.18) (5-(carboxyamino)imidazole ribonucleotide synthetase) purK HI_1616 362 complement 1363442 1364530
P44335 GUAA_HAEIN GMP synthase [glutamine-hydrolyzing] (EC 6.3.5.2) (GMP synthetase) (Glutamine amidotransferase) guaA HI_0222 523 - 336224 337795
P43845 PUR2_HAEIN Phosphoribosylamine--glycine ligase (EC 6.3.4.13) (GARS) (Glycinamide ribonucleotide synthetase) (Phosphoribosylglycinamide synthetase) purD HI_0888 429 - 1009645 1010931

AC записи EMBL, описывающей геном: CP020006.1. Для данного штама организма по приведённому идентификатору был скачан анотированный геном и геном в fasta формате. Из второго средствами командной строки Linux и пакета EMBOSS (seqret extractfeat, descseq, extractseq) были извлечены upstream области генов длиной 100 нуклеотидов. Учитывалась прямая и обратная цепь. Найденные области были записаны в файл для дальнейшего анализа.

Ссылка на скрипт



Был выполнен анализ последовательностей с помощью программы ememe из пакета EMBOSS.
С помощью команды

ememe -dataset ./files/out.fasta -outdir . -nmotifs 3 -revcomp Y

был получен отчёт в html формате, некоторые моменты из которого обсуждаются ниже.

Как мы и задали, было найдено три мотива. Для каждой находки программа выдаёт LOGO диаграмму, отражающую вероятность встречи определённого нуклеотида в конкретной позиции мотива. Также LOGO содержит дополнительную информацию о информационном содержании данного столбца выравнивания.



Мотив 1

width = 10 sites = 7 llr = 80 E-value = 1.0e-003



Рисунок 1. Мотив 1. LOGO


На рисунке 2 показано выравнивание с сайтами, взятыми в мотив. Видно, что семь последовательностей входит в первый мотив с хорошим p-value, что может говорить о высокой вероятности значимости полученного результата. В целом, мотив имеет низкое значение E-value, что делает находку правдоподобной. Также она содержит всего 7/8 последовательностей.



Рисунок 2. Мотив 1. Сайты


Мотив 2

width = 9 sites = 8 llr = 67 E-value = 9.0e+002

Во второй мотив вошло уже восемь последовательностей; видно, что они имеют по-отдельности p-value как меньше, так и больше последовательностей в первом мотве. Данный мотив имеет высокое значение E-value, что говорит о его низкой превдоподобности.



Рисунок 3. Мотив 2. LOGO

Рисунок 4. Мотив 2. Сайты



Мотив 3

width = 8 sites = 2 llr = 23 E-value = 4.2e+003

В третий мотив входит две последовательности. Данный результат по надёжности, пожалуй, самый неправдоподобный. Значение E-value так же очень большое. Доверия к такому мотиву нет.



Рисунок 5. Мотив 3. LOGO

Рисунок 6. Мотив 3. Сайты



Программа выдаёт также SUMMARY OF MOTIFS, в котором отражены позиции найденных мотивов в рассматриваемом нами фрагменте upstream области. В целом, вервый мотив можно трактовать как надёжный.



Рисунок 7. Summary



Найдите в Интернете LOGO для сайта связывания пуринового репрессора E.coli и сравните его с LOGO вашего мотива (мотивов).

Было найдено несколько LOGO диаграмм:

  1. The PurR regulon in Escherichia coli K-12 MG1655

    Рисунок 8. E. Coli LOGO



  2. Involvement of the ribose operon repressor RbsR in regulation of purine nucleotide synthesis in Escherichia coli

    Рисунок 9. E. Coli LOGO

    Возможно, данный мотив сходен с найденным при выполнении практикума.


  3. Computer analysis of transcription regulatory patterns in completely sequenced bacterial genomes


    Рисунок 10. E. Coli LOGO

Диаграммы в статьях заметно отличаются от найденных в нашей работе. Так может получиться из-за различия в последовательностях между рассматриваемыми организмами, малой длины наших последовательностей, их малой численности.

Проведите программой emast поиск найденных мотивов в полном геноме вашей бактерии.

Был проведён анализ с помощью программы meme.emast заданной последовательности. С результатом работы программы вы можете ознакомиться по ссылке ниже.

Отчёт

DATABASE ./CP020006.fasta (nucleotide)
	Last updated on Fri Mar 30 00:00:11 2018
	Database contains 1 sequences, 1857175 residues

	Scores for positive and reverse complement strands are combined.

	MOTIFS ./meme.txt (nucleotide)
	MOTIF WIDTH BEST POSSIBLE MATCH
	----- ----- -------------------
	  1    13   GCAAAAGAGAGCG
	  2    18   AAAGTGCGGCTGTTTTTT
	  3    13   CCCCCTAGCCCCC

	PAIRWISE MOTIF CORRELATIONS:
	MOTIF     1     2
	----- ----- -----
	   2   0.30
	   3   0.23  0.09
	No overly similar pairs (correlation > 0.60) found.

	Random model letter frequencies (from non-redundant database):
	A 0.274 C 0.225 G 0.225 T 0.274 
Видно, что находки скудны. Мы нашли всего одно хорошее совпадение, которое, впрочем, может быть лишь совпаденеим. Аннотация последовательностей затруднительна на выбранном организме ио с выбранным объектом.

Ссылки

  1. Uniprot
  2. EMBL
  3. extractseq
  4. descseq
  5. extractfeat
  6. Computer analysis of transcription regulatory patterns in completely sequenced bacterial genomes