В данном практикуме был проанализирован путь биосинтеза пуринов у гаммапротеобактерии Haemophilus influenzae .
Поиск сайта связывания транскрипционного фактора, регулирующего данный процесс был произведён с помощью программы MEME.
Для изучаемой бактерии известно 295 последовательностей белков, участвующих в биосинтезе пуринов (Поиск по базе данных UniProtKB
keyword:"Purine biosynthesis [KW-0658]" organism:"haemophilus influenzae"). Из них 34 были проверены специалистами, и имели статус Reviewed.
Список Popular organisms для данной бактерии состоял из: HAEIN (16), HAEI8 (6), HAEIE (6), HAEIG (6).
Таблица 1. Информация о выбранном организме
Организм: название |
Мнемоника выбранного штамма |
Идентификаторы 16 белков, аннотированных в Swiss-Prot |
Haemophilus influenzae |
HAEIN |
P45283, P43847, P44334, P44313, P43854, P43850, P44335, P43845, P44797, P43846, P43852, Q03432, P46456, P43848, P43851, P43849 |
|
Таблица 2 содержит в себе информацию о идентификаторах записей белков, UniprotKB ID, именах генов, кодирующих белки.
Таблица 2. Информация о выбранных белках
Entry |
Entry name |
Protein names |
Gene names |
Length |
Sequence |
Start |
End |
P45283 |
PURA_HAEIN |
Adenylosuccinate synthetase (AMPSase) (AdSS) (EC 6.3.4.4) (IMP--aspartate ligase) |
purA HI_1633 |
432 |
complement |
1352456 |
1353754 |
P43847 |
PUR4_HAEIN |
Phosphoribosylformylglycinamidine synthase (FGAM synthase) (FGAMS) (EC 6.3.5.3) (Formylglycinamide ribonucleotide amidotransferase) (FGAR amidotransferase) (FGAR-AT) |
purL HI_0752 |
1297 |
- |
877051 |
880944 |
P44334 |
IMDH_HAEIN |
Inosine-5'-monophosphate dehydrogenase (IMP dehydrogenase) (IMPD) (IMPDH) (EC 1.1.1.205) |
guaB HI_0221 |
488 |
- |
334648 |
336114 |
P44313 |
FOLD_HAEIN |
Bifunctional protein FolD [Includes: Methylenetetrahydrofolate dehydrogenase (EC 1.5.1.5); Methenyltetrahydrofolate cyclohydrolase (EC 3.5.4.9)] |
folD HI_0609 |
282 |
- |
316317 |
317165 |
P43854 |
PUR1_HAEIN |
Amidophosphoribosyltransferase (ATase) (EC 2.4.2.14) (Glutamine phosphoribosylpyrophosphate amidotransferase) (GPATase) |
purF HI_1207 |
505 |
- |
1321053 |
1322570 |
P43850 |
PURK_HAEIN |
N5-carboxyaminoimidazole ribonucleotide synthase (N5-CAIR synthase) (EC 6.3.4.18) (5-(carboxyamino)imidazole ribonucleotide synthetase) |
purK HI_1616 |
362 |
complement |
1363442 |
1364530 |
P44335 |
GUAA_HAEIN |
GMP synthase [glutamine-hydrolyzing] (EC 6.3.5.2) (GMP synthetase) (Glutamine amidotransferase) |
guaA HI_0222 |
523 |
- |
336224 |
337795 |
P43845 |
PUR2_HAEIN |
Phosphoribosylamine--glycine ligase (EC 6.3.4.13) (GARS) (Glycinamide ribonucleotide synthetase) (Phosphoribosylglycinamide synthetase) |
purD HI_0888 |
429 |
- |
1009645 |
1010931 |
|
AC записи EMBL, описывающей геном: CP020006.1. Для данного штама организма по приведённому идентификатору был скачан анотированный геном и геном в fasta формате.
Из второго средствами командной строки Linux и пакета EMBOSS (seqret extractfeat, descseq, extractseq) были извлечены upstream области генов длиной 100 нуклеотидов. Учитывалась прямая и обратная цепь.
Найденные области были записаны в
файл для дальнейшего анализа.
Ссылка на скрипт
Был выполнен анализ последовательностей с помощью программы ememe из пакета EMBOSS.
С помощью команды
ememe -dataset ./files/out.fasta -outdir . -nmotifs 3 -revcomp Y
был получен отчёт в html формате, некоторые моменты из которого обсуждаются ниже.
Как мы и задали, было найдено три мотива. Для каждой находки программа выдаёт LOGO диаграмму, отражающую вероятность встречи определённого нуклеотида в конкретной позиции мотива.
Также LOGO содержит дополнительную информацию о информационном содержании данного столбца выравнивания.
Мотив 1
width = 10 sites = 7 llr = 80 E-value = 1.0e-003
 |
Рисунок 1. Мотив 1. LOGO
|
На рисунке 2 показано выравнивание с сайтами, взятыми в мотив. Видно, что семь последовательностей входит в первый мотив с хорошим p-value,
что может говорить о высокой вероятности значимости полученного результата. В целом, мотив имеет низкое значение E-value, что делает находку правдоподобной.
Также она содержит всего 7/8 последовательностей.
 |
Рисунок 2. Мотив 1. Сайты
|
Мотив 2
width = 9 sites = 8 llr = 67 E-value = 9.0e+002
Во второй мотив вошло уже восемь последовательностей; видно, что они имеют по-отдельности p-value как меньше, так и больше последовательностей в первом мотве.
Данный мотив имеет высокое значение E-value, что говорит о его низкой превдоподобности.
 |
Рисунок 3. Мотив 2. LOGO
|
 |
Рисунок 4. Мотив 2. Сайты
|
Мотив 3
width = 8 sites = 2 llr = 23 E-value = 4.2e+003
В третий мотив входит две последовательности. Данный результат по надёжности, пожалуй, самый неправдоподобный. Значение E-value так же очень большое.
Доверия к такому мотиву нет.
 |
Рисунок 5. Мотив 3. LOGO
|
 |
Рисунок 6. Мотив 3. Сайты
|
Программа выдаёт также SUMMARY OF MOTIFS, в котором отражены позиции найденных мотивов в рассматриваемом нами фрагменте upstream области.
В целом, вервый мотив можно трактовать как надёжный.
 |
Рисунок 7. Summary
|
Найдите в Интернете LOGO для сайта связывания пуринового репрессора E.coli и сравните его с LOGO вашего мотива (мотивов).
Было найдено несколько LOGO диаграмм:
- The PurR regulon in Escherichia coli K-12 MG1655
 |
Рисунок 8. E. Coli LOGO
|
- Involvement of the ribose operon repressor RbsR in regulation of purine nucleotide synthesis in Escherichia coli
 |
Рисунок 9. E. Coli LOGO
|
Возможно, данный мотив сходен с найденным при выполнении практикума.
- Computer analysis of transcription regulatory patterns in completely sequenced bacterial genomes
 |
Рисунок 10. E. Coli LOGO
|
Диаграммы в статьях заметно отличаются от найденных в нашей работе.
Так может получиться из-за различия в последовательностях между рассматриваемыми организмами, малой длины наших последовательностей, их малой численности.
Проведите программой emast поиск найденных мотивов в полном геноме вашей бактерии.
Был проведён анализ с помощью программы meme.emast заданной последовательности. С результатом работы программы вы можете ознакомиться по ссылке ниже.
Отчёт
DATABASE ./CP020006.fasta (nucleotide)
Last updated on Fri Mar 30 00:00:11 2018
Database contains 1 sequences, 1857175 residues
Scores for positive and reverse complement strands are combined.
MOTIFS ./meme.txt (nucleotide)
MOTIF WIDTH BEST POSSIBLE MATCH
----- ----- -------------------
1 13 GCAAAAGAGAGCG
2 18 AAAGTGCGGCTGTTTTTT
3 13 CCCCCTAGCCCCC
PAIRWISE MOTIF CORRELATIONS:
MOTIF 1 2
----- ----- -----
2 0.30
3 0.23 0.09
No overly similar pairs (correlation > 0.60) found.
Random model letter frequencies (from non-redundant database):
A 0.274 C 0.225 G 0.225 T 0.274
Видно, что находки скудны. Мы нашли всего одно хорошее совпадение, которое, впрочем, может быть лишь совпаденеим. Аннотация последовательностей затруднительна на выбранном организме ио с выбранным объектом.
Ссылки
- Uniprot
- EMBL
- extractseq
- descseq
- extractfeat
- Computer analysis of transcription regulatory patterns in completely sequenced bacterial genomes