Обзор генома и протеома бактерии Faecalibacterium prausnitzii

РЕЗЮМЕ

В мини-обзоре рассмотрены геном и протеом бактерии Faecalibacterium prausnitzii, самой распространенной бактерии в толстом кишечнике человека. На основании результатов работы в электронных таблицах и программирования на языке Python, выявлены особенности генома и протеома.

ВВЕДЕНИЕ

Faecalibacterium prausnitzii — вид грамположительных анаэробных бактерий, составляющих в норме около 5% микробиома толстого кишечника человека, что делает ее важным фактором поддержания баланса и здоровья пищеварительной системы. Это самая распространенная бактерия в толстом кишечнике [1].

Бактерия названа в честь немецкого бактериолога Отто Праушнитца и открыта в 1928 году. В современной систематике вид Faecalibacterium prausnitzii относится к роду Faecalibacterium. На данный момент бактерия обнаружена только в организме человека.

Бактерия является одним из основных продуцентов масляной кислоты (бутиратов) в толстой кишке. Масляная кислота играет большую роль в физиологии, она является основным энергетическим материалом для эпителиоцитов, поддерживает кишечный гомеостаз, контролирует нормальное развитие клеток и предотвращает развития различных заболеваний кишечника. Также бактерия участвует в расщеплении целлюлозы [2].

Проведены исследования, доказывающие связь низкого уровня Faecalibacterium prausnitzii с болезнью Крона, атопическим дерматитом и др. заболеваниями.

МАТЕРИАЛЫ И МЕТОДЫ

Геном и протеом бактерии для анализа взяты из источника [4]. С помощью собственной программы, написанной на языке Python, найдены частоты трех стоп-кодонов в кодирующих последовательностях белков.

GC-состав получен с помощью следующего кода. В электронной таблице Google Sheets построен график Cumulative GC-skew по данным программы 5 [5], определены точки максимума и минимума.

С помощью программы 4 [5] найдены частоты кодонов, кодирующих аминокислоты лейцин и аргинин.

В электронной таблице Google Sheets, лист “Histogram” построена гистограмма длин белков, использована функция СЧЁТЕСЛИМН.

С помощью функции СЧЁТЕСЛИМН в таблице Genome features, Лист 2 выявлено распределение генов на прямой и обратной цепи ДНК.

РЕЗУЛЬТАТЫ

Частоты стоп-кодонов. У разных видов бактерий частота использования стоп-кодонов значительно различается. В генетическом коде есть три стоп-кодона: TGA, TAA, TAG. У Faecalibacterium prausnitzii частота стоп-кодонов представлена в таблице 1.

Табл. 1 Частота использования стоп-кодонов Faecalibacterium prausnitzii.

TGA 1172
TAA 1442
TAG 90

Доля GC Faecalibacterium prausnitzii составила 0,4763, что является небольшим значением. Согласно статье “Variation in Release Factor Abundance Is Not Needed to Explain Trends in Bacterial Stop Codon Usage” [6], использование TAA отрицательно коррелирует с GC, а использование TGA коррелирует положительно. Использование TAG, несмотря на то, что содержание нуклеотидов идентично TGA, в основном низкое и не связано с GC-составом. Таким образом, наиболее часто используемым стоп-кодоном Faecalibacterium prausnitzii является TAA, наименее используемым TAG.

Частоты синонимичных кодонов. Частота кодонов, кодирующих лейцин и аргинин представлена в таблицах 2 и 3.

Предпочтение кодонов - понятие, описывающее феномен неравных частот встречаемости синонимичных кодонов в пределах одного организма. Существует две гипотезы, объясняющих это. Первая: некоторые кодоны более склонны к мутациям и поэтому встречаются реже. Вторая: предпочтение кодонов влияет на эффективность и точность генной экспрессии и, таким образом, создается и поддерживается отбором.

Разница частоты используемости синонимичных кодонов для разных бактерий обусловлена мутациями, различиями в генетическом коде.

Для Faecalibacterium prausnitzii лейцин чаще всего кодируется кодоном CTG (29624 раз), а аргинин кодоном CGC (23050 раз).

Табл. 2 Частота кодонов, кодирующих лейцин.

CTA 8405
CTC 7440
CTG 29264
CTT 12234
TTG 7128
TTA 4358

Табл. 3 Частота кодонов, кодирующих аргинин.

CGT 11625
CGC 23050
CGA 17642
CGG 22516
AGA 9682
AGG 7594

Cumulative GC-skew. Минимум GC-skew (составил 197000 у Faecalibacterium prausnitzii) соответствует ориджину репликации, а максимум (1383000) - месту, где заканчивается репликация. График Cumulative GC-skew представлен на рисунке 1.

Рис. 1 Cumulative GC-skew.

Длины белков. Распределив белки Faecalibacterium prausnitzii по длинам, была получена гистограмма (Рис. 2). Из гистограммы видно, что больше всего белков состоят из 280-314 аминокислот.

Самым длинным белком оказался Cna B-type domain-containing protein и имеет длину 1887, hypothetical protein, glutamate synthase large subunit.

Рис. 2 Гистограмма длин белков.

Распределение генов по цепям ДНК. Выявлено распределение генов на прямой и обратной цепи ДНК. Результаты представлены в Таблице 4.

Из данной таблицы можно сделать вывод, что гены, кодирующие белки распределены равномерно на прямой и обратной цепи, в то время как тРНК и рРНК распределены неравномерно.

Табл. 4 Распределение генов по цепям ДНК.

Ген Прямая цепь Обратная цепь Степень случайности различия
protein_coding 1403 1261 0,00628800362
pseudogene 28 34 0,5257733602
tRNA 24 40 0,05994118957
SRP_RNA 2 0 0,5
rRNA 3 15 0,00753784179
tmRNA 1 0 1

БЛАГОДАРНОСТЬ

Благодарю преподавателей курса информатики Факультета биоинженерии и биоинформатики МГУ за предоставленные материалы в течение семестра.

СПИСОК ЛИТЕРАТУРЫ И СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ

[1] Martín R, Miquel S, Benevides L, Bridonneau C, Robert V, Hudault S, Chain F, Berteau O, Azevedo V, Chatel JM, Sokol H, Bermúdez-Humarán LG, Thomas M, Langella P (2017). Ссылка

[2] Паламарчук Вячеслав. Ссылка

[3] Khan MT, Duncan SH, Stams AJ, van Dijl JM, Flint HJ, Harmsen HJ (August 2012).

[4] Геном и протеом Faecalibacterium prausnitzii. Ссылка

[5] Вероника Мурашка. Отчет, Python. Ссылка

[6] Alexander T Ho, Laurence D Hurst. “Variation in Release Factor Abundance Is Not Needed to Explain Trends in Bacterial Stop Codon Usage”. Ссылка