В мини-обзоре рассмотрены геном и протеом бактерии Faecalibacterium prausnitzii, самой распространенной бактерии в толстом кишечнике человека. На основании результатов работы в электронных таблицах и программирования на языке Python, выявлены особенности генома и протеома.
Faecalibacterium prausnitzii — вид грамположительных анаэробных бактерий, составляющих в норме около 5% микробиома толстого кишечника человека, что делает ее важным фактором поддержания баланса и здоровья пищеварительной системы. Это самая распространенная бактерия в толстом кишечнике [1].
Бактерия названа в честь немецкого бактериолога Отто Праушнитца и открыта в 1928 году. В современной систематике вид Faecalibacterium prausnitzii относится к роду Faecalibacterium. На данный момент бактерия обнаружена только в организме человека.
Бактерия является одним из основных продуцентов масляной кислоты (бутиратов) в толстой кишке. Масляная кислота играет большую роль в физиологии, она является основным энергетическим материалом для эпителиоцитов, поддерживает кишечный гомеостаз, контролирует нормальное развитие клеток и предотвращает развития различных заболеваний кишечника. Также бактерия участвует в расщеплении целлюлозы [2].
Проведены исследования, доказывающие связь низкого уровня Faecalibacterium prausnitzii с болезнью Крона, атопическим дерматитом и др. заболеваниями.
Геном и протеом бактерии для анализа взяты из источника [4]. С помощью собственной программы, написанной на языке Python, найдены частоты трех стоп-кодонов в кодирующих последовательностях белков.
GC-состав получен с помощью следующего кода. В электронной таблице Google Sheets построен график Cumulative GC-skew по данным программы 5 [5], определены точки максимума и минимума.
С помощью программы 4 [5] найдены частоты кодонов, кодирующих аминокислоты лейцин и аргинин.
В электронной таблице Google Sheets, лист “Histogram” построена гистограмма длин белков, использована функция СЧЁТЕСЛИМН.
С помощью функции СЧЁТЕСЛИМН в таблице Genome features, Лист 2 выявлено распределение генов на прямой и обратной цепи ДНК.
Частоты стоп-кодонов. У разных видов бактерий частота использования стоп-кодонов значительно различается. В генетическом коде есть три стоп-кодона: TGA, TAA, TAG. У Faecalibacterium prausnitzii частота стоп-кодонов представлена в таблице 1.
Табл. 1 Частота использования стоп-кодонов Faecalibacterium prausnitzii.
TGA | 1172 |
---|---|
TAA | 1442 |
TAG | 90 |
Доля GC Faecalibacterium prausnitzii составила 0,4763, что является небольшим значением. Согласно статье “Variation in Release Factor Abundance Is Not Needed to Explain Trends in Bacterial Stop Codon Usage” [6], использование TAA отрицательно коррелирует с GC, а использование TGA коррелирует положительно. Использование TAG, несмотря на то, что содержание нуклеотидов идентично TGA, в основном низкое и не связано с GC-составом. Таким образом, наиболее часто используемым стоп-кодоном Faecalibacterium prausnitzii является TAA, наименее используемым TAG.
Частоты синонимичных кодонов. Частота кодонов, кодирующих лейцин и аргинин представлена в таблицах 2 и 3.
Предпочтение кодонов - понятие, описывающее феномен неравных частот встречаемости синонимичных кодонов в пределах одного организма. Существует две гипотезы, объясняющих это. Первая: некоторые кодоны более склонны к мутациям и поэтому встречаются реже. Вторая: предпочтение кодонов влияет на эффективность и точность генной экспрессии и, таким образом, создается и поддерживается отбором.
Разница частоты используемости синонимичных кодонов для разных бактерий обусловлена мутациями, различиями в генетическом коде.
Для Faecalibacterium prausnitzii лейцин чаще всего кодируется кодоном CTG (29624 раз), а аргинин кодоном CGC (23050 раз).
Табл. 2 Частота кодонов, кодирующих лейцин.
CTA | 8405 |
---|---|
CTC | 7440 |
CTG | 29264 |
CTT | 12234 |
TTG | 7128 |
TTA | 4358 |
Табл. 3 Частота кодонов, кодирующих аргинин.
CGT | 11625 |
---|---|
CGC | 23050 |
CGA | 17642 |
CGG | 22516 |
AGA | 9682 |
AGG | 7594 |
Cumulative GC-skew. Минимум GC-skew (составил 197000 у Faecalibacterium prausnitzii) соответствует ориджину репликации, а максимум (1383000) - месту, где заканчивается репликация. График Cumulative GC-skew представлен на рисунке 1.
Рис. 1 Cumulative GC-skew.
Длины белков. Распределив белки Faecalibacterium prausnitzii по длинам, была получена гистограмма (Рис. 2). Из гистограммы видно, что больше всего белков состоят из 280-314 аминокислот.
Самым длинным белком оказался Cna B-type domain-containing protein и имеет длину 1887, hypothetical protein, glutamate synthase large subunit.
Рис. 2 Гистограмма длин белков.
Распределение генов по цепям ДНК. Выявлено распределение генов на прямой и обратной цепи ДНК. Результаты представлены в Таблице 4.
Из данной таблицы можно сделать вывод, что гены, кодирующие белки распределены равномерно на прямой и обратной цепи, в то время как тРНК и рРНК распределены неравномерно.
Табл. 4 Распределение генов по цепям ДНК.
Ген | Прямая цепь | Обратная цепь | Степень случайности различия |
---|---|---|---|
protein_coding | 1403 | 1261 | 0,00628800362 |
pseudogene | 28 | 34 | 0,5257733602 |
tRNA | 24 | 40 | 0,05994118957 |
SRP_RNA | 2 | 0 | 0,5 |
rRNA | 3 | 15 | 0,00753784179 |
tmRNA | 1 | 0 | 1 |
Благодарю преподавателей курса информатики Факультета биоинженерии и биоинформатики МГУ за предоставленные материалы в течение семестра.
[1] Martín R, Miquel S, Benevides L, Bridonneau C, Robert V, Hudault S, Chain F, Berteau O, Azevedo V, Chatel JM, Sokol H, Bermúdez-Humarán LG, Thomas M, Langella P (2017). Ссылка
[2] Паламарчук Вячеслав. Ссылка
[3] Khan MT, Duncan SH, Stams AJ, van Dijl JM, Flint HJ, Harmsen HJ (August 2012).
[4] Геном и протеом Faecalibacterium prausnitzii. Ссылка
[5] Вероника Мурашка. Отчет, Python. Ссылка
[6] Alexander T Ho, Laurence D Hurst. “Variation in Release Factor Abundance Is Not Needed to Explain Trends in Bacterial Stop Codon Usage”. Ссылка