Обзор генома бактерии Clostridium acetobutylicum

Гаршина Д. В.

Факультет Биоинженерии и Биоинформатики, МГУ им. М. В. Ломоносова

АННОТАЦИЯ

В данном обзоре были изучены геномные особенности бактерии Clostridium acetobutylicum — биотехнологически важного вида, способного к продукции органических растворителей и экологичного топлива. Основное внимание было уделено изучению длин белков, длин межгенных промежутков на различных репликонах, GC-состава и состава генома в контексте различных продуктов транскрипции и трансляции.

ВВЕДЕНИЕ

Объектом данного исследования является бактерия из рода Clostridium. Клостридии — разнообразная группа грамположительных палочковидных анаэробов, в которую входят несколько патогенных микроорганизмов, вырабатывающих токсины (в частности, Clostridium difficile, Clostridium botulinum, Clostridium tetani и Clostridium perfringens), а также большое количество почвенных видов, которые вырабатывают ацетон, бутанол, этанол, изопропанол и органические кислоты в ходе сбраживания различных источников углерода [3].

Клостридии, способные к синтезу органических растворителей, широко использовались с начала XX века для промышленного производства ацетона и бутанола [2] и остаются объектом исследований благодаря их высокому потенциалу применения в биотехнологии. Штаммы, классифицированные как Clostridium acetobutylicum, были первыми промышленными культурами, поддавшимися выделению, запатентованными и используемыми для крупномасштабного производства растворителей из крахмальных субстратов. Изоляты Clostridium acetobutylicum были впервые идентифицированы в период с 1912 по 1914 год [3].

Систематическое положение исследуемой бактерии [1]:

Домен: Bacteria

Царство: Bacillati

Филум: Bacillota

Класс: Clostridia

Порядок: Eubacteriales

Семейство: Clostridiaceae

Род: Clostridium

Вид: C. acetobutylicum

В данной работе исследовались особенности генома Clostridium acetobutylicum, в частности длины белков, GC-состав, длины межгенных промежутков на различных репликонах и состав генома в контексте различных продуктов транскрипции и трансляции. Взаимосвязанность генотипических и фенотипических характеристик для любого организма не вызывает сомнений, что может быть особенно актуально в случае такого биотехнологически и промышленно важного вида, как C. acetobutylicum, изучение генома которого может быть полезно для оптимизации процессов получения органических растворителей, а также биотоплива (из н-бутанола) [13].

МЕТОДЫ

Исследование строилось на анализе таблицы геномных особенностей (см. S1 в Сопроводительных материалах) и последовательностей CDS (см. S2 в Сопроводительных материалах) бактерии Clostridium acetobutylicum геномной сборки GCF_000008765.1 из базы данных NCBI (см. п. S11 в Сопроводительных материалах).

Для анализа распределения длин белков, закодированных в геноме бактерии, была использована таблица кодирующих последовательностей (см. S13 в Сопроводительных материалах), где методами электронных таблиц Google Sheets были вычислены длины всех белков в аминокислотах и построена гистограмма распределения их длин (см. S3 в Сопроводительных материалах).

Исследование GC-состава кодирующих последовательностей было аналогично выполнено методами Google Sheets с использованием таблицы кодирующих последовательностей и построением гистограммы распределения CDS относительно содержания GC (см. S4 в Сопроводительных материалах).

Частоты встречаемости интервалов различных длин между кодирующими последовательностями изучались методами Google Sheets на данных локальных особенностей генома исследуемой бактерии (см. S12 в Сопроводительных материалах). С помощью электронных таблиц были вычислены длины промежутков между CDS на плюс- и минус-цепи большей хромосомы и плазмиды pSOL1 и построены соответствующие гистограммы распределения интервалов по длине (см. S5, S8, S9, S10 в Сопроводительных материалах).

Таблица числа генов белков и генов РНК разных типов по репликонам была получена путем обработки таблицы геномных особенностей методами Google Sheets (см. S6 в Сопроводительных материалах), как и таблица долей длин, занятых генами белков, РНК, псевдогенами и межгенными промежутками, по репликонам (см. S7 в Сопроводительных материалах).

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

1. Длины белков, закодированных в геноме Clostridium acetobutylicum

В результате анализа была получена гистограмма распределения белков различных длин, закодированных в геноме исследуемой бактерии. Распределение длин белков имеет колоколообразный вид с длинным “хвостом” вправо (Рис. 1). Полученное распределение не является нормальным, это логнормальное (гамма-) распределение [4]. Такой вид распределения универсален для всех живых организмов из-за сильного давления отбора, которое поддерживает высокую долю кодирующих последовательностей в диапазоне от 50 до 500 аминокислот [14].

Согласно анализу гистограммы, большинство белков C. acetobutylicum имеют длину от 50 до 500 аминокислотных остатков. Максимальное количество белков (484 штуки, 12,47%) попадают в интервал длины в 200-250 аминокислот. Большую чем 1550 длину в аминокислотах имеют 10 белков. Белок с максимальной длиной включает 2870 а.о., с минимальной — 20 а.о.

Распределение числа белков Clostridium acetobutylicum  по длине (белка в аминокислотах)
Рис. 1. Распределение числа белков Clostridium acetobutylicum по длине (белка в аминокислотах).

2. Распределение CDS относительно GC-состава в геноме Clostridium acetobutylicum

В ходе исследования была построена гистограмма распределения CDS по GC-составу в геноме изучаемой бактерии. Наиболее часто встречаемый %GC кодирующих последовательностей исследуемой бактерии — 31–32%. Кроме того, согласно Рис. 2, абсолютное большинство CDS имеют GC-состав менее 50% (в диапазоне 26–36%), то есть относительно низкое содержание GC, что, согласно некоторым гипотезам, может коррелировать с анаэробностью C. acetobutylicum [5], а также со свободным образом жизни изучаемого вида [6]. Тем не менее, данный результат полностью согласуется с данными о высоком разнообразии среди бактерий по содержанию гуанина и цитозина в геноме [7].

Распределение CDS Clostridium acetobutylicum  GC-составу (%GC)
Рис. 2. Распределение CDS Clostridium acetobutylicum GC-составу (%GC).

3. Распределение интервалов между CDS на плюс- и минус-цепях наибольшей хромосомы Clostridium acetobutylicum

При анализе генома были получены гистограммы распределения длин межгенных промежутков на плюс- и минус-цепи основной хромосомы. Наиболее часто встречаемый промежуток между соседними CDS и на плюс-, и на минус-цепи у исследуемой бактерии составляет –10–40 п.н. (568 и 633 CDS соответственно) (Рис. 3, 4). Отрицательные длины интервалов на гистограмме обозначают, что соседние CDS перекрываются, и около половины кодирующих последовательностей на каждой из цепей, согласно полученным результатам, располагаются внахлест. Распределения интервалов согласуются с тем, что перекрывание чаще всего встречается в геномах быстро эволюционирующих организмов с высокой частотой мутаций, какими являются и бактерии. Считается, что перекрывание играет важную роль как средство сжатия максимального объёма информации в коротких последовательностях генов и как механизм регуляции экспрессии генов посредством трансляционной связи функционально связанных полипептидов [8].

Распределение длин промежутков в п.н. между кодирующими последовательностями на плюс-цепи наибольшей хромосомы Clostridium acetobutylicum
Рис. 3. Распределение длин промежутков в п.н. между кодирующими последовательностями на плюс-цепи наибольшей хромосомы Clostridium acetobutylicum.
Распределение длин промежутков в п.н. между кодирующими последовательностями на минус-цепи наибольшей хромосомы Clostridium acetobutylicum
Рис. 4. Распределение длин промежутков в п.н. между кодирующими последовательностями на минус-цепи наибольшей хромосомы Clostridium acetobutylicum.

4. Распределение генов белков и генов разных типов РНК по репликонам

При изучении особенностей генома была получена таблица количеств генов, кодирующих или не кодирующих различные продукты. Проведенный подсчет числа генов, кодирующих белки, различные РНК, а также псевдогенов, позволяет заметить, что единственная плазмида pSOL1 C. acetobutylicum несет лишь белок-кодирующие гены, а все гены РНК и псевдогены локализованы на основной хромосоме бактерии. Таким образом, хромосома обеспечивает трансляцию 3663 белков и 109 различных РНК, плазмида — 173 белковых продуктов (Табл. 1).

Интерес представляет большое число генов тРНК (73), закодированных в геноме изучаемой бактерии: их больше, чем разных кодонов, способных кодировать аминокислоты (61). Это может быть связано с тем, что в зависимости от условий среды набор продуктов метаболизма C. acetobutylicum значительно варьирует [9], что предполагает наличие широкого спектра регуляторных механизмов, в том числе с помощью различных модификаций тРНК, которые могут использоваться в качестве модуляторов трансляции некоторых транскриптов, обогащённых определёнными кодонами или группами кодонов [10].

Таблица 1. Количество генов, кодирующих различные продукты, по репликонам Clostridium acetobutylicum
Белок-кодирующие гены нкРНК РНК рибонуклеазы Р рРНК РНК СРЧ тмРНК тРНК
Хромосома 3663 3 1 33 1 1 73
Плазмида (pSOL1) 173 0 0 0 0 0 0

5. Доли длин, занятых генами белков, генами РНК, псевдогенами и межгенными промежутками по репликонам

При исследовании локальных геномных особенностей была получена таблица долей длин, занимаемых в геноме генами, кодирующими или не кодирующими различные продукты. Согласно анализу полученных данных (Табл. 2), межгенные промежутки в обоих репликонах бактерии занимают не более 17% от общей длины генома, что согласуется с результатами раздела 3 о коротких промежутках между CDS и исследованиями о том, что бактерии имеют небольшие, но богатые генами геномы, что предполагает уменьшение межгенных промежутков [11]. Аналогично псевдогены занимают не более 2% от общей длины генома.

Таблица 2. Количество генов, кодирующих различные продукты по репликонам Clostridium acetobutylicum.
Гены белков Гены РНК Псевдогены Межгенные промежутки
Хромосома 85,59% 1,44% 0,69% 12,27%
Плазмида (pSOL1) 82,09% 0,00% 1,75% 16,16%

6. Распределение интервалов между CDS на плюс-цепи и на минус-цепи плазмиды pSOL1 Clostridium acetobutylicum

Дальнейшим направлением исследования генома изучаемой бактерии был выбран анализ распределения промежутков между кодирующими последовательностями на единственной плазмиде C. acetobutylicum. Она несет 4,5% от всех белок-кодирующих генов бактерии (раздел 4), которые, ввиду мобильности плазмидной генетической информации, могут представлять интерес для работ в области регуляции метаболических сдвигов с получением результатов в области генетической модификации этого промышленно важного вида — известно, что плазмида pSOL1 содержит четыре гена, отвечающих за образование ацетона и бутанола [12].

В ходе исследования были получены гистограммы распределения длин межгенных промежутков на плюс- и минус-цепи плазмиды pSOL1. Исследование размеров интервалов между CDS позволил выявить, что распределение их длин сходно с распределением в основной хромосоме (Рис. 5, 6, а также раздел 3), однако имеет меньше высоких значений, что можно объяснить меньшим размером плазмиды относительно основной хромосомы. В то же время относительное число “длинных” промежутков к “коротким” на плазмиде выше, чем на хромосоме, что может объясняться меньшим размером выборки в случае плазмиды (плазмида несет 173 белок-кодирующих гена, тогда как основная хромосома — 3663). Другая предположительная причина этому — возможное вырезание плазмид и обратное затем встраивание их в основной геном в том числе при их горизонтальном переносе (играющем важную роль для Clostridium acetobutylicum в адаптации к условиям среды посредством метаболических сдвигов [9], в которых плазмида pSOL1, соответственно ее генному составу, вероятно, задействована), что может приводить к уменьшению числа функциональных генов и увеличению межгенных промежутков (при некорректной интеграции или выходе плазмиды из генома велика вероятность повреждения генов).

При этом и на плюс-, и на минус-цепи плазмиды наибольшее число промежутков между CDS имеют длину в диапазоне от –16 до 40 п.н., то есть, как логично предположить [8], наблюдается тенденция к перекрыванию белок-кодирующих последовательностей.

Распределение длин промежутков в п.н. между кодирующими последовательностями на плюс-цепи плазмиды pSOL1 Clostridium acetobutylicum
Рис. 5. Распределение длин промежутков в п.н. между кодирующими последовательностями на плюс-цепи плазмиды pSOL1 Clostridium acetobutylicum.
Распределение длин промежутков в п.н. между кодирующими последовательностями на минус-цепи плазмиды pSOL1 Clostridium acetobutylicum
Рис. 6. Распределение длин промежутков в п.н. между кодирующими последовательностями на минус-цепи плазмиды pSOL1 Clostridium acetobutylicum.

ВОЗМОЖНЫЕ ДАЛЬНЕЙШИЕ ИССЛЕДОВАНИЯ

Ввиду высокого биотехнологического и промышленного значения Clostridium acetobutylicum, перспективным направлением дальнейших исследований будет изучение распределения генов, ответственных за метаболизм веществ, использующихся в современных технологиях, а у данной бактерии — отвечающих за адаптацию к изменяющимся условиям окружающей среды, на основной хромосоме и плазмиде. В частности, интересно и важно соотношение числа генов на разных репликонах, принадлежность их к конкретным метаболическим путям (например, путям синтеза ацетона и бутанола), соотнесение полученных результатов с эволюционной консервативностью данных путей и конкретных генов. В связи с тем, что для бактерий свойственно расположение функционально близких генов в едином опероне [8], любопытно изучение пространственного положения генов метаболизма на плазмиде и хромосоме (так как метаболизм углеродных соединений в случае Clostridium acetobutylicum сложен [13] и включает множество этапов, а плазмида, к примеру, несет лишь 4 таких гена [12].

Для решения данной задачи необходимо получить данные о конкретных генах, их расположении (например, из таблицы геномных особенностей), исследовать их принадлежность к различных метаболическим путям изучаемой бактерии (посредством изучения литературы), а также использовать инструменты, позволяющие автоматизировать анализ расположения генов по их названию в вышеупомянутой таблице (затруднительно и средствами Python, и средствами Google Sheets ввиду неоднородности текстовых данных названий генов).

СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ

S1. Каталог геномной сборки GCF_000008765.1, таблица локальных особенностей генома: link

S2. Каталог геномной сборки GCF_000008765.1, файл последовательностей CDS: link

S3. Таблица “СDS from genome of Clostridium acetobutylicum”, лист “prot_lengths_hist”: link

S4. Таблица “СDS from genome of Clostridium acetobutylicum”, лист “gc_hist”: link

S5. Таблица “Genomic features of Clostridium acetobutylicum”, лист “inter_cds_intervals-hist”: link

S6. Таблица “Genomic features of Clostridium acetobutylicum”, лист “per-replicones”: link

S7. Таблица “Genomic features of Clostridium acetobutylicum”, лист “percents_of_length”: link

S8. Таблица “Genomic features of Clostridium acetobutylicum”, лист “inter_cds_intervals-hist_minus”: link

S9. Таблица “Genomic features of Clostridium acetobutylicum”, лист “inter_cds_intervals_plasmid-hist”: link

S10. Таблица “Genomic features of Clostridium acetobutylicum”, лист “inter_cds_intervals_plasmid-hist_minus”: link

S11. Каталог геномной сборки GCF_000008765.1, база данных NCBI: link

S12. Таблица геномных особенностей Clostridium acetobutylicum: link

S13. Таблица кодирующих последовательностей Clostridium acetobutylicum: link

ЛИТЕРАТУРА

[1] База данных Национального центра биотехнологической информации (NCBI), раздел “Taxonomy” — Clostridium acetobutylicum https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?command=show&mode=node&id=1488&lvl=#note1

[2] Keis S., Shaheen R., Jones D. T. Emended descriptions of Clostridium acetobutylicum and Clostridium beijerinckii, and descriptions of Clostridium saccharoperbutylacetonicum sp. nov. and Clostridium saccharobutylicum sp. nov //International journal of systematic and evolutionary microbiology. – 2001. – Т. 51. – №. 6. – С. 2095-2103. https://www.microbiologyresearch.org/content/journal/ijsem/10.1099/00207713-51-6-2095

[3] Nölling J. et al. Genome sequence and comparative analysis of the solvent-producing bacterium Clostridium acetobutylicum //Journal of bacteriology. – 2001. – Т. 183. – №. 16. – С. 4823-4838. https://journals.asm.org/doi/abs/10.1128/jb.183.16.4823-4838.2001

[4] Johnson, N.L. and Kotz, S. (1970) Distributions in Statistics.

[5] Naya, H., Romero, H., Zavala, A. et al. Aerobiosis Increases the Genomic Guanine Plus Cytosine Content (GC%) in Prokaryotes . //J Mol Evol 55, 260–264 (2002). https://doi.org/10.1007/s00239-002-2323-3

[6] Rocha, Eduardo P.C. et al. Base composition bias might result from competition for metabolic resources //Trends in Genetics, Volume 18, Issue 6, 291 - 294. https://doi.org/10.1016/S0168-9525(02)02690-2

[7] Hildebrand F., Meyer A., Eyre-Walker A. Evidence of selection upon genomic GC-content in bacteria //PLoS genetics. – 2010. – Т. 6. – №. 9. – С. e1001107. https://doi.org/10.1371/journal.pgen.1001107

[8] Дэвид К. Кракауэр, «Стабильность и эволюция перекрывающихся генов», Evolution, том 54, выпуск 3, 1 апреля 2000 г., стр. 731–739. https://doi.org/10.1111/j.0014-3820.2000.tb00075.x

[9] Girbal L. et al. Regulation of metabolic shifts in Clostridium acetobutylicum ATCC 824 //FEMS microbiology reviews. – 1995. – Т. 17. – №. 3. – С. 287-297. https://doi.org/10.1111/j.1574-6976.1995.tb00212.x

[10] de Crécy-Lagard V., Jaroch M. Functions of bacterial tRNA modifications: from ubiquity to diversity //Trends in Microbiology. – 2021. – Т. 29. – №. 1. – С. 41-53. https://doi.org/10.1093/nar/gkq1257

[11] Kuo C. H., Moran N. A., Ochman H. The consequences of genetic drift for bacterial genome complexity //Genome research. – 2009. – Т. 19. – №. 8. – С. 1450-1454. http://www.genome.org/cgi/doi/10.1101/gr.091785.109

[12] Cornillot E. et al. The genes for butanol and acetone formation in Clostridium acetobutylicum ATCC 824 reside on a large plasmid whose loss leads to degeneration of the strain //Journal of bacteriology. – 1997. – Т. 179. – №. 17. – С. 5442-5447. https://doi.org/10.1128/jb.179.17.5442-5447.1997

[13] Yoo M. et al. A quantitative system-scale characterization of the metabolism of Clostridium acetobutylicum //MBio. – 2015. – Т. 6. – №. 6. – С. 10.1128/mbio. 01808-15. https://doi.org/10.1128/mbio.01808-15

[14] Nevers, Y., Glover, N.M., Dessimoz, C. et al. Protein length distribution is remarkably uniform across the tree of life. Genome Biol 24, 135 (2023). https://doi.org/10.1186/s13059-023-02973-2