Гаршина Д. В.
Факультет Биоинженерии и Биоинформатики, МГУ им. М. В. Ломоносова
АННОТАЦИЯ
В данном обзоре были изучены геномные особенности бактерии Clostridium acetobutylicum — биотехнологически важного вида, способного к продукции органических растворителей и экологичного топлива. Основное внимание было уделено изучению длин белков, длин межгенных промежутков на различных репликонах, GC-состава и состава генома в контексте различных продуктов транскрипции и трансляции.
ВВЕДЕНИЕ
Объектом данного исследования является бактерия из рода Clostridium. Клостридии — разнообразная группа грамположительных палочковидных анаэробов, в которую входят несколько патогенных микроорганизмов, вырабатывающих токсины (в частности, Clostridium difficile, Clostridium botulinum, Clostridium tetani и Clostridium perfringens), а также большое количество почвенных видов, которые вырабатывают ацетон, бутанол, этанол, изопропанол и органические кислоты в ходе сбраживания различных источников углерода [3].
Клостридии, способные к синтезу органических растворителей, широко использовались с начала XX века для промышленного производства ацетона и бутанола [2] и остаются объектом исследований благодаря их высокому потенциалу применения в биотехнологии. Штаммы, классифицированные как Clostridium acetobutylicum, были первыми промышленными культурами, поддавшимися выделению, запатентованными и используемыми для крупномасштабного производства растворителей из крахмальных субстратов. Изоляты Clostridium acetobutylicum были впервые идентифицированы в период с 1912 по 1914 год [3].
Систематическое положение исследуемой бактерии [1]:
Домен: Bacteria
Царство: Bacillati
Филум: Bacillota
Класс: Clostridia
Порядок: Eubacteriales
Семейство: Clostridiaceae
Род: Clostridium
Вид: C. acetobutylicum
В данной работе исследовались особенности генома Clostridium acetobutylicum, в частности длины белков, GC-состав, длины межгенных промежутков на различных репликонах и состав генома в контексте различных продуктов транскрипции и трансляции. Взаимосвязанность генотипических и фенотипических характеристик для любого организма не вызывает сомнений, что может быть особенно актуально в случае такого биотехнологически и промышленно важного вида, как C. acetobutylicum, изучение генома которого может быть полезно для оптимизации процессов получения органических растворителей, а также биотоплива (из н-бутанола) [13].
МЕТОДЫ
Исследование строилось на анализе таблицы геномных особенностей (см. S1 в Сопроводительных материалах) и последовательностей CDS (см. S2 в Сопроводительных материалах) бактерии Clostridium acetobutylicum геномной сборки GCF_000008765.1 из базы данных NCBI (см. п. S11 в Сопроводительных материалах).
Для анализа распределения длин белков, закодированных в геноме бактерии, была использована таблица кодирующих последовательностей (см. S13 в Сопроводительных материалах), где методами электронных таблиц Google Sheets были вычислены длины всех белков в аминокислотах и построена гистограмма распределения их длин (см. S3 в Сопроводительных материалах).
Исследование GC-состава кодирующих последовательностей было аналогично выполнено методами Google Sheets с использованием таблицы кодирующих последовательностей и построением гистограммы распределения CDS относительно содержания GC (см. S4 в Сопроводительных материалах).
Частоты встречаемости интервалов различных длин между кодирующими последовательностями изучались методами Google Sheets на данных локальных особенностей генома исследуемой бактерии (см. S12 в Сопроводительных материалах). С помощью электронных таблиц были вычислены длины промежутков между CDS на плюс- и минус-цепи большей хромосомы и плазмиды pSOL1 и построены соответствующие гистограммы распределения интервалов по длине (см. S5, S8, S9, S10 в Сопроводительных материалах).
Таблица числа генов белков и генов РНК разных типов по репликонам была получена путем обработки таблицы геномных особенностей методами Google Sheets (см. S6 в Сопроводительных материалах), как и таблица долей длин, занятых генами белков, РНК, псевдогенами и межгенными промежутками, по репликонам (см. S7 в Сопроводительных материалах).
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
1. Длины белков, закодированных в геноме Clostridium acetobutylicum
В результате анализа была получена гистограмма распределения белков различных длин, закодированных в геноме исследуемой бактерии. Распределение длин белков имеет колоколообразный вид с длинным “хвостом” вправо (Рис. 1). Полученное распределение не является нормальным, это логнормальное (гамма-) распределение [4]. Такой вид распределения универсален для всех живых организмов из-за сильного давления отбора, которое поддерживает высокую долю кодирующих последовательностей в диапазоне от 50 до 500 аминокислот [14].
Согласно анализу гистограммы, большинство белков C. acetobutylicum имеют длину от 50 до 500 аминокислотных остатков. Максимальное количество белков (484 штуки, 12,47%) попадают в интервал длины в 200-250 аминокислот. Большую чем 1550 длину в аминокислотах имеют 10 белков. Белок с максимальной длиной включает 2870 а.о., с минимальной — 20 а.о.
2. Распределение CDS относительно GC-состава в геноме Clostridium acetobutylicum
В ходе исследования была построена гистограмма распределения CDS по GC-составу в геноме изучаемой бактерии. Наиболее часто встречаемый %GC кодирующих последовательностей исследуемой бактерии — 31–32%. Кроме того, согласно Рис. 2, абсолютное большинство CDS имеют GC-состав менее 50% (в диапазоне 26–36%), то есть относительно низкое содержание GC, что, согласно некоторым гипотезам, может коррелировать с анаэробностью C. acetobutylicum [5], а также со свободным образом жизни изучаемого вида [6]. Тем не менее, данный результат полностью согласуется с данными о высоком разнообразии среди бактерий по содержанию гуанина и цитозина в геноме [7].
3. Распределение интервалов между CDS на плюс- и минус-цепях наибольшей хромосомы Clostridium acetobutylicum
При анализе генома были получены гистограммы распределения длин межгенных промежутков на плюс- и минус-цепи основной хромосомы. Наиболее часто встречаемый промежуток между соседними CDS и на плюс-, и на минус-цепи у исследуемой бактерии составляет –10–40 п.н. (568 и 633 CDS соответственно) (Рис. 3, 4). Отрицательные длины интервалов на гистограмме обозначают, что соседние CDS перекрываются, и около половины кодирующих последовательностей на каждой из цепей, согласно полученным результатам, располагаются внахлест. Распределения интервалов согласуются с тем, что перекрывание чаще всего встречается в геномах быстро эволюционирующих организмов с высокой частотой мутаций, какими являются и бактерии. Считается, что перекрывание играет важную роль как средство сжатия максимального объёма информации в коротких последовательностях генов и как механизм регуляции экспрессии генов посредством трансляционной связи функционально связанных полипептидов [8].
4. Распределение генов белков и генов разных типов РНК по репликонам
При изучении особенностей генома была получена таблица количеств генов, кодирующих или не кодирующих различные продукты. Проведенный подсчет числа генов, кодирующих белки, различные РНК, а также псевдогенов, позволяет заметить, что единственная плазмида pSOL1 C. acetobutylicum несет лишь белок-кодирующие гены, а все гены РНК и псевдогены локализованы на основной хромосоме бактерии. Таким образом, хромосома обеспечивает трансляцию 3663 белков и 109 различных РНК, плазмида — 173 белковых продуктов (Табл. 1).
Интерес представляет большое число генов тРНК (73), закодированных в геноме изучаемой бактерии: их больше, чем разных кодонов, способных кодировать аминокислоты (61). Это может быть связано с тем, что в зависимости от условий среды набор продуктов метаболизма C. acetobutylicum значительно варьирует [9], что предполагает наличие широкого спектра регуляторных механизмов, в том числе с помощью различных модификаций тРНК, которые могут использоваться в качестве модуляторов трансляции некоторых транскриптов, обогащённых определёнными кодонами или группами кодонов [10].
| Белок-кодирующие гены | нкРНК | РНК рибонуклеазы Р | рРНК | РНК СРЧ | тмРНК | тРНК | |
|---|---|---|---|---|---|---|---|
| Хромосома | 3663 | 3 | 1 | 33 | 1 | 1 | 73 |
| Плазмида (pSOL1) | 173 | 0 | 0 | 0 | 0 | 0 | 0 |
5. Доли длин, занятых генами белков, генами РНК, псевдогенами и межгенными промежутками по репликонам
При исследовании локальных геномных особенностей была получена таблица долей длин, занимаемых в геноме генами, кодирующими или не кодирующими различные продукты. Согласно анализу полученных данных (Табл. 2), межгенные промежутки в обоих репликонах бактерии занимают не более 17% от общей длины генома, что согласуется с результатами раздела 3 о коротких промежутках между CDS и исследованиями о том, что бактерии имеют небольшие, но богатые генами геномы, что предполагает уменьшение межгенных промежутков [11]. Аналогично псевдогены занимают не более 2% от общей длины генома.
| Гены белков | Гены РНК | Псевдогены | Межгенные промежутки | |
|---|---|---|---|---|
| Хромосома | 85,59% | 1,44% | 0,69% | 12,27% |
| Плазмида (pSOL1) | 82,09% | 0,00% | 1,75% | 16,16% |
6. Распределение интервалов между CDS на плюс-цепи и на минус-цепи плазмиды pSOL1 Clostridium acetobutylicum
Дальнейшим направлением исследования генома изучаемой бактерии был выбран анализ распределения промежутков между кодирующими последовательностями на единственной плазмиде C. acetobutylicum. Она несет 4,5% от всех белок-кодирующих генов бактерии (раздел 4), которые, ввиду мобильности плазмидной генетической информации, могут представлять интерес для работ в области регуляции метаболических сдвигов с получением результатов в области генетической модификации этого промышленно важного вида — известно, что плазмида pSOL1 содержит четыре гена, отвечающих за образование ацетона и бутанола [12].
В ходе исследования были получены гистограммы распределения длин межгенных промежутков на плюс- и минус-цепи плазмиды pSOL1. Исследование размеров интервалов между CDS позволил выявить, что распределение их длин сходно с распределением в основной хромосоме (Рис. 5, 6, а также раздел 3), однако имеет меньше высоких значений, что можно объяснить меньшим размером плазмиды относительно основной хромосомы. В то же время относительное число “длинных” промежутков к “коротким” на плазмиде выше, чем на хромосоме, что может объясняться меньшим размером выборки в случае плазмиды (плазмида несет 173 белок-кодирующих гена, тогда как основная хромосома — 3663). Другая предположительная причина этому — возможное вырезание плазмид и обратное затем встраивание их в основной геном в том числе при их горизонтальном переносе (играющем важную роль для Clostridium acetobutylicum в адаптации к условиям среды посредством метаболических сдвигов [9], в которых плазмида pSOL1, соответственно ее генному составу, вероятно, задействована), что может приводить к уменьшению числа функциональных генов и увеличению межгенных промежутков (при некорректной интеграции или выходе плазмиды из генома велика вероятность повреждения генов).
При этом и на плюс-, и на минус-цепи плазмиды наибольшее число промежутков между CDS имеют длину в диапазоне от –16 до 40 п.н., то есть, как логично предположить [8], наблюдается тенденция к перекрыванию белок-кодирующих последовательностей.
ВОЗМОЖНЫЕ ДАЛЬНЕЙШИЕ ИССЛЕДОВАНИЯ
Ввиду высокого биотехнологического и промышленного значения Clostridium acetobutylicum, перспективным направлением дальнейших исследований будет изучение распределения генов, ответственных за метаболизм веществ, использующихся в современных технологиях, а у данной бактерии — отвечающих за адаптацию к изменяющимся условиям окружающей среды, на основной хромосоме и плазмиде. В частности, интересно и важно соотношение числа генов на разных репликонах, принадлежность их к конкретным метаболическим путям (например, путям синтеза ацетона и бутанола), соотнесение полученных результатов с эволюционной консервативностью данных путей и конкретных генов. В связи с тем, что для бактерий свойственно расположение функционально близких генов в едином опероне [8], любопытно изучение пространственного положения генов метаболизма на плазмиде и хромосоме (так как метаболизм углеродных соединений в случае Clostridium acetobutylicum сложен [13] и включает множество этапов, а плазмида, к примеру, несет лишь 4 таких гена [12].
Для решения данной задачи необходимо получить данные о конкретных генах, их расположении (например, из таблицы геномных особенностей), исследовать их принадлежность к различных метаболическим путям изучаемой бактерии (посредством изучения литературы), а также использовать инструменты, позволяющие автоматизировать анализ расположения генов по их названию в вышеупомянутой таблице (затруднительно и средствами Python, и средствами Google Sheets ввиду неоднородности текстовых данных названий генов).
СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ
S1. Каталог геномной сборки GCF_000008765.1, таблица локальных особенностей генома: link
S2. Каталог геномной сборки GCF_000008765.1, файл последовательностей CDS: link
S3. Таблица “СDS from genome of Clostridium acetobutylicum”, лист “prot_lengths_hist”: link
S4. Таблица “СDS from genome of Clostridium acetobutylicum”, лист “gc_hist”: link
S5. Таблица “Genomic features of Clostridium acetobutylicum”, лист “inter_cds_intervals-hist”: link
S6. Таблица “Genomic features of Clostridium acetobutylicum”, лист “per-replicones”: link
S7. Таблица “Genomic features of Clostridium acetobutylicum”, лист “percents_of_length”: link
S8. Таблица “Genomic features of Clostridium acetobutylicum”, лист “inter_cds_intervals-hist_minus”: link
S9. Таблица “Genomic features of Clostridium acetobutylicum”, лист “inter_cds_intervals_plasmid-hist”: link
S10. Таблица “Genomic features of Clostridium acetobutylicum”, лист “inter_cds_intervals_plasmid-hist_minus”: link
S11. Каталог геномной сборки GCF_000008765.1, база данных NCBI: link
S12. Таблица геномных особенностей Clostridium acetobutylicum: link
S13. Таблица кодирующих последовательностей Clostridium acetobutylicum: link
ЛИТЕРАТУРА
[1] База данных Национального центра биотехнологической информации (NCBI), раздел “Taxonomy” — Clostridium acetobutylicum https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?command=show&mode=node&id=1488&lvl=#note1
[2] Keis S., Shaheen R., Jones D. T. Emended descriptions of Clostridium acetobutylicum and Clostridium beijerinckii, and descriptions of Clostridium saccharoperbutylacetonicum sp. nov. and Clostridium saccharobutylicum sp. nov //International journal of systematic and evolutionary microbiology. – 2001. – Т. 51. – №. 6. – С. 2095-2103. https://www.microbiologyresearch.org/content/journal/ijsem/10.1099/00207713-51-6-2095
[3] Nölling J. et al. Genome sequence and comparative analysis of the solvent-producing bacterium Clostridium acetobutylicum //Journal of bacteriology. – 2001. – Т. 183. – №. 16. – С. 4823-4838. https://journals.asm.org/doi/abs/10.1128/jb.183.16.4823-4838.2001
[4] Johnson, N.L. and Kotz, S. (1970) Distributions in Statistics.
[5] Naya, H., Romero, H., Zavala, A. et al. Aerobiosis Increases the Genomic Guanine Plus Cytosine Content (GC%) in Prokaryotes . //J Mol Evol 55, 260–264 (2002). https://doi.org/10.1007/s00239-002-2323-3
[6] Rocha, Eduardo P.C. et al. Base composition bias might result from competition for metabolic resources //Trends in Genetics, Volume 18, Issue 6, 291 - 294. https://doi.org/10.1016/S0168-9525(02)02690-2
[7] Hildebrand F., Meyer A., Eyre-Walker A. Evidence of selection upon genomic GC-content in bacteria //PLoS genetics. – 2010. – Т. 6. – №. 9. – С. e1001107. https://doi.org/10.1371/journal.pgen.1001107
[8] Дэвид К. Кракауэр, «Стабильность и эволюция перекрывающихся генов», Evolution, том 54, выпуск 3, 1 апреля 2000 г., стр. 731–739. https://doi.org/10.1111/j.0014-3820.2000.tb00075.x
[9] Girbal L. et al. Regulation of metabolic shifts in Clostridium acetobutylicum ATCC 824 //FEMS microbiology reviews. – 1995. – Т. 17. – №. 3. – С. 287-297. https://doi.org/10.1111/j.1574-6976.1995.tb00212.x
[10] de Crécy-Lagard V., Jaroch M. Functions of bacterial tRNA modifications: from ubiquity to diversity //Trends in Microbiology. – 2021. – Т. 29. – №. 1. – С. 41-53. https://doi.org/10.1093/nar/gkq1257
[11] Kuo C. H., Moran N. A., Ochman H. The consequences of genetic drift for bacterial genome complexity //Genome research. – 2009. – Т. 19. – №. 8. – С. 1450-1454. http://www.genome.org/cgi/doi/10.1101/gr.091785.109
[12] Cornillot E. et al. The genes for butanol and acetone formation in Clostridium acetobutylicum ATCC 824 reside on a large plasmid whose loss leads to degeneration of the strain //Journal of bacteriology. – 1997. – Т. 179. – №. 17. – С. 5442-5447. https://doi.org/10.1128/jb.179.17.5442-5447.1997
[13] Yoo M. et al. A quantitative system-scale characterization of the metabolism of Clostridium acetobutylicum //MBio. – 2015. – Т. 6. – №. 6. – С. 10.1128/mbio. 01808-15. https://doi.org/10.1128/mbio.01808-15
[14] Nevers, Y., Glover, N.M., Dessimoz, C. et al. Protein length distribution is remarkably uniform across the tree of life. Genome Biol 24, 135 (2023). https://doi.org/10.1186/s13059-023-02973-2