Мини-обзор бактерии Rhodoferax ferrireducens T118

Автор

Дивакова Александра Антоновна. Студентка 1 курса МГУ Факультета Биоинженерии и Биоинформатики, Москва, Россия.

Аннотация

В работе выполнен анализ структурной организации генома Rhodoferax ferrireducens T118. Рассмотрены длины белков, интервалы и перекрывания между CDS, а также распределение генов по репликонам. Дополнительно классифицированы 429 белков по биологическим функциям с оценкой связи между длиной белка и его ролью. Показано, что геном R. ferrireducens компактный, а также что явная связь между длиной белка и функцией отсутствует.

Введение

Rhodoferax ferrireducens T118 — психротолерантная факультативно-анаэробная бактерия, принадлежащая к домену Bacteria, типу Pseudomonadota (Proteobacteria), классу Betaproteobacteria, порядку Burkholderiales, семейству Comamonadaceae, роду Rhodoferax. Штамм T118 (ATCC BAA-621 = DSM 15236) [1].

Её физиологические особенности включают способность окислять ацетат с восстановлением Fe(III), а также участие в генерации тока в микробных топливных элементах [2].

Геном R. ferrireducens полностью секвенирован: хромосома имеет длину ~4.7 Mbp и содержит более 4100 белок-кодирующих генов [3]. Присутствует плазмида (~257 kbp), кодирующая около 250 генов.

Данный мини-обзор посвящён анализу ключевых геномных и протеомных характеристик R. ferrireducens T118, включая распределение длин белков, организацию генома и возможные функциональные особенности.

Результаты и обсуждение

1. Распределение длин белков

Анализ распределения длин белков в протеоме R. ferrireducens T118 (Рисунок 1) показывает, что большинство белков находится в диапазоне 80–400 aa.

Гистограмма длин белков
Рисунок 1. Гистограмма длин аминокислотных последовательностей белков, закодированных в геноме R. ferrireducens T118.

Такое распределение длин белков может быть приспособлением R. ferrireducens к экологической нише[4]: в холодных условиях бактерии выгодно иметь большее число коротких белков, так как на поддержание их работы требуется меньше энергии.

2. Распределение генов по репликонам

seq_type CDS RNA Всего генов
chromosome 4337 53 4390
plasmid 270 1 271
Таблица 1 показывает, как распределены гены по репликонам, что отражает организацию генома и концентрацию функциональных элементов.

Таблица 1 показывает, как распределены гены по репликонам, что отражает организацию генома и концентрацию функциональных элементов.

Анализ распределения генов в Rhodoferax ferrireducens T118 показал, что 4337 CDS и 53 RNA находятся на хромосоме, тогда как плазмида содержит лишь 270 CDS и 1 RNA. Такое соотношение отражает функциональную специализацию репликонов: хромосома концентрирует гены для метаболизма, синтеза белков и регуляции клеточных процессов, что критично для выживания в холодной среде и поддержания энергетической эффективности [5,6]. RNA-гены хромосомы обеспечивают транскрипцию и трансляцию, а единичная RNA на плазмиде участвует в контроле репликации или специализированных функций плазмидных генов [7].

3. Межгенные расстояния (inter-CDS intervals)

Наличие отрицательных и нулевых значений указывает на перекрывающиеся CDS, что характерно для компактной организации бактериального генома. 1829 пар CDS имеют расстояние <0 (т.е. касаются концами или перекрываются), 999 пар — промежутки 0–100 нуклеотидов, 467 пар — 101–200 нуклеотидов, 204 пар — 201–300 нуклеотидов. Остальные интервалы встречаются реже: 78 пар (301–400), 48 пар (401–500), 31 пар (501–600), 8 пар (601–700), 5 пар (701–800), 7 пар (801–900), 2 пар (901–1000), и 30 пар — >1000 нуклеотидов (Рисунок 2)

Распределение расстояний между последовательными CDS на плюс-цепи подтверждает высокую компактность генома R. ferrireducens T118. Преобладание коротких интервалов 0–300 нт отражает высокую плотность генов, типичную для прокариот, где межгенные расстояния минимальны для эффективной организации CDS и регуляции транскрипции. [8] Редкие длинные промежутки (>600 нт) чаще соответствуют регуляторным некодирующим районам, которые увеличивают межгенные расстояния между CDS [9] Нулевые и отрицательные расстояния между CDS указывают на перекрывающиеся гены — распространённую архитектурную особенность бактериальных геномов, связанную с координацией регуляции и трансляционной связи соседних CDS [10, 11]

Рисунок 2. Гистограмма расстояний между последовательными кодирующими последовательностями на
плюс-цепи хромосомы.
Рисунок 2. Гистограмма расстояний между последовательными кодирующими последовательностями на плюс-цепи хромосомы.

4. Перекрывающиеся CDS

Анализ перекрывающихся CDS показал, что подавляющее большинство CDS не пересекаются с соседними (Рисунок 3. Гистограмма длин перекрывающихся длин на минус-цепи, Рисунок 4, Гистограмма длин перекрывающихся длин на плюс-цепи): на плюс-цепи 1783 из 2129 CDS (≈83,8%), на минус-цепи — 1814 из 2155 CDS (≈84,1%) преобладают: 292 CDS на плюс-цепи/285 на минус-цепи. Более длинные перекрытия встречаются значительно реже (11–50 нт: 47 и 50 CDS, 51–100 нт: 5 и 3 CDS, >100 нт: 2 и 3 CDS соответственно

Сравнение долей перекрывающихся генов на плюс- и минус-цепях показало практически идентичные значения (~16% от всех CDS). Это свидетельствует о симметричном распределении генов между цепями, что, в свою очередь, может отражать сбалансированное формирование транскрипционных единиц. Подобная симметрия может обеспечивать равномерность транскрипции и снижать возможные конфликты между репликацией и транскрипцией.

Рисунок 3, Гистограмма длин перекрывающихся длин на минус-цепи.
Рисунок 3, Гистограмма длин перекрывающихся длин на минус-цепи.
Рисунок 4, Гистограмма длин перекрывающихся длин на плюс-цепи.
Рисунок 4, Гистограмма длин перекрывающихся длин на плюс-цепи.

5. Функциональная классификация белков

Цель задания: Проверить, существует ли связь между длинной белка и выполняемой им функцией

Классификация 429 белков по функциональным группам на основе их длины (Рисунок 5, Рисунок 6, Рисунок 7) выявила тенденцию: Короткие белки преимущественно относятся к трансляционным и транспортным. Средние по длине белки доминируют в метаболических, трансляционных и транспортных функциях. Длинные белки чаще задействованы в метаболических функциях.

Гистограмма для белков менее 400 аминокислот
Рисунок 5.
Гистограмма для белков от 400 до 600 аминокислот
Рисунок 6.
Гистограмма для белков более 600 аминокислот
Рисунок 7.

Повторяющиеся значения для групп не дают достоверной информации, чтобы отследить зависимость длины от функции или наоборот. современные исследования свидетельствуют, что длина белка не является прямым показателем его функциональной принадлежности или «важности» функции. Распределение длины белков относительно устойчиво во всех доменах жизни и определяется скорее структурными, эволюционными и доменными ограничениями, чем принадлежностью к конкретной биологической функции [12]

Практическая значимость исследования.

Компактность генома, небольшие межгенные промежутки и наличие перекрывающихся CDS создают возможности для реконструкции оперонов и предсказания регуляторных сетей, что особенно важно для бактерий, участвующих в биогеохимическом цикле металлов. Анализ распределения белков по длине позволяет выявлять короткие регуляторы, ферменты средней длины, задействованные в ключевых метаболических узлах, и крупные структурные белки, включая оксидоредуктазы. Эти данные создают основу для оптимизации метаболизма и биоремедиации металлов, что формирует практическую основу для биотехнологической инженерии и дальнейших исследований бактериального метаболизма.

Благодарности

Отдельная благодарность моему другу, который помог с Python-кодом для оригинальной задачи.

Материалы и методы

  1. Гистограммы и графики построены в Google Sheets с использованием функции СЧЁТЕСЛИМН.
  2. Извлечение длин белков осуществлялось из поля length таблицы особенностей генома. На основе этих данных строились гистограммы распределения длин белков.
  3. Интервалы между CDS для плюс-цепи самой большой хромосомы вычислялись как разность между end предыдущего CDS и start текущего CDS. CDS на минус-цепи при расчётах интервалов не учитывались.
  4. Перекрытия CDS определялись как случаи, когда Start текущего CDS ≤ Stop предыдущего CDS при одинаковой ориентации и репликона. Длина перекрытия вычислялась как число нуклеотидов в области пересечения.
  5. Функциональные группы белков определялись на основе соответствия symbol и базы UniProt: https://www.uniprot.org/. Белки были сопоставлены с биологическими функциями на основе аннотаций UniProt. Автоматизация проводилась с использованием кода (см. сопроводительные материалы №5), а также с применением ВПР-функции для формирования таблицы соответствий symbol и functional_group.
  6. Данные генома были загружены из NCBI: нуклеотидная последовательность и таблица характеристик генома. Rhodoferax ferrireducens T118 — Genome assembly GCF_000013605.1

Сопроводительные материалы

  1. S1 — Анализ генома бактерии (prot_lengths_hist1)
  2. S2 — Анализ CDS генома (CDS_with_protein)
  3. S2 — Перекрывания CDS (± цепи)
  4. S2 — Главная таблица
  5. Код анализа (Google Colab)
  6. S2 — Функциональные группы и сводные таблицы

Список литературы

  1. Finneran K.T. et al. (2003). Rhodoferax ferrireducens sp. nov., a psychrotolerant, facultatively anaerobic bacterium that oxidizes acetate with the reduction of Fe(III).
  2. BMC Genomics (2009). Genome-scale comparison of Rhodoferax ferrireducens.
  3. NCBI (2025). Rhodoferax ferrireducens T118 genome assembly GCF_000013605.1.
  4. De Maayer P. et al. (2014). Some like it cold: survival strategies of psychrophiles.
  5. Baker J.M. et al. (2017). Genome sequence of Rhodoferax antarcticus ANT.BRT.
  6. Risso C. et al. (2009). Genome-scale comparison and metabolic reconstruction of Rhodoferax ferrireducens.
  7. Huber M. et al. (2023). Gene overlaps and translational coupling in bacteria and archaea.
  8. Nelson C.E. et al. (2004). Regulatory content of intergenic DNA shapes genome architecture.
  9. Pallejà A. et al. (2008). Large gene overlaps in prokaryotic genomes.
  10. Lipman D.J. et al. (2002). Protein conservation and sequence length.