Мини-обзор генома Carboxydocella thermautotrophica
Врачева У. Д.
Факультет биоинженерии и биоинформатики, Московский государственный университет имени М. В. Ломоносова
Аннотация
В данном исследовании выполнен геномный анализ термофильной бактерии Carboxydocella thermautotrophica, выделенной из гидротермальных источников на Камчатке. Анализ проведен с применением биоинформатических методов.
Введение
Таксономическая классификация [1]
| Домен | Bacteria |
| Тип | Bacillota |
| Класс | Clostridia |
| Отряд | Eubacteriales |
| Семейство | Carboxydocellaceae |
| Род | Carboxydocella |
| Вид | Carboxydocella thermautotrophica |
Carboxydocella thermautotrophica — анаэробная, термофильная, грамположительная бактерия, которая была выделена из гидротермальных источников на Камчатке в 2002 году [2]. Морфологически бактерия представляет собой прямые палочки длиной 2–4 мкм. Бактерии растут в пределах pH от 6,2 до 8,0 и при температурах от 40 до 70 °С [2].
Гидротермальные экосистемы с экстремальными температурами являются не только современными аналогами древних сред, где могла зародиться жизнь, но и уникальными нишами для изучения термофильных микроорганизмов [3]. В этих сообществах находятся анаэробные прокариоты, способные использовать гидрогеногенное окисление СО с образованием водорода для получения энергии.
Бактерия Carboxydocella thermautotrophica (штамм 41) использует СО в качестве единственного источника энергии в соответствии с уравнением: CO + H2O = CO2 + H2 [3]. Бактерия (штамм 019) помимо карбоксидотрофии способна восстанавливать Fe(III) из минералов, причем эти процессы оказались взаимосвязаны [3]. Несмотря на явные физиологические различия, геномный анализ показал, что штаммы 41 и 019 принадлежат к одному виду. Это делает Carboxydocella thermautotrophica невероятно ценной и интересной моделью для изучения метаболической пластичности у термофильных анаэробов.
Методы
1. Получение данных
Информация о нуклеотидных последовательностях кодирующих белки генов, общем нуклеотидном составе, а также о локальных особенностях генома исследуемой бактерии была получена из файлов с сайта NCBI (см. список источников 1):
GCA_003054495.1_ASM305449v1_feature_table.txtGCA_003054495.1_ASM305449v1_genomic.fnaGCA_003054495.1_ASM305449v1_cds_from_genomic.fna
2. Гистограмма распределения длин белков
С использованием команды infoseq была сформирована таблица свойств последовательностей CDS в формате CSV (cds.csv). Данные импортированы в Google Таблицы (см. сопроводительные материалы 2), где длины белков вычислены по формуле (G – 3) / 3, где G — длина гена в нуклеотидах. Построена гистограмма распределения белков по длинам (см. сопроводительные материалы 1).
3. Распределение генов по репликонам
Средствами Google Таблиц создана таблица распределения генов различных типов по репликонам (см. сопроводительные материалы 2, лист «Таблица числа генов белков и генов разных типов РНК»).
4. Расстояния между CDS
С помощью формул =B2-A2+1 (длина гена) и =A3-B2-1 (межгенный промежуток) посчитаны длины генов и расстояния между ними. Построена гистограмма расстояний между последовательными CDS на плюс-цепи самой большой хромосомы (см. сопроводительные материалы 2, лист «Гистограмма CDS»).
5. Предсказание оперонов
Написан сценарий на языке Python (см. сопроводительные материалы 3). Гены, кодирующие белки, отсортированы по положению на хромосоме. Если следующий ген находится на расстоянии менее 50 нуклеотидов и на той же цепи ДНК, он добавлен в текущий оперон. Результаты доступны в сопроводительных материалах 2, лист «Operons».
6. Анализ старт-кодонов
Проведён анализ распределения старт-кодонов в геноме методами Google Таблиц (см. сопроводительные материалы 2, лист «Start_Codon_Analysis»).
Результаты
1. Длины белков, закодированных в геноме
На рисунке 1 представлена гистограмма распределения длин белков. Наиболее частотным является диапазон от 100 до 300 аминокислотных остатков, который охватывает более 1000 белков. Распределение демонстрирует преобладание белков малой и средней длины: почти 80% всех белков имеют длину менее 400 аминокислот. Доля длинных белков (свыше 600 аминокислот) крайне мала — около 3% от общего протеома.
Полученные данные характерны для типичного строения бактерий, ориентированного на быстрый метаболизм. Преобладание коротких полипептидных цепей подтверждает гипотезу об отсутствии признаков, характерных для сложной регуляции эукариотической клетки. Малая доля длинных белков указывает на узкую специализацию этих белков и сложность их синтеза.
2. Таблица числа генов белков и генов разных типов РНК для каждого репликона
В бактерии Carboxydocella thermautotrophica присутствуют два репликона — хромосома (репликон CP028514.1) и плазмида (репликон pCCELLA01). В таблице 1 представлено распределение генетической информации между хромосомой и плазмидой.
Таблица 1. Таблица числа генов белков и генов разных типов РНК для каждого репликона
| Репликон | Белковые гены | рРНК | тРНК | Другие типы РНК | Всего генов |
|---|---|---|---|---|---|
| CP028514.1 | 2675 | 15 | 73 | 22 | 2785 |
| pCCELLA01 | 50 | 0 | 0 | 1 | 51 |
| ВСЕГО | 2725 | 15 | 73 | 23 | 2836 |
В результате анализа выяснилось, что основная генетическая информация сосредоточена в хромосоме, которая кодирует большинство белков (2675) и все рибосомные РНК. Присутствие небольшой плазмиды pCCELLA01, содержащей всего 51 ген, указывает на возможность наличия у штамма дополнительных адаптивных функций, не связанных с основным метаболизмом. Общее количество генов тРНК (73) является нетипичным для бактериального генома, так как стандартное значение генов тРНК для прокариот — 64. Я предполагаю, что такое нетипичное значение связано с термофильным образом жизни: бактерия обязана производить особые белки и клеточные структуры, что отражается в количестве тРНК.
3. Гистограмма расстояний между последовательными CDS на плюс-цепи самой большой хромосомы
Так как Carboxydocella thermautotrophica — прокариотический организм, предполагалось, что гены будут располагаться плотно, а длина межгенных промежутков будет невелика.
В результате анализа гистограммы предположение подтвердилось. Гены расположены плотно, что типично для бактериального генома. Если гены находятся очень близко друг к другу на одной цепи, они могут быть организованы в опероны, то есть транскрибироваться как единая мРНК. Большие промежутки (>300 п.н.) могут быть некодирующими участками ДНК, но их достаточно мало (рисунок 2), что еще раз подтверждает плотность организации генома прокариот.
4. Опероны в геноме бактерии
Оперон — функциональная единица генома у прокариот, представляющая собой группу генов, расположенных рядом и транскрибируемых вместе. Для предсказания оперонов использовались критерии: гены должны располагаться на одной цепи, расстояние между генами минимальное, гены должны кодировать функционально связанные белки. Был написан сценарий на Python (см. сопроводительные материалы 3).
Таблица 2. Опероны в геноме бактерии Carboxydocella thermautotrophica
| operon_id | chromosome | strand | start | end | length (bp) | gene_names | products |
|---|---|---|---|---|---|---|---|
| Operon_001 | pCCELLA01 | - | 1,288 | 2,120 | 833 | gene_1288; gene_1599 | hypothetical protein |
| Operon_002 | pCCELLA01 | + | 4,732 | 7,610 | 2,879 | gene_4732; gene_7014 | hypothetical protein |
| Operon_003 | pCCELLA01 | + | 8,444 | 10,165 | 1,722 | gene_8444; gene_8757; gene_9605 | hypothetical protein |
| Operon_004 | pCCELLA01 | - | 12,646 | 16,474 | 3,829 | gene_12646; gene_14390 | hypothetical protein |
Плазмида pCCELLA01 бактерии содержит пять компактных транскрипционных единиц — оперонов. Гены внутри каждого оперона расположены плотно, что характерно для классических бактериальных оперонов [3]. Транскрипция происходит в обоих направлениях: два оперона ориентированы на прямой цепи, а три — на обратной. Для раскрытия метаболической значимости плазмиды необходимы дальнейшие исследования, включая сравнительную геномику и экспериментальную характеристику кодируемых белков. Потенциальные опероны на хромосоме не были найдены.
Пояснение к столбцам таблицы: operon_id — уникальный идентификатор оперона; strand — ориентация транскрипции (+ прямая цепь, - обратная); start/end — координаты на плазмиде; gene_names/products — названия и гипотеза функции генов.
5. Анализ распределения старт-кодонов в геноме
Старт-кодон — первый кодон матричной РНК, с которого начинается трансляция белка в рибосоме. Наиболее распространенным старт-кодоном является ATG.
Анализ распределения старт-кодонов выявляет классическую для прокариот картину с выраженным доминированием кодона ATG (73,9%). Это полностью соответствует его роли стандартного и наиболее эффективного сигнала инициации трансляции. Значительная доля GTG (20,1%) и присутствие TTG (6,1%) в качестве альтернативных старт-кодонов также характерны для бактерий. Использование GTG и TTG, обладающих меньшей эффективностью, часто служит механизмом регуляции экспрессии генов, позволяя клетке моделировать количество продукта для определенных генов.
Сопроводительные материалы
Список источников
- Список данных генома бактерии — NCBI FTP
- Таксономическая классификация — NCBI Taxonomy (дата обращения: 01.10.25).
- Sokolova T.G. et al. Carboxydocella thermautotrophica gen. nov., sp. nov., a novel anaerobic, CO-utilizing thermophile from a Kamchatkan hot spring // IJSEM. 2002.
- Равин Н.В., Шестаков С.В. Геном прокариот // Вавиловский журнал генетики и селекции. 2013. №4/2. С. 972.