Обзор особенностей генома бактерии Thermovirga lienii DSM 17291

АННОТАЦИЯ. Представители группы термофильных прокариот являются важными, но малоизученными участниками, многих экосистем. Целью данного исследования было изучение одного из них - Thermovirga lienii DSM 17291. В данной статье был проанализирован GC состав различных участков генома, а также распределение типов генов и их длин и длин белков бактерии.

Введение

Thermovirga lienii DSM 17291 — грамотрицательная, гетеротрофная, умеренно термофильная и слабо галофильная бактерия, выделенная из горячей воды нефтяных скважин, полученной из нефтяного пласта в Северном море. Клетки подвижные, встречаются поодиночке или цепочками и способны образовывать агрегаты [1].

Систематическое положение Thermovirga lienii DSM 17291 [2]:

Домен: Bacteria
Царство: Thermotogati
Филум (отдел): Synergistota
Класс: Synergistia
Порядок: Synergistales
Семейство: Thermovirgaceae
Род: Thermovirga
Вид: Thermovirga lienii
Штамм: Thermovirga lienii DSM 17291

Методы

Данные о геноме Thermovirga lienii DSM 17291 взяты с NCBI Genomes [3].

Анализ длин белков и распределения типов генов и длин генов каждого типа по репликонам Thermovirga lienii DSM 17291

На основании данных таблицы CDS генома Thermovirga lienii DSM 17291 (см. таблицу Т1 листы 2 и 3 сопроводительных материалов) в google sheets была построена гистограмма распределения белков бактериального генома по выбранному перечню диапазонов их длин (рис. 1).

На основании данных таблицы особенностей генома (см. таблицу Т2 сопроводительных материалов) в google sheets было подсчитано распределение типов генов (лист 2) и длин всех генов каждого (лист 3) по репликонам Thermovirga lienii DSM 17291.

Анализ общегеномного и частного (по типам генов, позициям кодонов) GC состава по репликонам Thermovirga lienii DSM 17291

Для подсчёта GC состава в общегеномной последовательности, в каждой позиции кодона и в каждом типе генов Thermovirga lienii DSM 17291 был написан код на языке программирования Python (см. код 1 и файлы 1 и 2, необходимые для работы кода, в сопроводительных материалах).

Результаты

Распределение длин белков, закодированных в геноме Thermovirga lienii DSM 17291

Были проанализированы продукты трансляции 1907 генов. Полученная диаграмма отражает распределение белков по длинам. Максимум данной диаграммы лежит в промежутке 140-190 аминокислотных остатков (aa), а медиана соответствует 297 aa. 94.5% всех белков имеют длину в диапазоне 40-640 aa.

Рисунок 1. Распределение длин продуктов трансляции Thermovirga lienii DSM 17291

Распределение различных типов генов по репликонам Thermovirga lienii DSM 17291

Были подсчитаны количества генов, кодирующих белки и различные типы РНК, и псевдогенов. Все гены, кодирующие не матричные РНК, расположены на хромосомах. В плазмиде присутствуют 26 генов, кодирующих белки, и 1 псевдоген.

Таблица 1. Распределение типов генов по репликонам Thermovirga lienii DSM 17291.

Распределение долей длин различных типов генов от длин репликонов Thermovirga lienii DSM 17291

Были рассчитаны доли длин различных типов генов от длин репликонов. Гены, кодирующие белки, занимают большую часть бактериальной хромосомы (91.5%) и плазмиды (86.3%). Межгенные участки занимают маленький процент от длины бактериальной хромосомы (6.6%) и плазмиды (13.6%), что является характерным признаком для бактерий. Несмотря на большее количество генов, кодирующих не матричные РНК по сравнению с псевдогенами, псевдогены занимают больший процент длины хромосомы. Вероятно, это связано с тем, что псевдогены могут образовываться в том числе из генов, кодирующих матричные РНК, которые в среднем больше генов, кодирующих не матричные [4].

Таблица 2. Распределение долей длин различных типов генов от длин репликонов Thermovirga lienii DSM 17291.

GC состав репликонов Thermovirga lienii DSM 17291

Были рассчитаны проценты GC-состава репликонов Thermovirga lienii DSM 17291. Их GC% примерно сопоставимы.

Таблица 3. Распределение доли и процента GC-состава полногеномных последовательностей репликонов Thermovirga lienii DSM 17291.

Распределение процента GC-состава разных типов генов разных репликонов Thermovirga lienii DSM 17291

Были рассчитаны проценты GC-состава разных типов генов по целевому продукту разных репликонов. У бактериальной хромосомы процент GC состава белок-кодирующих генов (47.46%) и псевдогенов (41.03%) намного ниже чем генов, кодирующих РНК. У плазмиды примерно сопоставимый процент GC состава белков и псевдогенов (48.4% и 41.03%). Самый большой процент GC состава у генов, кодирующих тРНК(62%).
Больший процент GC генами, кодирующими функциональные РНК, по сравнению с белок-кодирующими генами может быть объяснен тем, что РНК более чувствительны к росту температуры чем ДНК, так как они менее термостабильны [5].
Наибольший процент GC состава у тРНК, возможно, может свидетельствовать о большем влиянии изменения температуры на нуклеотидные структуры меньшего размера.

Таблица 4. Распределение доли и процента GC-состава типов генов по репликонам Thermovirga lienii DSM 17291.

Распределение процента GC-состава позиций кодона разных репликонов Thermovirga lienii DSM 17291

Были рассчитаны проценты GC-состава разных позиций кодона - в рамках одной рамки считывания. Процент GC состава третьей позиции кодона бактериальной хромосомы (52.8%) значительнее выше чем первой (43.56%) и второй (46.31%). В плазмиде процент GC состава второй (51.87%) и третьей (52.36%) позиции кодона значительнее выше чем первой (40.07%) . Вероятно, это связано с тем, что для белок-кодирующих генов, преобладающих в геноме, в большей мере характерны синонимичные мутации, то есть по третьей позиции кодона.

Таблица 5. Распределение доли и процента GC-состава позиций кодона по репликонам Thermovirga lienii DSM 17291.

Обсуждение

Распределение длин продуктов трансляции Thermovirga lienii DSM 17291 (рис. 1) показывает, что медианная длина белков (297 aa) данной бактерии типична для бактерий (270 aa) [6]. 94.5% всех белков имеют длину в диапазоне 40-640 aa, что опять же согласуется с тенденцией к компактизации генома бактерий [8].

Распределение типов генов по репликонам Thermovirga lienii DSM 17291 (табл. 1) показало отсутствие генов, кодирующих функциональные РНК в плазмиде.
В плазмидах очень выражена тенденция к экономии генетического пространства, а гены, кодирующие репликационный, транскрипционный и трансляционный аппарат занимают много места. В связи с этим плазмиды являются эгоистическими генетическими элементами, в большей степени полагающимися на соответствующие аппараты клетки, в которой они находятся [7].

Распределение долей длин типов генов от длин репликонов Thermovirga lienii DSM 17291 (табл. 2) показывает маленький процент генома бактерии, приходящийся на некодирующие и межгенные участки, что хорошо соотносится с типично выраженной компактностью генома прокариотов [8].

Относительно большой процент доли генома, приходящейся на псевдогены, у плазмиды по сравнению с хромосомой, возможно, связан с большим процентом генома плазмиды, приходящимся на белок-кодирующие гены по сравнению с хромосомой. Так как белок, кодирующие гены, в среднем длиннее генов, кодирующих функциональные РНК [4].

Анализ GC состав репликонов Thermovirga lienii DSM 17291 (табл. 3) показал значительное сходство в %GC состава полногеномных последовательностей плазмиды и бактериальной хромосомы. Возможно, это может свидетельствовать об их длительной коэволюции.

Распределение процента GC-состава типов генов по целевому продукту Thermovirga lienii DSM 17291 (табл. 4) показало, что процент GC состава генов, кодирующих белки и псевдогены, намного ниже чем генов, кодирующих РНК. Самый большой процент GC состава у генов, кодирующих tRNA (62%).
Больший процент GC генами, кодирующими функциональные РНК, по сравнению с белок-кодирующими генами может быть объяснен тем, что РНК более чувствительна к росту температуры чем ДНК, так как они менее термостабильны [5].
Наибольший процент GC состава у генов, кодирующих тРНК, возможно, может свидетельствовать о большем влиянии изменения температуры на нуклеотидные структуры меньшего размера.

Распределение процента GC-состава разных позиций кодона (в рамках одной рамки считывания) Thermovirga lienii DSM 17291 (табл. 5) показало, что процент GC состава третьей позиции кодона бактериальной хромосомы (52.8%) значительнее выше чем первой и второй (43.56% и 46.31%). В плазмиде процент GC состава второй (51.87%) и третьей (52.36%) позиции кодона значительнее выше чем у первой (40.07%) .
Вероятно, это связано с тем, что для белок-кодирующих генов, преобладающих в геноме, в большей мере характерны синонимичные мутации по третьей позиции кодона [9].
В плазмиде наблюдается схожая картина, большой процент GC во второй позиции генома, возможно, может быть вызван специфическим составом, закодированных в ней белков, или стохастичностью.

Сопроводительные материалы

1. Т1 таблица: 1 лист - данные, 2 лист - длины белков, 3 лист - диаграмма.
Ссылка

2. Т2 таблица: 1 лист - данные, 2 лист - распределение типов генов, 3 лист - распределение длин всех генов каждого типа.
Ссылка

3. Код 1. На вход берет файл 1 и файл 2 из текущей директории, вывод сохраняется в текущей директории под названием results.txt.
Ссылка

4. Файл 1: полногеномные последовательности репликонов Thermovirga lienii DSM 17291.
Ссылка

5. Файл 2: информация о генах репликонов Thermovirga lienii DSM 17291.
Ссылка

Список литературы

1. Håkon Dahle and Nils-Kåre Birkeland. (2006). Thermovirga lienii gen. nov., sp. nov., a novel moderately thermophilic, anaerobic, amino-acid-degrading bacterium isolated from a North Sea oil well. Microbiology Society. doi: 10.1099/ijs.0.63894-0

2. NCBI Taxonomy: Thermovirga lienii DSM 17291. NCBI:txid580340 (дата обращения: 30.10.2025). https://www.ncbi.nlm.nih.gov/datasets/taxonomy/580340/

3. NCBI Genome FTP: Thermovirga lienii DSM 17291. GenBank Assembly: GCF_000233775.1 https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/233/775/GCF_000233775.1_ASM23377v1

4. Nie L, Wu HJ, Hsu JM, Chang SS, Labaff AM, Li CW, Wang Y, Hsu JL, Hung MC. Long non-coding RNAs: versatile master regulators of gene expression and crucial players in cancer. Am J Transl Res. 2012;4(2):127-50. Epub 2012 Apr 8. PMID: 22611467; PMCID: PMC3353529.

5. Kornienko IV, Aramova OY, Tishchenko AA, Rudoy DV, Chikindas ML. RNA Stability: A Review of the Role of Structural Features and Environmental Conditions. Molecules. 2024 Dec 18;29(24):5978. doi: 10.3390/molecules29245978. PMID: 39770066; PMCID: PMC11676819.

6. Nevers, Y., Glover, N.M., Dessimoz, C. et al. Protein length distribution is remarkably uniform across the tree of life. Genome Biol 24, 135 (2023). https://doi.org/10.1186/s13059-023-02973-2

7. Lloyd GS, Thomas CM. Microbial Primer: The logic of bacterial plasmids. Microbiology (Reading). 2023 Jul;169(7):001336. doi: 10.1099/mic.0.001336. PMID: 37395112; PMCID: PMC10433415.

8. Kirchberger PC, Schmidt ML, and Ochman H (2020). "The ingenuity of bacterial genomes". Annual Review of Microbiology. 74: 815–834. doi:10.1146/annurev-micro-020518-115822. PMID 32692614. S2CID 220699395.

9. Campbell N, Reece JB (2011). Biology (9th ed.). Boston: Benjamin Cummings. pp. 339–342