Обзор особенностей генома бактерии Octadecabacter antarcticus 307

Гагарочкин Виталий Александрович

Факультет биоинженерии и биоинформатики

Московского государственного университета имени М.В. Ломоносова

АННОТАЦИЯ

Данный обзор посвящён изучению и анализу особенностей генома бактерии Octadecabacter antarcticus 307, выделенной из антарктического морского льда. Были изучены гены бактерии и их расположение на хромосоме и плазмиде, осуществлена попытка предсказания оперонов. Подробно рассмотрена асимметрия нуклеотидного состава репликонов и осуществлён поиск консервативных последовательностей.

ВВЕДЕНИЕ

Octadecabacter antarcticus 307 — грамотрицательная, гетеротрофная, психрофильная бактерия, выделенная из нижних 25-50 см антарктического морского льда пролива Мак-Мердо недалеко от острова Росса [1]. Как и для всего рода Octadecabacter, для Octadecabacter antarcticus 307 характерно высокое содержание октадеценовой кислоты (18:1) — более 70% от общего количества жирных кислот в клетке бактерии, а также формирование внутриклеточных газовых везикул [2].

Систематическое положение Octadecabacter antarcticus 307 [3]:

МАТЕРИАЛЫ И МЕТОДЫ

Для анализа были использованы таблица геномных особенностей, последовательности репликонов и CDS бактерии Octadecabacter antarcticus 307 геномной сборки GCF_000155675.2 (см. S1).

Распределение генов различных типов по репликонам бактерии Octadecabacter antarcticus 307

Для подсчёта количества генов каждого типа по репликонам были использованы методы электронных таблиц (см. S2).

Для генома бактерии ожидается наличие не менее трёх генов рРНК (5S-, 16S- и 23S-рРНК) и нескольких десятков генов тРНК. Однако количество генов тРНК, вероятно, будет меньшим, нежели количество кодонов, кодирующих аминокислоты (61 кодон), поскольку во взаимодействии 3-го нуклеотида кодона и 1-го нуклеотида антикодона наблюдается явление “вобблинга” (wobble base pairing), заключающееся в возможности формирования комплементарных пар, отличных от Уотсон-Криковских (Табл. 1) [4]. Также в первом положении антикодона может находиться инозин (дезаминированный аденозин), способный образовывать пары с адениловыми, уридиловыми и цитидиловыми нуклеотидами 3-й позиции кодона. За счёт этого одна молекула тРНК может соответствовать сразу нескольким кодонам, кодирующим одну аминокислоту.

Таблица 1. Возможные комплементарные пары, образующиеся при кодон-антикодоновых взаимодействиях между 3-й (3`) позицией кодона и 1-й (5`) позицией антикодона.
5`-позиция антикодона 3`-позиция кодона
A U
C G
G C, U
U A, G
I (инозин) A, C, U

Определение долей последовательностей репликонов бактерии Octadecabacter antarcticus 307, приходящихся на гены различных типов

Для подсчёта долей последовательностей репликонов, занимаемых генами каждого типа, были использованы методы электронных таблиц (см. S3).

Распределение длин возможных продуктов трансляции CDS бактерии Octadecabacter antarcticus 307

Для анализа были использованы методы электронных таблиц (см. S4).

Распределение CDS бактерии Octadecabacter antarcticus 307 по GC-составу

Для анализа были использованы методы электронных таблиц (см. S5).

Определение и анализ частот встречаемости старт- и стоп-кодонов в CDS бактерии Octadecabacter antarcticus 307

Для подсчёта числа старт-кодонов были использованы методы Bash (см. S6), стоп-кодонов — методы Python (см. S7). Старт-кодоны и стоп-кодоны были подсчитаны отдельно для CDS функциональных генов и для CDS псевдогенов.

Ожидается, что благодаря явлению “вобблинга” кроме каноничных старт-кодонов (ATG) и стоп-кодонов (TAA, TAG, TGA) в функциональных CDS могут быть обнаружены кодоны, отличающиеся от консенсуса на 1 нуклеотид в 1-й или 3-й позиции. Для CDS псевдогенов можно предположить большее разнообразие старт- и стоп-кодонов (точнее будет сказать, первых и последних триплетов), принимая во внимание их нефункциональность и предполагая для них нейтральную эволюцию [5].

Анализ межгенных промежутков и пересечений генов для хромосомы бактерии Octadecabacter antarcticus 307

Для анализа распределений длин межгенных промежутков и пересечений CDS были использованы методы электронных таблиц (см. S8). Для анализа участков последовательности хромосомы, содержащих пересечения CDS, были использованы средства Python (см. S9).

Ожидается обнаружение пересечений типа “голова к хвосту” (пересечение стоп-кодона одной CDS и стоп-кодона другой) длиной 1 или 4 п.н. для CDS, расположенных на одной цепи, а также пересечений типов “голова к голове” (пересечение старт-кодонов) длиной 2 п.н. и “хвост к хвосту” (пересечение стоп-кодонов) длиной 4 п.н. (Рис. 1) для CDS на разных цепях [6].

При этом для пересечений “голова к хвосту” ожидаются следующие варианты: TG[A]TG, TA[A]TG и [ATGA] (для пересечений на минус-цепи, соответственно CA[T]CA, CA[T]TA и [TCAT]); для пересечений “голова к голове”: C[AT]G; для пересечений “хвост к хвосту”: [CTAG], [TTAG], [CTAA] и [TTAA].

Overlapping genes
Рисунок 1. Схемы, демонстрирующие три основных типа перекрывания CDS у прокариот: “голова к хвосту” (Unidirectional), “голова к голове” (Divergent) и “хвост к хвосту” (Convergent) [6].

Стоит отметить, что перекрытия типа “голова к хвосту” часто встречаются в бактериальных оперонах, поскольку за счёт перекрытия достигается трансляционное сопряжение CDS оперона [6].

Предсказание оперонов в репликонах бактерии Octadecabacter antarcticus 307

Для предсказания оперонов в геноме бактерии были использованы методы Python (см. S10).

Группа CDS считалась потенциальным опероном, если соответствовала следующим критериям:

  1. Все CDS группы расположены на одной цепи одного репликона.

  2. Все CDS группы перекрываются со своими соседями по группе на 1 или 4 п.н.

  3. Группа состоит из не менее, чем трёх CDS.

Поиск точек начала (origin) и терминации (termus) репликации в репликонах бактерии Octadecabacter antarcticus 307 путём анализа GC-перекоса и TA-перекоса (GC-skew и TA-skew)

Графики GC-перекоса и TA-перекоса были построены с применением методов Python (см. S11 и S12).

Перекос GC — явление, при котором в определённой области последовательности ДНК гуаниловые и цитидиловые нуклеотиды представлены не в равном количестве. Аналогичная ситуация для адениловых и тимидиловых нуклеотидов именуется перекосом TA.

Перекос GC в бактериальных хромосомах и плазмидах возникает вследствие особенностей работы репликативной вилки, в результате которой в последовательность ведущей цепи встраивается больше гуаниловых нуклеотидов, нежели цитидиловых (Рис. 2).

GC skew analysis
Рисунок 2. Схема, иллюстрирующая принцип поиска точек начала (Origin) и терминации (Termination) репликации в бактериальной хромосоме. График кумулятивного перекоса GC демонстрирует положительный перекос при движении от точки начала до точки терминации репликации и его инверсию в точке терминации [7].

Но поскольку в точках начала и терминации репликации ведущая цепь становится отстающей и наоборот, в данных точках должна происходить инверсия GC-перекоса. Как следствие, анализ перекоса GC можно использовать для поиска точек начала и терминации репликации в бактериальных геномах [8].

Для анализа перекоса GC (или TA) можно использовать скользящее окно, тогда для него перекос GC будет рассчитываться по формуле:

\(\text{GC skew} = \frac{(G - C)}{(G + C)}\), где G и C — количества гуаниловых и цитидиновых нуклеотидов в окне. Для перекоса TA аналогично.

График, полученный таким способом, не всегда нагляден и сильно зависит от размера выбранного окна. Поэтому для поиска точек начала и терминации репликации чаще используются графики кумулятивного перекоса GC (TA).

Для построения графика кумулятивного перекоса GC также используется скользящее окно, но значение кумулятивного перекоса для n-го по счёту окна рассчитывается следующим образом:

\(\text{Cumulative GC skew} = \sum_{i = 1}^{n-1} \text{GC skew}_i\), где \(\text{GC skew}_i\) — это обычный перекос GC для i-го окна. Аналогично для перекоса TA.

График кумулятивного перекоса GC имеет два пика — максимальный и минимальный. Максимум соответствует точке терминации репликации, минимум — точке начала репликации.

Дальнейший анализ асимметрии в распределении нуклеотидов по последовательностям репликонов Octadecabacter antarcticus 307

Частоты встречаемости нуклеотидов были подсчитаны с применением методов Python (см. S13).

Частоты встречаемости нуклеотидов по группам подсчитывались следующим образом:

\(M = A + C\), \(K = G + T\)

\(R = A + G\), \(Y = C + T\)

\(S = G + C\), \(W = A + T\)

Для построения графиков несоответствия использовались методы Python (см. S14).

Несоответствия по группам нуклеотидов для позиции \(i\) рассчитывались по следующим формулам:

\(\text{GC disparity} = G_i - C_i\)

\(\text{TA disparity} = T_i - A_i\)

\(\text{MK disparity} = M_i - K_i\)

\(\text{RY disparity} = R_i - Y_i\)

\(\text{SW disparity} = S_i - W_i\)

Где \(N_i\) — количество нуклеотидов группы N в участке последовательности с первого нуклеотида по нуклеотид \(i\) включительно.

Z-кривая — способ визуализации последовательности ДНК в трёхмерном пространстве. При построении Z-кривой координаты позиции \(i\) определяются следующим образом: координата x — несоответствие RY, координата y — несоответствие MK, координата z — несоответствие SW [9].

Для построения Z-кривых использовались методы Python (см. S15).

График прохода по ДНК (DNA walk graph) также является способом визуализации последовательности, но в двухмерном пространстве. При построении графика прохода следующая точка смещается относительно предыдущей вверх, если следующий нуклеотид в последовательности — A, вниз — если T, вправо — если G и влево — если C [10]. Таким образом график прохода по последовательности можно построить, взяв по оси x несоответствие GC, а по оси y — несоответствие AT (несоответствие TA с обратным знаком).

Для построения графиков прохода по последовательностям репликонов бактерии использовались методы Python (см. S16).

Поиск консенсусных последовательностей в прилегающих к 5`-концу CDS областях в геноме Octadecabacter antarcticus 307

Поиск осуществлялся методом построения логотипа исследуемых последовательностей. Для построения логотипа использовались методы Python (см. S17).

Логотип последовательностей — метод графического представления информации о консервативности позиций в последовательностях.

Высота столбца для каждого нуклеотида в позиции \(i\) определяется следующими формулами:

\(r_{a,\text{ }i} = f_{a,\text{ }i} \cdot R_i\), где \(f_{a,\text{ }i}\) — частота данного нуклеотида в данной позиции, \(R_i\) — полная информация позиции.

\(R_i = \log_2 (4) - (H_i + e(n))\), где \(H_i\) — информационная энтропия Шеннона для данной позиции, \(e(n)\) — поправка, \(n\) — количество анализируемых последовательностей.

\(H_i = -\sum_{i = 1}^{n} f_{a,\text{ }i} \cdot \log_2 (f_{a,\text{ }i})\)

\(e(n) = \frac{1}{\ln (2)} \cdot \frac{4 - 1}{2n}\)

Таким образом по высоте столбцов можно судить о консервативности позиции в последовательности: чем выше столбец определённого нуклеотида, тем более консервативным является его наличие в данной позиции [11].

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Распределение генов различных типов по репликонам бактерии Octadecabacter antarcticus 307

Были подсчитаны количества генов, кодирующих белки и РНК разных типов, а также псевдогенов для каждого репликона бактерии Octadecabacter antarcticus 307 (Табл. 2).

Можно заметить, что все гены, кодирующие различные нематричные РНК локализованы на хромосоме бактерии, в плазмиде же закодированы лишь 68 CDS, из которых белковый продукт имеют 61 CDS.

В геноме бактерии, как и ожидалось (см. “Материалы и методы”), имеется 45 генов тРНК, что меньше, чем количество кодонов, кодирующих аминокислоты (61 кодон). Этот факт объясняется тем, что за счёт явления “вобблинга” в 3-м положении кодона один антикодон может соответствовать нескольким различающимся по 3-му положению кодонам.

Таблица 2. Распределение генов различных типов по репликонам бактерии Octadecabacter antarcticus 307. Рассмотрены CDS, имеющие (строка “Функциональные CDS”) и не имеющие (строка “CDS псевдогенов”) белковый продукт, гены транспортных РНК (строка “tRNA”), рибосомальных РНК (строка “rRNA”), транспортно-матричных РНК (строка “tmRNA”) и прочих некодирующих РНК (строка “ncRNA”). Также подсчитаны количества генов для каждого репликона (строка “Всего”).
Тип гена Хромосома Плазмида Всего
Функциональные CDS 4 444 61 4 505
CDS псевдогенов 513 7 520
tRNA 45 0 45
rRNA 6 0 6
tmRNA 1 0 1
ncRNA 2 0 2
Всего 5 011 68 5 079

Определение долей последовательностей репликонов бактерии Octadecabacter antarcticus 307, приходящихся на гены различных типов

Были рассчитаны доли последовательности, занимаемые генами разных типов для репликонов бактерии Octadecabacter antarcticus 307 (Табл. 3).

Как видно из полученных данных, межгенные промежутки и в хромосоме, и в плазмиде составляют менее 20% от последовательности репликона, что ожидаемо для генома бактерии. Также стоит отметить, что хотя количество генов тРНК значительно превышает количество генов рРНК (45 против 6), суммарная длина последовательностей генов рРНК больше, чем таковая для тРНК (0,184% длины репликона против 0,074%). Это наблюдение объясняется тем, что транспортные РНК Octadecabacter antarcticus 307 имеют длину от 74 до 91 п.н., а рибосомальные: 5S рРНК — 115 п.н., 16S рРНК — 1467 п.н., 23S рРНК — 2851 п.н. (см. S18) Причём ген каждой рРНК представлен в геноме бактерии двумя копиями, что может свидетельствовать о произошедшей в прошлом дупликации. Аналогичная картина наблюдается для генов некоторых тРНК.

Таблица 3. Доли последовательностей репликонов бактерии Octadecabacter antarcticus 307, занятые генами различных типов. Рассмотрены CDS, имеющие (строка “Функциональные CDS”) и не имеющие (строка “CDS псевдогенов”) белковый продукт, гены транспортных РНК (строка “tRNA”), рибосомальных РНК (строка “rRNA”), транспортно-матричных РНК (строка “tmRNA”) и прочие некодирующие РНК (строка “ncRNA”). Также вычислены доли межгенных промежутков (строка “Межгенные промежутки”) и указаны длины последовательностей репликонов (строка “Длина репликона”).
Тип гена Хромосома Плазмида
Функциональные CDS 79,357% 78,720%
CDS псевдогенов 7,424% 3,558%
tRNA 0,074% 0,000%
rRNA 0,184% 0,000%
tmRNA 0,008% 0,000%
ncRNA 0,011% 0,000%
Межгенные промежутки 12,943% 17,722%
Длина репликона (п.н.) 5 011 62 881

Распределение длин возможных продуктов трансляции CDS бактерии Octadecabacter antarcticus 307

Были проанализированы длины 5025 возможных продуктов трансляции CDS. Полученная диаграмма (Рис. 3) отражает распределение длин белковых продуктов.

Protein length diagram
Рисунок 3. Диаграмма, отражающая распределение длин возможных продуктов трансляции CDS Octadecabacter antarcticus 307.

Данное распределение имеет 2 максимума — в промежутках 100–150 и 250–300 аминокислотных остатков, при этом медианное значение равно 253 а.о. Большая часть белковых продуктов имеет длину в промежутке 50–500 а.о. — 4441 продукт из 5025 (88,4%).

Распределение CDS бактерии Octadecabacter antarcticus 307 по GC-составу

Была построена столбчатая диаграмма, отражающая распределение CDS бактерии Octadecabacter antarcticus 307 по GC-составу (Рис. 4).

CDS GC diagram
Рисунок 4. Диаграмма, отражающая распределение CDS бактерии Octadecabacter antarcticus 307 по GC-составу

Полученное распределение имеет максимум в районе 54-57% и медианное значение 55,1%, что несколько выше среднего GC-состава по геному (54,6%). При этом GC-состав более 50% имеют 4570 CDS из 5025 (90,9%).

Определение и анализ частот встречаемости старт- и стоп-кодонов в CDS бактерии Octadecabacter antarcticus 307

Были подсчитаны частоты встречаемости различных старт-кодонов в CDS бактерии. Подсчёт был проведен отдельно для всех CDS, для функциональных CDS и для CDS псевдогенов.

Результаты определения частот старт-кодонов (Табл. 4) свидетельствуют о значительно большем разнообразии старт-кодонов в CDS псевдогенов, в сравнении с CDS функциональных генов.

Таблица 4. Частоты встречаемости различных старт-кодонов (столбец Codons) во всех CDS бактерии Octadecabacter antarcticus 307 (столбец “Все CDS”), в CDS функциональных генов (столбец “Функциональные CDS”) и в CDS псевдогенов (столбец “CDS псевдогенов”).
Старт-кодоны Функциональные CDS CDS псевдогенов Все CDS
ATG 3 850 287 4 137
GTG 346 10 356
TTG 262 12 274
ATT 22 6 28
ATC 14 10 24
CTG 7 12 19
ATA 4 7 11
GGC 0 20 20
CCC 0 12 12
AAC 0 11 11
GGG 0 8 8
AAA, CGC, CTT 0 7 7
GAG, GAT, CAA, CAG 0 5 5
AGC, GAA, GAC, GTT, TAT, TTT, CAT, CGA 0 4 4
AAG, AAT, ACA, ACG, ACC, CGA, GGT, GCT, CGT, CTA 0 3 3
GCC, TAC, CTC, CCT 0 2 2
AGA, AGG, AGT, ACT, GTC, GCA, TGG, TGT, TGC, TTC, TCG, CAC, CGG, CCG 0 1 1

Всего в CDS Octadecabacter antarcticus 307 встречаются 54 различных старт-кодона, столько же старт-кодонов можно обнаружить в псевдогенах. В функциональных генах старт-кодонами могут являться только 7 различных нуклеотидных триплетов, отличающихся от каноничного (ATG) не более, чем на один нуклеотид в 1-й или 3-й позиции.

Эти наблюдения согласуются с моделью, предполагающей нейтральную эволюцию псевдогенов [5]. В соответствие с этой моделью на мутации в псевдогенах не действует отрицательный отбор, поэтому даже мутации, затрагивающие старт-кодон могут закрепиться в популяции в результате дрейфа генов. В случае функциональных генов большинство подобных мутаций, вероятно, приводит к потере функции гена и либо элиминируется отбором, либо становится причиной превращения гена в псевдоген.

Аналогично выглядит распределение частот встречаемости стоп-кодонов (Табл. 5). В CDS Octadecabacter antarcticus 307 на месте стоп-кодона могут находится 56 различных триплетов. Однако, в данном случае, в функциональных CDS обнаруживаются только 3 каноничных стоп-кодона (TAG, TGA, TAA). Остальные же 53 встречаются в CDS псевдогенов, что, вероятно, объясняется теми же причинами, что и высокое разнообразие старт-кодонов в этих CDS.

Таблица 5. Частоты встречаемости различных стоп-кодонов (столбец “Стоп-кодоны”) во всех CDS бактерии Octadecabacter antarcticus 307 (столбец “Все CDS”), в CDS функциональных генов (столбец “Функциональные CDS”) и в CDS псевдогенов (столбец “CDS псевдогенов”).
Старт-кодоны Функциональные CDS CDS псевдогенов Все CDS
TAG 1 970 151 2 121
TGA 1 598 119 1 717
TAA 936 81 1 017
AAA 0 14 14
AAC 0 13 13
GAT 0 11 11
TCA 0 9 9
ACG, TGG, CGC 0 6 6
ATC, GCC, GCG 0 5 5
GGC, CTG, GTC, GCA, TAC 0 4 4
GTT, TTG, TTC, ACC, TCT, CAC, GAC, CTT, ATT, ATG 0 3 3
TAT, GGA, CGT, GGT, CGG, GAA, CAT, GCT, CCC, GGG, CCG 0 2 2
ACA, TCG, AAT, AAG, CTC, CCT, ACT, ATA, AGT, GTG, GAG, CCA, AGA, CAG, TCC, TGC, CAA 0 1 1

Анализ межгенных промежутков и пересечений генов для хромосомы бактерии Octadecabacter antarcticus 307

Были проанализированы промежутки между CDS отдельно на плюс- и на минус-цепи хромосомы бактерии Octadecabacter antarcticus 307 (Рис. 5).

Intergenic intervals
Рисунок 5. Столбчатые диаграммы, отражающие распределения длин межгенных промежутков для плюс-цепи (диаграмма A) и для минус-цепи (диаграмма B) хромосомы бактерии Octadecabacter antarcticus 307.

Из полученных диаграмм видно, что наиболее распространены межгенные промежутки длиной от 0 до 100 п.н. Также имеется большое количество промежутков длиной менее 0 п.н., это означает, что в геноме бактерии распространены пересечения CDS.

Для пересечений CDS, расположенных на одной цепи, также были построены столбчатые диаграммы, отражающие распределения их длин (Рис. 6).

Intergenic intersections
Рисунок 6. Столбчатые диаграммы, отражающие распределения длин пересечений CDS для плюс-цепи (диаграмма A) и для минус-цепи (диаграмма B) хромосомы бактерии Octadecabacter antarcticus 307.

Как видно из диаграмм, большая часть пересечений имеет длины 1 или 4 п.н., причём пересечения длины 2 и 3 п.н. отсутствуют, что согласуется с предположением (см. “Материалы и методы”).

Для подтверждения предположения о пересечениях CDS малой длины, пересечения с длинами 1 и 4 п.н. были подсчитаны для плюс- и минус-цепей хромосомы бактерии Octadecabacter antarcticus 307 (Табл. 6).

Таблица 6. Районы пересечений CDS, расположенных на одной цепи хромосомы Octadecabacter antarcticus 307, длинами 1 п.н. (таблица A) и 4 п.н. (таблица B).
A
Пересечения длиной 1 п.н.
Пересечение Количество Цепь
TGATG 46 +
TAATG 27 +
TGATC 1 +
CATCA 47 -
CATTA 37 -
CACTA 2 -
B
Пересечения длиной 4 п.н.
Пересечение Количество Цепь
ATGA 224 +
GTGA 31 +
TTGA 7 +
ATAA 2 +
TCAT 195 -
TCAC 31 -
TCAA 17 -
TCAG 1 -

Последовательности этих пересечений являются типичными для пересечений CDS, расположенных на одной цепи (пересечения “голова к хвосту” — пересекаются старт-кодон одной последовательности и стоп-кодон другой). Однако стоит отметить, что в некоторых пересечениях принимают участие старт-кодоны, отличные от каноничного (ATG): среди пересечений длиной 1 п.н. — ATC на плюс-цепи и GTG на минус-цепи, длиной 4 п.н. — GTG, TTG и ATA на плюс-цепи и GTG, TTG и CTG на минус-цепи.

Пересечения CDS, находящихся на разных цепях также были проанализированы, и для них была построена столбчатая диаграмма распределения длин (Рис. 7).

Из диаграммы можно понять, что наиболее распространены пересечения длинами 2 и 4 п.н., пересечения же длинами 1 и 3 п.н. отсутствуют, что также соответствует предположению (см. “Материалы и методы”).

Пересечения CDS, расположенных на разных цепях, длинами 2 и 4 п.н. были подсчитаны (Табл. 7).

Эти пересечения также являются типичными пересечениями между CDS, расположенными на разных цепях. Причём пересечения длиной 2 п.н. являются пересечениями “голова к голове” (то есть пересекаются старт-кодоны двух последовательностей), а длиной 4 п.н. — пересечениями “хвост к хвосту” (пересекаются стоп-кодоны двух последовательностей). Стоит отметить, что пересечений первого типа значительно меньше, чем пересечений второго типа.

Таблица 7. Районы пересечений CDS, расположенных на разных цепях хромосомы Octadecabacter antarcticus 307, длинами 2 п.н. (таблица A) и 4 п.н. (таблица B).
A
Пересечения длиной 2 п.н.
Пересечение Количество
CATG 5
B
Пересечения длиной 4 п.н.
Пересечение Количество
CTAG 224
TTAG 31
CTAA 7
TTAA 2

Предсказание оперонов в репликонах бактерии Octadecabacter antarcticus 307

На основании данных о координатах начала и конца CDS, имеющих белковый продукт (подробнее см. “Материалы и методы”), была создана таблица из 113 предполагаемых оперонов в геноме бактерии Octadecabacter antarcticus 307 (см. S19). Таблица была проанализирована, и группы CDS, кодирующих белки, связанные физиологически или биохимически, были выбраны в качестве претендентов на статус оперонов (Табл. 8).

Таблица 8. Предполагаемые опероны в геноме Octadecabacter antarcticus 307. Указаны координаты (столбцы “Начало” и “Конец”) предполагаемых оперонов и их предполагаемые функции (столбец “Функция или процесс”). Все описанные здесь опероны располагаются на хромосоме бактерии.
Оперон Начало Конец Функция или процесс
1 246 244 251 575 Метаболизм азота
2 381 654 386 189 Синтез фенилаланил-тРНК
3 1 402 727 1 405 795 Метаболизм ионов железа, цинка и марганца
4 2 278 103 2 280 416 Биосинтез тиаминпирофосфата
5 2 718 449 2 722 805 Формирование липополисахаридного слоя
6 2 948 806 2 952 073 Сборка и функционирование жгутика
7 3 031 635 3 032 973 Формирование газовых везикул
8 3 773 073 3 775 515 Транспорт соединений молибдена
9 4 093 217 4 094 384 Антипорт одновалентных катионов и протонов
10 4 118 132 4 123 327 Катаболизм гистидина

Стоит отметить, что значительная часть претендентов представляет собой группы CDS, кодирующих субъединицы ABC-транспортёров, эти потенциальные опероны дальше рассмотрены не будут.

Предполагаемые опероны в геноме бактерии Octadecabacter antarcticus 307:

  1. Оперон, состоящий из CDS, кодирующих субъединицы нитритредуктазы B и D и нитратредуктазу. Данный оперон играет роль в метаболизме азота.

  2. Оперон, содержащий CDS, кодирующие субъединицы фенилаланил-тРНК-лигазы альфа и бета, белок, содержащий РНК-связывающий домен ASCH, и один гипотетический белок. Вероятно, отвечает за синтез фенилаланил-тРНК.

  3. Оперон, состоящий из трёх CDS, кодирующих ABC-переносчики ионов металлов; и CDS, кодирующей фактор-регулятор транскрипции семейства FUR (Ferric uptake regulator). Скорее всего отвечает за метаболизм ионов таких металлов, как железо, цинк и марганец [12].

  4. Оперон из CDS, кодирующих белок семейства ThiF, тиамифосфатсинтазу и тиаминсинтазу. Скорее всего играет роль в биосинтезе тиаминпирофосфата (Рис. 8).

  5. Оперон, состоящий из CDS, кодирующих ABC-транспортёры липополисахаридов и белок, отвечающий за сборку липополисахаридов. Данный оперон участвует в синтезе липополисахаридного слоя клеточной стенки бактерии.

  6. Оперон, кодирующий белки семейств FliI и FliH - субъединиц цитоплазматического АТФазного комплекса, являющегося частью системы секреции жгутика III типа [13], а также белка-переключателя направления вращения жгутика FliG. Отвечает за сборку и функционирование бактериального жгутика [13, 14].

  7. Оперон, кодирующий три белка газовых везикул, что коррелирует с наличием газовых везикул у Octadecabacter antarcticus 307 [2].

  8. Оперон, состоящий из CDS, кодирующих переносчики соединений молибдена.

  9. Оперон из CDS, кодирующих субъединицы белков-антипортеров протонов и других одновалентных катионов (например, натрия или калия).

  10. Оперон, содержащий CDS, кодирующие имидазолонпропионазу, гистидин-аммиак-лиазу, N-формилглутаматдеформилазу и уроканатгидратазу. Скорее всего играет роль в катаболизме гистидина (Рис. 9).

Thiamine biosynthesis
Рисунок 8. Бактериальный путь биосинтеза тиаминпирофосфата (витамина B1) [15].
Histidine catabolism
Рисунок 9. Биохимический путь катаболизма гистидина [16].

Поиск точек начала (origin) и терминации (termus) репликации в репликонах бактерии Octadecabacter antarcticus 307 путём анализа GC-перекоса и TA-перекоса (GC-skew и TA-skew)

Был проанализирован перекос GC и TA вдоль последовательностей хромосомы и плазмиды бактерии Octadecabacter antarcticus 307.

Из графиков кумулятивного перекоса GC (Рис. 10) можно предположить местоположение точек начала репликации в хромосоме и плазмиде бактерии: около 4,6 млн п.н. для хромосомы (для большей наглядности графика в качестве начальной точки была выбрана позиция 1 млн п.н.) и около 49 тыс. п.н. для плазмиды; а также точек терминации репликации: около 2,4 млн п.н. для хромосомы и около 30 тыс. п.н. для плазмиды.

Можно заметить, что расстояние между точками начала и терминации репликации составляет примерно 19 тыс. п.н., что значительно меньше, чем половина длины плазмиды (длина плазмиды равна 62,9 тыс. п.н.). Данный факт можно объяснить тем, что при репликации этой плазмиды одна репликационная вилка движется значительно быстрее другой (в среднем в \(\frac{62,9 - 19}{19} = 2,31\) раза), что может быть связано, например, со взаимодействием определённых белков, замедляющих продвижение вилки, с ДНК в районе с 30 до 49 тыс. п.н.

GC-skew
Рисунок 10. Графики GC-перекоса (синяя кривая, ось “GC skew”) и кумулятивного GC-перекоса (красная кривая, ось “Cumulative GC skew”) для хромосомы (график A) и плазмиды (график B) бактерии Octadecabacter antarcticus 307. Обозначены предполагаемые места расположения точек начала (origin) и терминации (termus) репликации. По оси x — номер позиции в последовательности.

Также были построены графики кумулятивного TA-перекоса для хромосомы и плазмиды Octadecabacter antarcticus 307 (Рис. 11).

GC-skew
Рисунок 11. Графики кумулятивных GC-перекоса (синяя кривая) и TA-перекоса (красная кривая) для хромосомы (график A) и плазмиды (график B) бактерии Octadecabacter antarcticus 307. Обозначены предполагаемые места расположения точек начала (origin) и терминации (termus) репликации. По оси x — номер позиции в последовательности.

Как можно заметить из графиков, изменение перекоса TA для хромосомы бактерии коррелирует с местами нахождения точек начала и терминации репликации так же, как и перекос GC. Для плазмиды же корреляция не столь выражена, и пики кумулятивного перекоса AT не всегда совпадают с таковыми для GC.

Дальнейший анализ асимметрии в распределении нуклеотидов по последовательностям репликонов Octadecabacter antarcticus 307

Был проведён анализ асимметрии в распределениях нуклеотидов по группам (амино(M)/кето(K), пурины(R)/пиримидины(Y), сильные(S)/слабые(W)) в хромосоме и плазмиде бактерии Octadecabacter antarcticus 307.

Расчёт частот встречаемости нуклеотидов по репликонам (Табл. 9) показывает, что и в хромосоме, и в плазмиде наблюдается превышение K (тимин и гуанин) над M (цитозин и аденин), R (аденин и гуанин) над Y (тимин и цитозин) и S (гуанин и цитозин) над W (аденин и тимин).

Таблица 9. Частоты встречаемости нуклеотидов и их групп (столбец “Нуклеотиды”) в хромосоме (столбец “Хромосома”) и в плазмиде (столбец “Плазмида”).
Нуклеотиды Хромосома Плазмида
A 22,68% 23,55%
T 22,68% 23,66%
G 27,41% 26,68%
C 27,23% 26,11%
M 49,91% 49,66%
K 50,09% 50,34%
R 50,09% 50,23%
Y 49,91% 49,77%
S 54,64% 52,79%
W 45,36% 47,21%

Графики несоответствия количеств нуклеотидов разных групп (Рис. 12) показывают, что для хромосомы асимметрия по всем рассмотренным группам (M/K и R/Y) связана с точками начала и терминации репликации. Для плазмиды же распределение пуринов и пиримидинов по последовательности напрямую не коррелирует с этими точками, то есть наблюдается ситуация, аналогичная TA-перекосу. Однако, корреляция с точками origin и termus наблюдается в распределении амино и кето-нуклеотидов.

GC-AT-skew
Рисунок 12. Графики, отражающие несоответствие количеств нуклеотидов разных групп (R и Y — синяя кривая, M и K — оранжевая кривая, неравномерность в распределении T и A — зелёная кривая, G и C — красная кривая) по последовательности для хромосомы (график A) и плазмиды (график B) бактерии Octadecabacter antarcticus 307. Обозначены предполагаемые места расположения точек начала (origin) и терминации (termus) репликации. По оси x — номер позиции в последовательности.

Отдельно были рассмотрены графики несоответствия для групп нуклеотидов S и W (Рис. 13), эти графики имеют иную форму, поскольку напрямую отражают распределение GC-состава по последовательности.

SW-disparity
Рисунок 13. Графики несоответствия количеств нуклеотидов из групп S и W для хромосомы (график A) и для плазмиды (график B). По оси x — номер позиции в последовательности.

Можно видеть, что распределение GC-состава по хромосоме более равномерное, нежели по плазмиде. Так, в плазмиде имеются множество участков с GC-составом, отличающимся от среднего по последовательности, самые яркие из них: GC-богатый участок с 54 по 58 тыс. п.н. и участок с 58 до 62,9 тыс. п.н. c GC-составом около 50% (среднее для плазмиды - 52,79%).

Также для демонстрации закономерностей в распределении нуклеотидов по последовательностям репликонов были построены Z-кривые (Рис. 14) и графики прохода по ДНК (DNA walk graph) (Рис. 15).

Z-curve
Рисунок 14. Z-кривые для последовательностей хромосомы (кривая A) и плазмиды (кривая B) бактерии Octadecabacter antarcticus 307. Обозначены точки, соответствующие 5`- и 3`-концам последовательностей, а также предполагаемые места расположения точек начала (origin) и терминации (termus) репликации.
DNA walk graph
Рисунок 15. Графики прохода по последовательности ДНК (DNA walk graph) для последовательностей хромосомы (график A) и плазмиды (график B) бактерии Octadecabacter antarcticus 307. Обозначены точки, соответствующие 5`- и 3`-концам последовательностей, а также, для хромосомы, предполагаемые места расположения точек начала (origin) и терминации (termus) репликации.

Можно заметить, что Z-кривая и график прохода по последовательности для хромосомы имеют характерную форму, что отражает связь между несоотвествиями нуклеотидного состава по разным группам нуклеотидов и точками начала и терминации репликации. Для плазмиды подобная картина не наблюдается и оба графика имеют множество “петель” и “поворотов”.

Из графиков также видно, что при движении от 5`-конца к 3`-концу последовательности репликона Z-кривая и для хромосомы, и для плазмиды “движется вниз”, что связано с тем, что оба репликона имеют GC-состав более 50%.

Поиск консенсусных последовательностей в прилегающих к 5`-концу CDS областях в геноме Octadecabacter antarcticus 307

Для регионов, прилегающих к 5`-концу CDS, имеющих белковые продукты, были построены логотипы последовательностей (Рис. 16).

Как видно из логотипа (Рис. 16A), в районе с -12 по -8 п.н. преобладают гуаниловые нуклеотиды, что соответствует последовательности Шайна-Дальгарно, необходимой для связывания малой субъединицы рибосомы с мРНК при инициации трансляции (Рис. 17). Однако, стоит отметить, что консервативность данной последовательности значительно ниже, чем у старт-кодона (Рис. 16B).

SD logo
Рис. 16. Логотипы последовательностей (sequence logo) для регионов, прилегающих к 5`-концам CDS, имеющих белковый продукт. Зелёный цвет относится к A, оранжевый — к T, красный — к G, синий — к C. По оси x — позиция относительно первого нуклеотида CDS, по оси y — информационное содержание позиции (в битах).
SD interactions
Рис. 17. Взаимодействие между последовательностью Шайна-Дальгарно (SD sequence) и комплементарным ей участком (Classical anti-SD motif) 16S-рРНК малой субъединицы рибосомы (Small subunit rRNA) в процессе инициации трансляции у бактерий [17].

ЗАКЛЮЧЕНИЕ

В ходе анализа генома бактерии Octadecabacter antarcticus 307 были выявлены различные особенности его состава, такие как асимметричный нуклеотидный состав плазмиды и низкая консервативность последовательности Шайна-Дальгарно. В целом, такие бактерии, как Octadecabacter antarcticus, могут представлять интерес для исследователей ввиду их быстрой эволюции, что связано с экстремальными условиями обитания.

БЛАГОДАРНОСТИ

Автор выражает благодарность Масленикову Всеволоду и Куликову Антону за помощь и поддержку в процессе подготовки обзора.

СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ

Каталог Google Drive с файлом Scripts for minireview.docx и всеми файлами формата .py

Таблица “Genomic features of Octadecabacter antarcticus 307”

Таблица “CDS from genome of Octadecabacter antarcticus 307”

Таблица “Operones prediction for Octadecabacter antarcticus 307”

Каталог геномной сборки GCF_000155675.2

  1. Каталог геномной сборки GCF_000155675.2, файлы GCF_000155675.2_ASM15567v2_genomic.fna.gz - последовательности репликонов, GCF_000155675.2_ASM15567v2_cds_from_genomic.fna.gz - последовательности CDS, GCF_000155675.2_ASM15567v2_feature_table.txt.gz - таблица геномных особенностей.

  2. Таблица “Genomic features of Octadecabacter antarcticus 307”, лист “per-replicons”.

  3. Таблица “Genomic features of Octadecabacter antarcticus 307”, лист “percentage_of_length”.

  4. Таблица “CDS from genome of Octadecabacter antarcticus 307”, листы “prot_lengths” и “prot_len_hist”.

  5. Таблица “CDS from genome of Octadecabacter antarcticus 307”, листы “cds_gc” и “gc_hist”.

  6. Файл Scripts for minireview.docx, пункт 1.

  7. Файл Stop_codons.py; файл Scripts for minireview.docx, пункт 2.

  8. Таблица “Genomic features of Octadecabacter antarcticus 307”, листы “inter_cds_intervals”, “inter_cds_intervals-hist”, “intersecting_cds”, “intersecting_cds-hist”, “intervals_dif_strands” и “intervals_dif_strands_hist”.

  9. Файлы Overlaps.py и Overlaps_dif_strands.py; файл Scripts for minireview.docx, пункт 3.

  10. Файл Operones.py; файл Scripts for minireview.docx, пункт 4.

  11. Файл GC_skew.py; файл Scripts for minireview.docx, пункт 5.

  12. Файл CGC_CAT_skew.py; файл Scripts for minireview.docx, пункт 6.

  13. Файл Nucleotide_count.py; файл Scripts for minireview.docx, пункт 7.

  14. Файлы All_disparities.py и SW_disparity.py; файл Scripts for minireview.docx, пункт 8.

  15. Файл Z-curve.py; файл Scripts for minireview.docx, пункт 9.

  16. Файл GC_on_AT.py; файл Scripts for minireview.docx, пункт 10.

  17. Файл Seq_logo.py; файл Scripts for minireview.docx, пункт 11.

  18. Таблица “Genomic features of Octadecabacter antarcticus 307”, лист “tRNAs”.

  19. Таблица “Operones prediction for Octadecabacter antarcticus 307”.

ЛИТЕРАТУРА

  1. BacDive: Octadecabacter antarcticus 307 is a Gram-negative bacterium that was isolated from polar sea ice, 25 - 50 cm from the bottom of the ice. BacDive ID: 132057 https://bacdive.dsmz.de/strain/132057

  2. Gosink, J.J., Herwig, R.P., Staley, J.T. Octadecabacter arcticus gen. nov., sp. nov., and O. antarcticus, sp. nov., Nonpigmented, Psychrophilic Gas Vacuolate Bacteria from Polar Sea Ice and Water. Systematic and Applied Microbiology, Volume 20, Issue 3, August 1997, Pages 356-365.

  3. NCBI Taxonomy: Octadecabacter antarcticus 307. NCBI:txid391626 https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=391626

  4. Agris, Paul & Eruysal, Emily & Narendran, Amithi & Väre, Ville & Vangaveti, Sweta & Ranganathan, Srivathsan. (2017). Celebrating Wobble Decoding: Half a century and still much is new. RNA Biology. 15. 00-00. 10.1080/15476286.2017.1356562.

  5. Douglas, G.M., Shapiro, B.J. Pseudogenes act as a neutral reference for detecting selection in prokaryotic pangenomes. Nat Ecol Evol 8, 304–314 (2024). https://doi.org/10.1038/s41559-023-02268-6

  6. Wright, B.W., Molloy, M.P. & Jaschke, P.R. Overlapping genes in natural and engineered genomes. Nat Rev Genet 23, 154–168 (2022). https://doi.org/10.1038/s41576-021-00417-w

  7. Hubert, B. SkewDB, a comprehensive database of GC and 10 other skews for over 30,000 chromosomes and plasmids. Sci Data 9, 92 (2022). https://doi.org/10.1038/s41597-022-01179-8

  8. Andrei Grigoriev, Analyzing genomes with cumulative skew diagrams. Nucleic Acids Research, Volume 26, Issue 10, 1 May 1998, Pages 2286–2290. https://doi.org/10.1093/nar/26.10.2286

  9. Zhang R, Zhang CT. A Brief Review, The Z-curve Theory and its Application in Genome Analysis. Curr Genomics, 2014 Apr, 15(2):78-94. doi: 10.2174/1389202915999140328162433. PMID: 24822026; PMCID: PMC4009844.

  10. Arakawa, Kazuharu & Tamaki, Satoshi & Kono, Nobuaki & Kido, Nobuhiro & Ikegami, Keita & Ogawa, Ryu & Tomita, Masaru. (2009). Genome Projector: zoomable genome map with multiple views. BMC bioinformatics. 10. 31. 10.1186/1471-2105-10-31.

  11. Thomas D. Schneider, R.Michael Stephens. Sequence logos: a new way to display consensus sequences. Nucleic Acids Research, Volume 18, Issue 20, 25 October 1990, Pages 6097–6100. https://doi.org/10.1093/nar/18.20.6097

  12. Fillat MF. The FUR (ferric uptake regulator) superfamily: diversity and versatility of key transcriptional regulators. Arch Biochem Biophys. 2014 Mar 15;546:41-52. doi: 10.1016/j.abb.2014.01.029. Epub 2014 Feb 7. PMID: 24513162.

  13. Kinoshita, M., Minamino, T., Uchihashi, T. et al. FliH and FliI help FlhA bring strict order to flagellar protein export in Salmonella. Commun Biol 7, 366 (2024). https://doi.org/10.1038/s42003-024-06081-0

  14. Marykwas DL, Berg HC. A mutational analysis of the interaction between FliG and FliM, two components of the flagellar motor of Escherichia coli. J Bacteriol. 1996 Mar; 178(5):1289-94. doi: 10.1128/jb.178.5.1289-1294.1996. PMID: 8631704; PMCID: PMC177801.

  15. Kong, D., Zhu, Y., Wu, H. et al. AtTHIC, a gene involved in thiamine biosynthesis in Arabidopsis thaliana. Cell Res 18, 566–576 (2008). https://doi.org/10.1038/cr.2008.35

  16. Victor W. Rodwell, Catabolism of the Carbon Skeletons of Amino Acids. Basicmedical key. https://basicmedicalkey.com/catabolism-of-the-carbon-skeletons-of-amino-acids/

  17. Lim, Kyungtaek & Kobayashi, Ichizo & Nakai, Kenta. (2014). Alterations in rRNA-mRNA Interaction during Plastid Evolution. Molecular biology and evolution. 31. 10.1093/molbev/msu120.