Краткий обзор генома бактерии Silvanigrella aquatica

Сомова Александра Александровна
Факультет биоинженерии и биоинформатики
Московского государственного университета имени М.В. Ломоносова

Аннотация

Данный обзор представляет исследование генома пресноводной бактерии Silvanigrella aquatica. Были проанализированы структура и состав ее генома. Отмечены необычно низкий общий GC-состав и его вариация между репликонами, а также асимметрия в распределении нуклеотидов в одной из плазмид. В работе охарактеризовано распределение различных типов генов по репликонам бактерии и изучены профили длин кодируемых белков. Особый интерес представляет обнаружение группы генов с аномально высоким для данного генома GC-составом, что указывает на их возможное приобретение путем горизонтального переноса.

Введение

Род Silvanigrella объединяет гетеротрофные пресноводные бактерии, выделенные из водной толщи слабокислых или околонейтральных (pH 5–7) озёр и прудов с низкой ионной концентрацией. Растут бактерии при температурах выше 30°C. Клетки типовых штаммов характеризуются такими общими признаками, как красная пигментация, подвижность и плеоморфная морфология [1]. Систематическое положение Silvanigrella aquatica [2]:

Систематическое положение

  • Домен: Bacteria
  • Отдел: Pseudomonadota
  • Класс: Oligoflexia
  • Порядок: Silvanigrellales
  • Семейство: Silvanigrellaceae
  • Род: Silvanigrella
  • Вид: Silvanigrella aquatica

Материалы и методы

Данные по геному исследуемой бактерии были взятыс сайта Национального Центра Биотехнологической информации (NCBI) [3]. Для их дальнейшего анализа использовался функционал электронных таблиц Google Sheets (построения гистограмм и статистический анализ данных), а также скрипт, написанный на языке Python (общая характеристика генома и его нуклеотидный состав).

С помощью fasta-файла последовательности генома [4] и скрипта, написанного на языке Python (см. S1) были определены общие характеристики генома бактерии (длина, GC-состав, нуклеотидный состав).

Для подсчета количества генов каждого типа по репликонам бактерии были использованы таблица особенностей генома (см. S2; list “gene_replicones”) и методы электронных таблиц Google Sheets, а именно а именно функция “СЧЁТЕСЛИМН”, используемая для подсчета количества ячеек по заданному критерию.

Для анализа данных и построения гистограмм для длин белков и распределения CDS по GC-составу использовались таблица с CDS бактерии (см. S3; list “prot_lengths”, “prot_lengths_hist”, “prot_lengths_histogram” для длин белков; list “GC”, “GC_hist”, “GC_histogram” для распределения CDS по GC-составу) и методы электронных таблиц Google Sheets.

Результаты

1. Общая характеристика генома S. aquatica

Геном S. aquatica представлен одной кольцевой хромосомой и двумя линейными плазмидами, pNonnen1 и pNonnen2 соответственно [5]. Для данного генома были определены следующие ключевые характеристики: общая длина и GC-состав (таблица 1), а также полный нуклеотидный состав (таблица 2). Все показатели были рассчитаны как для целого генома, так и отдельно для хромосомы и каждой плазмиды.

Таблица 1. Общая характеристика генома (длина и GC-состав)
Длина (п.н.) GC-состав
Хромосома 3 342 382 32.73 %
Плазмида pNonnen1 42 228 29.5 %
Плазмида pNonnen2 36 988 28.68 %
Полный геном 3 421 598 32.65 %

Размер полного генома составляет 3.42 Mb, что незначительно отличается от среднестатистических значений (среднее – 3.87 Mb и медианное – 3.65 Mb) [6]. Основная хромосома длиной 3.34 Mb также соответствует средним параметрам (среднее – 3.65 Mb и медианное – 3.46 Mb) [6], тоже самое можно сказать и о двух плазмидах: pNonnen1 – 42.2 kb и pNonnen2 – 37.0 kb (среднее – 78.9 kb и медианное – 46.2 kb) [6].

GC-состав довольно низкий для свободноживущей бактерии – всего 32.65 %, тогда как медианное значение у аэробов составляет 58.65 % [7]. Примечательно также заметное различие в GC-составе основной хромосомы (32.73 %) и плазмид (29.5 % и 28.68 %), которое может указывать на то, что гены, расположенные на обеих плазмидах были получены путем горизонтального переноса генов [6].

Таблица 2. Нуклеотидный состав генома
A T G C N
Хромосома 1 115 502 1 114 472 548 381 545 637 18 390
Плазмида pNonnen1 14 812 14 958 6 045 6 413 0
Плазмида pNonnen2 12 197 14 181 4 679 5 931 0
Полный геном 1 142 511 1 143 611 559 105 557 981 18 390

При анализе результатов расчета нуклеотидного состава генома, можно отметить значительную асимметрию в распределении нуклеотидов в плазмиде pNonnen2 (A = 46.24 % и T = 53.76 % ; G = 44.10 % и C = 55.90 %), данный сдвиг может быть связан с особенностями механизма репликации данной плазмиды [8].

Также стоит отметить, что в основной хромосоме, в отличие от плазмид, встречаются неопределенные основания (N). Это может указывать на более низкое качество прочтения ее последовательности, что является типичной технической проблемой при работе с длинными геномными фрагментами [9].

2. Распределение генов различных типов в геноме S. aquatica

Было подсчитано количество генов различных типов: кодирующие белки (функциональные CDS), некодирующие (CDS псевдогенов); гены транспортных РНК (tRNA), рибосомальных РНК (rRNA), транспортно-матричных РНК (tmRNA) и прочих некодирующих РНК (ncRNA). Кроме того, было проанализировано распределение этих генов по репликонам бактерии (таблица 3).

Таблица 3. Распределение генов различных типов в геноме S. aquatica
Тип гена Хромосома Плазмида pNonnen1 Плазмида pNonnen2 Всего
функциональные CDS 2 807 46 42 2895
CDS псевдогенов 24 1 1 26
tRNA 38 0 0 38
rRNA 12 0 0 12
tmRNA 1 0 0 1
ncRNA 2 0 0 2
Всего 2 884 47 43 2974

Можно заметить, что все гены, кодирующие различные РНК и большинство белок-кодирующих последовательностей локализованы на хромосоме бактерии, в плазмидах же суммарно закодированы всего лишь 90 CDS, из которых 88 CDS являются функциональными, то есть имеют белковый продукт.

Примечательно сравнительно небольшое число генов транспортных РНК (tRNA) — всего 38 — на фоне 61 смыслового кодона в генетическом коде. Это несоответствие хорошо объясняется механизмом “вобблинга”, допускающим неканоническое спаривание основания в первом положении антикодона tRNA с несколькими различными основаниями в третьем положении кодона mRNA, что позволяет одной молекуле tRNA узнавать несколько синонимичных кодонов [10].

3. Длины белков, закодированных в геноме бактерии S. aquatica

Далее были проанализированы длины 2914 белков. На основании этих данных была построена столбчатая диаграмма (рисунок 1), а также были подсчитаны некоторые статистические параметры, согласно которым минимальная длина белка – 35 а.к., а максимальная – 4281 а.к., средняя длина составляет 348 а.к., медианное значение равно 303 а.к.

Гистограмма

Рисунок 1. Распределение длин белков

4. Распределение CDS бактерии S. aquatica по GC-составу

Также была построена столбчатая диаграмма, отражающая распределение всех CDS по GC-составу (рисунок 2).

Гистограмма

Рисунок 2. Распределение CDS по GC-составу

При анализе полученного распределение можно заметить, что среднее значение (33%) в целом совпадает со средним GC-составом хромосомы (32.73%) и полного генома (32.65%). Однако довольно значительное число генов имеет аномально высокий для данной бактерии GC-состав, который не соответствует ни одному из репликонов (хромосома 32.73%, плазмиды ~29%), что может указывать на их чужеродное происхождение [6].

Сопроводительные материалы

Список литературы