Особенности генома Serpentinimonas maccroryi, алкалифильной бета-протеобактерии

Нина Тутубалина1,*

1Факультет биоинженерии и биоинформатики Московского Государственного Университета

*nina.tutubalina@gmail.com

Резюме

В мини-обзоре приведены общие сведения о геноме и протеоме Serpentinimonas maccroryi: GC-состав хромосомы и плазмиды, встречаемость кодонов в открытых рамках считывания (orf), количество белок-кодирующих генов на обеих цепях ДНК, предполагаемые длины белков. Найдены предположительные ориджин и терминал репликации, рассчитаны корреляция между встречаемостью кодонов в orf.

1. Введение

Serpentinimonas maccroryi — вид алкалифильных бета-протеобактерий из порядка Burkholderiales и семейства Comamonadaceae, описанный в 2021 году. Он был выделен из водоёма Сидар Спрингс на севере Калифорнии (Bird et al., 2021). Сидар Спирнгс — пресный серпентинизирующий источник, имеющий высокий pH (~ 11,5), низкий электродный потенциал (~ -550 мВ), низкие концентрации сульфат-ионов, карбонат-ионов и ионов натрия и высокую концентрацию ионов кальция (Suzuki et al., 2013). Серпентинизирующие системы содержат большое количество водорода и метана (Mamo and Mattiasson, 2020). S. maccroryi жизнеспособна только при очень низком содержании ионов натрия в среде (Bird et al., 2021), поэтому, видимо, не может использовать натриевые АТФазы (Suzuki et al., 2013) или Na+/H+ антипортеры, как это делают некоторый другие алкалифилы (Dimroth and Cook, 2004), в качестве адаптации к высокому рН. S. maccroryi факультативно питается автотрофно, используя водород или формиат как доноры электронов, а нитрат и кислород — как акцепторы (Bird et al., 2021).

2. Материалы и методы

Нуклеотидную последовательность генома S. maccroryi и аннотацию её протеома, использованные в этой работе, я взяла с сайта NCBI.
Использованные для обработки данных программы находятся в разделе «Сопроводительные материалы». Данные я обрабатывала при помощи Microsoft Excel 2010 и Python 3.8.16, исполняемый в Google Colab.
Встречаемость нуклеотидов, GC-skew, встречаемость кодонов в открытых рамках считывания я рассчитывала при помощи сценариев, находящихся в ноутбуке Google Colab, приложенном в разделе «Сопроводительные материалы». Так же там я проводила тест Манна-Уитни и корреляционные тесты.
Количество белок-кодирующих генов и генов РНК я считала при помощи Microsoft Excel, там же я рассчитала медианную длину белка и построила гистограмму (файл "Histogram.csv"). Полученные файлы находятся в папке на Google Drive, приложенной в разделе «Сопроводительные материалы».

3. Результаты

3.1. Общие сведения о геноме

Геном Serpentinimonas maccroryi содержится в одной хромосоме (2606868 п.н.) и одной плазмиде pSMB1 (16368 п.н.). В нём преобладают GC-пары: в хромосоме гуанин и цитозин составляют 66% от общего числа нуклеотидов, в плазмиде — 63%.

Табл. 1. Общие сведения о хромосоме и плазмиде S. maccroryi
Длина GC-состав Количество белок-кодирующих генов
Хромосома 2606868 п.н. 66% 2315
pSMB1 16368 п.н 63% 19

3.2. Нуклеотидный состав генома Serpentinimonas maccroryi

Нуклеотидный состав хромосомы и плазмиды S. maccroryi представлен в таблице 2.

Табл. 2. Содержание нуклеотидов в хромосоме и плазмиде.
Аденин Тимин Гуанин Цитозин
Хромосома 443023 п.н. 440951 п.н. 863436 п.н. 859458 п.н.
pSMB1 3079 п.н. 2966 п.н. 5206 п.н. 5117 п.н.

GC-состав плазмиды статистически значимо отличается от GC-состава хромосомы (биномиальный тест, p = 5,3 * 10-16).
Несмотря на кажущуюся похожесть, содержание тимина в хромосоме статистически значимо отличается от содержания аденина (биномиальный тест, р = 0,028), а содержание гуанина — от содержания цитозина (р = 0,002).
На рис. 1 представлен график кумулятивного GC-skew нуклеотидной последовательности хромосомы S. maccroryi. Известно, что кумулятивный GC-skew достигает максимума в точке, противоположной ориджину репликации (в терминале репликации), а минимума — в точке ориджина репликации (Grigoriev, 1998).

GC-skew <i>Serpentinimonas maccroryi</i>
Рис. 1. Кумулятивный GC-skew хромосомы S. maccroryi. Предположительно, максимума кумулятивный GC-skew достигает в точке терминала репликации, локального минимума — в точке ориджина репликации.

3.3. Белок-кодирующие последовательности

Медианная длина ожидаемого продукта транскрипции и трансляции белок-кодирующего гена (длина белка без учёта процессинга) — 290 аминокислот. Распределение длин белков показано на гистограмме на рис. 2.

Визуализация гистограммы длин белков <i>S. maccroryi</i>
Рис. 2. Распределение длин белков S. maccroryi.

Авторы аннотации генома нашли 57 генов, кодирующих белки рибосомы, 185 генов (184 в хромосоме и 1 на плазмиде), кодирующих транспортные белки, и 205 (201 на хромосоме и 1 на плазмиде) генов гипотетических белков, чья функция неизвестна.
Из 2315 белок-кодирующих генов 1006 расположены на «+»-цепи, 1309 — на «-»-цепи. На «-»-цепи генов больше статистически значимо (биномиальный тест, p = 3,9 * 10-11).
Разделив хромосому на две части по найденным при помощи GC-skew ориджину и терминалу, я рассчитала количество генов на «+»-цепи и на «-»-цепи. Результаты представлены в таблице 3.
Распределение белок-кодирующих генов по цепям для обеих частей статистически значимо (p = 2,0 * 10-4 и p = 3,7 * 10-4) отлично от распределения генов по цепям во всём геноме.

Табл. 3. Гены на «+»-цепи и на «-»-цепи в промежутках между предполагаемыми ориджином и терминалом.
Координаты 985016 — 2449444 п.н. 2449445 — 985015 п.н.
«+»-цепь 499 генов 507 генов
«-»-цепь 534 гена 775 генов

3.4. Гены тРНК

В геноме S. maccroryi закодированы 6 генов рибосомальных РНК, 2 гена РНК SNP, 1 ген транспортно-матричной РНК и 44 гена транспортных РНК.

3.5. Встречаемость кодонов

У S. maccroryi в геноме всего 44 гена, кодирующих тРНК, причём для некоторых кодонов есть по несколько генов тРНК с соответствующими антикодонами, а для некоторых кодонов нет генов соответствующих тРНК.
Я рассчитала встречаемость всех кодонов во всех открытых рамках считывания на обеих цепях. Результаты представлены на рис. 3. Встречаемость кодона в orf и количество генов соответствующей тРНК положительно коррелирует, но этот результат статистически незначимый (критерий Пирсона, р = 0,41).

График зависимости встречаемости кодонов в orf от количества генов тРНК
Рис. 3. Встречаемость кодонов в orf в зависимости от количества генов тРНК с соответствующими антикодонами. Чёрным показана линия тренда.

Встречаемость кодонов, к которым есть тРНК, и кодонов, генов тРНК которых в геноме нет, статистически значимо не различается (тест Манна-Уитни, р = 0,48).
После я рассчитала встречаемость кодонов с разным содержанием гуанина и цитозина (их может быть 0, 1, 2 или 3 на кодон), результаты представлены на рисунке 4. Содержание гуанина и цитозина положительно коррелирует с встречаемостью кодона (р = 5,6 * 10-4).

График зависимости встречаемости кодонов в orf от содержания G и C
Рис. 4. Встречаемость кодонов в orf в зависимости отсодержания гуанина и цитозина в кодоне. Чёрным показана линия тренда.

4. Обсуждение

4.1. GC-состав

Несмотря на то, что S. maccroryi не является термофильной бактерией, гуанин и тимин в её геноме занимают сильно более половины, и причина этого до конца не понятна.
Известно, что при рекомбинации у эукариотов и бактерий происходит больше мутаций с заменой на гуанин и цитозин, чем мутаций с заменой на аденин и тимин, что увеличивает GC-состав (Lassalle et al., 2015).
Каким бы ни был фактор отбора, делающий высокий GC-состав адаптивным, он по-разному действует на плазмиду и на хромосому S. maccroryi.
Можно предположить, что высокое содержание гуанина и цитозина является следствием того, что в генах бактерии необходимы кодоны, в которых много G и C. Содержание гуанина и цитозина в кодоне и правда коррелирует с встречаемостью этого кодона в открытых рамках считывания, но здесь более вероятна обратная причинно-следственная связь: если существует фактор отбора, делающий адаптивным высокий GC-состав, то в процессе отбора из синонимичных кодонов будут отсеиваться те, в которых меньше G и C, и оставаться те, в которых G и C больше.

4.2. Гены тРНК

У S. maccroryi есть тРНК не ко всем кодонам. Предположив, что не полностью комплементарное взаимодействие кодона и антикодона менее эффективно, чем полностью комплементарное, можно ожидать, что существует отбор на замену кодонов, к которым нет тРНК, синонимичными. В таком случае, чем больше генов тРНК соответствуют кодону, тем чаще он должен встречаться в открытых рамках считывания. Но эта гипотеза не подтвердилась: количество генов тРНК и встречаемость кодона не коррелируют значимо.

5. Благодарности

Я благодарна Андрею Владимировичу Алексеевскому за научное руководство, Ивану Сергеевичу Русинову, Сергею Александровичу Спирину, Диме Босову и Дане Хлебникову за руководство в написании программ, Стёпе Фейгину и Стёпе Бахмарину за идеи и обсуждение результатов.

6. Список литературы

  1. Bird, L. J., Kuenen, J. G., Osburn, M. R., Tomioka, N., Ishii, S., Barr, C., Nealson, K. H., & Suzuki, S. (2021). Serpentinimonas gen. Nov., serpentinimonas raichei sp. nov., serpentinimonas barnesii sp. nov. and serpentinimonas maccroryi sp. nov., hyperalkaliphilic and facultative autotrophic bacteria isolated from terrestrial serpentinizing springs. International Journal of Systematic and Evolutionary Microbiology, 71(8). https://doi.org/10.1099/ijsem.0.004945
  2. Dimroth, P., & Cook, G. M. (2004). Bacterial Na+- or H+-coupled ATP synthases operating at low electrochemical potential. In Advances in Microbial Physiology (Vol. 49, Issue 04). https://doi.org/10.1016/S0065-2911(04)49004-3
  3. Grigoriev, A. (1998). Analyzing genomes with cumulative skew diagrams. Nucleic Acids Research, 26(10), 2286—2290. https://doi.org/10.1093/nar/26.10.2286
  4. Lassalle, F., P?rian, S., Bataillon, T., & Nesme, X. (2015). GC-Content Evolution in Bacterial Genomes?: The Biased Gene Conversion Hypothesis Expands. 1—20. https://doi.org/10.1371/journal.pgen.1004941
  5. Mamo, G., & Mattiasson, B. (2020). Alkaliphiles in Biotechnology.
  6. Suzuki, S., Ishii, S., Wu, A., Cheung, A., Tenney, A., Wanger, G., Kuenen, J. G., & Nealson, K. H. (2013). Microbial diversity in the Cedars, an ultrabasic, ultrareducing, and low salinity serpentinizing ecosystem. Proceedings of the National Academy of Sciences of the United States of America, 110(38), 15336—15341. https://doi.org/10.1073/pnas.1302426110Б.

7. Сопроводительные материалы

Нуклеотидную последовательность генома S. maccroryi можно скачать по этой ссылке.
Аннотацию её генома — по этой ссылке.
Промежуточные данные и использованные программы находятся в ноутбуке в Google Colab.
Файлы с данными, обработанными в Excel, и другие файлы, нужные для работы сценариев из Google Colab, находятся в папке на Google Drive.