Мини-обзор генома бактерии Rossellomorea marisflavi

Овсянникова М.А.

Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова, Москва; mary.ovsyannikova@fbb.msu.ru

Аннотация

В данном обзоре представлено краткое описание и анализ генома и протеома бактерии Rossellomorea marisflavi. Основное внимание уделено нуклеотидному составу и структуре генома, а также характеристикам протеома. В работе использованы методы электронных таблиц и языка программирования Python.


1 Введение

Rossellomorea marisflavi - это грамположительная палочковидная бактерия, образующая эндоспоры. Является аэробным и умеренно галофильным организмом, которая изначально была обнаружена в морской воде, в приливно-отливной зоне [1]. Вид Rossellomorea marisflavi относится к роду Rossellomorea, семейству Bacillaceae (полная таксономия приведена в таблице 1).

Впервые бактерия была выделена из морских вод Желтого моря в Корее в 2003 г. [1]. Согласно исследованию микробного удаления тяжелых металлов, было обнаружено, что R. marisflavi проявляет значительную толерантность к свинцу, удаляя из раствора до 86% Pb [2]. Кроме того, биотехнологический потенциал данной бактерии заключается в ее способности синтезировать наночастицы серебра [3].

В этом обзоре проанализированы данные о количественном соотношении белков разной длины, данные о нуклеотидном составе генома и о длинах межгенных промежутков.

Таблица 1. Полная таксономия [4]
ИмперияCellulata
НадцарствоProcariota
ДоменBacteria
ЦарствоBacillati
ТипBacillota
КлассBacilli
ПорядокBacillales
СемействоBacillaceae
РодRossellomorea
ВидRossellomorea marisflavi

2 Материалы и методы

Данные о таксономическом положении и геноме исследуемой бактерии взяты с сайта Национального Центра Биотехнологической информации (NCBI) [4].

Анализ информации о длинах белков и содержании пар гуанина-цитозина (GC%) был проведен с использованием таблиц Google Sheets (см. S3 сопроводительных материалов).

Исследование нуклеотидного состава было выполнено с помощью Python (см. S2 сопроводительных материалов).

3 Результаты

3.1 Данные о длинах белков

C помощью электронных таблиц Google Sheets была построена гистограмма длин белков (Рис. 1), а также получены некоторые статистические данные этого распределения (Таблица 2) (см. S1 сопроводительных материалов, [листы “prot_lengths_hist”, “prot_length”]).

Рис. 1
Рис. 1. Гистограмма длин белков
Таблица 2. Статистика распределения длин белков
Средняя длина283.7
Минимальное значение19
Максимальное значение2693
Стандартное отклонение195.8
Медиана251.5

Как видно из гистограммы, пик распределения белков по длине приходится на диапазон от 137 до 179 аминокислотных остатков. С увеличением количества аминокислот в диапазоне от 59 до 137 количество белков данной длины растет; в диапазоне от 179 до 299 аминокислот - плавно убывает. Количество белков длиной больше 379 аминокислотных остатков значительно меньше количества белков меньшей длины.

Средняя длина белков составляет около 284 аминокислот, что на 27 меньше среднего значения (311) длины белков у представителей домена Bacteria [5].

3.2 Анализ нуклеотидного состава генома

В таблице 3 приведены данные о количестве нуклеотидов с разными азотистыми основаниями в геноме данной бактерии. Из полученных данных видно, что количество пар аденин-тимин и гуанин-цитозин примерно равны друг другу (отличаются менее, чем на 1.5%), а значит двойных водородных связей в молекулах ДНК приблизительно столько же, сколько тройных. Это может обеспечивать стабильность генома.

Кроме того, основываясь на полученных данных, можно сделать вывод, что количество аденина очень близко по значению к количеству тимина, а количество гуанина - к количеству цитозина (в обоих случаях разница составляет меньше 0,3%). Таким образом для генома бактерии R. marisflavi. выполняется первое правило Чаргаффа.

Таблица 3. Данные о нуклеотидном составе генома
НуклеотидКоличество%
A117323525.79
T117202125.76
G110753024.35
C109646824.10
Всего: 4549254 нуклеотидов

Данные получены с помощью кода на языке программирования Python (см. S2 сопроводительных материалов).

3.3 Анализ GC% по CDS

Средствами электронных таблиц Google Sheets была построена гистограмма GC-состава кодирующих белок последовательностей (Рис. 2) (см. S3 сопроводительных материалов, [лист “gc_hist”]).

Рис. 2
Рис. 2. Гистограмма GC-состава CDS

Во всем геноме GC% = 48.45% (см. S2 сопроводительных материалов). Среднее значение GC% в кодирующих белок последовательностях - 48.68%. Из диаграммы видно, что можно выделить две моды распределения: первая приходится на интервал 49.17% до 49.87% пар G-C, вторая - на интервал от 49.87% до 50.57%. Отсюда следует, что в большинстве участков CDS количество пар из комплементарных нуклеотидов, а значит и количество двойных и тройных водородных связей примерно равно.

3.4 Анализ межгенных промежутков хромосомы

И на плюс-цепи, и на минус-цепи хромосомы большинство CDS находятся на расстоянии от 0 до 220 нуклеотидов (рис. 3 и рис. 4 соответственно; см. S5 сопроводительных материалов). На плюс-цепи больше всего промежутков - 813 - имеют длину до 110 нуклеотидов, на минус-цепи таких промежутков 761, что также является максимальным количеством.

Кроме того, 315 CDS на плюс-цепи перекрываются и образуют 314 промежутков, длина которых на гистограмме обозначена как отрицательная. На минус-цепи перекрываются 245 CDS (обозначения на гистограмме такие же).

Преобладание коротких межгенных промежутков указывает, вероятно, на компактную и эффективную организацию генов и минимизацию количества некодирующих участков ДНК.

Рис. 3
Рис. 3. Гистограмма распределения межгенных промежутков на плюс цепи
Рис. 4
Рис. 4. Гистограмма распределения длин межгенных промежутков на минус цепи
3.5 Возможные дальнейшие исследования

Можно узнать количество палиндромов в геноме. Это можно сделать средствами языка программирования Python.

Был написан код (см. S6 сопроводительных материалов), который считает количество палиндромов в хромосоме бактерии: их 2750 штук. Данный код требует сильного усовершенствования, так как время его работы велико и сам код достаточно “тяжелый”.

Сопроводительные материалы

S1. Таблица CDS бактерии Rossellomorea marisflavi, информация о длинах белков на листах “prot_lengths” и “prot_lenghts_hist”.
https://docs.google.com/spreadsheets/d/1WbHVUcB-cO5LIvXDpquzVbD5tEAqDDLCH8yYhhjWl5U/edit?usp=sharing

S2. Код в Google Colab для анализа нуклеотидного состава. Программа получает на вход файл с последовательностью всего генома и считает количество и долю каждого вида нуклеотидов.
https://www.google.com/url?q=https://colab.research.google.com/drive/13eknNCQvNeMt68k-6RliN1M5eLndZJPp?usp%3Dsharing&sa=D&source=editors&ust=1771838066526826&usg=AOvVaw22QCSef0WH5wJtRu-MQvE8

S3. Таблица CDS бактерии Rossellomorea marisflavi, информация о GC-составе на листе “gc_hist”.
https://www.google.com/url?q=https://docs.google.com/spreadsheets/d/1WbHVUcB-cO5LIvXDpquzVbD5tEAqDDLCH8yYhhjWl5U/edit?usp%3Dsharing&sa=D&source=editors&ust=1771838066527338&usg=AOvVaw0xjF1-7yDkrFW6eu1YuG4j

S4. Информация о геноме бактерии с сайта NCBI https://www.google.com/url?q=https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/009/806/575/GCF_009806575.1_ASM980657v1/&sa=D&source=editors&ust=1771838066527729&usg=AOvVaw0X8OJ_vq2ZEii0lyyjQwOy, айлы GCF_009806575.1_ASM980657v1_genomic.fna.gz - последовательности репликонов; GCF_009806575.1_ASM980657v1_cds_from_genomic.fna.gz - последовательности CDS; GCF_009806575.1_ASM980657v1_feature_table.txt.gz - таблица геномных особенностей.

S5. Таблица Genomic features бактерии Rossellomorea marisflavi, информация о длине межгеннных промежутков на плюс- и минусах-цепях на листах “inter_cds_intervals” и “inter_cds_intervals_hist”.
https://www.google.com/url?q=https://docs.google.com/spreadsheets/d/1LH0MRV3CEk2UIHqejyt91t435W1QZKswfVCQzCI3bX8/edit?gid%3D1133528244%23gid%3D1133528244&sa=D&source=editors&ust=1771838066528760&usg=AOvVaw1q2RYnQFvauF9-eTHMA-nY

S6. Код в Google Colab для подсчета количества палиндромов в хромосоме бактерии. На вход подается файл с последовательностью всего генома, программа считает количество палиндромных участков в хромосоме.
https://www.google.com/url?q=https://colab.research.google.com/drive/1-8-IFeJTZDxnvllZ1xAGSaYoUQ7DcEQO?usp%3Ddrive_link&sa=D&source=editors&ust=1771838066529422&usg=AOvVaw3zSfAPAEJJLOP9amrgr02f

Список литературы

  1. Jung-Hoon Yoon, In-Gi Kim, Kook Hee Kang, Tae-Kwang Oh and Yong-Ha Park (2003). Bacillus marisflavi sp. nov. and Bacillus aquimaris sp. nov., isolated from sea water of a tidal flat of the Yellow Sea in Korea. INTERNATIONAL JOURNAL OF SYSTEMATIC AND EVOLUTIONARY MICROBIOLOGY, 53(Pt_5).
    https://www.google.com/url?q=https://www.microbiologyresearch.org/content/journal/ijsem/10.1099/ijs.0.02365-0&sa=D&source=editors&ust=1771838066530297&usg=AOvVaw2j1S5Fy2ORGW5VDZEIn-ky
  2. Cristina Firincă, Lucian-Gabriel Zamfir, Mariana Constantin, Iuliana Răut, Luiza Capră, Diana Popa, Maria-Lorena Jinga, Anda Maria Baroi, Radu Claudiu Fierăscu, Nicoleta Olguța Corneli, Carmen Postolach, Mihaela Doni, Ana-Maria Gurban, Luiza Jecu and Tatiana Eugenia Șesan (2024). Microbial Removal of Heavy Metals from Contaminated Environments Using Metal-Resistant Indigenous Strains. Journal of Xenobiotics: Feature Papers, 14(1), 51-78.
    https://www.google.com/url?q=https://www.mdpi.com/2039-4713/14/1/4&sa=D&source=editors&ust=1771838066531144&usg=AOvVaw27VfzSnlPf_UHywyRvhitg
  3. Thelma J., Balasubramanian C. (2021). Ovicidal, larvicidal and pupicidal efficacy of silver nanoparticles synthesized by Bacillus marisflavi against the chosen mosquito species.
    https://www.google.com/url?q=https://journals.plos.org/plosone/article?id%3D10.1371/journal.pone.0260253&sa=D&source=editors&ust=1771838066531742&usg=AOvVaw2iWVbPVbZhwkiRCP4TY33E
  4. Данные NCBI о бактерии Rossellomorea marisflavi
    https://www.google.com/url?q=https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id%3D189381&sa=D&source=editors&ust=1771838066532110&usg=AOvVaw04jbPQJuO0RcbY2sAmPSsd
  5. Lukasz P Kozlowski (2016). Proteome-pI: proteome isoelectric point database. Nucleic Acids Research.
    https://www.google.com/url?q=https://pmc.ncbi.nlm.nih.gov/articles/PMC5210655/&sa=D&source=editors&ust=1771838066532463&usg=AOvVaw3gDutlv4EU6kRQ5ZQr9mBR