Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова, Москва; mary.ovsyannikova@fbb.msu.ru
В данном обзоре представлено краткое описание и анализ генома и протеома бактерии Rossellomorea marisflavi. Основное внимание уделено нуклеотидному составу и структуре генома, а также характеристикам протеома. В работе использованы методы электронных таблиц и языка программирования Python.
Rossellomorea marisflavi - это грамположительная палочковидная бактерия, образующая эндоспоры. Является аэробным и умеренно галофильным организмом, которая изначально была обнаружена в морской воде, в приливно-отливной зоне [1]. Вид Rossellomorea marisflavi относится к роду Rossellomorea, семейству Bacillaceae (полная таксономия приведена в таблице 1).
Впервые бактерия была выделена из морских вод Желтого моря в Корее в 2003 г. [1]. Согласно исследованию микробного удаления тяжелых металлов, было обнаружено, что R. marisflavi проявляет значительную толерантность к свинцу, удаляя из раствора до 86% Pb [2]. Кроме того, биотехнологический потенциал данной бактерии заключается в ее способности синтезировать наночастицы серебра [3].
В этом обзоре проанализированы данные о количественном соотношении белков разной длины, данные о нуклеотидном составе генома и о длинах межгенных промежутков.
| Империя | Cellulata |
|---|---|
| Надцарство | Procariota |
| Домен | Bacteria |
| Царство | Bacillati |
| Тип | Bacillota |
| Класс | Bacilli |
| Порядок | Bacillales |
| Семейство | Bacillaceae |
| Род | Rossellomorea |
| Вид | Rossellomorea marisflavi |
Данные о таксономическом положении и геноме исследуемой бактерии взяты с сайта Национального Центра Биотехнологической информации (NCBI) [4].
Анализ информации о длинах белков и содержании пар гуанина-цитозина (GC%) был проведен с использованием таблиц Google Sheets (см. S3 сопроводительных материалов).
Исследование нуклеотидного состава было выполнено с помощью Python (см. S2 сопроводительных материалов).
C помощью электронных таблиц Google Sheets была построена гистограмма длин белков (Рис. 1), а также получены некоторые статистические данные этого распределения (Таблица 2) (см. S1 сопроводительных материалов, [листы “prot_lengths_hist”, “prot_length”]).
| Средняя длина | 283.7 |
| Минимальное значение | 19 |
| Максимальное значение | 2693 |
| Стандартное отклонение | 195.8 |
| Медиана | 251.5 |
Как видно из гистограммы, пик распределения белков по длине приходится на диапазон от 137 до 179 аминокислотных остатков. С увеличением количества аминокислот в диапазоне от 59 до 137 количество белков данной длины растет; в диапазоне от 179 до 299 аминокислот - плавно убывает. Количество белков длиной больше 379 аминокислотных остатков значительно меньше количества белков меньшей длины.
Средняя длина белков составляет около 284 аминокислот, что на 27 меньше среднего значения (311) длины белков у представителей домена Bacteria [5].
В таблице 3 приведены данные о количестве нуклеотидов с разными азотистыми основаниями в геноме данной бактерии. Из полученных данных видно, что количество пар аденин-тимин и гуанин-цитозин примерно равны друг другу (отличаются менее, чем на 1.5%), а значит двойных водородных связей в молекулах ДНК приблизительно столько же, сколько тройных. Это может обеспечивать стабильность генома.
Кроме того, основываясь на полученных данных, можно сделать вывод, что количество аденина очень близко по значению к количеству тимина, а количество гуанина - к количеству цитозина (в обоих случаях разница составляет меньше 0,3%). Таким образом для генома бактерии R. marisflavi. выполняется первое правило Чаргаффа.
| Нуклеотид | Количество | % |
| A | 1173235 | 25.79 |
| T | 1172021 | 25.76 |
| G | 1107530 | 24.35 |
| C | 1096468 | 24.10 |
| Всего: 4549254 нуклеотидов |
Данные получены с помощью кода на языке программирования Python (см. S2 сопроводительных материалов).
Средствами электронных таблиц Google Sheets была построена гистограмма GC-состава кодирующих белок последовательностей (Рис. 2) (см. S3 сопроводительных материалов, [лист “gc_hist”]).
Во всем геноме GC% = 48.45% (см. S2 сопроводительных материалов). Среднее значение GC% в кодирующих белок последовательностях - 48.68%. Из диаграммы видно, что можно выделить две моды распределения: первая приходится на интервал 49.17% до 49.87% пар G-C, вторая - на интервал от 49.87% до 50.57%. Отсюда следует, что в большинстве участков CDS количество пар из комплементарных нуклеотидов, а значит и количество двойных и тройных водородных связей примерно равно.
И на плюс-цепи, и на минус-цепи хромосомы большинство CDS находятся на расстоянии от 0 до 220 нуклеотидов (рис. 3 и рис. 4 соответственно; см. S5 сопроводительных материалов). На плюс-цепи больше всего промежутков - 813 - имеют длину до 110 нуклеотидов, на минус-цепи таких промежутков 761, что также является максимальным количеством.
Кроме того, 315 CDS на плюс-цепи перекрываются и образуют 314 промежутков, длина которых на гистограмме обозначена как отрицательная. На минус-цепи перекрываются 245 CDS (обозначения на гистограмме такие же).
Преобладание коротких межгенных промежутков указывает, вероятно, на компактную и эффективную организацию генов и минимизацию количества некодирующих участков ДНК.
Можно узнать количество палиндромов в геноме. Это можно сделать средствами языка программирования Python.
Был написан код (см. S6 сопроводительных материалов), который считает количество палиндромов в хромосоме бактерии: их 2750 штук. Данный код требует сильного усовершенствования, так как время его работы велико и сам код достаточно “тяжелый”.
S1. Таблица CDS бактерии Rossellomorea marisflavi, информация о длинах белков на листах “prot_lengths” и “prot_lenghts_hist”.
https://docs.google.com/spreadsheets/d/1WbHVUcB-cO5LIvXDpquzVbD5tEAqDDLCH8yYhhjWl5U/edit?usp=sharing
S2. Код в Google Colab для анализа нуклеотидного состава. Программа получает на вход файл с последовательностью всего генома и считает количество и долю каждого вида нуклеотидов.
https://www.google.com/url?q=https://colab.research.google.com/drive/13eknNCQvNeMt68k-6RliN1M5eLndZJPp?usp%3Dsharing&sa=D&source=editors&ust=1771838066526826&usg=AOvVaw22QCSef0WH5wJtRu-MQvE8
S3. Таблица CDS бактерии Rossellomorea marisflavi, информация о GC-составе на листе “gc_hist”.
https://www.google.com/url?q=https://docs.google.com/spreadsheets/d/1WbHVUcB-cO5LIvXDpquzVbD5tEAqDDLCH8yYhhjWl5U/edit?usp%3Dsharing&sa=D&source=editors&ust=1771838066527338&usg=AOvVaw0xjF1-7yDkrFW6eu1YuG4j
S4. Информация о геноме бактерии с сайта NCBI https://www.google.com/url?q=https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/009/806/575/GCF_009806575.1_ASM980657v1/&sa=D&source=editors&ust=1771838066527729&usg=AOvVaw0X8OJ_vq2ZEii0lyyjQwOy, айлы GCF_009806575.1_ASM980657v1_genomic.fna.gz - последовательности репликонов; GCF_009806575.1_ASM980657v1_cds_from_genomic.fna.gz - последовательности CDS; GCF_009806575.1_ASM980657v1_feature_table.txt.gz - таблица геномных особенностей.
S5. Таблица Genomic features бактерии Rossellomorea marisflavi, информация о длине межгеннных промежутков на плюс- и минусах-цепях на листах “inter_cds_intervals” и “inter_cds_intervals_hist”.
https://www.google.com/url?q=https://docs.google.com/spreadsheets/d/1LH0MRV3CEk2UIHqejyt91t435W1QZKswfVCQzCI3bX8/edit?gid%3D1133528244%23gid%3D1133528244&sa=D&source=editors&ust=1771838066528760&usg=AOvVaw1q2RYnQFvauF9-eTHMA-nY
S6. Код в Google Colab для подсчета количества палиндромов в хромосоме бактерии. На вход подается файл с последовательностью всего генома, программа считает количество палиндромных участков в хромосоме.
https://www.google.com/url?q=https://colab.research.google.com/drive/1-8-IFeJTZDxnvllZ1xAGSaYoUQ7DcEQO?usp%3Ddrive_link&sa=D&source=editors&ust=1771838066529422&usg=AOvVaw3zSfAPAEJJLOP9amrgr02f