Обзор генома и протеома бактерии Croceicoccus marinus

Автор:Осипова Вероника

Факультет биоинженерии и биоинформатики, 1 курс

Московский государственный университет имени М. В. Ломоносова

23.12.2021


Резюме

Данная работа представляет собой обзор генома и протеома бактерии Croceicoccus marinus, состоящий из анализа полученных в ходе применения базовых методов биоинформатики стандартных данных о геноме и его нуклеотидном составе, а также описания генов белков и их длин.Данная работа представляет собой обзор генома и протеома бактерии Croceicoccus marinus, состоящий из анализа полученных в ходе применения базовых методов биоинформатики стандартных данных о геноме и его нуклеотидном составе, а также описания генов белков и их длин.

Ключевые слова:

Croceicoccus marinus E4A9T, геном, протеом, эстераза

1.Введение

Таксономия Croceicoccus marinus:
Домен Bacteria
Тип Proteobacteria
Класс Alphaproteobacteria
Порядок Sphingomonadales
Семейство Erythrobacteraceae
Род Croceicoccus
Вид Croceicoccus marinus
Штамм E4A9T

C.marinus грамм-отрицательный желто-пиментированный кокк [1], внешний вид которого представлен на рис.1. Данная бактерия является глубоководной морской свободноживущей аэробной бактерией, не оказывающей патогенного воздействия. Обитает в Восточной части Тихого океана. Оптимальная температурой для C.marinus 28-30 °C в нейтральной среде (pH=7). Это штамм способен продуцировать фермент эстеразу, который широко применяется в пищевой, парфюмерной, химической, сельскохозяйственной и фармацевтической промышленности, а также имеет перспективы использования в биотехнологической сфере. [2]

Рис.1 a. Внешний вид в электоринной микроскопии b.Ультраструктура C.marinus.[2]

2.Материалы и методы


Материалы: геном в файле в формате fasta, хромосомная таблица, файл с кодирующими последовательностями (CDS) белков.

Методы: Для получения стандартных данных о геноме(числа и названия ДНК, их длины и GC-состава, а также нуклеотидного состава ДНК) были использованы программы, написанные на Python. Для нахождения координат начала и конца репликации была использована не только программа на Python, но и произведено последующее построение графика с нахождением его максимального и минимального значения в Excel. Работа с данными протеома бактерии так же проводилась с использованием электронных таблиц и формул для них в Excel.


3.Результаты


Общая характеристика генома

Геном представлен одной кольцевой ДНК NZ_CP060052.1 и двумя плазмидами NZ_CP060053.1 и NZ_CP060054.1. В таблице 1 приведены длины и GC-состав каждой ДНК.

Таблица 1. Название и длина ДНК, составляющих геном C.marinus
ДНК Длина GC-состав
NZ_CP060052.1
(хромосома)
3108694 0.6535
NZ_CP060053.1
(плазмида 1)
1029490 0.6283
NZ_CP060054.1
(плазмида 2)
130419 0.6473

Анализ нуклеотидного состава геномных ДНК, значения которого представлены в таблице 2 показал, что в последовательности C.marinus встречаются только буквы A, T, G, C. Причем, число букв А близко к числу букв Т, а количество букв G примерно равно количеству букв С, что подтверждает второе правило Чаргаффа, которое гласит, что количество аденина равно количеству тимина, а гуанина — цитозину.[3]

Таблица 2. Количество нуклеотидов в геноме C.marinus
A T G C
756285 749352 1378171 1384795
График 1. GC-skew и cumulative GC-skew для генома C.marinus

Так же для описания генома бактерии были посчитаны и представлены в виде графика 1 значения GC-skew и cumulatative GC-skew. Расчет GC-skew производится по формуле:

GC-skew=(G-C)/(G+C)

где G и С-количество нуклеатидов G и C в заданном окне соответсвенно, а cumulative GC-skew рассчитывается как сумма всех значений GC-skew, посчитанных ранее. Минимальное значение GC-skew соответсвует точке начала репликации oriC, которое в данном случае находится в области 436000-го нуклеотида, а максимальное значение-точне окончания репликации ter, находящееся в области 1758000-го нуклеотида. Точка ter должна располагаться диаметрально противоположно точке oriC, поэтому должна быть верна формула:

|ter-oriC|=SeqLen/2

где |ter-oriC| это расстрояние между точками начала и окончания репликации, а SeqLen-длина последовательности.[4] По получившимся рассчетам наденные точки имеют расстрояние, равное примерно 40% от длины последовательности вместо теоритических 50%. Такой результат может объясняться высокой погрешностью из-за произольно взятых значений окна и шага при вычислении значений GC-skew и cumulative GC-skew. Но независимо от полученной погрешности, полученные значения точек позволяют понять примерное местоположение координат начала и терминации репликации ДНК.

Общая характеристика протеома

На рис.2 представлена гисторамма длин белков в протеоме бактерии C.marinus. Можно отметить, что наиболее часто встречающимися являются белки, кодирующиеся 120-160 аминокислотными остатками.. Так же в протеоме имеется некоторое количество белков с большой длиной, превышающей значение в 1440 аминокислотных остатков.

Рис.1 Гистограмма длин белков

Распределение генов белков по цепям ДНК показано в таблице 3 для кольцевой хромосомы NZ_CP060052.1 (chromosome) и в таблице 4 для плазмиды NZ_CP060053.1(plas1) и плазмиды NZ_CP060054.1 (plas2)

Таблица 3. Гены белков на цепях кольцевой ДНК
chromosome + - всего
ncRNA 0 2 2
protein_coding 1413 1475 2888
pseudogene 13 21 34
RNase_P_RNA 0 1 1
rRNA 3 3 6
SPR_RNA 0 1 1
tmRNA 1 0 1
tRNA 23 25 48
Таблица 4. Гены белков на цепях плазмид
plas1 + - всего
protein_coding 454 40 494
pseudogene 15 24 39
plas2 + - всего
protein_coding 93 40 133
pseudogene 4 0 4

После проведения с помощью формулы биномиального распределения вероятности получить такое распределение генов белков по цепям кольцевой ДНК, можно сделать вывод, что гены белков и псевдогены навряд ли имеют случайное распределение, в отличие от генов РНК (тенденцию низкой вероятности случайного распределения можно проследить и у генов белков и псевдогенов двух плазмид бактерии).


4.Заключение


Анализ полученных в ходе работы данных по геному и протеому бактерии Croceicoccus marinus дает представление об их основных характеристиках. Более подробное изучение генетической информации данной бактерии может позволить реализовать ее потенциал в биотехнологическом применении.


Список литературы

  1. Xue-Wei Xu, Yue-Hong Wu, Chun-Sheng Wang, Xiao-Gu Wang, Aharon Oren and Min Wu C.D. Croceicoccus marinus gen. nov., sp. nov., a yellow-pigmented bacterium from deep-sea sediment, and emended description of the family Erythrobacteraceae, International Journal of Systematic and Evolutionary Microbiology (2009), 59, 2247–2253
  2. Yue-Hong Wu, Hong Cheng, Ying-Yi Huo, Lin Xu, Qian Liu, Chun-Sheng Wang and Xue-Wei Xu, Complete genome sequence of esterase producing bacterium Croceicoccus marinus E4A9T, Wu et al. Standards in Genomic Sciences (2017) 12:88 DOI   10.1186/s40793-017-0300-0
  3. Wikipedia, Правила Чаргаффа
  4. Andrei Grigoriev, Analyzing genomes with cumulative skew diagrams, Nucleic Acids Research, Volume 26, Issue 10, 1 May 1998, Pages 2286–2290, https://doi.org/10.1093/nar/26.10.2286