Автор:Осипова Вероника
Факультет биоинженерии и биоинформатики, 1 курс
Московский государственный университет имени М. В. Ломоносова
23.12.2021
Данная работа представляет собой обзор генома и протеома бактерии Croceicoccus marinus, состоящий из анализа полученных в ходе применения базовых методов биоинформатики стандартных данных о геноме и его нуклеотидном составе, а также описания генов белков и их длин.Данная работа представляет собой обзор генома и протеома бактерии Croceicoccus marinus, состоящий из анализа полученных в ходе применения базовых методов биоинформатики стандартных данных о геноме и его нуклеотидном составе, а также описания генов белков и их длин.
Таксономия Croceicoccus marinus: | |
---|---|
Домен | Bacteria |
Тип | Proteobacteria |
Класс | Alphaproteobacteria |
Порядок | Sphingomonadales |
Семейство | Erythrobacteraceae |
Род | Croceicoccus |
Вид | Croceicoccus marinus |
Штамм | E4A9T |
C.marinus грамм-отрицательный желто-пиментированный кокк [1], внешний вид которого представлен на рис.1. Данная бактерия является глубоководной морской свободноживущей аэробной бактерией, не оказывающей патогенного воздействия. Обитает в Восточной части Тихого океана. Оптимальная температурой для C.marinus 28-30 °C в нейтральной среде (pH=7). Это штамм способен продуцировать фермент эстеразу, который широко применяется в пищевой, парфюмерной, химической, сельскохозяйственной и фармацевтической промышленности, а также имеет перспективы использования в биотехнологической сфере. [2]
Материалы: геном в файле в формате fasta, хромосомная таблица, файл с кодирующими последовательностями (CDS) белков.
Методы: Для получения стандартных данных о геноме(числа и названия ДНК, их длины и GC-состава, а также нуклеотидного состава ДНК) были использованы программы, написанные на Python. Для нахождения координат начала и конца репликации была использована не только программа на Python, но и произведено последующее построение графика с нахождением его максимального и минимального значения в Excel. Работа с данными протеома бактерии так же проводилась с использованием электронных таблиц и формул для них в Excel.
Геном представлен одной кольцевой ДНК NZ_CP060052.1 и двумя плазмидами NZ_CP060053.1 и NZ_CP060054.1. В таблице 1 приведены длины и GC-состав каждой ДНК.
ДНК | Длина | GC-состав |
---|---|---|
NZ_CP060052.1 (хромосома) |
3108694 | 0.6535 |
NZ_CP060053.1 (плазмида 1) |
1029490 | 0.6283 |
NZ_CP060054.1 (плазмида 2) |
130419 | 0.6473 |
Анализ нуклеотидного состава геномных ДНК, значения которого представлены в таблице 2 показал, что в последовательности C.marinus встречаются только буквы A, T, G, C. Причем, число букв А близко к числу букв Т, а количество букв G примерно равно количеству букв С, что подтверждает второе правило Чаргаффа, которое гласит, что количество аденина равно количеству тимина, а гуанина — цитозину.[3]
A | T | G | C |
---|---|---|---|
756285 | 749352 | 1378171 | 1384795 |
Так же для описания генома бактерии были посчитаны и представлены в виде графика 1 значения GC-skew и cumulatative GC-skew. Расчет GC-skew производится по формуле:
GC-skew=(G-C)/(G+C) |
где G и С-количество нуклеатидов G и C в заданном окне соответсвенно, а cumulative GC-skew рассчитывается как сумма всех значений GC-skew, посчитанных ранее. Минимальное значение GC-skew соответсвует точке начала репликации oriC, которое в данном случае находится в области 436000-го нуклеотида, а максимальное значение-точне окончания репликации ter, находящееся в области 1758000-го нуклеотида. Точка ter должна располагаться диаметрально противоположно точке oriC, поэтому должна быть верна формула:
|ter-oriC|=SeqLen/2 |
где |ter-oriC| это расстрояние между точками начала и окончания репликации, а SeqLen-длина последовательности.[4] По получившимся рассчетам наденные точки имеют расстрояние, равное примерно 40% от длины последовательности вместо теоритических 50%. Такой результат может объясняться высокой погрешностью из-за произольно взятых значений окна и шага при вычислении значений GC-skew и cumulative GC-skew. Но независимо от полученной погрешности, полученные значения точек позволяют понять примерное местоположение координат начала и терминации репликации ДНК.
На рис.2 представлена гисторамма длин белков в протеоме бактерии C.marinus. Можно отметить, что наиболее часто встречающимися являются белки, кодирующиеся 120-160 аминокислотными остатками.. Так же в протеоме имеется некоторое количество белков с большой длиной, превышающей значение в 1440 аминокислотных остатков.
Распределение генов белков по цепям ДНК показано в таблице 3 для кольцевой хромосомы NZ_CP060052.1 (chromosome) и в таблице 4 для плазмиды NZ_CP060053.1(plas1) и плазмиды NZ_CP060054.1 (plas2)
chromosome | + | - | всего |
---|---|---|---|
ncRNA | 0 | 2 | 2 |
protein_coding | 1413 | 1475 | 2888 |
pseudogene | 13 | 21 | 34 |
RNase_P_RNA | 0 | 1 | 1 |
rRNA | 3 | 3 | 6 |
SPR_RNA | 0 | 1 | 1 |
tmRNA | 1 | 0 | 1 |
tRNA | 23 | 25 | 48 |
plas1 | + | - | всего |
---|---|---|---|
protein_coding | 454 | 40 | 494 |
pseudogene | 15 | 24 | 39 |
plas2 | + | - | всего |
protein_coding | 93 | 40 | 133 |
pseudogene | 4 | 0 | 4 |
После проведения с помощью формулы биномиального распределения вероятности получить такое распределение генов белков по цепям кольцевой ДНК, можно сделать вывод, что гены белков и псевдогены навряд ли имеют случайное распределение, в отличие от генов РНК (тенденцию низкой вероятности случайного распределения можно проследить и у генов белков и псевдогенов двух плазмид бактерии).
Анализ полученных в ходе работы данных по геному и протеому бактерии Croceicoccus marinus дает представление об их основных характеристиках. Более подробное изучение генетической информации данной бактерии может позволить реализовать ее потенциал в биотехнологическом применении.