Мини-обзор Microbacterium sediminis

Данный мини-обзор рассматривает геном Microbacterium sediminis с помощью python и Google Sheets. Рассматриваются расстояния между cds и стандартные данные о геноме.

1 Введение

У микроорганизмов, выделенных из экстремальных сред, есть уникальные физиология и метаболизм, позволяющие адаптироваться к среде обитания, из-за чего экстремофилы очень разнообразны (Jebbar et al., 2015). Глубоководные обитатели особенно интересны, так как они подвергаются воздействию сложных условий среды, включающих крайне низкую температуру (в основном 2 ◦C-3 ◦C), высокое давление (в среднем 38 МПа), отсутствие света и недостаток питательных веществ (Sanders and Hessler, 1969; Poli et al., 2017)

Microbacterium sediminis YLB-01T - бактерия, выделенная из образца осадка, собранного в юго-западной части Индийского океана (E/S, 49.8405° /37.8111°) на глубине 2327 метра во время рейса исследовательского судна Da-Yang Yi-Hao в ноябре 2008 года (Yu et al., 2013). Ее полный геном был секвенирован для выяснения молекулярных основ адаптации к низким температурам и высокому давлению.

M. sediminis - аэробный, грамположительный, палочковидный актиномицет и экстремофил (холодоустойчивый барофил), она может расти при температурах от 4°С до 50°С (оптимально 28°С), а также при давлении от 0.1 МПа до 80 Мпа. В геноме M. sediminis очень много генов вовлеченных в основной метаболизм. 249 генов связанных с метаболизмом аминокислот, охватывая пути деградации и/или синтеза 16 видов аминокислот, и 207 генов связанных с углеводным метаболизмом (Yi et al., 2020)

2 Материалы и методы

Данные по геному исследуемой бактерии были взяты с сайта Национального Центра Биотехнологической информации (NCBI):

Для анализа данных использовались электронные таблицы Google Sheets, и программы, написанные на языке Python и bash. Все графики, таблицы и рисунки получены с их помощью.

3 Результаты

3.1 Стандартные данные о геноме

Геном M. sediminis содержит одну кольцевую хромосому и линейную плазмиду (Таблица 1). GC состав довольно высокий (71.76% и 68.49%). Это может быть связано со способностью бактерии выдерживать высокие температуры, так как большее количество связей между гуанином и цитозином делает ДНК более устойчивой к денатурации.

Таблица 1. Стандартные данные о геноме

ДНК Длина (п.н.) CG-состав
chromosome 2 792 195 71.76%
plasmid 127 669 68.49%

Результаты представленные в Таблице 2 подтверждают выполнение второго правила Чаргаффа - количество аденина (A) примерно равно количеству тимина (Т), а количество гуанина (G) примерно равно количеству цитозина (C) в одной цепи ДНК. A составляет 50.07% от A+T, G составляет 49.97% от G+C.

Таблица 2. Нуклеотидный состав генома

ДНК A T C G
chromosome 39416 394234 1001464 1002337
plasmid 20712 19516 42751 44690
всего в геноме 414872 413750 1046154 1045088

На Рис. 1. представлен cumulative GC-skew. Обычно, минимальное значение соответствует начальной точке репликации, а максимум конечной точке в прокариотическом геноме. В данном графике максимальное значение - 9.71 при х = 1172000, а минимальное значение - 0.01, достигается оно при х = 0. Соответственно начало репликации совпадает с началом файла.

Рис. 1. Cumulative CG-skew хромосомы M. Sediminis.

3.2 Данные о белках протеома

На Рис. 2. представлена гистограмма длин белков.

Рис. 2. Гистограмма длин белков

Минимальная длина белка - 32 аминокислот, это AURKAIP1/COX24 domain-containing protein.

Еще один короткий белок - 50S ribosomal protein L36 длиной в 38 аминокислот, это белок большой рибосомальной субъединицы bL36, его ген в неизменном виде встречается у многих бактерий (Escherichia coli, Cronobacter sakazakii, Salmonella typhimurium и paratyphia и т.д.).

Два самых длинных белка это Ig-like domain-containing proteins длинами в 2094 и 2059. Эти белки экспортируются во внешнюю среду и нацелены на две внеклеточные органеллы: жгутики и конъюгативные пили. Они облегчают конъюгацию, уменьшая подвижность клеток и облегчая контакт клетки с клеткой.

Длина этих белков связана с их функцией.

3.3 Данные о пересечениях cds

На рисунке 3 представлена гистограмма расстояний между cds. Чаще всего cds пересекаются и длина пересечения от 1 до 10 нуклеотидов. Пересечением считается количество нуклеотидов, которые есть в обоих cds.

Рис. 3. Гистограмма расстояний между cds.

Если рассмотреть подробней на пересечения cds (рисунок 4), то видно, что чаще всего cds пересекаются на 4 нуклеотида.

Рис. 4. Гистограмма пересечений между cds

Вполне логично, что все длина пересечений при делении на три дает либо остаток 1 либо 2, так как иначе стоп кодон первой последовательности останавливал бы транскрипцию второй.

Так же рассмотрим какими нуклеотидными последовательностями являются пересечения. Все пересечения в один нуклеотид - “A”. Это связано с тем что старт кодон начинается на A, и стоп кодоны заканчиваются на А. Пересечения в 4 нуклеотида и их количества приведены в Таблице 3.

Таблица 3. Пересечения cds в 4 нуклеотида

Пересечение Количество
ATGA 115
GTGA 82
TTGA 1
CTGA 1

Можно увидеть что самое частое пересечение - “ATGA” состоит из старт кодона ATG и стоп кодона, а второе по частоте пересечение начинается с кодона GTG, который часто выполняет функцию старт кодона.

CDS пересечения которых на 20 нуклеотидов и больше приведены в Таблице 4. Максимальное пересечени - 119 нуклеотидов, но оно между restriction endonuclease subunit S и теоретическим белком и составляет 37.78% от длины теоретического белка и 14.75% от длины restriction endonuclease subunit S. Так же есть пересечение между nrdI и nrdE в 22 нуклеотида. Эти белки имеют схожую функцию и такое пересечение может быть связано с регуляцией экспрессии, так же рядом с этим участком также находится ген nrdH и nrdF.

Таблица 4. Подробней про пересечения в 20 и больше нуклеотидов.

название белка пересечение
restriction endonuclease subunit S
hypothetical protein
-
119
IS3 family transposase
tyrosine-type recombinase/integrase
-
68
non-ribosomal peptide synthetase
M1 family metallopeptidase
-
49
class Ib ribonucleoside-diphosphate reductase assembly flavoprotein NrdI (symbol nrdI)
class 1b ribonucleoside-diphosphate reductase subunit alpha (symbol nrdE)
-
22
bifunctional UDP-N-acetylglucosamine diphosphorylase/glucosamine-1-phosphate N-acetyltransferase GlmU (symbol glmU)
ribose-phosphate diphosphokinase
-
23
phosphonate ABC transporter, permease protein PhnE (symbol phnE)
MurR/RpiR family transcriptional regulator
-
23
glutamine synthetase family protein
gamma-glutamyl-gamma-aminobutyrate hydrolase 20 family protein
20

На Рисунках 5 и 6 представлены круговые диаграммы для старт и стоп кодонов которые попадают в пересечения cds, в то время как на Рисунках 7 и 8 представлены круговые диаграммы для старт и стоп кодонов для всех cds на хромосоме. Можно видеть, что почти все стоп кодоны в пересечениях - “TGA”, а также относительное количество старт кодона “GTG” больше в пересечениях. Пересечения генов могут быть связаны с регуляцией экспрессии и возможно большее относительное содержание старт кодона “GTG” также с этим связано.

Рис. 5. круговая диаграмма старт кодонов в пересечениях cds.
Рис. 6. круговая диаграмма стоп кодонов в пересечениях cds.
Рис. 7. круговая диаграмма старт кодонов всей хромосомы.
Рис. 8. круговая диаграмма стоп кодонов всей хромосомы.

Сопроводительные материалы

Список литературы