Обзор некоторых особенностей генома археи Halomicroarcula marina

АННОТАЦИЯ

В этом мини-обзоре было проведено исследование генома археи Halomicroarcula marina . Было проанализировано распределение длин генов, кодирующих белки, и GC-состав генов. Проведена количественная оценка генов разных типов на хромосоме и плазмидах, а также оценка пропорциональной доли этих генов от длины каждого репликона. Кроме того, был оценен GC-состав генов отдельно для хромосомы и плазмид, а также предложено возможное дальнейшее исследование генома Halomicroarcula marina.

ВВЕДЕНИЕ

Halomicroarcula marina относится к роду Halomicroarcula , признанному базионимом для рода Haloarcula [1]. Представители этого рода — грамотрицательные организмы, в оптимальных условиях роста клетки имеют плеоморфную форму. Haloarcula являются облигатными галофилами, которые лизируются в дистиллированной воде и для роста нуждаются как минимум в 0,9–3,4М NaCl, а оптимальная концентрация NaCl для их роста составляет 2,1–4,3 М, в зависимости от вида. Они являются хемоорганотрофами и могут расти на ограниченном количестве простых сахаров и органических кислот. Эти организмы были получены из морской соли, добываемой во Франции, и из солончаковых озёр в Китае [1].

Таксономическая принадлежность [1]:

Домен : Archaea

Царство : Methanobacteriati

Отдел : Methanobacteriota

Класс : Halobacteria

Порядок : Halobacteriales

Семейство : Halobacteriaceae

Род : Halomicroarcula

Вид : Halomicroarcula marina

МАТЕРИАЛЫ И МЕТОДЫ

Данные о геноме изучаемой археи были получены с сайта NCBI Genome (https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/024/218/775/GCF_024218775.1_ASM2421877v1/ ).

Обработка данных проводилась с помощью электронных таблиц Google sheets:

  1. Длины белков анализировались с помощью таблицы CDS генома Halomicroarcula marina (см. сопроводительные материалы (1)), лист prot_lengths и prot_lengths_hist.
  2. GC-состав проанализирован с помощью таблицы CDS генома Halomicroarcula marina (см. сопроводительные материалы (1)), лист gc_hist.
  3. Число генов белков и генов разных типов РНК получено из таблицы Feature table генома Halomicroarcula marina (см. сопроводительные материалы (2)), лист per-replicones.
  4. Процентное содержание генов, кодирующих белки, разные типы РНК и межгенных промежутков от длины каждого репликона проанализировано с помощью таблицы Feature table генома Halomicroarcula marina (см. сопроводительные материалы (2)), лист percents_of_length.
  5. GC-состав для отдельных репликонов был проанализирован с помощью таблицы CDS генома Halomicroarcula marina (см. сопроводительные материалы (1)), лист GC_for_replicones.

Основной анализ был проведен командами СЧЁТЕСЛИМН, СУММЕСЛИМН.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Длины белков, закодированных в геноме археи Halomicroarcula marina

На основе данных из таблицы CDS генома Halomicroarcula marina (см. сопроводительные материалы (2)), были оценены длины белков, закодированных в геноме данной археи.

Рис.1. Гистограмма длин белков, закодированных в геноме (длины измеряются в аминокислотах).

Большое количество белков в геноме данной археи имеют длину от 50 до 350 аминокислот и достаточно равномерно распределены по всему этому промежутку, заметных пиков нет (рис. 1). Белков с длиной меньше 50 или больше 1000 также немного, что типично для генома архей [2].

Медианное значение длин белков составляет 252 аминокислотных остатка, что свойственно археям-термофилам, и даже несколько превышает характерную для них медиану (244 а.о.) [3].

GC-состав CDS археи Halomicroarcula marina

Была построена гистограмма (рис. 2), отображающая распределение процентного содержания нуклеотидов G и C в кодирующих последовательностях.

Рис.2. Гистограмма GC-состава генома Halomicroarcula marina

Из рис. 2 видно, что большинство белков кодируется генами с 61-72% содержанием нуклеотидов G и C, пик приходится на 67-68%. Несколько исследований показали [4], что достаточно высокое геномное GC-содержание (выше 60%) является общей чертой экстремальных галофилов, хотя существуют и исключения - например, экстремально галофильный организм Haloquadratum walsbyi с удивительно низким геномным GC-содержанием 47,9%.

Число генов белков и генов разных типов РНК в геноме Halomicroarcula marina

Было подсчитано число всех генов, кодирующих белки, некодирующих последовательностей и генов, отвечающих за РНК разных типов, с учетом их расположения на разных репликонах (табл. 1).

Таблица 1. Число генов, кодирующих белки и различные типы РНК
Репликон Хромосома (NZ_CP100404.1) Плазмида (NZ_CP100405.1) Плазмида (NZ_CP100406.1) Всего
CDS, кодирующие белки 3461 318 32 3811
CDS, не кодирующие белки 20 20 0 40
tRNA 47 0 0 47
rRNA 9 0 0 9
ncRNA 2 0 0 2
Всего 3539 338 32 3909

Согласно табл. 1, большая часть генов — 3539 из 3909, что составляет примерно 90,53% — оказалась сосредоточена на хромосоме, а на обеих плазмидах суммарно присутствует 370 генов, причем на одной из них всего 32.

Кроме того, основная часть генов кодирует белки — 3811 из 3909, то есть около 97,5%, а на гены РНК всех типов суммарно приходится только 58 генов. CDS, не кодирующие белки, находятся в 40 генах.

Также, гены, отвечающие за РНК всех типов, имеются только на хромосоме, а на плазмидах не присутствует ни одного, что не совсем обычно [5].

Доли от длины репликонов, соответствующие генам белков, разных типов РНК и межгенным промежуткам

Было проведено сравнение долей длин разных генов, которые они занимают на хромосоме и плазмидах (табл. 2).

Таблица 2. Процентное содержание генов, кодирующих белки, разные типы РНК и межгенных промежутков от длины каждого репликона
Репликон Хромосома (NZ_CP100404.1) Плазмида (NZ_CP100405.1) Плазмида (NZ_CP100406.1)
CDS, кодирующие белки 89,23% 79,49% 91,82%
CDS, не кодирующие белки 0,38% 2,13% 0,00%
tRNA 0,11% 0,00% 0,00%
rRNA 0,40% 0,00% 0,00%
ncRNA 0,02% 0,00% 0,00%
Межгенные промежутки 9,86% 18,38% 8,18%

Основная часть длины хромосомы и плазмид занята CDS, кодирующими белки. Доля длины генов, отвечающих за разные типы РНК незначительна — всего 0,91% суммарно для всех типов, причем они полностью отсутствуют на плазмидах. Кроме того, на всех типах репликонов значимую часть занимают межгенные промежутки — от 8,18% до 18,38%.

Оценка GC-состава CDS, находящихся на хромосоме и плазмидах

Были построены диаграммы (рис. 3), отображающие распределение процентного содержания нуклеотидов G и C в хромосоме и двух плазмидах.

Рис.3. GC-состав для хромосомы NZ_CP100404.1 (диаграмма A). GC-состав для плазмиды NZ_CP100405.1 (диаграмма B). GC-состав для плазмиды NZ_CP100406.1 (диаграмма C). Доли диаграммы соответствуют GC-составу в процентах.

Из полученных результатов можно сделать вывод о том, что для плазмид характерен более низкий GC-состав, так как в хромосоме большую часть занимают гены с 65-70% GC-составом — 53,7% от всех исследованных генов на хромосоме, а у плазмид такое же содержание G и C нуклеотидов свойственно 16,6% и 46,9% генам. Кроме того, в плазмидах больше генов с 60-65% GC-составом — на хромосоме таких генов всего 24,5%, а на плазмидах — 39,9% и 31,3%. Также, достаточно значимо отличается количество генов с 55-60% GC-составом — на хромосоме таких генов всего 4,6%, а на плазмидах — 8,6% и 6,3%.

Полученные результаты можно соотнести с исследованиями, согласно которым GC-состав плазмид меньше, чем у хромосом [6].

Таким образом, у Halomicroarcula marina типичное для архей распределение нуклеотидов G и C в хромосоме и плазмидах.

Возможные дальнейшие исследования

В дальнейшем было бы интересно детально проанализировать состав белков, закодированных в геноме Halomicroarcula marina и проверить данную архею на характерные для галофильных бактерий аминокислоты.

Исследователи из Индийского института химической биологии (IICB) обнаружили [4], что галофильные протеомы в целом характеризуются более высокой гидрофильностью по сравнению с негалофилами. При высоких концентрациях соли белки, как правило, дестабилизируются, и галофильные организмы предпочитают использовать в белках аминокислотные остатки Asp (аспаргиновая кислота), Glu (глутаминовая кислота), Val (валин) и Thr (треонин) вместо Lys (лизин), Met (метионин), Leu (лейцин), Ile (изолейцин) и Cys (цистеин). Это связано с тем, что, например, отрицательно заряженные Asp и Glu могут локализоваться в участках на поверхности белков, и связывая сеть гидратированных катионов, они помогают поддерживать активность белков при высоких концентрациях соли.

Однако в галофильной архее H. walsbyi, которая упоминалась в этом мини-обзоре ранее, использование достаточно гидрофобного остатка Ile выше обычного для галофильных организмов, что может быть связано с его значительно более низким содержанием GC в геноме (47,9%).

Таким образом, было бы интересно провести анализ генома Halomicroarcula marina и выяснить, состоят ли её белки из типичных для галофильных организмов аминокислотных остатков, или, может быть, она является редким исключением, подобным H. walsbyi.

БЛАГОДАРНОСТИ

Хочу выразить большую признательность нашим преподавателям биоинформатики за усердное сеяние разумного-доброго-вечного. Также, благодарю своих однокурсников за возможность совместно выражать радость от обучения на прекраснейшем факультете. В частности, особая благодарность моей подруге и одногруппнице Марии Ложкиной за продуктивный совместный мозговой штурм одним субботним вечером.

Кроме того, хочу поблагодарить Александру Элбакян за создание чудесного интернет-ресурса Sci-Hub, и своего старшего брата Яромира за то, что он рассказал мне об этом сайте.

СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ

CDS from genome of Halomicroarcula marina (https://docs.google.com/spreadsheets/d/1Wd2sHL9xlfbIQSAV7aQPWH_9wkGXzotWnes0jgSwyXk/edit?gid=981130263#gid=981130263 )

Feature table of Halomicroarcula marina (https://docs.google.com/spreadsheets/d/1T59Qw7k1UQclBDJKJHq6bbJZd9QMGSVGXpOpuPeSyA0/edit?gid=1688024918#gid=1688024918 )

СПИСОК ЛИТЕРАТУРЫ

[1] Echigo A. Halomicroarcula // Руководство Берджи по систематике архей и бактерий. — 2015. — С. 1–9.

[2] Замятнин А. А., Белозерская Т. А. Размер природных линейных пептидных структур //Актуальные вопросы биологической физики и химии. – 2019. – Т. 4. – №. 3. – С. 315.

[3] Brocchieri L., Karlin S. Protein length in eukaryotic and prokaryotic proteomes //Nucleic acids research. – 2005. – Т. 33. – №. 10. – С. 3390-3400.

[4] Paul S. et al. Molecular signature of hypersaline adaptation: insights from genome and proteome composition of halophilic prokaryotes //Genome biology. – 2008. – Т. 9. – №. 4. – С. R70.

[5] Brantl S. Plasmid replication control by antisense RNAs //Plasmids: Biology and Impact in Biotechnology and Discovery. – 2015. – С. 83-103.

[6] Nishida H. Comparative analyses of base compositions, DNA sizes, and dinucleotide frequency profiles in archaeal and bacterial chromosomes and plasmids //International journal of evolutionary biology. – 2012. – Т. 2012. – №. 1. – С. 342482.