Обзор некоторых особенностей генома археи Halomicroarcula marina
АННОТАЦИЯ
В этом мини-обзоре было проведено исследование генома археи Halomicroarcula marina . Было проанализировано распределение длин генов, кодирующих белки, и GC-состав генов. Проведена количественная оценка генов разных типов на хромосоме и плазмидах, а также оценка пропорциональной доли этих генов от длины каждого репликона. Кроме того, был оценен GC-состав генов отдельно для хромосомы и плазмид, а также предложено возможное дальнейшее исследование генома Halomicroarcula marina.
ВВЕДЕНИЕ
Halomicroarcula marina относится к роду Halomicroarcula , признанному базионимом для рода Haloarcula [1]. Представители этого рода — грамотрицательные организмы, в оптимальных условиях роста клетки имеют плеоморфную форму. Haloarcula являются облигатными галофилами, которые лизируются в дистиллированной воде и для роста нуждаются как минимум в 0,9–3,4М NaCl, а оптимальная концентрация NaCl для их роста составляет 2,1–4,3 М, в зависимости от вида. Они являются хемоорганотрофами и могут расти на ограниченном количестве простых сахаров и органических кислот. Эти организмы были получены из морской соли, добываемой во Франции, и из солончаковых озёр в Китае [1].
Таксономическая принадлежность [1]:
Домен : Archaea
Царство : Methanobacteriati
Отдел : Methanobacteriota
Класс : Halobacteria
Порядок : Halobacteriales
Семейство : Halobacteriaceae
Род : Halomicroarcula
Вид : Halomicroarcula marina
МАТЕРИАЛЫ И МЕТОДЫ
Данные о геноме изучаемой археи были получены с сайта NCBI Genome (https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/024/218/775/GCF_024218775.1_ASM2421877v1/ ).
Обработка данных проводилась с помощью электронных таблиц Google sheets:
- Длины белков анализировались с помощью таблицы CDS генома Halomicroarcula marina (см. сопроводительные материалы (1)), лист prot_lengths и prot_lengths_hist.
- GC-состав проанализирован с помощью таблицы CDS генома Halomicroarcula marina (см. сопроводительные материалы (1)), лист gc_hist.
- Число генов белков и генов разных типов РНК получено из таблицы Feature table генома Halomicroarcula marina (см. сопроводительные материалы (2)), лист per-replicones.
- Процентное содержание генов, кодирующих белки, разные типы РНК и межгенных промежутков от длины каждого репликона проанализировано с помощью таблицы Feature table генома Halomicroarcula marina (см. сопроводительные материалы (2)), лист percents_of_length.
- GC-состав для отдельных репликонов был проанализирован с помощью таблицы CDS генома Halomicroarcula marina (см. сопроводительные материалы (1)), лист GC_for_replicones.
Основной анализ был проведен командами СЧЁТЕСЛИМН, СУММЕСЛИМН.
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
Длины белков, закодированных в геноме археи Halomicroarcula marina
На основе данных из таблицы CDS генома Halomicroarcula marina (см. сопроводительные материалы (2)), были оценены длины белков, закодированных в геноме данной археи.
Большое количество белков в геноме данной археи имеют длину от 50 до 350 аминокислот и достаточно равномерно распределены по всему этому промежутку, заметных пиков нет (рис. 1). Белков с длиной меньше 50 или больше 1000 также немного, что типично для генома архей [2].
Медианное значение длин белков составляет 252 аминокислотных остатка, что свойственно археям-термофилам, и даже несколько превышает характерную для них медиану (244 а.о.) [3].
GC-состав CDS археи Halomicroarcula marina
Была построена гистограмма (рис. 2), отображающая распределение процентного содержания нуклеотидов G и C в кодирующих последовательностях.
Из рис. 2 видно, что большинство белков кодируется генами с 61-72% содержанием нуклеотидов G и C, пик приходится на 67-68%. Несколько исследований показали [4], что достаточно высокое геномное GC-содержание (выше 60%) является общей чертой экстремальных галофилов, хотя существуют и исключения - например, экстремально галофильный организм Haloquadratum walsbyi с удивительно низким геномным GC-содержанием 47,9%.
Число генов белков и генов разных типов РНК в геноме Halomicroarcula marina
Было подсчитано число всех генов, кодирующих белки, некодирующих последовательностей и генов, отвечающих за РНК разных типов, с учетом их расположения на разных репликонах (табл. 1).
| Репликон | Хромосома (NZ_CP100404.1) | Плазмида (NZ_CP100405.1) | Плазмида (NZ_CP100406.1) | Всего |
|---|---|---|---|---|
| CDS, кодирующие белки | 3461 | 318 | 32 | 3811 |
| CDS, не кодирующие белки | 20 | 20 | 0 | 40 |
| tRNA | 47 | 0 | 0 | 47 |
| rRNA | 9 | 0 | 0 | 9 |
| ncRNA | 2 | 0 | 0 | 2 |
| Всего | 3539 | 338 | 32 | 3909 |
Согласно табл. 1, большая часть генов — 3539 из 3909, что составляет примерно 90,53% — оказалась сосредоточена на хромосоме, а на обеих плазмидах суммарно присутствует 370 генов, причем на одной из них всего 32.
Кроме того, основная часть генов кодирует белки — 3811 из 3909, то есть около 97,5%, а на гены РНК всех типов суммарно приходится только 58 генов. CDS, не кодирующие белки, находятся в 40 генах.
Также, гены, отвечающие за РНК всех типов, имеются только на хромосоме, а на плазмидах не присутствует ни одного, что не совсем обычно [5].
Доли от длины репликонов, соответствующие генам белков, разных типов РНК и межгенным промежуткам
Было проведено сравнение долей длин разных генов, которые они занимают на хромосоме и плазмидах (табл. 2).
| Репликон | Хромосома (NZ_CP100404.1) | Плазмида (NZ_CP100405.1) | Плазмида (NZ_CP100406.1) |
|---|---|---|---|
| CDS, кодирующие белки | 89,23% | 79,49% | 91,82% |
| CDS, не кодирующие белки | 0,38% | 2,13% | 0,00% |
| tRNA | 0,11% | 0,00% | 0,00% |
| rRNA | 0,40% | 0,00% | 0,00% |
| ncRNA | 0,02% | 0,00% | 0,00% |
| Межгенные промежутки | 9,86% | 18,38% | 8,18% |
Основная часть длины хромосомы и плазмид занята CDS, кодирующими белки. Доля длины генов, отвечающих за разные типы РНК незначительна — всего 0,91% суммарно для всех типов, причем они полностью отсутствуют на плазмидах. Кроме того, на всех типах репликонов значимую часть занимают межгенные промежутки — от 8,18% до 18,38%.
Оценка GC-состава CDS, находящихся на хромосоме и плазмидах
Были построены диаграммы (рис. 3), отображающие распределение процентного содержания нуклеотидов G и C в хромосоме и двух плазмидах.
Из полученных результатов можно сделать вывод о том, что для плазмид характерен более низкий GC-состав, так как в хромосоме большую часть занимают гены с 65-70% GC-составом — 53,7% от всех исследованных генов на хромосоме, а у плазмид такое же содержание G и C нуклеотидов свойственно 16,6% и 46,9% генам. Кроме того, в плазмидах больше генов с 60-65% GC-составом — на хромосоме таких генов всего 24,5%, а на плазмидах — 39,9% и 31,3%. Также, достаточно значимо отличается количество генов с 55-60% GC-составом — на хромосоме таких генов всего 4,6%, а на плазмидах — 8,6% и 6,3%.
Полученные результаты можно соотнести с исследованиями, согласно которым GC-состав плазмид меньше, чем у хромосом [6].
Таким образом, у Halomicroarcula marina типичное для архей распределение нуклеотидов G и C в хромосоме и плазмидах.
Возможные дальнейшие исследования
В дальнейшем было бы интересно детально проанализировать состав белков, закодированных в геноме Halomicroarcula marina и проверить данную архею на характерные для галофильных бактерий аминокислоты.
Исследователи из Индийского института химической биологии (IICB) обнаружили [4], что галофильные протеомы в целом характеризуются более высокой гидрофильностью по сравнению с негалофилами. При высоких концентрациях соли белки, как правило, дестабилизируются, и галофильные организмы предпочитают использовать в белках аминокислотные остатки Asp (аспаргиновая кислота), Glu (глутаминовая кислота), Val (валин) и Thr (треонин) вместо Lys (лизин), Met (метионин), Leu (лейцин), Ile (изолейцин) и Cys (цистеин). Это связано с тем, что, например, отрицательно заряженные Asp и Glu могут локализоваться в участках на поверхности белков, и связывая сеть гидратированных катионов, они помогают поддерживать активность белков при высоких концентрациях соли.
Однако в галофильной архее H. walsbyi, которая упоминалась в этом мини-обзоре ранее, использование достаточно гидрофобного остатка Ile выше обычного для галофильных организмов, что может быть связано с его значительно более низким содержанием GC в геноме (47,9%).
Таким образом, было бы интересно провести анализ генома Halomicroarcula marina и выяснить, состоят ли её белки из типичных для галофильных организмов аминокислотных остатков, или, может быть, она является редким исключением, подобным H. walsbyi.
БЛАГОДАРНОСТИ
Хочу выразить большую признательность нашим преподавателям биоинформатики за усердное сеяние разумного-доброго-вечного. Также, благодарю своих однокурсников за возможность совместно выражать радость от обучения на прекраснейшем факультете. В частности, особая благодарность моей подруге и одногруппнице Марии Ложкиной за продуктивный совместный мозговой штурм одним субботним вечером.
Кроме того, хочу поблагодарить Александру Элбакян за создание чудесного интернет-ресурса Sci-Hub, и своего старшего брата Яромира за то, что он рассказал мне об этом сайте.
СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ
CDS from genome of Halomicroarcula marina (https://docs.google.com/spreadsheets/d/1Wd2sHL9xlfbIQSAV7aQPWH_9wkGXzotWnes0jgSwyXk/edit?gid=981130263#gid=981130263 )
Feature table of Halomicroarcula marina (https://docs.google.com/spreadsheets/d/1T59Qw7k1UQclBDJKJHq6bbJZd9QMGSVGXpOpuPeSyA0/edit?gid=1688024918#gid=1688024918 )
СПИСОК ЛИТЕРАТУРЫ
[1] Echigo A. Halomicroarcula // Руководство Берджи по систематике архей и бактерий. — 2015. — С. 1–9.
[2] Замятнин А. А., Белозерская Т. А. Размер природных линейных пептидных структур //Актуальные вопросы биологической физики и химии. – 2019. – Т. 4. – №. 3. – С. 315.
[3] Brocchieri L., Karlin S. Protein length in eukaryotic and prokaryotic proteomes //Nucleic acids research. – 2005. – Т. 33. – №. 10. – С. 3390-3400.
[4] Paul S. et al. Molecular signature of hypersaline adaptation: insights from genome and proteome composition of halophilic prokaryotes //Genome biology. – 2008. – Т. 9. – №. 4. – С. R70.
[5] Brantl S. Plasmid replication control by antisense RNAs //Plasmids: Biology and Impact in Biotechnology and Discovery. – 2015. – С. 83-103.
[6] Nishida H. Comparative analyses of base compositions, DNA sizes, and dinucleotide frequency profiles in archaeal and bacterial chromosomes and plasmids //International journal of evolutionary biology. – 2012. – Т. 2012. – №. 1. – С. 342482.