Мини-обзор генома Natranaerobius thermophilus

Mини-обзор генома бактерии Natranaerobius thermophilus JW/NM-WN-LF

Автор: Левшин Вадим Игоревич
Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова
Контактные данные: Dima.Tumanovs@yandex.ru

NCBI GenBank / feature table mini-review Google Sheets Python

АННОТАЦИЯ

Данный мини-обзор является анализом генома и протеома грамотрицательной бактерии Natranaerobius thermophilus JW/NM-WN-LF на основе аннотаций NCBI. Проанализированы распределения длин белков, распределения гена различных типов по репликонам интервалы и перекрытия между кодирующими последовательностями на плюс-цепи хромосомы, а также функциональная классификация белков по текстовым аннотациям. Анализ выполнен с использованием функционала электронных таблиц и скрипта на Python. Обзор носит описательный характер, результаты по возможности подкрепляются биоинформатическими закономерностями.

ВВЕДЕНИЕ

Таксономия:

Домен – Bacteria;
Отряд – Bacillota;
Класс – Clostridia;
Порядок – Natranaerobiales;
Семейство – Natranaerobiaceae;
Род – Natranaerobius;
Вид – Natranaerobius thermophilus.

Natranaerobius thermophilus JW/NM-WN-LF — анаэробная галоалкалитермофильная бактерия, выделенная из донных осадков щёлочного и гиперсолёного озера Вади ан-Натрун (Египет) [1]. Клетки палочковидной формы, неподвижные, не образуют спор. Организм способен расти при температуре 35–56 °C (оптимум около 53 °C) и при pH 8.3–10.6 (оптимум около 9.5) в средах с высокой концентрацией натрия (примерно 3.3–3.9 М Na⁺, что соответствует 1.7–2.3 М NaCl) [1]. На основании анализа гена 16S rRNA штамм был выделен в новый род и вид, а также предложены семейство Natranaerobiaceae fam. nov. и порядок Natranaerobiales ord. nov. [1].

Такая комбинация экстремальных условий — высокая температура, высокая щёлочность и высокая солёность — делает N. thermophilus удобной моделью для изучения молекулярных механизмов адаптации к многокомпонентным стрессам. Полное секвенирование генома показало наличие одной кольцевой хромосомы (~3.16 Мб) и двух плазмид (~17.2 кб и ~8.7 кб), несущих дополнительный набор генов [2]. В геноме обнаружен широкий спектр генов, связанных с регуляцией ионного баланса, осмотической адаптацией и ответом на стресс [2].

Из-за сложностей, связанных с генетическими манипуляциями, в недавнем исследовании использовали мультиомный подход, чтобы выявить комплексные транскриптомические, протеомные и метаболомные особенности N. thermophilus в условиях тройного экстремума. В частности, оценивались два различных состояния: высокосолевой щелочно-термический стресс (HSAT, 4 М Na+/ pH 9,8/52 °C) и низкосолевой щелочно-термический стресс (LSAT, 3 М Na⁺/ pH 8,8/42 °C). В условиях стресса HSAT N. thermophilus увеличил уровень насыщенных жирных кислот и незаряженных полярных липидов, чтобы перестроить свою клеточную мембрану, усилил подвижность жгутиков, обусловленную Na⁺, накопил различные совместимые растворенные вещества, перенаправил метаболизм аминокислот на выработку энергии и отрегулировал активность ионных транспортеров и шаперонов. Эти результаты иллюстрируют принцип «бесплатных обедов» для полиэкстремофилов. Изучив изменения на уровне генов, белков и метаболической регуляции у N. thermophilus в условиях одновременного воздействия трёх экстремальных факторов [3].

Цель настоящего мини-обзора — описать основные особенности организации генома и протеома N. thermophilus JW/NM-WN-LF на основе аннотаций NCBI и простых биоинформатических анализов. В работе рассматриваются:

распределение длин белков в протеоме;
распределение генов различных типов по репликонам;
распределение расстояний между последовательными CDS на плюс-цепи основной хромосомы;
анализ перекрытий между CDS, расположенными последовательно на плюс-цепи;
классификацию белков по функциональным категориям на основе ключевых слов аннотаций.

МАТЕРИАЛЫ И МЕТОДЫ

Последовательность генома и аннотированные списки генов N. thermophilus JW/NM-WN-LF были получены с сайта NCBI (National Center for Biotechnology Information) в формате GenBank/таблиц особенностей. На их основе сформированы рабочие таблицы, содержащие координаты CDS, длины генов и белков, а также текстовые аннотации.

Анализ длин белков — для всех CDS использовались аннотированные длины белков; распределение по интервалам и средние значения рассчитывались в Google Sheets с применением стандартных формул и COUNTIF.

Распределение генов по репликонам — число CDS, rRNA, tRNA и других генов подсчитывалось по полю gbkey в feature table с помощью фильтрации и сводных таблиц Google Sheets.

Интергенные интервалы — для последовательных CDS на плюс-цепи основной хромосомы вычислялись расстояния между CDS как разность между началом следующей и концом текущей. Отрицательные значения исключались. Частотные классы интервалов вычислены в Google Sheets.

Перекрывающиеся CDS — для тех же пар CDS вычислялась длина перекрытия как end – next_start + 1 при значении ≥1. Распределение перекрытий получено средствами Google Sheets.

Классификация белков по функциональным категориям — текстовые аннотации (поле Description) классифицировались с помощью скрипта на Python, использующего регулярные выражения для поиска диагностических ключевых слов. Исходный код приведены в материале S6 сопроводительных материалов.

Построение графиков — все гистограммы (длины белков, интервалы, перекрытия, категории) построены средствами Google Sheets.

РЕЗУЛЬТАТЫ

1. РАСПРЕДЕЛЕНИЕ ДЛИН БЕЛКОВ В ПРОТЕОМЕ

Анализ длины белков, закодированных в геноме N. thermophilus, показал, что распределение имеет выраженный максимум в диапазоне 120–360 аминокислотных остатков. Доля белков, длина которых попадает в этот интервал, составляет примерно половину протеома (около 51 % от 2954 белков), тогда как средняя длина белка составляет ~314 аминокислот.

Рисунок 1. Гистограмма распределения длин белков.

На гистограмме длин белков (рисунок 1) виден правый «хвост» распределения: небольшое число белков имеет длину >1000 аминокислот.

Наблюдаемое распределение длин белков с максимумом в диапазоне 120–360 аминокислот типично для бактериальных протеомов и отражает преобладание ферментов и структурных белков средней длины. Наличие правого «хвоста» распределения, представленного небольшим числом очень длинных белков (>1000 а.о.), может быть связано с присутствием много-доменных белков, участвующих в регуляции, транспорте или сложных метаболических процессах. Подобная структура распределения длин белков согласуется с данными для других прокариотических геномов и отражает баланс между функциональной сложностью белков и компактностью генома.

Расчёты выполнены на основе таблицы длин белков, приведённой в материале S3 сопроводительных материалов.

2. РАСПРЕДЕЛЕНИЕ ГЕНОВ РАЗЛИЧНЫХ ТИПОВ ПО РЕПЛИКОНАМ

Геном N. thermophilus включает одну основную хромосому (NC_010718.1) и две плазмиды (NC_010715.1 и NC_010724.1). Число генов разных типов по репликонам приведено в таблице 1.

Репликон (genomic_accession)	CDS	ncRNA	rRNA	tmRNA	tRNA	Итого
NC_010718.1	2929	3	12	1	51	2996
NC_010715.1	16	-	-	-	-	16
NC_010724.1	9	-	-	-	-	9

Основная хромосома содержит подавляющее большинство генетической информации, включая все гены rRNA и tRNA. Две плазмиды (pNTHE01 и pNTHE02) включают небольшое количество дополнительных белок-кодирующих генов (16 и 9 соответственно) и не содержат генов рРНК. Такое распределение типично для бактерий, в которых плазмиды выполняют роль вспомогательных элементов, обеспечивая, например, специфические метаболические возможности, тогда как основная хромосома отвечает за базовые жизненно важные функции клетки [4].

Исходная таблица приведена в материале S1 сопроводительных материалов.

3. РАСПРЕДЕЛЕНИЕ ИНТЕРГЕННЫХ ИНТЕРВАЛОВ МЕЖДУ CDS НА ПЛЮС-ЦЕПИ ХРОМОСОМЫ (NC_010718.1)

Для основной хромосомы Natranaerobius thermophilus (репликон NC_010718.1) были рассчитаны расстояния между последовательными кодирующими последовательностями (CDS), расположенными на плюс-цепи. В анализ включались только неперекрывающиеся пары CDS (интервалы с отрицательной длиной не учитывались). Всего было получено 1336 интергенных интервалов.

Рисунок 2. Гистограмма распределения интергенных интервалов между CDS (плюс-цепь, NC_010718.1).

Длины интервалов варьируют от 0 до 77 666 п.н., при среднем значении примерно 1300 п.н.. Такая большая разница между минимальным и максимальным значениями показывает, что в геноме присутствуют как очень короткие промежутки между CDS, так и крупные некодирующие области. Наиболее многочисленные классы — 0–74 и 75–149 п.н., которые вместе составляют 767 интервалов. Это больше половины всего массива данных и говорит о том, что большая часть генов расположена очень компактно.

Интервалы от 150 до 1049 п.н. встречаются реже (от 3 до 102 интервалов на класс). Отдельно выделяется самая крупная группа интервалов — ≥1050 п.н. (261 интервал).

Геном N. thermophilus сочетает компактные участки, где гены расположены близко друг к другу (0–149 п.н.), и крупные некодирующие области, представленные интервалами ≥1050 п.н.

Полученное распределение интергенных интервалов отражает известную особенность бактериальных геномов: гены в них распределены неравномерно и образуют плотные группы. Подобная кластеризация является общем свойством бактериальных хромосом, поэтому преобладание коротких интергенных интервалов в геноме Natranaerobius thermophilus согласуется с тем, что многие бактериальные гены располагаются компактно [7].

Одним из биологических оснований такой компактности является работа оперонов и ко-регулируемых генов. Это полностью соответствует наблюдаемым данным: большое число коротких интервалов <150 п.н. указывает на локальные группы генов, которые могут работать в составе общих функциональных модулей [7].

Одновременно с этим значительная доля длинных интергенных промежутков в геноме N. thermophilus также хорошо объясняется тем, что бактериальные геномы подвергаются постоянным перестройкам, вставкам и удалениям генов. Такие процессы являются постоянным фактором эволюции прокариот. [7] Эти механизмы легко приводят к возникновению больших межгенных промежутков — что мы и наблюдаем в длинном правом хвосте распределения. Вставки новых генов могут разрушать существующие кластеры, создавая более разреженные участки. То есть эволюционные события могут как формировать плотные генные блоки, так и разрывать их, оставляя большие некодирующие регионы [7].

Полный список интергенных интервалов и их распределение по класса приведены в материале S4 сопроводительных материалов.

4. ПЕРЕКРЫТИЯ МЕЖДУ ПОСЛЕДОВАТЕЛЬНЫМИ КОДИРУЮЩИМИ ПОСЛЕДОВАТЕЛЬНОСТЯМИ

Рисунок 3. Гистограмма длин перекрытий между последовательными кодирующими последовательностями на плюс-цепи основной хромосомы (NC_010718.1).

Для выявления особенностей организации генома Natranaerobius thermophilus был проведён анализ пересечений между соседними кодирующими последовательностями (CDS), расположенными на плюс-цепи основной хромосомы (NC_010718.1). В анализ включались только случаи, когда конец текущей CDS расположен правее или на уровне начала следующей CDS.

На гистограмме видно, что большинство пересечений имеют длину в диапазоне от 0 до ~15–20 нуклеотидов; число перекрытий резко падает при увеличении длины, и длинных перекрытий (> 50–100 нуклеотидов) почти нет. То есть длинные CDS-перекрытия — редкость.

Пик распределения — в самом левом диапазоне (0–5–10 п.н.), затем постепенное снижение. Это говорит о том, что если в этом геноме действительно есть перекрывающиеся гены, то они почти всегда перекрываются очень мало.

Если бы гены регулярно формировали большие перекрывающие CDS, мы бы ожидали больше длинных перекрытий. Но при этом наблюдается обратное: «оголённость» перекрытий. Это может означать, что либо гены преимущественно располагаются без перекрытия, либо перекрытия тщательно «сдерживаются» механизмами эволюции / аннотации.

Как описано в литературе, перекрывающиеся гены (особенно когда они кодируют белки) накладывают серьёзные ограничения: одну и ту же последовательность нужно «удовлетворять» требованиям двух (или более) белков одновременно. Перекрытия являются потенциально важными регуляторами транскрипции и трансляции экспрессии генов и влияют на эволюцию генов [6].

Гистограмма показывает почти полное отсутствие значимых длинных перекрывающих областей. Это согласуется с тем, что длинные перекрытия встречаются главным образом в компактных геномах (например, вирусах), а в более крупных геномах обычно минимальны [7].

Список всех пар перекрывающихся CDS с указанием координат и длины перекрытий приведён в материале S5 сопроводительных материалов.

5. КЛАССИФИКАЦИЯ БЕЛКОВ ПО ФУНКЦИОНАЛЬНЫМ КАТЕГОРИЯМ НА ОСНОВЕ ТЕКСТОВЫХ ОПИСАНИЙ

Для классификации использовались регулярные выражения и набор заранее определённых ключевых слов, соответствующих основным функциональным группам:

Рисунок 4. Число генов, относящихся к различным функциональным категориям, присвоенным по ключевым словам из аннотаций (Description).

Metabolism — ферменты метаболических путей;
Transport/Membrane — транспортёры, порины, мембранные белки;
Regulation/Replication — факторы транскрипции, регуляторы, белки репликации;
Ribosomal/Translation — рибосомные белки и факторы трансляции;
DNA repair — белки репарации ДНК;
Mobile elements — транспозазы, интегразы, фаговые белки;
Hypothetical — гипотетические и неохарактеризованные белки;
Other — гены, не попавшие ни в одну категорию.

Наибольшую группу составляют белки, не попавшие ни в одну из категорий (Other). Это объясняется ограниченностью ключевых слов и разнообразием аннотаций.

Второй по величине категории является Metabolism, что отражает высокую представленность ферментов в бактериальном геноме.

Значительная доля Hypothetical proteins также является нормальной и типичной для прокариотических геномов, где многие белки остаются плохо охарактеризованными.

Наличие Mobile elements свидетельствует о присутствии в геноме подвижных генетических элементов и, вероятно, фаговых вставок или участков горизонтального переноса.

Категории Regulation/Replication, DNA repair и Ribosomal/Translation по числу генов также соответствуют типичному набору для бактерий.

Таким образом, предложенный метод позволяет получить общую картину функционального распределения генов и может служить отправной точкой для дальнейшего анализа генома.

Результаты классификации приведены в таблице S7 сопроводительных материалов.

Сопроводительные материалы

S1. Таблица генов РНК (rRNA, tRNA, tmRNA, ncRNA)

Описание: таблица, полученная фильтрацией хромосомной аннотации NCBI по типам некодирующих генов. Содержит координаты, тип РНК, длину гена, а также принадлежность к репликону. Использовалась при составлении Таблицы 1.

Источник: файл «Feature_table – per_replicones».

S2. Исходная таблица CDS и белков (координаты, длины, аннотации)

Описание: агрегированная таблица, созданная на основе feature table NCBI. Содержит координаты всех CDS, длины нуклеотидных последовательностей и длины аминокислотных последовательностей, а также текстовые аннотации Description. Использовалась для всех подсчётов в разделах «Результаты».

Источник: файлы «Feature_table — Распределение интервалов» и «Feature_table — Классификация белков».

S3. Таблица длин белков и гистограммные интервалы

Описание: таблица, включающая длины всех белков из хромосомы и плазмид, интервалы для гистограммы, частоты попадания. Использовалась для построения Диаграммы 1 по распределению длины белков.

Источник: файлы «F. – prot_lengths» и «F. – prot_lengths(class)».

S4. Таблица интергенных интервалов на плюс-цепи хромосомы NC_010718.1

Описание: содержит длины интервалов между последовательными CDS, классификацию по диапазонам и количество интервалов в каждом классе. Использовалась для построения Диаграммы 2 и формирования описания интергенной структуры.

Источник: файл «Feature_table — Распределение интервалов».

S5. Таблица перекрытий между соседними CDS на плюс-цепи

Описание: список всех пар CDS, у которых наблюдается перекрытие, с указанием координат, длины перекрытия и типа пересечения. Использовалась при построении Диаграммы 3.

Источник: файлы «F. – Перекрывающиеся_CDS» и «F. – Перекрывающиеся_CDS (гистограмма)».

S6. Скрипт Python для классификации белков по функциональным категориям

Описание: программа, использующая регулярные выражения для поиска ключевых слов в поле Description и присвоения белкам функциональных категорий (Metabolism, Transport/Membrane, Regulation/Replication и др.). Результат работы программы — столбец Category и таблица распределения категорий. Скрипт присваивал каждому белку категорию и формировал итоговое распределение. Для каждого описания выполнялся поиск совпадений с ключевыми словами; при успехе белку назначалась соответствующая категория. Если ни одно слово не встречалось, категория отмечалась как Other.

Источник: код на Python.

S7. Таблица результатов классификации белков

Описание: итоговое распределение функциональных категорий белков, полученное Python-скриптом: число белков в каждой категории и итоговая диаграмма (Диаграмма 4).

Источник: файл «Feature_table — Классификация белков».

СПИСОК ЛИТЕРАТУРЫ

Mesbah N. M., Hedrick D. B., Peacock A. D., Rohde M., & Wiegel J. (2007). Natranaerobius thermophilus gen. nov., sp. nov., a halophilic, alkalithermilic bacterium from soda lakes of the Wadi An Natrun, Egypt, and proposal of Natranaerobiaceae fam. nov. and Natranaerobiales ord. nov. Int. J. Syst. Evol. Microbiol., 57(11), 2507-2512. DOI 10.1099/ijs.0.65068-0.
Zhao B., Mesbah N. M., Dalin E., Goodwin L., Nolan M. et al. (2011). Complete genome sequence of the anaerobic, halophilic alkalithermophile Natranaerobius thermophilus JW/NM-WN-LF. J. Bacteriol., 193(11), 4023-4024. DOI 10.1128/JB.05157-11.
Xing Q., Tao X., Zhang S., Mesbah N. M., Mao X., Guo X., Hu Q., Wang H., Zhao B. (2025). Multiomics Reveals the Mechanism of Natranaerobius thermophilus Adaptation to Combined Hypersaline, Alkaline, and Elevated Temperature Environments. J. Proteome Res., 24(8), 4243-4258. DOI 10.1021/acs.jproteome.5c00395
Н.В. Равин, С.В. Шестаков (2013). Геном прокариот. Вавиловский журнал генетики и селекции, Том 17, № 4/2
Fang, G., Rocha, E. P. C., & Danchin, A. (2008). Persistence drives gene clustering in bacterial genomes. BMC Genomics, 9, 4. DOI/10.1186/1471-2164-9-4
Zackary I Johnson, Sallie W Chisholm. (2004) Properties of overlapping genes are conserved across microbial genomes, 14(11), 2268-72. DOI 10.1101/gr.2433104.
Laura Muñoz-Baena, Art F Y Poon (2022). Using networks to analyze and visualize the distribution of overlapping genes in virus genomes, Feb 24;18(2):e1010331. DOI 10.1371/journal.ppat.1010331.

↑ Наверх

LEVSHIN VADIM

Мини-обзор генома бактерии Natranaerobius thermophilus JW/NM-WN-LF