Мини-обзор генома Streptococcus thermophilus

Демидов И. П.

Резюме: В данной работе представлен краткий анализ генома и протеома Streptococcus thermophilus, выполненный с помощью инструментария электронных таблиц и програмирования на языке Python

1   Введение

Streptococcus thermophilus (формальное название - Streptococcus salivarius subsp. thermophilus - Schleifer et al., 1995) - это грам-положительная факультативно анаэробная бактерия из филума Bacillota (Таблица 1). Также Streptococcus thermophilus классфицируется как молочнокислая бактерия.

Про данную бактерию известно достаточно много, так как она довольно широко используется в пищевой промышленности в производстве молочнокислых продуктов, таких как йогурт [1]. Хотя род Streptococcus содержит в том числе патогенных представителей (например, S. pyogenes и S. pneumoniae), для S. thermophilus показано отсутствие патогенности [2]. Напротив, S. thermophilus считается пробиотиком и даже используется для поодержки ЖКТ пациентов, проходящих химиотерапию [3]. Таким образом, благодаря практической значимости, S. thermophilus является ценным объектом научных исследований. В данной работе рассматриваются и анализируются данные о геноме и протеоме S. thermophilus.

2   Материалы и методы

Геномные данные S. thermophilus были взяты с сайта NCBI (url). Их дальнейший анализ проводился с использованием инструментария электронных таблиц (построение диаграмм и работа с таблицей особенностей генома), командной оболочки BASH (работа с файлами), скриптов, написанных на языке Python (анализ последовательностей генома), а также сервиса Webskew (genskew.csb.univie.ac.at/webskew).

3   Результаты

3.1 Описание стандартных данных о геноме Streptococcus thermophilus

Геном S. thermophilus состоит из хромосомы и небольшой плазмиды, размер которой - всего 3345 п.н. (Таблица 2, данные получены с помощью S3) Вследствие маленького размера и того, что на плазмиде расположено всего 3 гена, (S1/лист“feature_table”), я не стал ее использовать в других разделах исследования.

По GC-составу понятно, что бактерия живет в относительно умеренных температурных условиях [4]. Более подробный анализ нуклеотидного состава (Таблица 3, S3) показал, что для репликонов выполняется правило Чаргаффа (для плазмиды это менее очевидно, тк существует большая статистическая погрешность из-за маленькой длины).

Также было найдено количество генов различного типа на хромосоме (как уже было сказано, на плазмиде расположено только 3 гена гипотетических белков, поэтому она не используется) (Таблица 4, S1/list “per replicon”).

3.2 Описание некоторых данных о протеоме и белок-кодирующих генах Streptococcus thermophilus

Для протеома бактерии было определено распределение белков по длине, составлена гистограмма (Рисунок 1) и подсчитаны некоторые статистические показатели (Таблица5). Больше всего белков с длиной в пределах 50-300 а.о., что соответствует, скорее всего, несложным одно- или двудоменным белкам.

Еще одним предметом для изучения стали межгенные промежутки и перекрывающиеся гены. Для этого была проанизирована таблица особенностей генома (S1/list”feature_table”), а именно, координаты белок-кодирующих генов. Во-первых, была построена гистограмма расстояний между последовательными кодирующими последовательностями (CDS) на хромосоме (Рис.2). Расстояние, равное нулю соответствует расположенным вплотную генам, расстояние, меньшее нуля - пересекающимся генам.

Наличие довольно большого числа расположенных вплотную, пересекающихся, или расположенных на небольшом расстоянии друг от друга (<50) кодирующих последовательностей может свидетельствовать об опернной организации генома S. thermophilus. Это неудивительно, так как оперонная организация генома в целом характерна для бактерий [5]. Для более подробного изучения данной темы для пересекающихся CDS была построена гистограмма длин их пересечений (Рис.3).

3.3 Предсказание оперонов

Оперонная организация генома позволяет бактериям регулировать одновременно экспрессию целых кластеров генов, вместо того, чтобы регулировать их по отдельности [5]. В Разделе 3.2 настоящей работы высказывается предположение о том, что довольно большое количество генов Streptococcus thermophilus находится в составе оперонов, поэтому я решил попытаться предсказать некоторые опероны на основе иммеющихся данных. Для этого я использовал 2 критерия:

  1. CDS белков оперона идут подряд на одной цепочке ДНК, а межгенные промежутки между ними невелики (либо пересекаются).
  2. Между названиями генов или продуктов можно найти что-то общее, предположить взаимосвязь между ними.

В итоге я нашел довольно много кластеров генов, которые потенциально могут быть оперонами. Например, достаточно много кластеров генов различных субъединиц ABC-переносчиков спецефичных к тому или иному субстрату (S1/list”operones”). В Таблице 6 представлены данные о наиболее примечательных потенциальных оперонах, и указаны ссылки на место в S1 с данным кластером.

Отдельное внимание хотелось бы уделить потенциальному оперону N3 (Таблица 6), так как по некоторым данным [6] способность Streptococcus thermophilus к катаболизму мочевины играет важную роль в сообществах молочнокислых бактерий .

Необходимо отметить, что предсказание мной оперонов не является точным. Для повышения точности предсказания нужно проводить более детальный анализ (например, провести сравнение с известными оперонами в родственной бактерии).

3.4 Предсказание точки начала репликации

Для предсказания положения ориджина (oriC) и точки терминации репликации (ter) был использован показатель кумулятивного GC skew, построен график (Рис. 4) для хромосомы с помощью сервиса Webskew. Метод основан на анализе неравномерности распределения нуклеотидов вдоль последовательности ДНК [7]. Максимальное значение в точке излома соответсвует точке ter, а минимальное - точке oriC. Таким образом, на хромосоме Streptococcus thermophilus ориджин, скорее всего, располагается в окрестностях нулевого нуклеотида, а точка окончания репликации - примерно на 917244 нуклеотиде.

4   Сопроводительные материалы

S1. Ссылка на Google sheet

S2. Отдельные ссылки на опероны: S2.1 S2.2 S2.3 S2.4 S2.5 S2.6 S2.7

S3. Python-скрипты, используемые в работе

5   Литература

[1] Статья в Википедии о бактерии: https://en.wikipedia.org/wiki/Streptococcus_thermophilus

[2] "Streptococcus Thermophilus: A Bacterium Which Is Harmless to Health". International Research Associates. 14 November 2006. Web. 25 April 2011.

[3] Whitford, E. J.; Cummins, A. G.; Butler, R. N.; Prisciandaro, L. D.; Fauser, J. K.; Yazbeck, R; Lawrence, A; Cheah, K. Y.; Wright, T. H.; Lymn, K. A.; Howarth, G. S. (2009). "Effects of Streptococcus thermophilus TH-4 on intestinal mucositis induced by the chemotherapeutic agent, 5-Fluorouracil (5-FU)". Cancer Biology & Therapy. 8 (6): 505–11. https://doi.org/10.4161/cbt.8.6.7594

[4] Lyn C. Radke-Mitchel; W. E. Sandine (1986). "Influence of Temperature on Associative Growth of Streptococcus therrnophilus and Lactobacillus bulgaricus". J. Dairy Sci. 69 (10): 2558–2568.

[5] Статья в Википедии об оперонах: https://en.wikipedia.org/wiki/Operon

[6] Arioli S, Della Scala G, Martinović A, Scaglioni L, Mazzini S, Volonté F, Pedersen MB, Mora D. In Streptococcus thermophilus, Ammonia from Urea Hydrolysis Paradoxically Boosts Acidification and Reveals a New Regulatory Mechanism of Glycolysis. Microbiol Spectr. 2022 Jun 29;10(3):e0276021. doi: 10.1128/spectrum.02760-21.

[7] Статья в Википедии о GC skew: https://en.wikipedia.org/wiki/GC_skew

Таблица 1. Полная классификация
Таблица 2. Стандартные данные о репликонах (S3)
Таблица 3.Нуклеотидный состав репликонов (S3)
Таблица 4.Гены на хромосоме (S1/list “per replicon”)
Таблица 5. Статистические показатели распределения длин белков (а.о.)
Таблица 6. Предсказание оперонов
Рис. 1. Распределение белков S. thermophilus по длине в аминокислотных остатках
Рис. 2. Распределение межгенных промежутков по длине (в нуклеотидах)
Рис. 3. Распределение длин пересечений CDS (в нуклеотидах)
Рис. 4. График кумулятивного GC skew для хромосомы