Мини-обзор бактерии Thermoactinomyces vulgaris, её генома и протеома

Московский государственный университет имени М.В.Ломоносова, факультет биоинженерии и биоинформатики, город Москва.

0. Аннотация

В настоящем мини-обзоре представлена комплексная характеристика термофильной бактерии Thermoactinomyces vulgaris, являющейся этиологическим агентом экзогенного аллергического альвеолита («легкое фермера») и имеющая в себе 2671 белок. Работа включает описание биологических свойств микроорганизма, анализ длины белка и GC-состава кодирующих последовательностей, а также детальное исследование паттернов использования синонимичных кодонов. Результаты исследования вносят вклад в понимание эволюционной адаптации и особенностей регуляции экспрессии генома T. vulgaris.

1. Введение

Бактерия, о которой пойдет речь в данном мини-обзоре, называется Thermoactinomyces vulgaris. Она вызывает инфекционное заболевание [3] — лёгочная болезнь фермеров, что является разновидность гиперчувствительного пневмонита[1]. Возникает при вдыхании биологической пыли, содержащей сено или споры плесени [4], а также любые другие сельскохозяйственные продукты.

Научная классификация Thermoactinomyces vulgaris [2]:

2. Материалы и методы

2.1. Google Sheets

Гистограммы распределения длин белков {1} и распределения GC% состава {2} были построены с помощью Google Sheets. Задействованы обычные математические операции, а также функция “=СЧЁТЕСЛИМН”.

2.2. python [6 - 8]

Были использованы библиотеки:

  1. BioPython (SeqIO, Seq) - чтение формата GenBank, работа с биологическими последовательностями
  2. Pandas - обработка табличных данных (DataFrame)
  3. Counter - эффективный подсчет частот элементов
  4. Matplotlib/Seaborn - создание качественных графиков

3. Результаты

3.1. Длины белков, закодированных в геноме бактерии Thermoactinomyces vulgaris:

На основе CDS бактерии были найдены длины (в аминокислотах) всех продуктов трансляции у данного вида. Затем построена гистограмма, которая отражает соответствие количества белков каждому интервалу возможной длины.

image1

ㅤㅤㅤРисунок 1. Гистограмма длин белков

Выводы:

Таким образом, на рис.1 можно заметить, что основная масса белков бактерии имеет длину от 100 до 200 аминокислот. После 200 можно наблюдать плавный спад до 900. Белков длиной больше, чем 900, уже практически нет.

3.2. Распределение GC% генов бактерии Thermoactinomyces vulgaris:

Была построена гистограмма, иллюстрирующая количество CDS с каждым интервалом процентного содержания нуклеотидов G и C.

image2

ㅤㅤㅤРисунок 2. Гистограмма распределения GC%

Выводы:

Согласно рис. 2 продукты трансляции имеют в среднем от 47% до 53% G и C нуклеотидов в кодирующей нуклеотидной последовательности.

3.3. Анализ частоты использования кодонов в бактерии Thermoactinomyces vulgaris:

Биологическая интерпретация методов

RSCU анализ:

  1. Выявляет предпочтения в использовании синонимичных кодонов
  2. Связан с доступностью тРНК - предпочитаемые кодоны соответствуют abundant тРНК
  3. Видоспецифичный показатель - у каждого вида свои предпочтения

CAI анализ:

  1. Показатель эффективности трансляции - гены с высоким CAI лучше транслируются
  2. Индикатор горизонтального переноса - гены с низким CAI могут быть чужеродными
  3. Инструмент оптимизации - для дизайна синтетических генов

GC3 анализ:

  1. Термостабильность - высокий GC3 стабилизирует ДНК/РНК при высоких температурах
  2. Эволюционный маркер - отражает адаптацию к среде обитания
  3. Влияние на структуру белка - может влиять на аминокислотный состав

Общая информация по гену (2616 CDS):

  1. Средняя длина: 869 н.п.
  2. На плюс-цепи: 1303
  3. На минус-цепи: 1313
  4. Рибосомальные белки: 57

Генетический код:

При помощи скрипа было найдено 64 кодонов для 20 аминокислот.

Подсчет частоты кодонов во всех CDS:

  1. Всего кодонов: 757677
  2. Уникальных кодонов: 64
  3. Самый частый кодон: GAA (41994 раз)
image3

ㅤㅤㅤРисунок 3. Распределение индекса адаптации кодонов (CAI).

Гистограмма распределения CAI

Что показывает:

Биологический смысл:

image4

ㅤㅤㅤРисунок 4. Тепловая карта RSCU.

Тепловая карта RSCU

Что показывает:

Цветовая кодировка:

Как читать матрицу:

Для аминокислоты L (Лейцин):

ㅤ C1 C2 C3 C4 C5 C6

[ 0.2 1.8 0.5 1.1 0.7 1.7 ]

ㅤ↑ㅤ ↑ㅤㅤㅤㅤ ↑

TTA TTGㅤㅤ CTG

Избегаемый Предпочитаемый

Биологический смысл:

image5

ㅤㅤㅤРисунок 5. Сравнение CAI рибосомальных и других белков

Сравнение CAI рибосомальных и других белков:

Что показывает:

  • ┌─────────────────┐ ← Верхний ус (максимум или Q3 + 1.5IQR)
  • │ㅤㅤㅤㅤㅤㅤ○ ㅤㅤㅤㅤㅤ│ ← Выбросы
  • ├─────────────────┤ ← 75й перцентиль (Q3)
  • │ㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤ│
  • │ㅤㅤㅤㅤㅤ███ㅤㅤㅤㅤㅤ│ ← Медиана (50й перцентиль)
  • │ㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤ│
  • ├─────────────────┤ ← 25й перцентиль (Q1)
  • │ㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤ│ ← Нижний ус (минимум или Q1 1.5IQR)
  • └─────────────────┘
  • Статистические показатели:

    Биологический смысл:

    Если:ㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤТо:

  • ㅤМедиана рибосомальныхㅤㅤㅤㅤㅤㅤ- Рибосомальные белки лучше оптимизированы
  • ㅤВЫШЕ других белков
  • ㅤЯщик рибосомальных УЖЕㅤㅤㅤㅤㅤ - Более гомогенная группа
  • ㅤ(меньший IQR)
  • ㅤМеньше выбросов уㅤㅤㅤㅤㅤㅤㅤㅤㅤ- Более стабильная оптимизация
  • ㅤрибосомальных белков
  • Выводы:

    1. Анализ частоты использования кодонов показал предпочтения в использовании синонимичных кодонов у Thermoactinomyces vulgaris.
    2. Индекс адаптации кодонов (CAI) варьирует от 0.409 до 0.843.
    3. Средний CAI: 0.666 (медиана: 0.671).
    4. Гены с высоким CAI (>0.8) скорее всего высоко экспрессируемые.
    5. Гены с низким CAI (<0.3) могут быть псевдогенами или приобретены путем горизонтального переноса.

    4. Обсуждения

    Для чего нужны все эти исследования:

    1. Распределение длин белков (Рис. 1) является типичным для бактериальных геномов, с преобладанием компактных полипептидов (100-200 аминокислот), что оптимально для эффективной трансляции и упаковки генетического материала.
    2. Распределение GC% генов (Рис. 2) в диапазоне 47–53% согласуется с общей тенденцией для актиномицетов и может влиять на термостабильность ДНК, что критично для термофильного микроорганизма.
    3. Анализ кодонового предпочтения. Расчет индекса RSCU и построение тепловой карты (Рис. 4) наглядно демонстрируют значительную неслучайность в использовании синонимичных кодонов у T. vulgaris. Это предпочтение, как правило, коррелирует с пулом транспортных РНК и является видоспецифичным адаптивным признаком, направленным на оптимизацию скорости и точности трансляции.
    4. Индекс адаптации кодонов (CAI) как индикатор экспрессии. Распределение CAI (Рис. 3) в диапазоне 0.409–0.843 и его значимо более высокие значения для рибосомальных белков по сравнению с остальными генами (Рис. 5) полностью соответствуют теоретическим ожиданиям. Высокий CAI рибосомальных белков подтверждает, что они входят в набор высоко экспрессируемых генов, чье кодоновое использование оптимально для клеточного трансляционного аппарата. Низкие значения CAI у части генов могут указывать на их недавний горизонтальный перенос, псевдо генизацию или специализированную низкоуровневую экспрессию.
    5. Все эти данные могут пригодиться для:
      1. 5.1. Целенаправленного биотехнологического поиска (где искать лучшие гены?).
      2. 5.2. Рационального дизайна экспериментов (как модифицировать гены для успеха?).
      3. 5.3. Углубленного понимания биологии (почему этот организм так хорошо приспособлен к своей нише?).

    5. Сопроводительные материалы

    {1} Таблица Google Sheets для построение гистограммы длин белков

    {2} Таблица Google Sheets для построения гистограммы GC% состава.

    {3} Интерпретатор языков программирования Collab. Скрипт для анализа частоты использования кодонов.

    {4} Таблицы, полученные в ходе анализа частоты использования кодонов.

    6. Благодарности

    Я выражаю благодарность студентке 2 курса Звонаревой Марии за советы и подсказки в написании мини-обзора, а также DeepSeek’у, за помощь в реализации 3 задания, а конкретно некоторых частей кода к нему (которые я не мог реализовать сам в силу отсутствия достаточного количества материала в данной сфере).

    7. Литература

    [1] Медицинская статья про гиперчувствительный пневмонит

    [2] Систематика и др.

    [3] Статья про инфекционные болезни

    [4] Научная статья про плесень

    [5] NCBI Thermoactinomyces vulgaris

    [6] CAI (Codon Adaptation Index) Sharp PM, Li WH (1987) "The codon adaptation index"

    [7] RSCU (Relative Synonymous Codon Usage): Sharp PM, et al. (1986) "Codon usage in yeast"

    [8] Анализ кодонового использования: Ikemura T (1985) "Codon usage and tRNA content"