Мини-обзор бактерии Thermoactinomyces vulgaris, её генома и протеома
Московский государственный университет имени М.В.Ломоносова, факультет биоинженерии и биоинформатики, город Москва.
0. Аннотация
В настоящем мини-обзоре представлена комплексная характеристика термофильной бактерии Thermoactinomyces vulgaris, являющейся этиологическим агентом экзогенного аллергического альвеолита («легкое фермера») и имеющая в себе 2671 белок. Работа включает описание биологических свойств микроорганизма, анализ длины белка и GC-состава кодирующих последовательностей, а также детальное исследование паттернов использования синонимичных кодонов. Результаты исследования вносят вклад в понимание эволюционной адаптации и особенностей регуляции экспрессии генома T. vulgaris.
1. Введение
Бактерия, о которой пойдет речь в данном мини-обзоре, называется Thermoactinomyces vulgaris. Она вызывает инфекционное заболевание [3] — лёгочная болезнь фермеров, что является разновидность гиперчувствительного пневмонита[1]. Возникает при вдыхании биологической пыли, содержащей сено или споры плесени [4], а также любые другие сельскохозяйственные продукты.
Научная классификация Thermoactinomyces vulgaris [2]:
- Империя: Bacteria;
- Царство: Bacillati;
- Тип: Bacillota;
- Класс: Bacilp;
- Порядок: Thermoactinomycetales;
- Семейство: Thermoactinomycetaceae;
- Род: Thermoactinomyces;
- Вид: T. vulgaris.
2. Материалы и методы
2.1. Google Sheets
Гистограммы распределения длин белков {1} и распределения GC% состава {2} были построены с помощью Google Sheets. Задействованы обычные математические операции, а также функция “=СЧЁТЕСЛИМН”.
2.2. python [6 - 8]
Были использованы библиотеки:
- BioPython (SeqIO, Seq) - чтение формата GenBank, работа с биологическими последовательностями
- Pandas - обработка табличных данных (DataFrame)
- Counter - эффективный подсчет частот элементов
- Matplotlib/Seaborn - создание качественных графиков
3. Результаты
3.1. Длины белков, закодированных в геноме бактерии Thermoactinomyces vulgaris:
На основе CDS бактерии были найдены длины (в аминокислотах) всех продуктов трансляции у данного вида. Затем построена гистограмма, которая отражает соответствие количества белков каждому интервалу возможной длины.
ㅤㅤㅤРисунок 1. Гистограмма длин белков
Выводы:
Таким образом, на рис.1 можно заметить, что основная масса белков бактерии имеет длину от 100 до 200 аминокислот. После 200 можно наблюдать плавный спад до 900. Белков длиной больше, чем 900, уже практически нет.
3.2. Распределение GC% генов бактерии Thermoactinomyces vulgaris:
Была построена гистограмма, иллюстрирующая количество CDS с каждым интервалом процентного содержания нуклеотидов G и C.
ㅤㅤㅤРисунок 2. Гистограмма распределения GC%
Выводы:
Согласно рис. 2 продукты трансляции имеют в среднем от 47% до 53% G и C нуклеотидов в кодирующей нуклеотидной последовательности.
3.3. Анализ частоты использования кодонов в бактерии Thermoactinomyces vulgaris:
Биологическая интерпретация методов
RSCU анализ:
- Выявляет предпочтения в использовании синонимичных кодонов
- Связан с доступностью тРНК - предпочитаемые кодоны соответствуют abundant тРНК
- Видоспецифичный показатель - у каждого вида свои предпочтения
CAI анализ:
- Показатель эффективности трансляции - гены с высоким CAI лучше транслируются
- Индикатор горизонтального переноса - гены с низким CAI могут быть чужеродными
- Инструмент оптимизации - для дизайна синтетических генов
GC3 анализ:
- Термостабильность - высокий GC3 стабилизирует ДНК/РНК при высоких температурах
- Эволюционный маркер - отражает адаптацию к среде обитания
- Влияние на структуру белка - может влиять на аминокислотный состав
Общая информация по гену (2616 CDS):
- Средняя длина: 869 н.п.
- На плюс-цепи: 1303
- На минус-цепи: 1313
- Рибосомальные белки: 57
Генетический код:
При помощи скрипа было найдено 64 кодонов для 20 аминокислот.
Подсчет частоты кодонов во всех CDS:
- Всего кодонов: 757677
- Уникальных кодонов: 64
- Самый частый кодон: GAA (41994 раз)
ㅤㅤㅤРисунок 3. Распределение индекса адаптации кодонов (CAI).
Гистограмма распределения CAI
Что показывает:
- Распределение индекса адаптации кодонов (CAI) по всем генам
- По оси X: значения CAI (от 0 до 1)
- По оси Y: количество генов
- Высокий CAI (0.81.0) - Гены с оптимальным кодоновым использованием
- Средний CAI (0.40.8) - Обычные гены
- Низкий CAI (0.00.4) - Гены с неоптимальным кодоновым использованием
Биологический смысл:
- Правостороннее смещение (пик ближе к 1.0) большинство генов оптимизированы
- Левостороннее смещение (пик ближе к 0.0) много неоптимизированных генов
- Два пика (бимодальное) - две группы генов с разной оптимизацией
- Красная линия (среднее) и зеленая линия (медиана):
- Если медиана > среднего - распределение скошено влево
- Если медиана < среднего - распределение скошено вправо
ㅤㅤㅤРисунок 4. Тепловая карта RSCU.
Тепловая карта RSCU
Что показывает:
- По вертикали(Y):
- Аминокислоты (A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y)
- По горизонтали (X):
- Позиции кодонов в группе синонимов
Цветовая кодировка:
- КРАСНЫЙ (RSCU > 1.0) - Предпочитаемые кодоны
- БЕЛЫЙ (RSCU ≈ 1.0) - Равномерное использование
- СИНИЙ (RSCU < 1.0) - Избегаемые кодоны
Как читать матрицу:
Для аминокислоты L (Лейцин):
ㅤ C1 C2 C3 C4 C5 C6
[ 0.2 1.8 0.5 1.1 0.7 1.7 ]
ㅤ↑ㅤ ↑ㅤㅤㅤㅤ ↑
TTA TTGㅤㅤ CTG
Избегаемый Предпочитаемый
Биологический смысл:
- Синий вертикальный столбец - все аминокислоты избегают кодоны в этой позиции
- Красный вертикальный столбец - все аминокислоты предпочитают кодоны в этой позиции
- Строка полностью красная - аминокислота имеет сильные предпочтения
- Строка равномерно окрашена - аминокислота не имеет явных предпочтений
ㅤㅤㅤРисунок 5. Сравнение CAI рибосомальных и других белков
Сравнение CAI рибосомальных и других белков:
Что показывает:
Статистические показатели:
- Ящик (box): Межквартильный размах (IQR = Q3 Q1)
- Линия в ящике: Медиана
- Усы (whiskers): Диапазон "нормальных" значений
- Точки: Выбросы (outliers)
Биологический смысл:
Если:ㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤТо:
Выводы:
- Анализ частоты использования кодонов показал предпочтения в использовании синонимичных кодонов у Thermoactinomyces vulgaris.
- Индекс адаптации кодонов (CAI) варьирует от 0.409 до 0.843.
- Средний CAI: 0.666 (медиана: 0.671).
- Гены с высоким CAI (>0.8) скорее всего высоко экспрессируемые.
- Гены с низким CAI (<0.3) могут быть псевдогенами или приобретены путем горизонтального переноса.
4. Обсуждения
Для чего нужны все эти исследования:
- Распределение длин белков (Рис. 1) является типичным для бактериальных геномов, с преобладанием компактных полипептидов (100-200 аминокислот), что оптимально для эффективной трансляции и упаковки генетического материала.
- Распределение GC% генов (Рис. 2) в диапазоне 47–53% согласуется с общей тенденцией для актиномицетов и может влиять на термостабильность ДНК, что критично для термофильного микроорганизма.
- Анализ кодонового предпочтения. Расчет индекса RSCU и построение тепловой карты (Рис. 4) наглядно демонстрируют значительную неслучайность в использовании синонимичных кодонов у T. vulgaris. Это предпочтение, как правило, коррелирует с пулом транспортных РНК и является видоспецифичным адаптивным признаком, направленным на оптимизацию скорости и точности трансляции.
- Индекс адаптации кодонов (CAI) как индикатор экспрессии. Распределение CAI (Рис. 3) в диапазоне 0.409–0.843 и его значимо более высокие значения для рибосомальных белков по сравнению с остальными генами (Рис. 5) полностью соответствуют теоретическим ожиданиям. Высокий CAI рибосомальных белков подтверждает, что они входят в набор высоко экспрессируемых генов, чье кодоновое использование оптимально для клеточного трансляционного аппарата. Низкие значения CAI у части генов могут указывать на их недавний горизонтальный перенос, псевдо генизацию или специализированную низкоуровневую экспрессию.
- Все эти данные могут пригодиться для:
- 5.1. Целенаправленного биотехнологического поиска (где искать лучшие гены?).
- 5.2. Рационального дизайна экспериментов (как модифицировать гены для успеха?).
- 5.3. Углубленного понимания биологии (почему этот организм так хорошо приспособлен к своей нише?).
5. Сопроводительные материалы
{1} Таблица Google Sheets для построение гистограммы длин белков
{2} Таблица Google Sheets для построения гистограммы GC% состава.
{3} Интерпретатор языков программирования Collab. Скрипт для анализа частоты использования кодонов.
{4} Таблицы, полученные в ходе анализа частоты использования кодонов.
6. Благодарности
Я выражаю благодарность студентке 2 курса Звонаревой Марии за советы и подсказки в написании мини-обзора, а также DeepSeek’у, за помощь в реализации 3 задания, а конкретно некоторых частей кода к нему (которые я не мог реализовать сам в силу отсутствия достаточного количества материала в данной сфере).
7. Литература
[1] Медицинская статья про гиперчувствительный пневмонит
[3] Статья про инфекционные болезни
[4] Научная статья про плесень
[5] NCBI Thermoactinomyces vulgaris
[6] CAI (Codon Adaptation Index) Sharp PM, Li WH (1987) "The codon adaptation index"
[7] RSCU (Relative Synonymous Codon Usage): Sharp PM, et al. (1986) "Codon usage in yeast"
[8] Анализ кодонового использования: Ikemura T (1985) "Codon usage and tRNA content"