Биотехнология играет ключевую роль в современном мире, обеспечивая решения для многих глобальных проблем, таких как продовольственная безопасность, получение лекарств и вакцин, разработка новых экологически чистых технологий. В данной работе нами были описаны некоторые характеристики генома и протеома бактерии Streptomyces rutgersensis, а также проведён анализ полученных данных с проверкой гипотез. Основной темой работы стало выявление общих паттернов и индивидуальных особенностей, которые могут использоваться в биотехнологии для решения широкого круга задач по модификации данной бактерии.
Streptomyces rutgersensis относится к грамположительным бактериям класса актинобактерий, порядка Streptomycetales семейства Streptomycetaceae [1].
Согласно последним исследованиям о реклассификации представителей рода Streptomyces: Streptomyces rutgersensis и Streptomyces gougerotii классифицируются как более поздние гетеротипические синонимы S. diastaticus [1].
Актинобактерии населяют почвы, а также пресные и морские воды. Они играют важную роль в разложении органических веществ, таких, как целлюлоза и хитин, и таким образом принимают участие в круговороте органических веществ и в углеродном цикле [2].
Для Streptomyces rutgersensis характерна ферментативная активность по разложению лигноцеллюлозы. Одним из выделяемых ими ферментов является ксиланаза. Другие исследования показали значительную эффективность использования данного вида при отбеливании бумажной массы [2].
Использование микроорганизмов в целлюлозно-бумажной промышленности доказало, что технология биоотбеливания является экологически чистой альтернативой традиционному подходу.
Во время исследования генома и протеома бактерии Streptomyces rutgersensis нами были использованы нуклеотидные последовательности CDS генов бактерии и таблица локальных особенностей, которые были загружены из банка NCBI (Сопроводительные материалы [1]).
Для анализа длин белков, закодированных в геноме бактерии, была построена гистограмма в электронных таблицах Google Sheets (Сопроводительные материалы [2]). Данные были взяты из таблицы локальных особенностей, загруженной и импортированной ранее в лист cds, где у неё были удалены некоторые неиспользуемые столбцы (Сопроводительные материалы [3]). На листе prot_len_hist были найдены абсолютные значения длин белков, а также подсчитано среднее для них. После этого было получено количество белков, входящих в определенные до этого карманы. На основе полученной таблицы была построена гистограмма.
Оценка количества генов белков и генов разных типов РНК для каждого репликона осуществлялась перебором строк таблицы локальных особенностей и распределением их на 2 группы: NZ_CP045704.1 (хромосомные) и NZ_CP045705.1 (плазмидные). Для выполнения данной задачи был написан скрипт для командной оболочки Bash (Сопроводительные материалы [4]). На вход ему подаётся таблица локальных особенностей, в результате её перебора на выход выдаётся таблица. В первом столбце указано количество генов, во втором их тип, а в третьем имя репликона, на котором они содержатся. Для удобства восприятия, в текст обзора была вставлена переработанный вариант полученной таблицы.
Для оценки GC состава CDS бактерии была построена гистограмма зависимости количества CDS от содержания GC % в них. Для начала с помощью написанного скрипта для интерпретатора Python для каждого CDS из fasa-файла было подсчитано количество G и C нуклеотидов, а также общая длина (Сопроводительные материалы [4]). Данные выдаются в два массива соответсвенно. После этого они были занесены в столбцы листа электронной таблицы, где подсчитано содержание GC в % для каждого CDS, а также проведено их разбиение по карманам (Сопроводительные материалы [5]). На основе данных получившейся таблицы была построена гистограмма.
Встречаемость старт-кодонов CDS для бактерии вычислялась путём перебора нуклеотидных последовательностей. Для этого был написан скрипт для командной оболочки Bash (Сопроводительные материалы [6]). На вход ему подаётся fasta-файл , в результате его перебора на выход выдаётся таблица. В первом столбце содержится количество встреченных старт-кодонов, а во втором их тип.
Проверка зависимости между длинной CDS и типом её старт-кодона была проведена с помощью дисперсионного анализа. Для этого был написан скрипт для интерпретатора Python с помощью библиотеки scipy.stats (Сопроводительные материалы [7]).
На рисунке 1 приведено распределение длин белков. Наибольшее количество белков имеет длину 200–300 аминокислотных остатков. Далее с увеличением длины количество белков убывает. Минимальная длина белка — 18 ам. ост. , а максимальная — 10649 ам. ост. Средняя длина белка — 337 аминокислот.
Рисунок 1. Гистограмма длин белков
Длина синтезируемых белков может быть обусловлена множеством факторов, среди них нами были выделены следующие:
Если бактерия живёт в нестабильных условиях и ей требуется быстрое приспособление к ним, то в геноме могут преобладать гены, кодирующие короткие белки. Это обусловлено тем, что их можно быстро транскрибировать и транслировать.
Средняя длина белков может отражать ограничения, обусловленные доступностью необходимых ресурсов (например, аминокислот). В случае их нехватки длина большинства белков будет стремиться к уменьшению. Из гистограммы видно, что белки распределены не равномерно на интервале от 0 до 10650 аминокислот. При этом большинство из них расположены в его меньшей половине, что говорит о преобладании коротких белков над длинными. Это может свидетельствовать о быстрой приспособляемости данной бактерии к условиям среды обитания, а также её нетребовательности к наличию большого количества ресурсов. Оба этих качества являются преимущественными при выборе объекта для использования в биотехнологии.