Обзор генома и протеома бактерии Streptomyces lincolnensis

РЕЗЮМЕ

Данная работа представляет собой мини-обзор генома и протеома бактерии Streptomyces lincolnensis. Интерес данного исследования заключается в возможности использования данного микроорганизма при производстве антибиотиков.

КЛЮЧЕВЫЕ СЛОВА: Streptomyces lincolnensis; геном; протеом; линкомицин.

1 ВВЕДЕНИЕ

Целью данного обзора является изучение генома и протеома Streptomyces lincolnensis.

Таксономия вида Streptomyces lincolnensis[1]:

Домен:

Тип:

Класс:

Порядок:

Семейство:

Род:

Вид:

Bacteria

"Actinobacteria"

Actinobacteria

Streptomycetales

Streptomycetaceae

Streptomyces

S. lincolnensis

Рис. 1
Рис. 1. Химическое строение линкомицина.[7]

Данная бактерия является анаэробной, грамположительной, филаментной (нитчатой). Образует хорошо развитый воздушный мицелий, позволяющий прикрепляться к субстрату и добывать органические вещес­тва.[2] Обитает в почвах. Была впервые выделена в 1963 году.[3]

Род Streptomyces дал название антибиотику стрептомицин.[2] Все представители данного рода выраба­тывают те или иные антибиотики, причём количество различных биологически активных веществ, произ­водимых представителями рода, доходит до 8000.[4] В частности S. lincolnensis продуцирует линкоми­цин (Рис. 1) — антибактериальный антибиотик группы линкозамидов.[1]

Представители рода хорошо культивируются в питательной среде с pH~7.2 при комнатной температуре. Оптимальной для роста температурой является 28℃.[5, 6] Поэтому S. lincolnensis представляет большой интерес в биотехнологии и фармацевтическом производстве.

2 МЕТОДЫ

Все материалы, а именно файл с геномом бактерии, таблица его особенностей и файл с кодирующими последовательностями всех генов белков, были взяты из базы данных GenBank.[8] Для определения нуклеотидного состава генома (Таблица 1) и частоты использования кодонов и распределения генов по цепям ДНК использовался скрипт, написанный на Python. Для построения кумулятивного графика GC skew (Рис. 2) использован сервис Webskew.[9] Для построения диаграммы частоты использования старт-кодонов (Рис. 3), гистограммы распределения длин белков (Рис. 4), Таблицы 4 и Таблицы 5 было использовано приложение Google Таблицы.

3 РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЯ

Геном представлен одной кольцевой хромосомой, состоящей из 9 513 637 пар нуклеотидов.[10] В Таблице 1 приведено количество встреченных нуклеотидов и частота встреч. Причём количество нуклеотидов A приблизительно равно количеству нуклеотидов T, а количество С – количеству G, что означает, что второе правило Чаргаффа соблюда­ется. Также был определён GC-состав ДНК. Он равен 0.7106. Такой довольно высокий уровень содер­жания GC в молекуле ДНК свойственен бактериям типа Actinobacteria.[11]

Таблица 1. Нуклеотидный состав геномной ДНК
Нуклеотид Количество Частота
A 1 378 642 0.1449
C 3 388 854 0.3562
G 3 371 840 0.3544
T 1 374 301 0.1445

На Рис. 2 представлен график GC-skew cumulative. Расчёт GC-skew в окне заданной ширины произ­водится по формуле:

\begin{equation}GCskew = \frac{G-C}{G+C}\tag1\end{equation}

где G и С – количество соответствующих нуклео­тидов в окне. GC-skew cumulative позиции счита­ется как сумма всех GC-skew, посчитанных ранее. Точка минимума на графике соответствует началу репликации – oriC. Её координата в районе 9 360 792 нуклеотида. Максимум на графике дол­жен соответствовать точке терминации репликации – ter.

Рис. 2
Рис. 2. График GC-skew cumulative вдоль генома.

На графике максимум наблюдается в районе 6 202 479 нуклеотида. Однако точка ter ожидается на участке кольцевой ДНК, диаметрально противоположном oriC, т.е. верна формула:

\begin{equation}|oriC-ter|\approx\frac{SecquenceLength}{2}\tag2\end{equation}

где SequenceLength – длина кольцевой ДНК. Тогда точка ter должна находится в районе 4 600 000 нуклеотида. Неверное определение точки ter, вероятно, вызвано наличием большого числа локальных минимумов и максимумов на графике GC-skew comulative.

Наиболее часто используемым стоп кодоном явля­ется TGA (Таблица 2). Таким образом подтвержда­ется корреляция между GC-составом генома и час­тотами использования стоп-кодонов.[14] Также встречаются и нестандартные стоп-кодоны, среди них CGC, GCC, GTC наиболее часто, однако всё равно более чем в 40 раз реже, чем TAA. На Рис. 3 представлена круговая диаграмма частоты исполь­зования старт-кодонов. Старт-кодом чаще всего яв­ляется ATG, однако также довольно часто встреча­ются старт-кодоны, получающиеся из ATG заменой одного нуклеотида. Вероятно подобные мутации незначительны, и не препятствуют инициации син­теза белка.

Таблица 2. Использование стоп-кодонов
Стоп-кодон Количество Частота
TAA 439 0.0517
TAG 1 521 0.1791
TGA 6 401 0.7536
Рис. 3
Рис. 3. Диаграмма частоты использования старт-кодонов.

Распределение генов по цепям ДНК приведено в Таблице 3. Для генов белков вероятность полу­чить такое же или большее различие равна ~0,00008, что является статистически значимым. Похожий результат наблюдается, если рассмотреть распределение по половинам цепей ДНК.

Таблица 4. Статистические данные о протеоме
Статистическая величина Значение
Средняя длина 336
Стандартное отклонение 223
Медиана 294
Минимальная длина 18
Максимальная длина 3 638
Таблица 3. Распределение генов по цепям ДНК
Тип гена Прямая цепь Обратная цепь
Ген белка 4 270 3 913
Псевдоген 115 108
Ген РНК 45 45
Таблица 5. Сверхдлинные белки
Длина Название белка
3 638 non-ribosomal peptide synthetase
3 062 non-ribosomal peptide synthetase
2 696 type I polyketide synthase
2 577 non-ribosomal peptide synthetase
2 540 non-ribosomal peptide synthetase
2 525 hybrid non-ribosomal peptide synthetase/
type I polyketide synthase

На Рис. 4 представлена гистограмма распределе­ния длин белков с шириной кармана равной 30 аминокислотным остаткам (а.о.). Наибольшее коли­чество белков имеют длину около 241 – 270 а.о., второй пик соответствует длине 121 – 150 а.о. Так­же примечательно, что в протеоме имеется неболь­шое число очень больших белков, длина ко­торых превышает среднюю в 8 – 10 раз (Таблица 5). Эти белки принимают участие в син­тезе вторич­ных метаболитов.[12, 13] Не исключено, что именно эти белки могут участвовать в синтезе линкомицина.

Рис. 4
Рис. 4. Гистограмма распределения длин белков.

ЗАКЛЮЧЕНИЕ

Изучение протеома и генома является одними из основных факторов при поиске и разработке лекарственных препаратов и методов лечения. В ходе данного мини-обзора были определены такие интересные особенности Streptomyces lincolnensis, как скачкообразно изменяющийся вдоль генома кумулятивный GC-skew, разнообразие в использовании старт-кодонов и стоп-кодонов и состав протеома.

СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ

Все сопроводительные материалы, в частности скрипт, написанный на Phython, и использованная в работе электронная таблица доступны по ссылкам: Открыть папку | скачать одним архивом

СПИСОК ЛИТЕРАТУРЫ

  1. 1🠕 2🠕 Wikipedia, Streptomyces lincolnensis
  2. 1🠕 2🠕 Wikipedia, Streptomyces
  3. 1🠕 Mason, D.J., A. Dietz and C. DeBoer. 1963. Antimicrobial Agents and Chemotherapy, 1962, pages 554 – 559.
  4. 1🠕 János Bérdy, Bioactive Microbial Metabolites
  5. 1🠕 The Bacterial Diversity Metadatabase BacDive, Streptomyces lincolnensis DSM 40355
  6. 1🠕 BacMedia, GYM STREPTOMYCES MEDIUM
  7. 1🠕 Wikipedia, Lincomycin
  8. 1🠕 GenBank, Index of /genomes/all/GCF/003/344/445/GCF_003344445.1_ASM334444v1
  9. 1🠕 Webskew
  10. 1🠕 Статистика сборки GCF_003344445.1_ASM334444v1б
  11. 1🠕 Lightfield J., Fram Noah R., Ely B. 2011. Across Bacterial Phyla, Distantly-Related Genomes with Similar Genomic GC Content Have Similar Patterns of Amino Acid Usage
  12. 1🠕 Wikipedia, Nonribosomal peptide
  13. 1🠕 Wikipedia, Polyketide synthase
  14. 1🠕 Ho, A.T. and Hurst L.D. 2021. Variation in Release Factor Abundance Is Not Needed to Explain Trends in Bacterial Stop Codon Usage