Обзор генома и протеома бактерии Rhodococcus ruber p14

Автор

Звездин Дмитрий

Резюме

В данном обзоре проведен анализ ряда характеристик генома и протеома бактерии Rhodococcus ruber p14 с использованием методов электронныхтаблиц. Были рассмотрены следующие темы: длины молекул ДНК, составляющих геном, нуклеотидный состав генома, распределение длин белков, гены, кодирующие рибосомальные белки и РНК, встречаемость генов различных типов.

Ключевые слова

Геном, протеом, белки, РНК, Rhodococcus ruber.

Введение

Медианная длина геномов вида Rhodococcus ruber составляет 5 573 530 пар оснований [1].

Медианное количество белков, закодированных в геноме представителей данного вида: 4954 [1].

Медианный GC-состав геномов Rhodococcus ruber: 70,39% [1].

Представители рода Rhodococcus – это аэробные грамположительные бактерии. Обитают в большом количестве сред, таких как почва, соленые и пресные водоемы. От близких им микроорганизмов их отличает наличие миколовых кислот в клеточной стенке, выполняющих защитную функцию.

Эта группа бактерий представляет интерес для биотехнологии, так как многие ее представители способны метаболизировать широкий спектр различных соединений. Например, штамм Rhodococcus ruber Chol-4 способен метаболизировать многие ароматические соединения, в том числе стероиды [2].

Материалы и методы

Формирование плоской таблицы genes

Для удобства дальнейшей обработки данных таблица feat_table,содержащая информацию о гене в строках gene и CDS была преобразована вплоскую таблицу genes. Для этого последовательно были использованыследующие инструменты Google Sheets:

  • Импорт из документа в формате txt таблицы feat_table;
  • Фильтр по значениям столбца feature таблицы feat_table с указанием значения «gene»;
  • Копирование полученных строк в таблицу genes;
  • Фильтр по значениям столбца feature таблицы feat_table с указанием всех значений, кроме «gene»;
  • Копирование полученных строк во временную таблицу genes2;
  • С помощью вертикального поиска (ВПР) по значениям столбца locus_tag, к строкам таблицы gene были присоединены соответствующие строки таблицы genes2, содержащие информацию о продукте данного гена;
  • Далее из таблицы был удален ряд излишних столбцов.
Размер генома

Размер генома Rhodococcus ruber p14 был взят из базы данных NCBI genomes [3]. Информация о наборе молекул ДНК в геноме была получена путем копирования столбца seq_type таблицы genes в отдельную таблицу genome_size и удалением повторяющихся элементов.

Нуклеотидный состав генома

С помощью команды wordcount (wordcount -wordsize 1 <fasta файл с последовательностью генома> stdout) терминала Linux, было посчитано, количество каждого нуклеотида в геноме. Затем с использованием инструментов Google Sheets был построен рисунок 3. Также с помощью алгебраических операций Google Sheets был посчитан GC-состав генома.

Типы генов в геноме

Столбец class таблицы genes был скопирован в таблицу genes_per_type. Из него были удалены повторяющиеся элементы. Затем с помощью функции СЧЁТЕСЛИ(genes!$B$2:$B$5043;$A2) по столбцу class таблицы genes было посчитано количество генов каждого типа в геноме.

Распределение длин белков

Столбец product_len таблицы feat_table был скопирован в таблицу proteins_lengths, по нему была построена диаграмма длин белков протеома. Была определена длина самого маленького белка протеома и самого большого. Для наглядности весь набор длин белков был разбит на группы: 31 - 100 аминокислот, 100 — 200, 200-300, 300-400, 400-500, 500-600, 600-700, 700-800, 800-900, 900-1000, 1000-2000, 2000 — 7339 аминокислот. Была построена гистограмма распределения белков по этим условным группам.

Рибосомальные белки и РНК

В таблице genes с помощью фильтра по столбцу «name» с указанием значений, содержащих слово «ribosomal», были отобраны искомые гены. Далее столбцы name, start, end, strand были скопированы в таблицу ribosomal. На этом этапе было получено 86 генов, содержащих в названии продукта слово «ribosomal». Из них были удалены гены non-ribosomal peptide synthetas (синтетаза нерибосомных пептидов), так как этот белок не имеет прямого отношения к рибосомам, а осуществляет нерибосомный синтез коротких пептидов [4].

Результаты

Размер генома

Длина генома составляет 5 522 075 пар оснований. Геном представлен одной молекулой ДНК (хромосомой), что подтверждается данными из базы данных NCBI Assembly [3].

Нуклеотидный состав генома
Рисунок 1. Нуклеотидный состав генома.

Описанным выше методом не было определено каких-либо нестандартных букв в исследуемой последовательности ДНК. Данные по количеству каждого нуклеотида в геноме приведены в таблице numbers_of_nucleotides и представлены на рисунке 1. Данное распределение согласуется со вторым правилом Чаргаффа (количество A примерно равно T, количество G примерно равно C). GC-состав генома равен 70,46% [5].

Типы генов в геноме
Таблица 1. Количество генов по типам в исследуемом геноме.
Тип гена Количество
protein_coding 4875
pseudogene 105
tRNA 47
rRNA 12
RNase_P_RNA 1
tmRNA 1
SRP_RNA 1

Из таблицы 1 видно, что помимо стандартных типов генов присутствуют также менее распространенные варианты: RNase_P_RNA, tmRNA, SRP_RNA. Rnase P RNA - это РНК, входящая в состав фермента рибонуклеазы P. Этот фермент участвует в процессинге тРНК и ряда других малых РНК. Найдена у большинства групп бактерий [6].

tmRNA — это РНК, участвующая в терминации рибосом, которые «застряли», не завершив процесс трансляции. Определена у большинства групп бактерий [7].

srpRNA — это молекула РНК, входящая в состав сигнал распознающей частицы, функция которой заключается в том, чтобы распознавать сигнал транспорта белка в эндоплазматический ретикулум, временно приостанавливать трансляцию и транспортировать белок в комплексе с рибосомой на мембрану эндоплазматического ретикулума. Найдена у большинства групп эукариот [8].

Распределение длин белков

Из рисунка 2 видно, что длина подавляющей части белков протеома Rhodococcus ruber p14 меньше 1000 аминокислот. Длина самого маленького белка протеома составляет 31 аминокислоту, а самого большого - 7339 аминокислот.

Из рисунка 3 видно, что наибольшее количество белков имеют длину в диапазоне 200-300 аминокислот (1190 белков). При увеличении значений границ диапазона, количество белков, попадающих в него уменьшается. Исключением является диапазон 1000 — 2000, в котором белков больше, чем в диапазоне 900 — 1000. Это можно объяснить сильно возросшей шириной этого диапазона. При уменьшении значений границ диапазона наблюдается аналогичная ситуация.

Самым длинным белком (7339 аминокислот) протеома является белок non-ribosomal peptide synthetase (синтетаза нерибосомных пептидов). Этот белок синтезирует короткие пептиды, являющиеся вторичными метаболитами ряда бактерий [4].

Самым коротким белком (31 аминокислота) протеома является белок mycofactocin precursor (предшественник мукофактоцина). Мукофактоцин — это небольшой пептид, участвующий в окислительно-восстановительных путях [9].

Рисунок 2. Длины белков протеома. По горизонтальной оси — белки. По вертикальной оси — длины в аминокислотных остатках.
Рисунок 3. Гистограмма распределения белков по длинам. По горизонтальной оси группы белков по длине в аминокислотах. По вертикальной оси — количество белков, попадающих в группу.
Рибосомальные белки и РНК

Из таблицы ribosomal видно, что в геноме содержится 73 гена, имеющих отношение к рибосомам. Из них - 12 кодируют рибосомальные РНК, 60 — рибосомальные белки, из которых 38 являются белками большой субъединицы(50S), а 22 - белками малой (30S), и 1 кодирует аланин-N-ацетилтрансферазу рибосомального белка S18. Этот фермент осуществляет ацетилирование аланина на N-конце рибосомального белка S18 [10].

В бактериальной рибосоме присутствуют 3 молекулы РНК (S5, S16, S23) [11]. При этом из таблицы ribosomal видно, что в геноме 12 генов отвечают за их кодирование. Также видно, что гены рибосомальных РНК имеют 4 копии и располагаются группами на молекуле ДНК близко друг к другу на одной цепи. Рибосомальных белков в малой субъединице 21, в большой — 31 [11]. Из таблицы ribosomal видно, что некоторые из них имеют в геноме копии.

Выводы

  • Данный геном немного меньше медианного значения для данного вида (5 522 075 пар оснований против 5 573 530). При этом он представлен только одной молекулой ДНК (хромосомой) и не содержит плазмид.
  • В исследуемой последовательности не было обнаружено каких-либо нестандартных обозначений нуклеотидов. GC-состав данного генома практически идентичен медианному значению для данного вида.
  • Данный геном содержит набор типов генов, характерных для большинства групп организмов. Редко-встречающихся типов генов выявлено не было.
  • Наибольшее количество белков протеома имеют длину в диапазоне 200- 300 аминокислот. При увеличении и уменьшении длины количество белков, попадающих в диапазон, снижается.
  • Рибосомальные РНК в данном геноме располагаются группой рядом, на одной цепи ДНК и присутствуют в количестве четырех копий.

Сопроводительные материалы

Таблица Google Sheet с листами feat_table, genes, genes_per_type, genome_size, proteins_length, ribosomal, numbers_of_nucleotides: https://docs.google.com/spreadsheets/d/1EKs_FyFZsfjP2o4ypiwfBwO7txEmrg7IaR aBzNk5FTc/edit?usp=sharing

Список литературы

  1. Страница бактерии Rhodococcus ruber на NCBI Genome: https://www.ncbi.nlm.nih.gov/genome/?term=txid1830[Organism:exp]
  2. Guevara G, Castillo Lopez M, Alonso S, Perera J, Navarro-Llorens JM. New insights into the genome of Rhodococcus ruber strain Chol-4. BMC Genomics. 2019 May 2;20(1):332. doi: 10.1186/s12864-019-5677-2. PMID: 31046661; PMCID: PMC6498646: 1-2.
  3. Страница исследуемого генома в базе данных NCBI Assemly: https://www.ncbi.nlm.nih.gov/assembly/GCA_002741725.1
  4. Статья на англоязычной Википедии про нерибосомные пептиды: https:// en.wikipedia.org/wiki/Nonribosomal_peptide
  5. Статья на англоязычной Википедии про правила Чаргаффа: https://en.wikipedia.org/wiki/Chargaff%27s_rules
  6. Kazantsev AV, Rambo RP, Karimpour S, Santalucia J Jr, Tainer JA, Pace NR. Solution structure of RNase P RNA. RNA. 2011 Jun;17(6):1159-71. doi: 10.1261/rna.2563511. Epub 2011 Apr 29: 1159-1160.
  7. Janssen BD, Hayes CS. The tmRNA ribosome-rescue system. Adv Protein Chem Struct Biol. 2012;86:151-91. doi: 10.1016/B978-0-12-386497-0.00005-0. PMID: 22243584: 2-3.
  8. Статья на англоязычной Википедии про SRP RNA: https://en.wikipedia.org/wiki/Signal_recognition_particle_RNA
  9. Haft, D.H. Bioinformatic evidence for a widely distributed, ribosomally produced electron carrier precursor, its maturation proteins, and its nicotinoprotein redox partners. BMC Genomics 12, 21 (2011): 12.
  10. Страница белка аланин-N-ацеилтрансферазы рибосомального белка S18 в базе данных Uniprot: https://www.uniprot.org/uniprot/P0A944
  11. Статья на англоязычной Википедии про рибосому: https://en.wikipedia.org/wiki/Ribosome