Звездин Дмитрий
В данном обзоре проведен анализ ряда характеристик генома и протеома бактерии Rhodococcus ruber p14 с использованием методов электронныхтаблиц. Были рассмотрены следующие темы: длины молекул ДНК, составляющих геном, нуклеотидный состав генома, распределение длин белков, гены, кодирующие рибосомальные белки и РНК, встречаемость генов различных типов.
Геном, протеом, белки, РНК, Rhodococcus ruber.
Медианная длина геномов вида Rhodococcus ruber составляет 5 573 530 пар оснований [1].
Медианное количество белков, закодированных в геноме представителей данного вида: 4954 [1].
Медианный GC-состав геномов Rhodococcus ruber: 70,39% [1].
Представители рода Rhodococcus – это аэробные грамположительные бактерии. Обитают в большом количестве сред, таких как почва, соленые и пресные водоемы. От близких им микроорганизмов их отличает наличие миколовых кислот в клеточной стенке, выполняющих защитную функцию.
Эта группа бактерий представляет интерес для биотехнологии, так как многие ее представители способны метаболизировать широкий спектр различных соединений. Например, штамм Rhodococcus ruber Chol-4 способен метаболизировать многие ароматические соединения, в том числе стероиды [2].
Для удобства дальнейшей обработки данных таблица feat_table,содержащая информацию о гене в строках gene и CDS была преобразована вплоскую таблицу genes. Для этого последовательно были использованыследующие инструменты Google Sheets:
Размер генома Rhodococcus ruber p14 был взят из базы данных NCBI genomes [3]. Информация о наборе молекул ДНК в геноме была получена путем копирования столбца seq_type таблицы genes в отдельную таблицу genome_size и удалением повторяющихся элементов.
С помощью команды wordcount (wordcount -wordsize 1 <fasta файл с последовательностью генома> stdout) терминала Linux, было посчитано, количество каждого нуклеотида в геноме. Затем с использованием инструментов Google Sheets был построен рисунок 3. Также с помощью алгебраических операций Google Sheets был посчитан GC-состав генома.
Столбец class таблицы genes был скопирован в таблицу genes_per_type. Из него были удалены повторяющиеся элементы. Затем с помощью функции СЧЁТЕСЛИ(genes!$B$2:$B$5043;$A2) по столбцу class таблицы genes было посчитано количество генов каждого типа в геноме.
Столбец product_len таблицы feat_table был скопирован в таблицу proteins_lengths, по нему была построена диаграмма длин белков протеома. Была определена длина самого маленького белка протеома и самого большого. Для наглядности весь набор длин белков был разбит на группы: 31 - 100 аминокислот, 100 — 200, 200-300, 300-400, 400-500, 500-600, 600-700, 700-800, 800-900, 900-1000, 1000-2000, 2000 — 7339 аминокислот. Была построена гистограмма распределения белков по этим условным группам.
В таблице genes с помощью фильтра по столбцу «name» с указанием значений, содержащих слово «ribosomal», были отобраны искомые гены. Далее столбцы name, start, end, strand были скопированы в таблицу ribosomal. На этом этапе было получено 86 генов, содержащих в названии продукта слово «ribosomal». Из них были удалены гены non-ribosomal peptide synthetas (синтетаза нерибосомных пептидов), так как этот белок не имеет прямого отношения к рибосомам, а осуществляет нерибосомный синтез коротких пептидов [4].
Длина генома составляет 5 522 075 пар оснований. Геном представлен одной молекулой ДНК (хромосомой), что подтверждается данными из базы данных NCBI Assembly [3].
Описанным выше методом не было определено каких-либо нестандартных букв в исследуемой последовательности ДНК. Данные по количеству каждого нуклеотида в геноме приведены в таблице numbers_of_nucleotides и представлены на рисунке 1. Данное распределение согласуется со вторым правилом Чаргаффа (количество A примерно равно T, количество G примерно равно C). GC-состав генома равен 70,46% [5].
Тип гена | Количество |
---|---|
protein_coding | 4875 |
pseudogene | 105 |
tRNA | 47 |
rRNA | 12 |
RNase_P_RNA | 1 |
tmRNA | 1 |
SRP_RNA | 1 |
Из таблицы 1 видно, что помимо стандартных типов генов присутствуют также менее распространенные варианты: RNase_P_RNA, tmRNA, SRP_RNA. Rnase P RNA - это РНК, входящая в состав фермента рибонуклеазы P. Этот фермент участвует в процессинге тРНК и ряда других малых РНК. Найдена у большинства групп бактерий [6].
tmRNA — это РНК, участвующая в терминации рибосом, которые «застряли», не завершив процесс трансляции. Определена у большинства групп бактерий [7].
srpRNA — это молекула РНК, входящая в состав сигнал распознающей частицы, функция которой заключается в том, чтобы распознавать сигнал транспорта белка в эндоплазматический ретикулум, временно приостанавливать трансляцию и транспортировать белок в комплексе с рибосомой на мембрану эндоплазматического ретикулума. Найдена у большинства групп эукариот [8].
Из рисунка 2 видно, что длина подавляющей части белков протеома Rhodococcus ruber p14 меньше 1000 аминокислот. Длина самого маленького белка протеома составляет 31 аминокислоту, а самого большого - 7339 аминокислот.
Из рисунка 3 видно, что наибольшее количество белков имеют длину в диапазоне 200-300 аминокислот (1190 белков). При увеличении значений границ диапазона, количество белков, попадающих в него уменьшается. Исключением является диапазон 1000 — 2000, в котором белков больше, чем в диапазоне 900 — 1000. Это можно объяснить сильно возросшей шириной этого диапазона. При уменьшении значений границ диапазона наблюдается аналогичная ситуация.
Самым длинным белком (7339 аминокислот) протеома является белок non-ribosomal peptide synthetase (синтетаза нерибосомных пептидов). Этот белок синтезирует короткие пептиды, являющиеся вторичными метаболитами ряда бактерий [4].
Самым коротким белком (31 аминокислота) протеома является белок mycofactocin precursor (предшественник мукофактоцина). Мукофактоцин — это небольшой пептид, участвующий в окислительно-восстановительных путях [9].
Из таблицы ribosomal видно, что в геноме содержится 73 гена, имеющих отношение к рибосомам. Из них - 12 кодируют рибосомальные РНК, 60 — рибосомальные белки, из которых 38 являются белками большой субъединицы(50S), а 22 - белками малой (30S), и 1 кодирует аланин-N-ацетилтрансферазу рибосомального белка S18. Этот фермент осуществляет ацетилирование аланина на N-конце рибосомального белка S18 [10].
В бактериальной рибосоме присутствуют 3 молекулы РНК (S5, S16, S23) [11]. При этом из таблицы ribosomal видно, что в геноме 12 генов отвечают за их кодирование. Также видно, что гены рибосомальных РНК имеют 4 копии и располагаются группами на молекуле ДНК близко друг к другу на одной цепи. Рибосомальных белков в малой субъединице 21, в большой — 31 [11]. Из таблицы ribosomal видно, что некоторые из них имеют в геноме копии.
Таблица Google Sheet с листами feat_table, genes, genes_per_type, genome_size, proteins_length, ribosomal, numbers_of_nucleotides: https://docs.google.com/spreadsheets/d/1EKs_FyFZsfjP2o4ypiwfBwO7txEmrg7IaR aBzNk5FTc/edit?usp=sharing