МИНИ-ОБЗОР ПРОТЕОМА БАКТЕРИИ CORALIOMARGARITA AKAJIMENSIS

ИВАН МАРКОВ
Факультет биоинженерии и биоинформатики
Московский государственный университет
119234, ГСП-1, Ленинские горы МГУ 1, стр. 73 Москва, Россия
ivan@markov.im
В данном обзоре представлены результаты статистической обработки хромосомной таблицы бактерии Coraliomargarita akajimensis DSM 45221.
Keywords: бактерия; хромосомная таблица; геном; электронная таблица.

Введение

Coraliomargarita akajimensis - грамотрицательная колониальная бактерия сферической формы из порядка Puniceicoccales, класса Opitutae, типа Verrucomicrobia. Впервые выделена вблизи острова Ака(赤島), префектура Окинава(沖縄), Япония в 2007 году. Определенный штамм был изолирован от морской воды, окружающий твердый коралл Galaxea fascicularis L., и подвергся полифазному таксономическому исследованию. Филогенетический анализ, основанный на генной последовательности 16S рРНК, показал совпадение на 84-95% с представителями субдивизиона 4 типа ‘Verrucomicrobia’. Условия для роста бактерии - температура в интервале 4-45 градусов Цельсия (оптимальная - 20-30 градусов Цельсия), значение pH от 7 до 9 и содержание хлорида натрия до 5%1.

Геном бактерии представлен единственной хромосомой, состоящей из 3192 генов.

В настоящей момент не найдено никакого практического применения данной бактерии, но, возможно, в будущем это изменится

Методы и материалы

Для анализа генома была использована хромосомная таблица из базы NCBI2. Обработка данных проводилась в табличном редакторe Google Sheets. Для оформления данной работы использовалась система компьютерной вёрстки LaTeX.

Электронная микрография колонии бактерий штамма 04OKA010-24T
Рис. 1. Электронная микрография колонии бактерий штамма 04OKA010-24T3

Содержание столбцов ‘assembly’ и ‘genomic_accession’

ДНК единственна. Ячейки столбца ‘assembly’ также принимают единственное значение ‘GCA_000025905.1’.

Умения и функции, освоенные в процессе работы

Результаты

Составляющие генома

Всего обнаружено 3192 гена, из которых 3120 кодируют белки, 56 кодируют различные РНК и 16 псевдогенов. Изображено на рисунке 2.

Диаграмма компонентов генома
Рис. 2. Диаграмма компонентов генома

Длины белков

Длины белков принимают значения от 24 до 16477 аминокислот, средняя длина 353,78 а.к, медианная составляет 292 а.к. Всего существует 35 белков с длиной не менее 1100 аминокислот. Данные иллюстрирует рисунок 3.

Диаграмма распределения длин белков
Рис. 3. Диаграмма распределения длин белков

Количество гипотетических белков

Среди 3120 генов встречаются 680 кодирующих гипотетических белков, они составляют 21,79% от общего числа белков. См. таблицу 1.
Таблица 1. Количество гипотетических белков
Total quantity Hypothetical protein Percent of
3120 680 21,79

Рибосомальные белки и РНК

Общее количество рибосомальных белков и РНК равняется 63. Их имена4:
  • ribosomal protein S9
  • ribosomal protein L13
  • ribosomal protein L28
  • 5S ribosomal RNA
  • 23S ribosomal RNA
  • 16S ribosomal RNA
  • ribosomal protein L21
  • ribosomal protein L27
  • ribosomal subunit interface protein
  • ribosomal protein S1
  • ribosomal protein L9
  • ribosomal protein S6
  • ribosomal protein L17
  • ribosomal protein S4
  • 30S ribosomal protein S11
  • 30S ribosomal protein S13
  • ribosomal protein L15
  • ribosomal protein S5
  • ribosomal protein L18
  • ribosomal protein L6
  • ribosomal protein S8
  • ribosomal protein S14
  • ribosomal protein L5
  • ribosomal protein L24
  • ribosomal protein L14
  • 30S ribosomal protein S17
  • ribosomal protein L29
  • ribosomal protein L1
  • ribosomal protein L10
  • ribosomal protein L7/L12
  • ribosomal protein L32
  • ribosomal protein L35
  • ribosomal protein L16
  • ribosomal protein S3
  • ribosomal protein L22
  • ribosomal protein S19
  • ribosomal protein L2
  • Ribosomal protein L25/L23
  • ribosomal protein L4/L1e
  • 50S ribosomal protein L3
  • ribosomal protein S10
  • ribosomal protein S7
  • ribosomal protein S12
  • ribosomal RNA adenine methylase transferase
  • S23 ribosomal protein
  • 5S ribosomal RNA
  • 23S ribosomal RNA
  • 16S ribosomal RNA
  • ribosomal L11 methyltransferase
  • ribosomal protein S20
  • ribosomal protein S18
  • ribosomal protein L36
  • ribosomal protein L31
  • ribosomal protein L34
  • ribosomal protein S21
  • ribosomal protein S2
  • S23 ribosomal protein
  • ribosomal protein S15
  • ribosomal protein L11
  • ribosomal protein L20
  • ribosomal protein L33
  • ribosomal protein S16
  • ribosomal protein L19

Распределение генов на прямой и обратной цепях

Гены распределены равномерно, это доказывает таблица 2. Количество положительно направленных генов равно 1549, отрицательно направленных - 1643. Для того, чтобы вычислить вероятность такого распределения высчитывается удвоенная сумма вероятностей попадания не меньшего количества генов на одну цепь. Значение интегральной функции BINOM.DIST при следующих данных составляет 0,1.
Таблица 2. Количество гипотетических белков
Total number of genes Quantity of “+” Quantity of “-” Result
3192 1549 1643 0,1

Обсуждение

Составляющие генома

Обнаружено небольшое число псевдогенов. Большинство генов кодирует белки, лишь 56 из 3192 генов (примерно 1,75% от общего числа) кодируют РНК.

Длины белков

Подавляющее большинство белков имеют длину в диапазоне от 24 до 625 аминокислот, однако существуют 35 белков с длиной не менее 1100(а.к.) и даже один с длиной в 16477(а.к.).

Количество гипотетических белков

Выявлено 680 гипотетических белков из 3120 - общего числа белков. Процент гипотетических белков составляет 21,79, а следовательно, большинство белков хорошо известны.

Рибосомальные белки и РНК

В сумме было найдено 63 рибосомальных белка и РНК. Это количество составляет примерно 1,97% от общего числа генов, что невелико. Названия этих структур представлены в пункте 3.4.

Распределение генов на прямой и обратной цепях

Среди 3192 генов 1549 положительно направлены и 1643 - отрицательно. Эти значения близки к половине, и несложно предположить, что такое распределение случайно. И действительно, значение функции биномиального распределения равно 0,1, что больше 0,05. Потому такое распределение можно считать случайным.

Заключение

В результате анализа генома штамма бактерии Coraliomargarita akajimensis DSM 45221 были представлены основные количественные характеристики: компоненты генома (3120 белковых генов,16 псевдогенов и 56 кодирующих РНК), длины кодируемых белков (24-16477 а.к.), доля гипотетических белков (21,79%), количество рибосомальных белков и РНК (63 в сумме), вероятность распределения генов по прямой и обратной цепям (0,1). Можно отметить исключительную длину белка в 16477 аминокислот, что значительно больше длин остальных белков и ярко выраженную случайную направленность генов.

Сопроводительные материалы

Ссылка на Google Sheets файл с расчетами.

Благодарности

Алексеевский Андрей Владимирович, Залевский Артур Олегович, Русинов Иван Сергеевич, Спирин Сергей Александрович - за помощь при изучении электронных таблиц для анализа данных.

Источники

  1. Yoon J, Yasumoto-Hirose M, Katsuta A, Sekiguchi H, Matsuda S, Kasai H, Yokota A. Coraliomargarita akajimensis gen. nov., sp. nov., a novel member of the phylum ’Verrucomicrobia’ isolated from seawater in Japan. Int J Syst Evol Microbiol. 2007 May;57(Pt 5):959-63. PubMed PMID: 17473241.
    https://www.ncbi.nlm.nih.gov/pubmed/17473241?report=docsum&format=text
  2. Ссылка на базу Genomes NCBI (на 2019.11.17):
    https://www.ncbi.nlm.nih.gov/genome/browse#!/prokaryotes/coraliomargarita%20akajimensis%20dsm%2045221
  3. Ссылка на фотографию: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3035286/figure/f2/
  4. Ссылка на хромосомную таблицу:
    https://docs.google.com/spreadsheets/d/1SJNiMjN6nXSe6ZkLFY3GkAgprEfKkM78WZ2gp7jI_8U