ИВАН МАРКОВ
Факультет биоинженерии и биоинформатики
Московский государственный университет
119234, ГСП-1, Ленинские горы МГУ 1, стр. 73
Москва, Россия
ivan@markov.im
В данном обзоре представлены результаты статистической обработки хромосомной
таблицы бактерии Coraliomargarita akajimensis DSM 45221.
Coraliomargarita akajimensis - грамотрицательная колониальная бактерия сферической формы из порядка Puniceicoccales, класса Opitutae, типа
Verrucomicrobia. Впервые выделена вблизи острова Ака(赤島), префектура
Окинава(沖縄), Япония в 2007 году. Определенный штамм был изолирован от
морской воды, окружающий твердый коралл Galaxea fascicularis L., и подвергся полифазному таксономическому исследованию. Филогенетический анализ,
основанный на генной последовательности 16S рРНК, показал совпадение на
84-95% с представителями субдивизиона 4 типа ‘Verrucomicrobia’. Условия для
роста бактерии - температура в интервале 4-45 градусов Цельсия (оптимальная
- 20-30 градусов Цельсия), значение pH от 7 до 9 и содержание хлорида натрия
до 5%1.
Геном бактерии представлен единственной хромосомой, состоящей из 3192 генов.
В настоящей момент не найдено никакого практического применения данной бактерии, но, возможно, в будущем это изменится
Методы и материалы
Для анализа генома была использована хромосомная таблица из базы NCBI2. Обработка данных
проводилась в табличном редакторe Google Sheets. Для оформления данной работы использовалась система компьютерной вёрстки LaTeX.
Рис. 1. Электронная микрография колонии бактерий штамма 04OKA010-24T3
Содержание столбцов ‘assembly’ и ‘genomic_accession’
ДНК единственна. Ячейки столбца ‘assembly’ также принимают единственное значение ‘GCA_000025905.1’.
Умения и функции, освоенные в процессе работы
Базовые навыки выделения, копирования и редактирования ячеек
Функция VLOOKUP для связывания информации разных таблиц
Функция IF для редактирования столбца ‘strand’
Функция BINOM.DIST для исследования распределения генов
Умение строить диаграммы для визуализации результатов
Результаты
Составляющие генома
Всего обнаружено 3192 гена, из которых 3120 кодируют белки, 56 кодируют
различные РНК и 16 псевдогенов. Изображено на рисунке 2.
Рис. 2. Диаграмма компонентов генома
Длины белков
Длины белков принимают значения от 24 до 16477 аминокислот, средняя длина
353,78 а.к, медианная составляет 292 а.к. Всего существует 35 белков с длиной
не менее 1100 аминокислот. Данные иллюстрирует рисунок 3.
Рис. 3. Диаграмма распределения длин белков
Количество гипотетических белков
Среди 3120 генов встречаются 680 кодирующих гипотетических белков, они
составляют 21,79% от общего числа белков. См. таблицу 1.
Таблица 1. Количество гипотетических белков
Total quantity
Hypothetical protein
Percent of
3120
680
21,79
Рибосомальные белки и РНК
Общее количество рибосомальных белков и РНК равняется 63.
Их имена4:
ribosomal protein S9
ribosomal protein L13
ribosomal protein L28
5S ribosomal RNA
23S ribosomal RNA
16S ribosomal RNA
ribosomal protein L21
ribosomal protein L27
ribosomal subunit interface protein
ribosomal protein S1
ribosomal protein L9
ribosomal protein S6
ribosomal protein L17
ribosomal protein S4
30S ribosomal protein S11
30S ribosomal protein S13
ribosomal protein L15
ribosomal protein S5
ribosomal protein L18
ribosomal protein L6
ribosomal protein S8
ribosomal protein S14
ribosomal protein L5
ribosomal protein L24
ribosomal protein L14
30S ribosomal protein S17
ribosomal protein L29
ribosomal protein L1
ribosomal protein L10
ribosomal protein L7/L12
ribosomal protein L32
ribosomal protein L35
ribosomal protein L16
ribosomal protein S3
ribosomal protein L22
ribosomal protein S19
ribosomal protein L2
Ribosomal protein L25/L23
ribosomal protein L4/L1e
50S ribosomal protein L3
ribosomal protein S10
ribosomal protein S7
ribosomal protein S12
ribosomal RNA adenine methylase transferase
S23 ribosomal protein
5S ribosomal RNA
23S ribosomal RNA
16S ribosomal RNA
ribosomal L11 methyltransferase
ribosomal protein S20
ribosomal protein S18
ribosomal protein L36
ribosomal protein L31
ribosomal protein L34
ribosomal protein S21
ribosomal protein S2
S23 ribosomal protein
ribosomal protein S15
ribosomal protein L11
ribosomal protein L20
ribosomal protein L33
ribosomal protein S16
ribosomal protein L19
Распределение генов на прямой и обратной цепях
Гены распределены равномерно, это доказывает таблица 2. Количество положительно направленных генов равно 1549, отрицательно направленных -
1643. Для того, чтобы вычислить вероятность такого распределения высчитывается удвоенная сумма вероятностей попадания не меньшего количества генов
на одну цепь. Значение интегральной функции BINOM.DIST при следующих
данных составляет 0,1.
Таблица 2. Количество гипотетических белков
Total number of genes
Quantity of “+”
Quantity of “-”
Result
3192
1549
1643
0,1
Обсуждение
Составляющие генома
Обнаружено небольшое число псевдогенов. Большинство генов кодирует
белки, лишь 56 из 3192 генов (примерно 1,75% от общего числа) кодируют
РНК.
Длины белков
Подавляющее большинство белков имеют длину в диапазоне от 24 до 625
аминокислот, однако существуют 35 белков с длиной не менее 1100(а.к.) и даже
один с длиной в 16477(а.к.).
Количество гипотетических белков
Выявлено 680 гипотетических белков из 3120 - общего числа белков. Процент гипотетических белков составляет 21,79, а следовательно, большинство
белков хорошо известны.
Рибосомальные белки и РНК
В сумме было найдено 63 рибосомальных белка и РНК. Это количество
составляет примерно 1,97% от общего числа генов, что невелико. Названия
этих структур представлены в пункте 3.4.
Распределение генов на прямой и обратной цепях
Среди 3192 генов 1549 положительно направлены и 1643 - отрицательно.
Эти значения близки к половине, и несложно предположить, что такое распределение случайно. И действительно, значение функции биномиального распределения равно 0,1, что больше 0,05. Потому такое распределение можно
считать случайным.
Заключение
В результате анализа генома штамма бактерии Coraliomargarita akajimensis
DSM 45221 были представлены основные количественные характеристики: компоненты генома (3120 белковых генов,16 псевдогенов и 56 кодирующих РНК),
длины кодируемых белков (24-16477 а.к.), доля гипотетических белков (21,79%),
количество рибосомальных белков и РНК (63 в сумме), вероятность распределения генов по прямой и обратной цепям (0,1). Можно отметить исключительную
длину белка в 16477 аминокислот, что значительно больше длин остальных
белков и ярко выраженную случайную направленность генов.
Сопроводительные материалы
Ссылка на Google Sheets файл с расчетами.
Благодарности
Алексеевский Андрей Владимирович, Залевский Артур Олегович, Русинов
Иван Сергеевич, Спирин Сергей Александрович - за помощь при изучении
электронных таблиц для анализа данных.
Источники
Yoon J, Yasumoto-Hirose M, Katsuta A, Sekiguchi H, Matsuda S, Kasai H, Yokota
A. Coraliomargarita akajimensis gen. nov., sp. nov., a novel member of the phylum
’Verrucomicrobia’ isolated from seawater in Japan. Int J Syst Evol Microbiol. 2007
May;57(Pt 5):959-63. PubMed PMID: 17473241. https://www.ncbi.nlm.nih.gov/pubmed/17473241?report=docsum&format=text