Мини-обзор генома бактерии Martelella endophytica

Автор: Мурзин Владислав Андреевич, студент 1 курса Факультета биоинженерии и биоинформатики
Московский государственный университет имени М.В.Ломоносова, Москва, 2020

Резюме

Целью работы явилось исследование генома бактерии Martelella endophytica с получением количественных характеристик состава генов. Геном бактерии был проанализирован в данном мини-обзоре с выявлением ряда особенностей, таких как нуклеотидный состав, соотношение количеств генов разной длины и на разных цепях ДНК, степень покрытия генома генами.
Ключевые слова: Martelella endophytica, геном, протеом, нуклеотиды.

Введение

Martelella endophytica - грамотрицательная аэробная бактерия класса α-протеобактерий, обнаруженная в корнях галофитного растения Шиповник морщинистый (Rosa rugosa). Оптимальные параметры среды для роста бактерии - температура 28-30 градусов по Цельсию, pH в пределах от 7,0 до 8,5. Для осуществления дыхания использует убихинон Q-10. Для штамма YC6887T было показано ингибирование роста патогенных для растения оомицетов [1].
Размер генома - 4,8 Мб, представлен одной кольцевой хромосомой, без плазмид. Содержание GC-пар в ДНК бактерии составляет 62,1% [2]. Хромосома содержит 4028 генов, с которых может быть получено 4090 различных РНК-транскриптов, и 62 псевдогена [3].

Материалы и методы

В ходе анализа генома бактерии применялись следующие методы работы с электронными таблицами:

  • Вырезание, вставка, копирование и удаление содержимого столбцов и отдельных ячеек;
  • Перенос данных между таблицами;
  • Написание, комбинирование и распространение формул;
  • Сортировка данных в пределах одного столбца;
  • Избирательное отображение строк при помощи инструмента "Фильтр";
  • Визуализация данных при помощи построения гистограмм.

Результаты и обсуждение
Размер генома и его покрытие генами

Длина плазмидной ДНК бактерии составляет 4817335 нуклеотидов, что подтверждается как подсчётом нуклеотидов в файле GCF_000960975.1_ASM96097v1_genomic.fna.gz из страницы о геноме бактерии на NCBI [4], так и интернет-источником [3].
В состав генов включено 4315154 нуклеотида, покрытие генами составляет 89,58%. Такой высокий процент кодирующей ДНК свойственен бактериям, в частности, у E. coli покрытие генами составляет около 88%, а у Methylophaga nitratireducenticrescens, геном которой стал объектом изучения моего коллеги, - 89% [5]. Отчасти это обеспечивается меньшим количеством регуляторных элементов и перекрыванием некоторых кодирующих последовательностей.

визуализация плазмидной ДНК
Визуализация плазмидной ДНК бактерии Martelella endophytica и диаграмма содержания GC-пар, сделанные в программе SnapGene
Нуклеотидный состав генома
диаграмма содержания нуклеотидов
Диаграмма (использованы логарифмы по основанию 10 ввиду сильного разброса величин)

Количественный состав нуклеотидов в геноме Martelella endophytica (представлен на диаграмме слева):

  • A - 911830
  • T - 912102
  • G - 1495946
  • C - 1497292
  • A/T - 2
  • A/G - 6
  • A/C - 6
  • T/G - 3
  • T/C - 7
  • G/C - 4
  • невыясненные - 137

Состав генов, кодирующих продукты разных классов
Всего в геноме Martelella endophytica 4537 участков, кодирующих различные транскрипты. Они примерно равномерно распределены между цепями ДНК. В таблице 1 приведено распределение генов продуктов разных классов по цепям ДНК.
Таблица 1: распределение генов по прямой (+) и обратной (-) цепям ДНК
Класс транскрипта Количество + цепь - цепь
Некодирующие РНК (неуст. функция) 1 1 0
Белки 4400 2101 2299
Псевдогены 71 39 32
РНК из РНКазы P 1 0 1
рРНК 9 0 9
7S-SRP-РНК 1 1 0
тмРНК 1 0 1
тРНК 53 23 30
Всего 4537 2165 2372
Длины белков
Таблица 2: распределение белков по длине и цепи гена
Число АК остатков Количество + цепь - цепь
1-100 312 156 156
101-200 875 398 477
201-300 1169 601 568
301-400 993 463 530
401-500 500 230 270
501-600 229 110 119
601-700 120 54 66
701-800 66 23 43
801-900 56 29 27
901-1000 25 12 13
1001-1500 43 21 22
1501-2000 4 0 4
2001-2500 7 3 4
Диаграмма длин белков
Рисунок 1: распределение длин белков

В протеоме Martelella endophytica 4400 белковых продуктов, из которых у 479 не выяснены функции. Распределение белков по числу аминокислотных остатков и цепи, на которой расположены их гены, приведено в таблице 2. Гистограмма длин белков приведена на рисунке 1, гистограмма распределения продуктов по цепям ДНК - на рисунке 2. Максимальные количества белков соответствуют длине в 200-300 аминокислот, максимальная длина белка 2829 аминокислотных остатков (гликозилтрансфераза), минимальная 29 аминокислотных остатков (F-субъединица калиевой АТФазы).

Распределение продуктов по положению их генов
На рисунке 2 приведена гистограмма, показывающая распределение генов различных продуктов по цепям ДНК.
Пояснения к рисунку: АА - аминокислотные остатки, синие столбцы - прямая цепь, красные столбцы - обратная цепь. Pseudogene - псевдогены, ncRNA - некодирующие РНК с невыясненной функцией, RNase_P_RNA - РНК из РНКазы P, rRNA - рибосомальные РНК, SRP_RNA - 7S-РНК из сигнал-распознающей частицы, tm_RNA - транспортно-матричные РНК, tRNA - транспортные РНК.
Диаграмма распределения по цепям ДНК генов продуктов разных классов
Рисунок 2: распределение генов различных продуктов по цепям ДНК
Видно, что распределение на рисунке 2 достаточно случайное, за исключением генов рибосомальных РНК, которые все (в количестве 9 штук) собраны на обратной цепи.
Анализ количества некоторых k-меров

В таблице 3 приведены встречаемости некоторых k-меров в геноме бактерии Martelella endophytica. Для их подсчёта использовалась программа, написанная мной на языке программирования python 3, ссылка на которую приведена в разделе Сопроводительные материалы. Ожидаемое значение рассчитывается по формуле 4817335/4^n , где 4817335 пар нуклеотидов - размер генома, а n - длина k-мера.

Таблица 3:встречаемость различных k-меров в геноме Martelella endophytica
Название последовательности Последовательность Ожидаемое количество (для 1 цепи) Реальное количество на прямой цепи Реальное количество на обратной цепи
Шайна-Дальгарно [7] AGGAGG 1176 1099 1107
Сайт метилирования GATC 18818 41372 41372
Прибнов бокс [7] TATAAT 1176 158 139
Сайт EcoRI [6] GAATTC 1176 477 524
Сайт BamHI [6] GGATCC 1176 793 793
Сайт AgeI [6] ACCGGT 1176 1468 1468
Сайт PstI [6] CTGCAG 1176 2698 2698
Сайт RtrI [6] GTCGAC 1176 3115 3115
Заключение

Данное исследование позволило выявить ряд закономерностей, свойственных для генома и протеома бактерии Martelella endophytica, а именно: процент GC в плазмидной ДНК, распределение белков по числу аминокислотных остатков, примерно случайное распределение генов по прямой и обратной цепям ДНК. Возможно, эти скромные данные помогут чуть лучше узнать малоизвестную бактерию Martelella endophytica.

Сопроводительные материалы

Электронная таблица с сопроводительными материалами доступна по ссылке

Программа для подсчёта встречаемости k-меров доступна по ссылке

Источники
  1. Fehmida Bibi, Martelella endophytica sp. nov., an antifungal bacterium associated with a halophyte, Int J Syst Evol Microbiol. 2013 Aug;63(Pt 8):2914-2919, Gyeongsang National University
  2. Ajmal Khan, Haji Khan, Eu Jin Chung, Mohammad T. Hossain, Complete Genome Sequence of Martelella endophytica YC6887, Genome Announc., 2015 May 7;3(3):e00366-15 , Gyeongsang National University
  3. Ensembl Bacteria release 48 - August 2020
  4. Директория с данными о геноме бактерии M. endophytica на сайте NCBI
  5. Nagimov R D, Обзор генома и протеома бактерии Methylophaga nitratireducenticrescens, Moscow State University
  6. Список рестриктаз с сайтами разрезания и бактериями, из которых они были получены
  7. Д. Нельсон, М. Кокс, Основы биохимии Ленинджера, том 3, изд. Лаборатория знаний, ISBN: 978-5-00101-864-3, 978-5-00101-863-6, 2008