Мини-обзор генома бактерии Martelella endophytica
Автор: Мурзин Владислав Андреевич, студент 1 курса Факультета биоинженерии и биоинформатики
Московский государственный университет имени М.В.Ломоносова, Москва, 2020
Целью работы явилось исследование генома бактерии Martelella endophytica с получением количественных характеристик состава генов. Геном бактерии был проанализирован в данном мини-обзоре с выявлением ряда особенностей, таких как нуклеотидный состав, соотношение количеств генов разной длины и на разных цепях ДНК, степень покрытия генома генами.
Ключевые слова: Martelella endophytica, геном, протеом, нуклеотиды.
Martelella endophytica - грамотрицательная аэробная бактерия класса α-протеобактерий, обнаруженная в корнях галофитного растения Шиповник морщинистый (Rosa rugosa). Оптимальные параметры среды для роста бактерии - температура 28-30 градусов по Цельсию, pH в пределах от 7,0 до 8,5. Для осуществления дыхания использует убихинон Q-10. Для штамма YC6887T было показано ингибирование роста патогенных для растения оомицетов [1].
Размер генома - 4,8 Мб, представлен одной кольцевой хромосомой, без плазмид. Содержание GC-пар в ДНК бактерии составляет 62,1% [2]. Хромосома содержит 4028 генов, с которых может быть получено 4090 различных РНК-транскриптов, и 62 псевдогена [3].
В ходе анализа генома бактерии применялись следующие методы работы с электронными таблицами:
Длина плазмидной ДНК бактерии составляет 4817335 нуклеотидов, что подтверждается как подсчётом нуклеотидов в файле GCF_000960975.1_ASM96097v1_genomic.fna.gz из страницы о геноме бактерии на NCBI [4], так и интернет-источником [3].
В состав генов включено 4315154 нуклеотида, покрытие генами составляет 89,58%. Такой высокий процент кодирующей ДНК свойственен бактериям, в частности, у E. coli покрытие генами составляет около 88%, а у Methylophaga nitratireducenticrescens, геном которой стал объектом изучения моего коллеги, - 89% [5]. Отчасти это обеспечивается меньшим количеством регуляторных элементов и перекрыванием некоторых кодирующих последовательностей.
Количественный состав нуклеотидов в геноме Martelella endophytica (представлен на диаграмме слева):
Класс транскрипта | Количество | + цепь | - цепь |
---|---|---|---|
Некодирующие РНК (неуст. функция) | 1 | 1 | 0 |
Белки | 4400 | 2101 | 2299 |
Псевдогены | 71 | 39 | 32 |
РНК из РНКазы P | 1 | 0 | 1 |
рРНК | 9 | 0 | 9 |
7S-SRP-РНК | 1 | 1 | 0 |
тмРНК | 1 | 0 | 1 |
тРНК | 53 | 23 | 30 |
Всего | 4537 | 2165 | 2372 |
Число АК остатков | Количество | + цепь | - цепь |
---|---|---|---|
1-100 | 312 | 156 | 156 |
101-200 | 875 | 398 | 477 |
201-300 | 1169 | 601 | 568 |
301-400 | 993 | 463 | 530 |
401-500 | 500 | 230 | 270 |
501-600 | 229 | 110 | 119 |
601-700 | 120 | 54 | 66 |
701-800 | 66 | 23 | 43 |
801-900 | 56 | 29 | 27 |
901-1000 | 25 | 12 | 13 |
1001-1500 | 43 | 21 | 22 |
1501-2000 | 4 | 0 | 4 |
2001-2500 | 7 | 3 | 4 |
В протеоме Martelella endophytica 4400 белковых продуктов, из которых у 479 не выяснены функции. Распределение белков по числу аминокислотных остатков и цепи, на которой расположены их гены, приведено в таблице 2. Гистограмма длин белков приведена на рисунке 1, гистограмма распределения продуктов по цепям ДНК - на рисунке 2. Максимальные количества белков соответствуют длине в 200-300 аминокислот, максимальная длина белка 2829 аминокислотных остатков (гликозилтрансфераза), минимальная 29 аминокислотных остатков (F-субъединица калиевой АТФазы).
В таблице 3 приведены встречаемости некоторых k-меров в геноме бактерии Martelella endophytica. Для их подсчёта использовалась программа, написанная мной на языке программирования python 3, ссылка на которую приведена в разделе Сопроводительные материалы. Ожидаемое значение рассчитывается по формуле 4817335/4^n , где 4817335 пар нуклеотидов - размер генома, а n - длина k-мера.
Название последовательности | Последовательность | Ожидаемое количество (для 1 цепи) | Реальное количество на прямой цепи | Реальное количество на обратной цепи |
---|---|---|---|---|
Шайна-Дальгарно [7] | AGGAGG | 1176 | 1099 | 1107 |
Сайт метилирования | GATC | 18818 | 41372 | 41372 |
Прибнов бокс [7] | TATAAT | 1176 | 158 | 139 |
Сайт EcoRI [6] | GAATTC | 1176 | 477 | 524 |
Сайт BamHI [6] | GGATCC | 1176 | 793 | 793 |
Сайт AgeI [6] | ACCGGT | 1176 | 1468 | 1468 |
Сайт PstI [6] | CTGCAG | 1176 | 2698 | 2698 |
Сайт RtrI [6] | GTCGAC | 1176 | 3115 | 3115 |
Данное исследование позволило выявить ряд закономерностей, свойственных для генома и протеома бактерии Martelella endophytica, а именно: процент GC в плазмидной ДНК, распределение белков по числу аминокислотных остатков, примерно случайное распределение генов по прямой и обратной цепям ДНК. Возможно, эти скромные данные помогут чуть лучше узнать малоизвестную бактерию Martelella endophytica.