Обзор генома и протеома бактерии Methylophaga nitratireducenticrescens

Автор: Руслан Нагимов, студент 1 курса

Московский государственный университет им. М.В. Ломоносова

Факультет биоинженерии и биоинформатики


1.Введение

Methylophaga nitratireducenticrescens - грамотрицательная морская бактерия, которая может использовать в качестве источника углерода метанол (CH3OH). Céline Villeneuve, Christine Martineau, Florian Mauffrey, Richard Villemu (2012) впервые выделили ее из системы денитрификации с подачей метанола, обрабатывающей морскую воду в Montreal Biodome, описали и выяснили, что она способна к денитрификации (восстановление нитрата до нитрита с помощью фермента нитратредуктазы), что является уникальной особенностью внутри рода Methylophaga [1]. Также бактерия является единственной из своего рода кто может расти в бескислородных условиях в присутствии NO3- [1].

Геном M. nitratireducenticrescens полностью отсеквенирован и его размер составляет 3137100 п.н., количество генов белков - 2892, генов РНК - 57. Общее количество G/C пар составляет 45% от всей длины генома. Представлен одной хромосомой.


2. Материалы и методы

Для работы с геномом бактерии применяли электронную таблицу MS Excel. Использовали фильтрование данных по ключевым словам, перенос значений из одной таблицы в другую с использованием функции ВПР, сортировки, множественное копирование функции, специальные вставки. Также множество иных функций для расчета различных величин (например, СТАНДОТКЛОН, СУММ, СЧЁТ, МАКС, МИН, МЕДИАНА, СРЗНАЧ), для возвращения в ячейку какого-либо значения при определенном условии функция ЕСЛИ. Умение составлять сводные таблицы позволяло кратко свести информацию из таблицы большого объема. На основании данных составляли графики, в частности гистограммы.


3. Результаты и обсуждение

3.1 Распределение длин белков

В рамках работы был проведен анализ длин белковых последовательностей. Как показано на гистограмме (Рис. 1), наиболее часто встречаются белки длиной от 100 до 200 аминокислотных остатков (составляют 25% всех белков). Только 1,5% белков имеет длину более 1000 аминокислот.

Минимальная длина белка составила 23 аминокислотных остатка, максимальная 3420. Средняя длина 310 остатков, медиана проходит по 264, то есть длина 50% белков составляет менее медианного значения, а 50% более (Таблица 1).


3.2 Анализ ориентации генов рибосомальных белков и рРНК

Была составлена таблица всех генов рибосомальных белков и рРНК. На основании начала и конца координат генов была определена ориентация на прямой или обратной цепи. Общее количество белков составило 68, все из них находятся на прямой цепи.

На основании координат можно сделать умозаключение, что гены рРНК расположены кластерами, так как их координаты имеют близкие значение (Таблица 2). Видно, что количество копий генов, кодирующих одну РНК несколько. Это может быть обусловлено дупликаций генов, которые находятся в едином кластере и последующей вставкой их в новом месте генома. Такой процесс мог происходить несколько раз, что и привело к образованию множественных копий близкорасположенных друг к другу генов в геноме.

Аналогичную закономерность можно проследить касательно генов рибосомальных белков (Таблица 3, в ней приведены примеры только части генов белков, так как их общее количество велико и составляет порядка 60). Это может указывать на общность происхождения рибосомальных белков, которая могло быть результатом, например, множественной дупликации генов по аналогии с генами рРНК, и впоследствии индивидуальных мутаций каждой из копий. Так как множество рибосомальных белков консервативны, то они являются гомологами, что в очередной раз подтверждает данное предположение [2].


3.3 Часть генома, занимаемая последовательностями, кодирующими белки (CDS)

Для оценки части, занимаемой CDS (coding sequences) потребовалось составить таблицу всех белок-кодирующих генов, количество которых составляет 2892 (см. Таблицу 4).

Далее производили подсчёт всех длин генов на основании координат, в результате которого общая длина CDS составила 2,79 млн пар нуклеотидов. От полного генома CDS составила 89%. Это достаточно высокий процент, но в целом он соответствует действительности. У E.coli 88% генома составляют CDS [3]. Такой высокий процент обусловлен тем, что у прокариот отсутствуют интроны, ретротранспозоны и обширные белоксвязывающие последовательности, которые имеются у эукариот [3].


Заключение

Таким образом, проанализировав протеом и геном M. Nitratireducenticrescens, можно выявить ряд интересных закономерностей, которые можно объяснить, опираясь на знания в молекулярной биологии, генетике, биоинформатике. Данное исследование помогло лучше понять организацию генома у прокариот, провести ряд параллелей при сравнении с родственными организмами.

Рис. 1 Гистограмма распределения количества белков по длине
Таблица 1 Минимальное, максимальное, среднее значение длины белков и медиана
Таблица 2 название рРНК (1 столбец), начальные и конечные координаты (2 и 3 столбец соответственно)
Таблица 3 название белка (1 столбец), начальные и конечные координаты (2 и 3 столбец соответственно)
Таблица 4 продемонстрировано количество каждого типа генов (CDS соответствует protein_coding)

Сопроводительные материалы

Сопроводительные материалы доступны по ссылке. В листе genes приведена информация о всех генах, имеющихся в геноме с указанием, кодируемого ими белка, РНК или иная информация. Feat_table содержит исходные данные о геноме бактерии, в листе gene2 приведена таблица с сортировкой по CDS.

Список литературы

1. Céline Villeneuve, Christine Martineau, Florian Mauffrey, Richard Villemu (2012)

2. Спирин, 2011, с. 136-137

3. How many genes in genome

© Руслан Нагимов, 2021