Вычисление количества и средней длины псевдогенов, GC-состава, изучение кодирующих областей и длин белков бактерии Gloeobacter morelensis MG652769

Аннотация

В данной работе исследовались характеристики набора белков и генома бактерии Gloeobacter morelensis MG652769. Было проведено изучение длин белков, количества кодирующих областей генома (CDS), GC-состава (GC%), количества псевдогенов и вычисление их средней длины, а также произведено сравнение количества CDS с некоторыми другими представителями рода Gloeobacter.

Введение

В настоящее время существуют только три вида рода цианобактерий Gloeobacter с полностью секвенированными геномами из совершенно разных регионов мира [1]. В этом исследовании будет представлено описание некоторых особенностей генома только одного из представителей этого рода - Gloeobacter morelensis MG652769. Исследуемая бактерия Gloeobacter morelensis MG652769 относится к Домену Bacteria, Типу Cyanobacteria, Классу Cyanophyceae, Порядку Gloeobacterales, Семейству Gloeobacteraceae [2].

Цианобактерии рода Gloeobacter являются одними из самых примитивных представителей цианобактерий, способных к оксигенному фотосинтезу, процессу, который привел к накоплению газообразного кислорода в атмосфере Земли [1].

Бактерии рода Gloeobacter содержат несколько видов пигментов, таких как хлорофилл a, β-каротин и другие каротиноиды, аллофикоцианин, фикоцианин и фикоэритрин [3].

У представителей рода Gloeobacter отсутствуют тилакоидные мембраны, обычно связанные с цианобактериями и пластидами. Особенность наличия тилакоидных мембран сохраняется у всех других оксигенных фототрофов [4]. Вместо этого светособирающую функцию в клетках бактерий этого рода выполняют так называемые фикобилисомы, которые состоят из различных белков и располагаются на внутренней стороне плазматической мембраны [5]. В связи с этим изучение характеристик генома и протеома данной бактерии и других представителей рода Gloeobacter может дать представление о том, как впервые возник оксигенный фотосинтез.

Материалы и методы

Для изучения средней длины белков бактерии и построения гистограммы, отражающей распределение длин аминокислотных последовательностей белков, использовались методы электронных таблиц (Google sheets), такие как: функции MIN и MAX, COUNTIFS, AVERAGE, а также применялись фильтры и встроенные инструменты построения гистограмм. Количество кодирующих областей генома вычислялось путём использования фильтров в электронной таблице (Google sheets). Гистограмма GC-состава (GC%) строилась с использованием функций электронных таблиц (Google sheets) MIN и MAX, AVERAGE, CONCATENATE, COUNTIFS, а также инструментов построения гистограмм. Количество псевдогенов и средняя длина псевдогена исследовались с помощью фильтра и функции AVERAGE. Впоследствии найденное значение количества кодирующих областей генома сравнивалось с количествами CDS у других представителей рода Gloeobacter, полученными из интернет-источников [6] [7].

Результаты

1) Изучение длин белков

Рисунок 1. Гистограмма длин белков бактерии Gloeobacter morelensis MG652769

На гистограмме (рис. 1) заметно, что большинство белков исследуемой бактерии имеют длину в интервале от 100 до 200 аминокислот. Также на гистограмме видно, что с увеличением интервала аминокислот всё меньше и меньше белков подходят под соответствующий промежуток (исключением является первый интервал, так как не очень много белков имеют длину до 100 аминокислот).

Средняя длина белка бактерии Gloeobacter morelensis MG652769 примерно равна 308 аминокислотам (таблица S1 сопроводительных материалов).

2) Исследование количества кодирующих областей генома (CDS)

По результатам проведённого исследования количество кодирующих областей генома (CDS) насчитывает 4889 участков. Из них количество CDS, кодирующих белки, равно 4829, а количество CDS, не кодирующих белки, составляет 60 областей (таблица S2 сопроводительных материалов).

3) Изучение GC-состава генома

Рисунок 2. Гистограмма процентного содержания GC-нуклеотидов в геноме бактерии Gloeobacter morelensis MG652769

Из гистограммы (рис. 2) видно, что большинство генов бактерии имеют от 63 до 67 % GC-нуклеотидов. Немного меньше генов находятся в интервале от 59 до 63 % GC-нуклеотидов. В остальных возможных промежутках GC-состава находятся гораздо меньше генов, чем в указанных выше двух интервалах (таблица S3 сопроводительных материалов).

4) Изучение псевдогенов бактерии

По итогам выполненного исследования в геноме бактерии Gloeobacter morelensis MG652769 насчитывается 60 псевдогенов. Среднее значение длин псевдогенов составляет 692 нуклеотида (таблица S2 сопроводительных материалов).

5) Сравнение с числом CDS у других представителей рода Gloeobacter

Таблица 1. Количество CDS у представителей рода Gloeobacter
Gloeobacter morelensis MG652769 Gloeobacter kilaueensis JS1 Gloeobacter violaceus PCC 7421
Количество CDS, кодирующих белки 4829 4446 4493
Количество CDS, не кодирующих белки 60 23 29
Общее количество CDS 4889 4469 4522
Доля количества CDS, не кодирующих белки, к общему количеству CDS, % 1,23 0,51 0,64

Из таблицы 1 видно, что у исследуемой бактерии больше доля CDS, не кодирующих белки, чем у других бактерий из рода Gloeobacter. При этом, суммарное количество CDS и количество CDS, кодирующих белки, в целом не отличаются от таковых у других представителей рода Gloeobacter.

Обсуждение

Результаты проведенного исследования могут дать большее понимание устройства генома и протеома бактерии Gloeobacter morelensis MG652769, а также могут быть использованы при проведении дальнейших исследований генетического кода не только указанной бактерии, но и других представителей рода Gloeobacter.

Заключение

В ходе работы был исследован геном бактерии Gloeobacter morelensis MG652769. Получена гистограмма длин белков этой бактерии, а также гистограмма процентного содержания GC-нуклеотидов в генах. Были изучены псевдогены и кодирующие области генома бактерии. Кроме того, было проведено сравнение количеств CDS у исследуемой бактерии с другими представителями рода Gloeobacter.

Возможные дальнейшие исследования

По мнению автора, одним из направлений возможных дальнейших исследований могло бы стать изучение количества массивов CRISPR. Это могло бы дать представление о способах защиты этой бактерии, а возможно и всего рода Gloeobacter, от поражения различными бактериофагами.

Сопроводительные материалы

[S1] CDS генома бактерии Gloeobacter morelensis MG652769

[S2] Таблица особенностей генома бактерии Gloeobacter morelensis MG652769

[S3] GC-состав в генах бактерии Gloeobacter morelensis MG652769

Литература

[1] Saw J. H., Cardona T., Montejano G. Полное секвенирование генома нового вида Gloeobacter из пещеры с водопадом в Мексике. Genome Biol Evol. 2021 Nov 30;13(12):evab264.

[2] Таксономическая характеристика бактерии Gloeobacter morelensis MG652769

[3] Rippka, R., Waterbury, J., Cohen-Bazire, G. Цианобактерия, у которой отсутствуют тилакоиды. Arch. Microbiol. 100, 419–436 (1974)

[4] Saw J.H.W., et al. 2013. Культивирование и полное секвенирование генома Gloeobacter kilaueensis sp. nov. из лавовой пещеры в кальдере Килауэа, Гавайи. PLoS One 8(10):e76376

[5] Antonia Herrero, Enrique Flores (2008). The Cyanobacteria: Molecular Biology, Genomics and Evolution. Horizon. p. 3. ISBN 978-1-904455-15-8

[6] Saw J.H.W., Foster J., Brown M.V., Schatz M.C., Hou S., Alam M. and Donachie S.P. 2012. Gloeobacter kilaueensis JS1, полная последовательность

[7] Nakamura Y., et al. 2003. Gloeobacter violaceus PCC 7421, полная последовательность