Мини-обзор


Мини-обзор

Анализ генома и протеома цианобактерии Cylindrospermum stagnale PCC 7417

Щепетов М. А.1

1Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова, Москва, Россия


1 Введение

Целью данной работы является изучение генома и протеома бактерии Cylindrospermum stagnale PCC 7417, относящейся к семейству Nostocaceae. Основой метаболизма этого прокариота является оксигенный фотосинтез [1]. Исследуемый организм представляет собой нитчатую цианобактерию с неподвижными клетками эллипсоидной формы, способную образовывать гетероцисты, в которых происходит фиксация атмосферного азота [1].

В настоящее время большой интерес представляет разнообразие вторичных метаболитов цианобактерий в целом и рассматриваемого представителя в частности, поскольку многие из этих соединений обладают выраженной биологической активностью [2]. Так, было показано, что Cylindrospermum stagnale PCC 7417 способен выделять в окружающую среду дигидроанатоксин-а, вещество из группы анатоксинов, представляющее опасность для животных и человека [3]. Анатоксины являются мощными агонистами никотиновых рецепторов ацетилхолина: отравление соединениями этого ряда может привести к смерти в результате остановки дыхания в течение нескольких минут [3]. Биосинтез дигидроанатоксина-а в клетках Cylindrospermum stagnale PCC 7417 контролируется кластером генов ana, обнаруженном также у других неродственных штаммов цианобактерий, синтезирующих различные соединения схожей природы [4]. По-видимому, эта часть генома была приобретена путем горизонтального переноса генов: на это указывает наличие по краям кластера ana последовательностей, кодирующих фермент транспозазу, характерный для мобильных генетических элементов [4]. Кроме того, Cylindrospermum stagnale PCC 7417 синтезирует вещество цилиндроциклофан-а, и ряд других метаболитов похожей структуры, которые относятся к группе алкилрезорцинолов [2]. Соединения этого типа часто являются антибиотиками, а также могут обладать цитотоксическим действием по отношению к некоторым видам раковых опухолей [5]. Установлено, что цилиндроциклофан-а, выделенный из биомассы исследуемого организма проявляет выраженные антимикробные свойства при введении в культуру грамположительных бактерий (показано на примере Staphylococcus pneumoniae и метициллин-резистентного штамма Staphylococcus aureus), что делает данное вещество и его аналоги перспективными объектами для исследований в области разработки лекарственных препаратов против инфекционных заболеваний [5].

Анализ генома и протеома Cylindrospermum stagnale PCC 7417 при помощи методов биоинформатики способен помочь пролить свет на детали путей биосинтеза многих известных вторичных метаболитов рассматриваемого организма, а также открыть новые соединения, которые потенциально могут иметь важное прикладное значение.


(Рис. 1) Световая микроскопия. Cylindrospermum stagnale [6].

2 Материалы и Методы

1. Анализ генома

1.1 Геномные последовательности бактерии в формате fasta, а также таблица особенностей протеома для анализа были взяты с Интернет-ресурса.

1.2 Данные Таблицы 1 получены с помощью нашей программы GCpercent.

1.3 Данные Таблицы 2 получены с помощью нашей программы Ninfo.

2. Анализ протеома

2.1 Гистограмма 1 и статистические данные о протеоме из Таблицы 5 получены с помощью функций ЭТ Google Документов.

2.2 Данные Таблиц 3 и 4 были получены при помощи элементарных расчетов, исходя из описанной нулевой гипотезы.

2.3 Данные Таблиц 6-9 получены с помощью функций ЭТ Google Документов, вероятность получения распределения генов по цепям ДНК рассчитана с использованием функции “BINOMDIST”.

Результаты и Обсуждение

Стандартные данные о геноме бактерии

Геном Cylindrospermum stagnale PCC 7417 содержит 4 молекулы ДНК: хромосомную и три плазмидных, причем плазмидные ДНК резко отличаются по длине, однако близки как между собой, так и с хромосомной ДНК по ГЦ-составу, как видно из Табл.1. То, что процентное содержание гуанина и цитозина в pCYLST.03 несколько меньше, чем в других последовательностях может быть обусловлено ее малой длиной, а значит и большим влиянием случайных факторов на этот показатель.

ГЦ-состав хромосомной ДНК исследуемой бактерии близок к таковому у Nostoc sp. PCC 7120 (41.3%), из того же семейства, однако, в пределах отдела Cyanobacteria этот показатель варьирует от 30.8% до 68.7% [7].

Длина, п. осн. ГЦ-состав, %
Хромосома 7003560 42.3
плазмида pCYLST.01 431821 41.2
плазмида pCYLST.02 154332 40.9
плазмида pCYLST.03 20876 38.5
(Табл. 1) Длина и ГЦ-состав последовательностей ДНК цианобактерии Cylindrospermum stagnale PCC 7417.

Нуклеотидный состав геномных ДНК

Нуклеотидный состав ДНК исследуемой бактерии представлен в Табл. 2. Плазмида pCYLST.01 содержит участок длиной около 200 нуклеотидов неопределенного состава (в исходном файле с геномом в формате fasta это было обозначено как последовательность из 200 букв N подряд).

A C G T
Хромосома 2021104 1481829 1480847 2019780
плазмида pCYLST.01 127285 88975 89002 126359
плазмида pCYLST.02 47184 31790 31307 44051
плазмида pCYLST.03 6690 4143 3895 6148
(Табл. 2) Нуклеотидный состав ДНК цианобактерии Cylindrospermum stagnale PCC 7417.

Мы выдвинули нулевую гипотезу о том, что аденин и тимин, а также гуанин и цитозин встречаются в одной цепочке ДНК с равной вероятностью. Тогда ожидаемой встречаемостью нуклеотида в цепочке будет среднее между встречаемостью этого нуклеотида и встречаемостью комплементарного ему нуклеотида (см. Табл.3). На основании этой нулевой гипотезы был рассчитан показатель Compositional Bias, как частное ожидаемого и наблюдаемого значений (см. Табл. 4). Исходя из этих данных, можно заключить, что во всех последовательностях ДНК на одной цепи комплементарные друг другу нуклеотиды встречаются с практически равной вероятностью и наша нулевая гипотеза верна.

A C G T
Хромосома 2020442 1481338 1481338 2020442
плазмида pCYLST.01 126822 88988.5 88988.5 126822
плазмида pCYLST.02 45617.5 31548.5 31548.5 45617.5
плазмида pCYLST.03 6419 4019 4019 6419
(Табл. 3) Ожидаемая встречаемость нуклеотидов в одной цепи последовательностей ДНК Cylindrospermum stagnale PCC 7417.

A C G T
Хромосома 1.000 1.000 1.000 1.000
плазмида pCYLST.01 1.000 1.000 1.000 1.000
плазмида pCYLST.02 1.034 1.008 0.992 0.966
плазмида pCYLST.03 1.042 1.031 0.969 0.958
(Табл. 4) Compositional Bias для встречаемости нуклеотидов в одной цепи последовательностей ДНК Cylindrospermum stagnale PCC 7417.
Длины белков

Как видно из Гист. 1, наибольшее количество белков протеома исследуемой бактерии (1696) имеет длину от 121 до 240 аминокислот, далее при увеличении количества аминокислот количество белков, лежащих в соответствующем диапазоне длин постепенно почти монотонно снижается . Кроме того, большое количество белков имеют длину, не превышающую 120 аминокислот. Минимальная длина белка протеома Cylindrospermum stagnale PCC 7417 составляет 27 аминокислот, максимальная - 4325 аминокислот, эти и некоторые другие статистические данные приведены в Табл. 5


(Гист. 1) Длины белков Cylindrospermum stagnale PCC 7417.

Средняя длина белка 322,3 а. о.
Стандартное отклонение 278 а. о.
Медианная длина белка 254 а. о.
Минимальная длина белка 27 а. о.
Максимальная длина белка 4325 а. о.
(Табл. 5) Некоторые статистические данные о длине белков протеома Cylindrospermum stagnale PCC 7417.
Распределение генов по цепям ДНК

В Табл. 6 представлено количество генов белков, псевдогенов и генов РНК на “+”- и “-”-цепях ДНК хромосомы исследуемой бактерии, а также вероятность получения такого или большего различия в распределении генов по цепям, если бы вероятность их нахождения на “+”-цепи и “-”-цепи была одинакова. Как видно из этой таблицы, на “+”-цепи находится несколько больше белок-кодирующих генов, однако это различие статистически незначимо. Напротив, в отношении псевдогенов и генов РНК наблюдается явная асимметрия: они по большей части расположены на “-” -цепи.

Число генов белков Число псевдогенов Число генов РНК
"+"-цепь 2888 76 29
"-"-цепь 2868 129 61
Вероятность 0.802 0.0003 0.0010
(Табл. 6) Распределение генов белков, РНК и псевдогенов по "+"- и "-"-цепям ДНК хромосомы Cylindrospermum stagnale PCC 7417.

Число генов белков Число псевдогенов
"+"-цепь 132 22
"-"-цепь 142 27
Вероятность 0.587 0.568
(Табл. 7) Распределение генов белков, РНК и псевдогенов по "+"- и "-"-цепям ДНК плазмиды pCYLST.01 Cylindrospermum stagnale PCC 7417.

Число генов белков Число псевдогенов
"+"-цепь 87 5
"-"-цепь 35 8
Вероятность 0.000003 0.581
(Табл. 8) Распределение генов белков, РНК и псевдогенов по "+"- и "-"-цепям ДНК плазмиды pCYLST.02 Cylindrospermum stagnale PCC 7417.

Число генов белков
"+"-цепь 12
"-"-цепь 7
Вероятность 0.359
(Табл. 9) Распределение генов белков, РНК и псевдогенов по "+"- и "-"-цепям ДНК плазмиды pCYLST.03 Cylindrospermum stagnale PCC 7417.

Те же величины для плазмид Cylindrospermum stagnale PCC 7417 представлены в Табл.7-9. Исходя из данных Табл. 7, на “-”-цепи плазмиды pCYLST.01 расположено несколько больше как белок-кодирующих генов, так и псевдогенов, однако это различие нельзя считать статистически значимым. Как видно из Табл. 8, в плазмиде pCYLST.02, напротив в расположении генов белков наблюдается значительная асимметрия: они сосредоточены в основном на “+”-цепи. Псевдогенов в данной плазмиде, на 3 больше на “-”-цепи, формально различие здесь статистически незначимо, однако стоит учитывать, что и самих псевдогенов на этой плазмиде находится крайне мало (всего 13). В плазмиде pCYLST.03 количество белок-кодирующих генов на “+”-цепи больше, однако, как и в случае с псевдогенами pCYLST.02, различия не являются статистически значимыми, а число генов крайне мало. По мере уменьшения длины плазмид закономерно снижается и число псевдогенов, которые они несут: pCYLST.01 содержит 49 псевдогенов, pCYLST.02 - 13, а pCYLST.03 и вовсе несет только белок-кодирующие гены. Ни в одной из плазмид гены, кодирующие РНК не обнаружены.

Сопроводительные материалы

  1. Программа GCpercent доступна по ссылке.
  2. Программа Ninfo доступна по ссылке.
  3. Электронная таблица с гистограммой длин белков и расчетами статистических данных: Protein length.
  4. Электронная таблица с вычислением количества генов белков, псевдогенов, а также вероятности получения существующего или большего различия в числе генов на разных цепях, если бы они с равной вероятностью находились на “+”- и “-”-цепи доступна по ссылке: Chainstatistics.

Ссылки на источники

  1. Řezanka T., Dembitsky V. M. Metabolites produced by cyanobacteria belonging to several species of the family Nostocaceae. Folia Microbiol. 2004. 51(3), 159–182 (2006). doi:10.1007/bf02932119
  2. Preisitsch M. et al. 2015. Cylindrofridins A–C, Linear Cylindrocyclophane-Related Alkylresorcinols from the Cyanobacterium Cylindrospermum stagnale. Journal of Natural Products. doi:10.1021/acs.jnatprod.5b00768
  3. Méjean A. et al. 2016. Dihydroanatoxin-a Is Biosynthesized from Proline in Cylindrospermum stagnale PCC 7417: Isotopic Incorporation Experiments and Mass Spectrometry Analysis. Journal of Natural Products. doi:10.1021/acs.jnatprod.6b00189
  4. Méjean A. et al. 2014. Biosynthesis of anatoxin-a and analogues (anatoxins) in cyanobacteria. Toxicon, 91(2014), 15–22. doi:10.1016/j.toxicon.2014.07.016
  5. Martins T. P. et al. 2018. Chemistry, bioactivity and biosynthesis of cyanobacterial alkylresorcinols. Natural Product Reports, (2019). doi:10.1039/C8NP00080H
  6. Интернет-ресурс
  7. J. Lightfield, N. R. Fram, B. Ely, M. Otto. 2010. Across Bacterial Phyla, Distantly-Related Genomes with Similar Genomic GC Content Have Similar Patterns of Amino Acid Usage. PLoS ONE (2011). doi:10.1371/journal.pone.0017677