Мини-обзор
Анализ генома и протеома цианобактерии Cylindrospermum stagnale PCC 7417
Щепетов М. А.11Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова, Москва, Россия
1 Введение
Целью данной работы является изучение генома и протеома бактерии Cylindrospermum stagnale PCC 7417, относящейся к семейству Nostocaceae. Основой метаболизма этого прокариота является оксигенный фотосинтез [1]. Исследуемый организм представляет собой нитчатую цианобактерию с неподвижными клетками эллипсоидной формы, способную образовывать гетероцисты, в которых происходит фиксация атмосферного азота [1].
В настоящее время большой интерес представляет разнообразие вторичных метаболитов цианобактерий в целом и рассматриваемого представителя в частности, поскольку многие из этих соединений обладают выраженной биологической активностью [2]. Так, было показано, что Cylindrospermum stagnale PCC 7417 способен выделять в окружающую среду дигидроанатоксин-а, вещество из группы анатоксинов, представляющее опасность для животных и человека [3]. Анатоксины являются мощными агонистами никотиновых рецепторов ацетилхолина: отравление соединениями этого ряда может привести к смерти в результате остановки дыхания в течение нескольких минут [3]. Биосинтез дигидроанатоксина-а в клетках Cylindrospermum stagnale PCC 7417 контролируется кластером генов ana, обнаруженном также у других неродственных штаммов цианобактерий, синтезирующих различные соединения схожей природы [4]. По-видимому, эта часть генома была приобретена путем горизонтального переноса генов: на это указывает наличие по краям кластера ana последовательностей, кодирующих фермент транспозазу, характерный для мобильных генетических элементов [4]. Кроме того, Cylindrospermum stagnale PCC 7417 синтезирует вещество цилиндроциклофан-а, и ряд других метаболитов похожей структуры, которые относятся к группе алкилрезорцинолов [2]. Соединения этого типа часто являются антибиотиками, а также могут обладать цитотоксическим действием по отношению к некоторым видам раковых опухолей [5]. Установлено, что цилиндроциклофан-а, выделенный из биомассы исследуемого организма проявляет выраженные антимикробные свойства при введении в культуру грамположительных бактерий (показано на примере Staphylococcus pneumoniae и метициллин-резистентного штамма Staphylococcus aureus), что делает данное вещество и его аналоги перспективными объектами для исследований в области разработки лекарственных препаратов против инфекционных заболеваний [5].
Анализ генома и протеома Cylindrospermum stagnale PCC 7417 при помощи методов биоинформатики способен помочь пролить свет на детали путей биосинтеза многих известных вторичных метаболитов рассматриваемого организма, а также открыть новые соединения, которые потенциально могут иметь важное прикладное значение.
(Рис. 1) Световая микроскопия. Cylindrospermum stagnale [6].
2 Материалы и Методы
1. Анализ генома
1.1 Геномные последовательности бактерии в формате fasta, а также таблица особенностей протеома для анализа были взяты с Интернет-ресурса.
1.2 Данные Таблицы 1 получены с помощью нашей программы GCpercent.
1.3 Данные Таблицы 2 получены с помощью нашей программы Ninfo.
2. Анализ протеома
2.1 Гистограмма 1 и статистические данные о протеоме из Таблицы 5 получены с помощью функций ЭТ Google Документов.
2.2 Данные Таблиц 3 и 4 были получены при помощи элементарных расчетов, исходя из описанной нулевой гипотезы.
2.3 Данные Таблиц 6-9 получены с помощью функций ЭТ Google Документов, вероятность получения распределения генов по цепям ДНК рассчитана с использованием функции “BINOMDIST”.
Результаты и Обсуждение
Стандартные данные о геноме бактерии
Геном Cylindrospermum stagnale PCC 7417 содержит 4 молекулы ДНК: хромосомную и три плазмидных, причем плазмидные ДНК резко отличаются по длине, однако близки как между собой, так и с хромосомной ДНК по ГЦ-составу, как видно из Табл.1. То, что процентное содержание гуанина и цитозина в pCYLST.03 несколько меньше, чем в других последовательностях может быть обусловлено ее малой длиной, а значит и большим влиянием случайных факторов на этот показатель.
ГЦ-состав хромосомной ДНК исследуемой бактерии близок к таковому у Nostoc sp. PCC 7120 (41.3%), из того же семейства, однако, в пределах отдела Cyanobacteria этот показатель варьирует от 30.8% до 68.7% [7].
Длина, п. осн. | ГЦ-состав, % | |
Хромосома | 7003560 | 42.3 |
плазмида pCYLST.01 | 431821 | 41.2 |
плазмида pCYLST.02 | 154332 | 40.9 |
плазмида pCYLST.03 | 20876 | 38.5 |
Нуклеотидный состав геномных ДНК
Нуклеотидный состав ДНК исследуемой бактерии представлен в Табл. 2. Плазмида pCYLST.01 содержит участок длиной около 200 нуклеотидов неопределенного состава (в исходном файле с геномом в формате fasta это было обозначено как последовательность из 200 букв N подряд).
A | C | G | T | |
Хромосома | 2021104 | 1481829 | 1480847 | 2019780 |
плазмида pCYLST.01 | 127285 | 88975 | 89002 | 126359 |
плазмида pCYLST.02 | 47184 | 31790 | 31307 | 44051 |
плазмида pCYLST.03 | 6690 | 4143 | 3895 | 6148 |
Мы выдвинули нулевую гипотезу о том, что аденин и тимин, а также гуанин и цитозин встречаются в одной цепочке ДНК с равной вероятностью. Тогда ожидаемой встречаемостью нуклеотида в цепочке будет среднее между встречаемостью этого нуклеотида и встречаемостью комплементарного ему нуклеотида (см. Табл.3). На основании этой нулевой гипотезы был рассчитан показатель Compositional Bias, как частное ожидаемого и наблюдаемого значений (см. Табл. 4). Исходя из этих данных, можно заключить, что во всех последовательностях ДНК на одной цепи комплементарные друг другу нуклеотиды встречаются с практически равной вероятностью и наша нулевая гипотеза верна.
A | C | G | T | |
Хромосома | 2020442 | 1481338 | 1481338 | 2020442 |
плазмида pCYLST.01 | 126822 | 88988.5 | 88988.5 | 126822 |
плазмида pCYLST.02 | 45617.5 | 31548.5 | 31548.5 | 45617.5 |
плазмида pCYLST.03 | 6419 | 4019 | 4019 | 6419 |
A | C | G | T | |
Хромосома | 1.000 | 1.000 | 1.000 | 1.000 |
плазмида pCYLST.01 | 1.000 | 1.000 | 1.000 | 1.000 |
плазмида pCYLST.02 | 1.034 | 1.008 | 0.992 | 0.966 |
плазмида pCYLST.03 | 1.042 | 1.031 | 0.969 | 0.958 |
Длины белков
Как видно из Гист. 1, наибольшее количество белков протеома исследуемой бактерии (1696) имеет длину от 121 до 240 аминокислот, далее при увеличении количества аминокислот количество белков, лежащих в соответствующем диапазоне длин постепенно почти монотонно снижается . Кроме того, большое количество белков имеют длину, не превышающую 120 аминокислот. Минимальная длина белка протеома Cylindrospermum stagnale PCC 7417 составляет 27 аминокислот, максимальная - 4325 аминокислот, эти и некоторые другие статистические данные приведены в Табл. 5
(Гист. 1) Длины белков Cylindrospermum stagnale PCC 7417.
Средняя длина белка | 322,3 а. о. |
Стандартное отклонение | 278 а. о. |
Медианная длина белка | 254 а. о. |
Минимальная длина белка | 27 а. о. |
Максимальная длина белка | 4325 а. о. |
Распределение генов по цепям ДНК
В Табл. 6 представлено количество генов белков, псевдогенов и генов РНК на “+”- и “-”-цепях ДНК хромосомы исследуемой бактерии, а также вероятность получения такого или большего различия в распределении генов по цепям, если бы вероятность их нахождения на “+”-цепи и “-”-цепи была одинакова. Как видно из этой таблицы, на “+”-цепи находится несколько больше белок-кодирующих генов, однако это различие статистически незначимо. Напротив, в отношении псевдогенов и генов РНК наблюдается явная асимметрия: они по большей части расположены на “-” -цепи.
Число генов белков | Число псевдогенов | Число генов РНК | |
"+"-цепь | 2888 | 76 | 29 |
"-"-цепь | 2868 | 129 | 61 |
Вероятность | 0.802 | 0.0003 | 0.0010 |
Число генов белков | Число псевдогенов | |
"+"-цепь | 132 | 22 |
"-"-цепь | 142 | 27 |
Вероятность | 0.587 | 0.568 |
Число генов белков | Число псевдогенов | |
"+"-цепь | 87 | 5 |
"-"-цепь | 35 | 8 |
Вероятность | 0.000003 | 0.581 |
Число генов белков | |
"+"-цепь | 12 |
"-"-цепь | 7 |
Вероятность | 0.359 |
Те же величины для плазмид Cylindrospermum stagnale PCC 7417 представлены в Табл.7-9. Исходя из данных Табл. 7, на “-”-цепи плазмиды pCYLST.01 расположено несколько больше как белок-кодирующих генов, так и псевдогенов, однако это различие нельзя считать статистически значимым. Как видно из Табл. 8, в плазмиде pCYLST.02, напротив в расположении генов белков наблюдается значительная асимметрия: они сосредоточены в основном на “+”-цепи. Псевдогенов в данной плазмиде, на 3 больше на “-”-цепи, формально различие здесь статистически незначимо, однако стоит учитывать, что и самих псевдогенов на этой плазмиде находится крайне мало (всего 13). В плазмиде pCYLST.03 количество белок-кодирующих генов на “+”-цепи больше, однако, как и в случае с псевдогенами pCYLST.02, различия не являются статистически значимыми, а число генов крайне мало. По мере уменьшения длины плазмид закономерно снижается и число псевдогенов, которые они несут: pCYLST.01 содержит 49 псевдогенов, pCYLST.02 - 13, а pCYLST.03 и вовсе несет только белок-кодирующие гены. Ни в одной из плазмид гены, кодирующие РНК не обнаружены.
Сопроводительные материалы
- Программа GCpercent доступна по ссылке.
- Программа Ninfo доступна по ссылке.
- Электронная таблица с гистограммой длин белков и расчетами статистических данных: Protein length.
- Электронная таблица с вычислением количества генов белков, псевдогенов, а также вероятности получения существующего или большего различия в числе генов на разных цепях, если бы они с равной вероятностью находились на “+”- и “-”-цепи доступна по ссылке: Chainstatistics.
Ссылки на источники
- Řezanka T., Dembitsky V. M. Metabolites produced by cyanobacteria belonging to several species of the family Nostocaceae. Folia Microbiol. 2004. 51(3), 159–182 (2006). doi:10.1007/bf02932119
- Preisitsch M. et al. 2015. Cylindrofridins A–C, Linear Cylindrocyclophane-Related Alkylresorcinols from the Cyanobacterium Cylindrospermum stagnale. Journal of Natural Products. doi:10.1021/acs.jnatprod.5b00768
- Méjean A. et al. 2016. Dihydroanatoxin-a Is Biosynthesized from Proline in Cylindrospermum stagnale PCC 7417: Isotopic Incorporation Experiments and Mass Spectrometry Analysis. Journal of Natural Products. doi:10.1021/acs.jnatprod.6b00189
- Méjean A. et al. 2014. Biosynthesis of anatoxin-a and analogues (anatoxins) in cyanobacteria. Toxicon, 91(2014), 15–22. doi:10.1016/j.toxicon.2014.07.016
- Martins T. P. et al. 2018. Chemistry, bioactivity and biosynthesis of cyanobacterial alkylresorcinols. Natural Product Reports, (2019). doi:10.1039/C8NP00080H
- Интернет-ресурс
- J. Lightfield, N. R. Fram, B. Ely, M. Otto. 2010. Across Bacterial Phyla, Distantly-Related Genomes with Similar Genomic GC Content Have Similar Patterns of Amino Acid Usage. PLoS ONE (2011). doi:10.1371/journal.pone.0017677