Введение
Desulfotalea psychrophila LSv54 — штамм морской грам-отрицательной сульфатредуцирующей бактерии Desulfotalea psychrophila, выделенной из постоянно холодных арктических отложений у побережья Шпицбергена (Норвегия). Оптимальная температура роста — 10 °C, но бактерия может расти и при температурах ниже -1,8 °C, а оптимальная для роста бактерии концентрация хлорида натрия – 1% [1].
В геноме есть хромосома (длиной 3 523 383 пар оснований с 3118 предполагаемыми генами) и большая (121 586 пар оснований) и малая (14 663 пар оснований) плазмиды. Анализ генома позволил получить представление о метаболических свойствах организма, например, о присутствии систем TRAP-T как основного пути поглощения C(4)-дикарбоксилатов, также присутствии генов цикла трикарбоновых кислот, системы секреции TAT, отсутствии комплекса бета-окисления. D. psychrophila кодирует более 30 двухкомпонентных регуляторных систем, в том числе новый подкластер гибридных киназ Ntr, девять из которых являются белками, а также белки холодового шока и девять белков, потенциально индуцируемых холодовым шоком[2]. Таким образом, бактерия является объектом научных исследований, благодаря возможности изучения ее адаптаций к низким температурам.
Таксономия [3]:
- Домен: Bacteria
- Царство: Pseudomonadati
- Класс: Desulfobulbis
- Отряд: Desulfobulbales
- Семейство: Desulfocapsaceae
- Род: Desulfotalea
- Вид: Desulfotalea psychrophilа
Материалы и методы
-
Получение данных. Данные о нуклеотидных последовательностях
белок-кодирующих генов, нуклеотидном составе всего генома и данные о
локальных особенностях генома изучаемой археи были получены из банка
геномов с сайта NCBI. Названия файлов, использовавшиеся при
исследовании генома и протеома, следующие:
GCF_000025945.1_ASM2594v1_cds_from_genomic.fna GCF_000025945.1_ASM2594v1_feature_table.txt GCF_000025945.1_ASM2594v1_genomic.fna
-
Для создания гистограммы длин белков были использованы методы
командной строк Bash: команда, генерирующую таблицу свойств
последовательностей, хранящихся в файле с CDS (
infoseq *_cds_from_genomic.fna -nocolumns -out cds.csv). Затем полученный файл был импортирован в гугл-таблицы и посчитаны длины белков, закодированных в геноме бактерии Desulfotalea psychrophila, по формуле (G–3)/3, где G - длина гена. Далее с помощью методов электронных таблиц по полученным данным была построена гистограмма, отражающая количество белков разной длины. Гистограмму и материалы, по которым она была составлена, можно найти на листе “prot_lengths_hist” в таблице под пунктом 1 в разделе “Сопроводительные материалы”. - Для создания таблицы по распределению генов различных типов по репликонам использовались метода электронных таблиц. Из таблицы Feature table (сопр. мат. 2) была составлена сводная таблица, отражающая распределение генетического материала бактерии по репликонам (хромосоме, большой и малой плазмидам).
- Расчет расстояний между кодирующими последовательностями (CDS) на плюс-цепи хромосомы осуществлялся при помощи также с использованием различных методов электронных таблиц. С помощью фильтров из таблицы Feature table (сопр. мат. 2 лист 1) были выделены строки и столбцы, содержащие информацию о начале и конце кодирующих последовательностей на + цепи хромосомы. Далее на отдельном листе (по той же ссылке “расстояния между CDS”) были посчитаны длины промежутков между кодирующими последовательностями (начало новой - конец предыдущей - 1). Далее по этим данным была построена гистограмма.
- Перекрывающиеся последовательности СDS хромосомы были исследованы также при помощи методов электронных таблиц, подсчета расстояний между кодирующими последовательностями и построения гистограммы. Материалы можно найти по ссылке из второго пункта сопроводительные материалов на листе “расстояния между CDS”.
-
Анализ кодирующих последовательностей ДНК и аминокислотных
последовательностей белков холодового шока производился при помощи
командной строки Bash, языка программирования Python и методов
электронных таблиц. Аминокислотные последовательности нужных белков
были записаны в отдельный файл (сопр. мат. 3) командой
grep -A 3 "cold-shock" GCF_000025945.1_ASM2594v1_cds_from_genomic.fna > cold-shock.fna. Затем на Python был написан код (сопр. мат. 4), который позволил определить, какие кодоны и на каких позициях различаются в данных последовательностях, также определить аминокислотные последовательности и различия в них для каждого белка, кодируемого этими последовательностями. Далее для наглядности была создана электронная таблица, содержащая различающиеся кодоны изучаемых последовательностей (сопр. мат. 2 лист codones_CSP).
Результаты
1. Длины белков, закодированных в геноме бактерии Desulfotalea psychrophila
По оси абсцисс отложены длины белков (в аминокислотных остатках), а по оси ординат - количество белков, попадающих в каждый диапазон.
Из диаграммы видно, что большинство белков имеют длину 70-470 аминокислотных остатков (средняя длина белка составляет 322 а.о.). Это свидетельствует о том, что большая часть белков бактерии, скорее всего, выполняют несложные функции, например, регуляторную (белки холодового шока). Белки, длина которых сильно отклоняется от среднего значения (>1000 а.о.), вероятно, выполняют комплексные, сложные функции. например, ферментативную.
2. Распределение генов различных типов по репликонам
Таблица 1. Число генов различных типов по репликонам
| Репликон | CDS | нкРНК | рРНК | тмРНК | тРНК | Итого |
|---|---|---|---|---|---|---|
| Хромосома NC_006138.1 | 3043 | 3 | 22 | 1 | 65 | 3134 |
| Большая плазмида NC_006139.1 | 107 | - | - | - | - | 107 |
| Малая плазмида NC_006140.1 | 18 | - | - | - | - | 18 |
| Итого | 3168 | 3 | 22 | 1 | 65 | 3259 |
Из таблицы видно, что основная часть генетического материала (96,16%) находится в основной хромосоме (NC_006138.1), а оставшаяся часть - в двух плазмидах: в большой - 3,28%, а в маленькой - 0,55%. В основной хромосоме есть гены, кодирующие как белки, так и различные типы РНК, такие, как некодирующую РНК (0,10% хромосомного генома), рибосомальную РНК (0,70%), транспортно-матричную РНК (0,03%) и транспортную РНК (2,07%). Плазмиды так же, как и основная хромосома, содержат гены, кодирующие некоторые белки, но не содержат генов, кодирующих какой-либо тип РНК. Это соответствует представлениям о геноме прокариот, где большую часть наследственной информации несет в себе основная хромосома, кодируя основные белки и РНК, а плазмиды несут дополнительные гены, кодирующие небольшое количество белков, выполняющих вспомогательные функции.
3. Расстояния между кодирующими последовательностями (CDS) на плюс-цепи хромосомы
На основе данных таблицы о локальных особенностях генома исследуемой археи была построена гистограмма длин межгенных промежутков на плюс-цепи ДНК
Из гистограммы видно, что наиболее многочисленным является диапазон 0–99 п.н., в который входит 40,6% всех межгенных расстояний. Это указывает на высокую компактность значительной части генома и плотное расположение соседних генов, что характерно для многих прокариотических геномов, где гены часто организованы в опероны [4].
Диапазоны 100–300 п.н. содержат заметно меньше интервалов, но всё ещё представлены достаточно широко. В противоположность коротким межгенным расстояниям, отдельные интервалы достигают значений свыше 1000 п.н. Такие крупные межгенные регионы встречаются реже, и их наличие может свидетельствовать о присутствии вставок в геноме, например, псевдогенов.
4. Перекрывающиеся последовательности CDS на плюс-цепи хромосомы
При сжатии общая длина генома минимизируется за счёт увеличения количества перекрывающихся генов без потери функции белка. При прочих равных условиях перекрывание может привести к увеличению скорости репликации за счёт сокращения количества оснований, которые необходимо синтезировать [5].
На основании таблицы был сделан вывод, что общее количество перекрывающихся кодирующих последовательностей составляет 164. Наиболее часто встречаемая длина пересечений этих последовательностей – от 0 до 19 пар нуклеотидов (70,73%), реже встречаются перекрывания из 20 и более пар нуклеотидов. Более длинные перекрытия могут приводить к тому, что мутация в одном гене может нарушить функцию другого. Ограничение длины перекрывания до 1–10 пар нуклеотидов снижает этот риск, сохраняя при этом компактность генома.
5. Анализ кодирующих последовательностей белков холодового шока
Геном бактерии содержит последовательности, кодирующие белки холодового шока, которые обеспечивают адаптацию бактерии к росту при холодных температурах (-1,8°C). Было выяснено, что всего в геноме 6 таких генов, длина такого гена составляет 201 пару нуклеотидов, а длина кодируемого белка - 66 аминокислотных остатков. Гены, выполняющие одну и ту же функцию и имеющие одинаковую длину, при этом содержали различные кодоны на некоторых позициях. С помощью использования программы на Python (сопр. мат. 4) было проведено сравнение кодонов данных последовательностей. В таблице (сопр. мат. 2 лист codones_CSP) приведены различающиеся кодоны и их позиции. По полученным данным можно сравнить последовательности: 2 и 3 почти идентичны (различаются только в 19, 36 и 40 кодонах), вероятно, они произошли от одного вида. Последовательности 1, 4, 5 имеют среднюю степень схожести. Например, на позиции 7: 1,5,6 = AAG; 2,3,4 = AAA, то есть 4 ближе к 2/3. Последовательность 6 резко отличается от остальных. Она имеет уникальные кодоны (4-GGT, 5-ACA, 6-GTT, 10-AAT, 12-GCA, 24-CAG, 30-TAT, 31-TCT, 32-GCT, 34-GGT, 35-GGT, 36-GAG, 40-TCA, 42-ACA, 45-TCA, 46-CGA, 48-AAT, 50-GAA, 52-ATT, 53-GAT, 61-GAT, 64-TTA, 65-AAA, 66-GCT) и в них преобладание T/A в 3-м положении. Также 6 последовательность содержит стоп-кодон TAG, отличающийся от стоп-кодонов последовательностей 2-5. Исходя из этого можно сделать вывод, что последовательность 6, скорее всего, происходит из эволюционно удалённого организма, возможно, другой филогенетической ветви.
Также с помощью кода на Python были получены аминокислотные последовательности белков холодового шока:
последовательность 1:
Met-Ala-Glu-Gly-Thr-Val-Lys-Trp-Phe-Asn-Asp-Ala-Lys-Gly-Phe-Gly-Phe-Ile-Glu-Gln-Glu-Gly-Gly-Asp-Asp-Leu-Phe-Val-His-His-Thr-Ser-Ile-Asn-Ala-Ser-Gly-Phe-Lys-Thr-Leu-GluGlu-Gly-Ala-Arg-Val-Thr-Phe-Asp-Ile-Glu-Gln-Gly-Pro-Lys-Gly-Pro-Ala-Ala-Ala-Asn-Val-Thr-Val-Ile
последовательность 2:
Met-Ala-Glu-Gly-Ile-Val-Lys-Trp-Phe-Asn-Asp-Ala-Lys-Gly-Phe-Gly-Phe-Ile-Glu-Gln-Glu-Gly-Gly-Asp-Asp-Leu-Phe-Val-His-His-Thr-Ser-Ile-Asn-Ala-Ser-Gly-Phe-Lys-Thr-Leu-GluGlu-Gly-Ala-Arg-Val-Ser-Phe-Asp-Ile-Glu-Glu-Gly-Gln-Lys-Gly-Pro-Ala-Ala-Ala-Asn-Val-Thr-Ala-Leu
последовательность 3:
Met-Ala-Glu-Gly-Ile-Val-Lys-Trp-Phe-Asn-Asp-Ala-Lys-Gly-Phe-Gly-Phe-Ile-Asp-Gln-Glu-Gly-Gly-Asp-Asp-Leu-Phe-Val-His-His-Thr-Ser-Ile-Asn-Ala-Ser-Gly-Phe-Lys-Thr-Leu-GluGlu-Gly-Ala-Arg-Val-Ser-Phe-Asp-Ile-Glu-Glu-Gly-Gln-Lys-Gly-Pro-Ala-Ala-Ala-Asn-Val-Thr-Ala-Leu
последовательность 4:
Met-Ala-Glu-Gly-Thr-Val-Lys-Trp-Phe-Asn-Asp-Ala-Lys-Gly-Phe-Gly-Phe-Ile-Glu-Gln-Glu-Gly-Gly-Asp-Asp-Leu-Phe-Val-His-Tyr-Ser-Ser-Ile-Ser-Gly-Glu-Gly-Phe-Lys-Thr-Leu-GlnGlu-Gly-Thr-Arg-Val-Ser-Phe-Asp-Ile-Glu-Gln-Gly-Pro-Lys-Gly-Pro-Ala-Ala-Ala-Asn-Val-Val-Val-Leu
последовательность 5:
Met-Ala-Glu-Gly-Ile-Val-Lys-Trp-Phe-Asn-Asp-Ala-Lys-Gly-Phe-Gly-Phe-Ile-Glu-Gln-Glu-Gly-Gly-Asp-Asp-Leu-Phe-Val-His-His-Thr-Ser-Ile-Asn-Ala-Ser-Gly-Phe-Lys-Thr-Leu-GluGlu-Gly-Ala-Arg-Val-Ser-Phe-Glu-Ile-Glu-Asp-Gly-Ala-Lys-Gly-Pro-Ala-Ala-Ala-Asn-Val-Thr-Ala-Leu
последовательность 6:
Met-Ala-Glu-Gly-Thr-Val-Lys-Trp-Phe-Asn-Asp-Ala-Lys-Gly-Phe-Gly-Phe-Ile-Glu-Gln-Glu-Gly-Gly-Gln-Asp-Val-Phe-Val-His-Tyr-Ser-Ala-Ile-Gly-Gly-Glu-Gly-Phe-Lys-Ser-Leu-Thr-Glu-Gly-Ser-Arg-Val-Asn-Phe-Glu-Ile-Ile-Asp-Gly-Pro-Lys-Gly-Pro-Ala-Ala-Asp-Asn-Val-Leu-Lys-Ala
Аминокислотные последовательности не являются идентичными, то есть белки имеют различный состав, и при этом они выполняют схожие (все являются белками холодового шока), но не одинаковые функции. Это можно объяснить тем, что при разных условиях наиболее оптимально будет использовать разные белки.
Можно заметить, что N-концы начинаются с Met-Ala-Glu-Gly... — характерно для CSP[6]. Также наблюдается расхождение в C-конце (поз. 40–67). Именно здесь наблюдаются наиболее частые замены, например, в поз. 42: Glu (1–3,5) <—>Gln (4) <—>(6) и в поз. 50: Asp (1) <—>Glu (2–4,6) <—> Gln (5).
Функциональные особенности последовательности 6:
Последовательность 6 наиболее отличается:
- Поз. 24: Gln вместо Asp (изменение заряда).
- Поз. 30: Tyr вместо His (потеря положительного заряда).
- Поз. 32: Ala вместо Ser (потеря гидроксильной группы).
- Поз. 52: Ile вместо Glu (гидрофобный остаток вместо кислого).
- Поз. 65–67: Lys-Ala вместо Thr-Val-Ile (полярный/заряженный конец).
Это может означать специфичную роль белка в стресс-ответе.
Сопроводительные материалы
- Таблицы с CDS генома бактерии, а также гистограммой белков CDS from genome of Desulfotalea psychrophila LSv54
- Таблицы с особенностями генома бактерии, со сводной таблицей, с таблицей кодонов, а также с гистограммами по межгенным расстояниям и пересечениям кодирующих последовательностей
Feature table -
Файл с аминокислотными последовательностями
https://drive.google.com/file/d/1zelVnfMz4YEMeby-XMl0-ZGDkpK7zEix/view?usp=drive_link -
Код на Python
https://colab.research.google.com/drive/1C9x5dTnkO0ao-D48Kqs_-5TNvmXOrZlv?usp=drive_link
Литература
-
Christian Knoblauch1, Kerstin Sahm1 and Bo B. Jørgensen
Psychrophilic sulfate-reducing bacteria isolated from permanently cold Arctic marine sediments: description of Desulfofrigus oceanense gen. nov., sp. nov., Desulfofrigus fragile sp. nov., Desulfofaba gelida gen. nov., sp. nov., Desulfotalea psychrophila gen. nov., sp. nov. and Desulfotalea arctica sp. nov
Interational Journal Of Systematic And Evolutionary Microbiology 01 October 1999
https://doi.org/10.1099/00207713-49-4-1631 -
Rabus, R., Ruepp, A., Frickey, T., Rattei, T., Fartmann, B., Stark, M., Bauer, M., Zibat,
A., Lombardot, T., Becker, I., Amann, J., Gellner, K., Teeling, H., Leuschner, W.D.,
Glockner, F.-O., Lupas, A.N., Amann, R., and Klenk, H.-P.
The genome of Desulfotalea psychrophila, a sulfate-reducing bacterium from permanently cold Arctic sediments. Environ. Microbiol. (2004) 887-902
doi:10.1111/j.1462-2920.2004.00665.x. -
Раздел на сайте NCBI o таксономической принадлежности Desulfotalea psychrophila
NCBI Taxonomy Browser
https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=177439 -
Eugene V. Koonin , Yuri I. Wolf
Genomics of bacteria and archaea: the emerging dynamic view of the prokaryotic world Nucleic Acids Research, 1 December 2008, Pages 6688–6719
https://doi.org/10.1093/nar/gkn668 -
Fabrizio Lillo & David C Krak
A statistical analysis of the three-fold evolution of genomic compression through frame overlaps in prokaryotes.18 September 2007
https://doi.org/10.1186/1745-6150-2-22 -
База NCBI о белках холодового шока
https://www.ncbi.nlm.nih.gov/protein/?term=cold-shock+protein