Мини-обзор генома и протеома бактерии Cysteiniphilum sp. QT6929

Мустафин Адиль

Факультет биоинженерии и биоинформатики Московского государственного университета имени М.В. Ломоносова

Аннотация

Данный мини-обзор представляет из себя работу с геномом и протеомом бактерии Cysteiniphilum sp. QT6929 с использование программирования на языке Python и функционала электронных таблиц, командной строки Bash. Полученные результаты по возможности объясняются различными биологическими закономерностями.

Введение

Cysteiniphilum - грамотрицательная, аэробная, неспорообразующая бактерия, имеющая форму коккобациллы. Температура жизнедеятельности находится в диапазоне температур 14-37 °C (оптимальный, 28 °C), диапазон рН 6,0-8,0 (оптимальный, рН 7) и до 7,5% NaCl (оптимальный, 1,5%; w/v) (Liu at al., 2017). Cysteiniphilum, род грамотрицательных бактерий, относящийся к семейству Fastidiosibacteraceae наряду с родами Caedibacter, Facilibium, Fangia и Fastidiosibacter. Штамм QT6929 был взят у 19-летней женщины (Венчжоу, Китай) в ноябре 2018 года. Палец пациента был укушен креветками, что привело к язве кожи и сопровождающему абсцессу. После культивирования экссудата раны на пластинке Колумбийского кровяного агара (BIO-KONT) при 35 и 5% CO2 атмосферы в течение 2 дней, был получен штамм QT6929 (Qian at al., 2023).

Впоследствии случай с аналогичными симптомами, вызванными инфекцией C. litorale JM-1, произошел в Гуандуне, Китай. Пациенты в обоих случаях имели опыт контакта с речными креветками (Qian at al., 2023). Отталкиваясь от клинических случаев инфекций, связанных с контактом с водными организмами, фундаментальное значение полной геномной последовательности представителей рода Cysteiniphilum становится очевидным для медицинской микробиологии. Способность этих бактерий выступать в роли новых потенциальных патогенов, вызывая абсцессы и язвы у людей, и их экологическая ниша, связанная с водной средой, показывают, насколько ценной является расшифровка их генома как для фундаментального понимания механизмов патогенности, так и для прикладных задач диагностики и эпидемиологического надзора.

В настоящем мини-обзоре рассматриваются и анализируются стандартные данные о геноме и протеоме

Cysteiniphilum sp. QT6929

и приводятся статистические данные. Исследуются повторяющиеся старт и стоп кодоны в геноме

Материалы и методы

Данные по геному исследуемой бактерии были взяты с сайта Национального Центра Биотехнологической информации (NCBI) [1]. Для анализа данных использовались электронные таблицы Google Sheets [2], командная строка Bash, и программы, написанные на языке Python [3], для визуализации результатов использовалась библиотека Matplotlib.

Результаты

Описание стандартных данных о геноме

Геном Cysteiniphilum sp. QT6929 включает одну кольцевую хромосому размером 2,61 миллионов п.н с содержанием GC 38,9%, кольцевую плазмиду размером 76819 п.н. с содержанием GC 36,2% [4].

C
Таблица 1. Стандартные данные о геноме бактерии Cysteiniphilum sp. QT6929.
ДНК A T G
Хромосома821024824371523738521628
Процент от общего количества нуклеотидов30,5130,6419,4619,39

С помощью fasta-файла последовательности генома [1] и программы [3] можно определить нуклеотидный состав ДНК (Таблица 1). Данные показывают, что для исследуемой бактерии выполняется второе правило Чаргаффа – число букв A примерно равно числу букв T (49,89% и 50,10% соответственно от суммы A+T), а число букв G примерно равно числу букв C (50,10% и 49,89% соответственно от суммы G+C) в последовательности одной цепочки геномной ДНК.

По результатам обработки было замечено характерное расположение элементов генома, кодирующих транспортные РНК, CDS на хромосоме и плазмиде (Таблица 2).

rRNA
Таблица 2.Таблица числа генов белков и генов разных типов РНК бактерии Cysteiniphilum sp. QT6929.
ДНК CDS кодирующи Псевдогены tRNA
Хромосома2287134613
Плазмида69000

В электронных таблицах была построена гистограмма распределения GC в CDS последовательности [4]. Исходя из нее видно, что наиболее часто встречающиеся значения нуклеотидного состава G и С лежат в диапазоне от 37 до 41 процентов, что в среднем составляет около 39% для хромосомной ДНК. Также заметен небольшой пик в районе 40%, который, по всей видимости, возникает из-за того, что такое процентное содержание нуклеотидов G и C чаще всего встречается в CDS плазмид. Вероятно, такое относительно невысокое содержание гуанина и цитозина в геноме связано с умеренными температурными условиями в которых обитает бактерия. (повышенное содержание G и C увеличивает “прочность” и “устойчивость” генома за счет образования между комплементарными основаниями тройной водородной связи, при невысоких температурах существования нужды в увеличении GC в составе генома нет ).

%GC в CDS последовательности

Рисунок 1. GC%-состава генома (“GC-content”) бактерии Cysteiniphilum sp. QT6929.

Статистические данные о белках протеома

В электронных таблицах была построена гистограмма длин белков (Рисунок 2) и подсчитаны некоторые статистические параметры для этого распределения (Таблица 3).

%GC в CDS последовательности

Рисунок 2. Гистограмма длин белков бактерии Cysteiniphilum sp. QT6929.

Таблица 3. Статистические параметры распределения длин белков бактерии Cysteiniphilum sp. QT6929.
Средняя длинна 43
Стандартное откронение56
Медиана 10
Минимальное значение3
Максимальное значение 166

По гистограмме видно, что большая часть белков этой бактерии имеют размеры от 60 до 450 аминокислотных остатков. Превалирующие значение относительно небольших белков в протеоме бактерии позволяет сделать вывод о том, что у данного вида нет необходимости в синтезе больших белков, состоящих из нескольких доменов и выполняющих сложные функции, и им достаточно использование лишь небольших белков с относительно простыми функциями (например, регуляторной или сигнальной) и простой пространственной структурой. Также подавляющее количество маленьких белковых молекул говорит об оперонной организации генов бактерии с целью компактизации генома.

Анализ расстояний между последовательностями (CDS)

Были проанализированы белок-кодирующие последовательности на плюс-цепи хромосомы (Рисунок 3).

%GC в CDS последовательности

Рисунок 3. Гистограмма расстояний между CDS последовательностями генома бактерии Cysteiniphilum sp. QT6929.

На рисунке 3 представлена гистограмма расстояний между ними. Наибольшее количество межгенных участков имеет длину от 0 до 24 нуклеотидов. Расстояние между некоторыми последовательностями отрицательное, значит их рамки считывания перекрываются [2].

Частоты встречаемости различных старт-кодонов

Путем использования средств языка Python было рассчитано количество различных старт кодонов в кодирующих последовательностях генома. Для наглядности результата, если кодон не встретился ни разу, то в в график он не включался. Результаты визуализированы с помощью библиотеки Matplotlib [3].

Figure_start_codon

Рисунок 3. Диаграмма количества различных старт кодонов генома бактерии Cysteiniphilum sp. QT6929. По вертикальной оси отложено количество встреченных кодонов, а по горизонтальной сами кодоны.

По представленным данным можно однозначно установить, что абсолютное большинство старт кодонов имеют нуклеотидный вид ATG, чуть менее представленным кодом является TTA. Было обнаружено и присутствие относительно многочисленной замены одного пуринового основания на пиримидиновое, а именно, аденин → тимин, так же относительно частой являлась замена гуанина → аденин.

Частоты встречаемости различных стоп-кодонов

Аналогично пункту 3.4 было рассчитано количество различных стоп-кодонов кодирующих последовательностей [3].

Figure_stop_codon

Рисунок 4. Диаграмма количества различных стоп кодонов генома бактерии бактерии Cysteiniphilum sp. QT6929. По вертикальной оси отложено количество встреченных кодонов, а по горизонтальной сами кодоны.

Таким образом, наиболее часто встречаемый стоп кодон - кодон TAA, однако довольно часто встречаются другие стоп кодоны. Это явление может быть обосновано погрешностями секвенирования, в силу пока малой изученности данного организма.

Заключение

В ходе исследования были изучены некоторые особенности генома бактерии Cysteiniphilum sp. QT6929. Были получены следующие результаты: 1. Установлено количество псевдогенов и генов, кодирующих белки РНК отдельно для хромосомы и плазмиды. 2 Исследован GC-состав CDS археи. Построены гистограммы распределения CDS по содержанию в них GC и расположения их в геноме. Построенные гистограммы показали участки с особенностями GC-состава, что послужило поводом более подробно исследовать эти участки. 3 Построена гистограмма длин белков, закодированных в геноме Cysteiniphilum sp. QT6929. 4 С помощью программы на языке Python посчитаны нуклеотиды входящие в состав генома. 5 С помощью программы на языке Python найдены стоп и старт кодоны, подсчитано их количество. 6 Был проведен анализ расстояния между CDS последовательностями.

Cопроводительные материалы

Данные NCBI по геному бактерии Cysteiniphilum sp. QT6929. https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/030/035/755/GCF_030035755.1_ASM3003575v1/ Таблица особенностей генома с особенностями генома. https://docs.google.com/spreadsheets/d/1a8RwaOEJp8jir25U7cdXgfd6Ir0Q63UVqB2b1lueSzQ/edit?usp=sharing Программа, написанная на Python, для определения старт и стоп кодонов и их последующей визуализации. Программа для подсчета нуклеотидов. https://drive.google.com/drive/folders/1RgkG7iTMntJG3eqdM6umSGTV3_-Rqv7I?usp=share_link Таблица с длинами белков и GC составом. https://docs.google.com/spreadsheets/d/1LmfWDbkS1D2467AdMlIKJiGaDNBpsJh8DXXNqch16U4/edit?usp=sharing

Список литературы

  1. Qian, C., Xu, M., Huang, Z., Tan, M., Fu, C., Zhou, T., … Zhou, C. (2023). Complete genome sequence of the emerging pathogen Cysteiniphilum spp. and comparative genomic analysis with genus Francisella: Insights into its genetic diversity and potential virulence traits. Virulence, 14(1). https://doi.org/10.1080/21505594.2023.2214416
  2. Liu L, Salam N, Jiao JY, E SM, Chen C, Fang BZ, Xiao M, Li M, Li WJ, Qu PH. Cysteiniphilum litorale gen. nov., sp. nov., isolated from coastal seawater. Int J Syst Evol Microbiol. 2017 Jul;67(7):2178-2183. doi: 10.1099/ijsem.0.001917. Epub 2017 Jul 3. PMID: 28671520.:https://pubmed.ncbi.nlm.nih.gov/28671520/
  3. Köppen K, Rydzewski K, Zajac J, Al-Senwi M, Evcimen S, Schulze D, Jacob D, Heuner K. Detection of Francisellaceae and the differentiation of main European F. tularensis ssp. holarctica strains (Clades) by new designed qPCR assays. BMC Microbiol. 2025 Jan 17;25(1):28. doi: 10.1186/s12866-025-03751-9. PMID: 39825256; PMCID: PMC11740472.:https://pubmed.ncbi.nlm.nih.gov/39825256/