Факультет биоинженерии и биоинформатики Московского государственного университета имени М.В. Ломоносова
Данный мини-обзор представляет из себя работу с геномом и протеомом бактерии Cysteiniphilum sp. QT6929 с использование программирования на языке Python и функционала электронных таблиц, командной строки Bash. Полученные результаты по возможности объясняются различными биологическими закономерностями.
Cysteiniphilum - грамотрицательная, аэробная, неспорообразующая бактерия, имеющая форму коккобациллы. Температура жизнедеятельности находится в диапазоне температур 14-37 °C (оптимальный, 28 °C), диапазон рН 6,0-8,0 (оптимальный, рН 7) и до 7,5% NaCl (оптимальный, 1,5%; w/v) (Liu at al., 2017). Cysteiniphilum, род грамотрицательных бактерий, относящийся к семейству Fastidiosibacteraceae наряду с родами Caedibacter, Facilibium, Fangia и Fastidiosibacter. Штамм QT6929 был взят у 19-летней женщины (Венчжоу, Китай) в ноябре 2018 года. Палец пациента был укушен креветками, что привело к язве кожи и сопровождающему абсцессу. После культивирования экссудата раны на пластинке Колумбийского кровяного агара (BIO-KONT) при 35 и 5% CO2 атмосферы в течение 2 дней, был получен штамм QT6929 (Qian at al., 2023).
Впоследствии случай с аналогичными симптомами, вызванными инфекцией C. litorale JM-1, произошел в Гуандуне, Китай. Пациенты в обоих случаях имели опыт контакта с речными креветками (Qian at al., 2023). Отталкиваясь от клинических случаев инфекций, связанных с контактом с водными организмами, фундаментальное значение полной геномной последовательности представителей рода Cysteiniphilum становится очевидным для медицинской микробиологии. Способность этих бактерий выступать в роли новых потенциальных патогенов, вызывая абсцессы и язвы у людей, и их экологическая ниша, связанная с водной средой, показывают, насколько ценной является расшифровка их генома как для фундаментального понимания механизмов патогенности, так и для прикладных задач диагностики и эпидемиологического надзора.
В настоящем мини-обзоре рассматриваются и анализируются стандартные данные о геноме и протеоме
Cysteiniphilum sp. QT6929
и приводятся статистические данные. Исследуются повторяющиеся старт и стоп кодоны в геномеДанные по геному исследуемой бактерии были взяты с сайта Национального Центра Биотехнологической информации (NCBI) [1]. Для анализа данных использовались электронные таблицы Google Sheets [2], командная строка Bash, и программы, написанные на языке Python [3], для визуализации результатов использовалась библиотека Matplotlib.
Геном Cysteiniphilum sp. QT6929 включает одну кольцевую хромосому размером 2,61 миллионов п.н с содержанием GC 38,9%, кольцевую плазмиду размером 76819 п.н. с содержанием GC 36,2% [4].
| ДНК | A | T | G | |
|---|---|---|---|---|
| Хромосома | 821024 | 824371 | 523738 | 521628 |
| Процент от общего количества нуклеотидов | 30,51 | 30,64 | 19,46 | 19,39 |
С помощью fasta-файла последовательности генома [1] и программы [3] можно определить нуклеотидный состав ДНК (Таблица 1). Данные показывают, что для исследуемой бактерии выполняется второе правило Чаргаффа – число букв A примерно равно числу букв T (49,89% и 50,10% соответственно от суммы A+T), а число букв G примерно равно числу букв C (50,10% и 49,89% соответственно от суммы G+C) в последовательности одной цепочки геномной ДНК.
По результатам обработки было замечено характерное расположение элементов генома, кодирующих транспортные РНК, CDS на хромосоме и плазмиде (Таблица 2).
| ДНК | CDS кодирующи | Псевдогены | tRNA | |
|---|---|---|---|---|
| Хромосома | 2287 | 13 | 46 | 13 |
| Плазмида | 69 | 0 | 0 | 0 |
В электронных таблицах была построена гистограмма распределения GC в CDS последовательности [4]. Исходя из нее видно, что наиболее часто встречающиеся значения нуклеотидного состава G и С лежат в диапазоне от 37 до 41 процентов, что в среднем составляет около 39% для хромосомной ДНК. Также заметен небольшой пик в районе 40%, который, по всей видимости, возникает из-за того, что такое процентное содержание нуклеотидов G и C чаще всего встречается в CDS плазмид. Вероятно, такое относительно невысокое содержание гуанина и цитозина в геноме связано с умеренными температурными условиями в которых обитает бактерия. (повышенное содержание G и C увеличивает “прочность” и “устойчивость” генома за счет образования между комплементарными основаниями тройной водородной связи, при невысоких температурах существования нужды в увеличении GC в составе генома нет ).
Рисунок 1. GC%-состава генома (“GC-content”) бактерии Cysteiniphilum sp. QT6929.
В электронных таблицах была построена гистограмма длин белков (Рисунок 2) и подсчитаны некоторые статистические параметры для этого распределения (Таблица 3).
Рисунок 2. Гистограмма длин белков бактерии Cysteiniphilum sp. QT6929.
| Средняя длинна | 43 | |
| Стандартное откронение | 56 | |
| Медиана | 10 | |
| Минимальное значение | 3 | |
| Максимальное значение | 166 |
По гистограмме видно, что большая часть белков этой бактерии имеют размеры от 60 до 450 аминокислотных остатков. Превалирующие значение относительно небольших белков в протеоме бактерии позволяет сделать вывод о том, что у данного вида нет необходимости в синтезе больших белков, состоящих из нескольких доменов и выполняющих сложные функции, и им достаточно использование лишь небольших белков с относительно простыми функциями (например, регуляторной или сигнальной) и простой пространственной структурой. Также подавляющее количество маленьких белковых молекул говорит об оперонной организации генов бактерии с целью компактизации генома.
Были проанализированы белок-кодирующие последовательности на плюс-цепи хромосомы (Рисунок 3).
Рисунок 3. Гистограмма расстояний между CDS последовательностями генома бактерии Cysteiniphilum sp. QT6929.
На рисунке 3 представлена гистограмма расстояний между ними. Наибольшее количество межгенных участков имеет длину от 0 до 24 нуклеотидов. Расстояние между некоторыми последовательностями отрицательное, значит их рамки считывания перекрываются [2].
Путем использования средств языка Python было рассчитано количество различных старт кодонов в кодирующих последовательностях генома. Для наглядности результата, если кодон не встретился ни разу, то в в график он не включался. Результаты визуализированы с помощью библиотеки Matplotlib [3].
Рисунок 3. Диаграмма количества различных старт кодонов генома бактерии Cysteiniphilum sp. QT6929. По вертикальной оси отложено количество встреченных кодонов, а по горизонтальной сами кодоны.
По представленным данным можно однозначно установить, что абсолютное большинство старт кодонов имеют нуклеотидный вид ATG, чуть менее представленным кодом является TTA. Было обнаружено и присутствие относительно многочисленной замены одного пуринового основания на пиримидиновое, а именно, аденин → тимин, так же относительно частой являлась замена гуанина → аденин.
Аналогично пункту 3.4 было рассчитано количество различных стоп-кодонов кодирующих последовательностей [3].
Рисунок 4. Диаграмма количества различных стоп кодонов генома бактерии бактерии Cysteiniphilum sp. QT6929. По вертикальной оси отложено количество встреченных кодонов, а по горизонтальной сами кодоны.
Таким образом, наиболее часто встречаемый стоп кодон - кодон TAA, однако довольно часто встречаются другие стоп кодоны. Это явление может быть обосновано погрешностями секвенирования, в силу пока малой изученности данного организма.
В ходе исследования были изучены некоторые особенности генома бактерии Cysteiniphilum sp. QT6929. Были получены следующие результаты: 1. Установлено количество псевдогенов и генов, кодирующих белки РНК отдельно для хромосомы и плазмиды. 2 Исследован GC-состав CDS археи. Построены гистограммы распределения CDS по содержанию в них GC и расположения их в геноме. Построенные гистограммы показали участки с особенностями GC-состава, что послужило поводом более подробно исследовать эти участки. 3 Построена гистограмма длин белков, закодированных в геноме Cysteiniphilum sp. QT6929. 4 С помощью программы на языке Python посчитаны нуклеотиды входящие в состав генома. 5 С помощью программы на языке Python найдены стоп и старт кодоны, подсчитано их количество. 6 Был проведен анализ расстояния между CDS последовательностями.
Данные NCBI по геному бактерии Cysteiniphilum sp. QT6929. https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/030/035/755/GCF_030035755.1_ASM3003575v1/ Таблица особенностей генома с особенностями генома. https://docs.google.com/spreadsheets/d/1a8RwaOEJp8jir25U7cdXgfd6Ir0Q63UVqB2b1lueSzQ/edit?usp=sharing Программа, написанная на Python, для определения старт и стоп кодонов и их последующей визуализации. Программа для подсчета нуклеотидов. https://drive.google.com/drive/folders/1RgkG7iTMntJG3eqdM6umSGTV3_-Rqv7I?usp=share_link Таблица с длинами белков и GC составом. https://docs.google.com/spreadsheets/d/1LmfWDbkS1D2467AdMlIKJiGaDNBpsJh8DXXNqch16U4/edit?usp=sharing