В данном исследовании представлен комплексный анализ генома бактерии Desulfovibrio desulfuricans L4. Результаты исследования, изложенные в формате мини-обзора, систематизируют данные о длинах белков, количественной и функциональной структуре генома, его нуклеотидном составе и основных 5-мерах.
Бактерии рода Desulfovibrio представляют собой неспорообразующие изогнутые грамотрицательные палочки, относящиеся к сульфатредуцирующим бактериям (СРБ). Они являются строгими анаэробами, отличаются медленным ростом и для образования видимых колоний требуют от 4 до 7 дней[2].
У представителей рода Desulfovibrio (включая D. desulfuricans) обнаружена диссимиляционная сульфитредуктаза, известная как «desulfoviridin»[3]. Этот фермент участвует в восстановлении сульфитов/сульфатов до сульфидов, что позволяет бактериям осуществлять сульфатное дыхание и продуцировать сероводород (H2S) в анаэробных условиях[4], что при наличии ионов железа может вести к образованию сульфидов железа (например FeS).
В рамках данного мини-отчета решаются следующие задачи: (1) характеристика общей структуры генома и нуклеотидный состав; (2) поиск наиболее часто встречающихся коротких последовательностей и их оценка как кандидатов в регуляторные мотивы; (3) анализ распределения самой часто встречающейся 5-мерной последовательности.
Для анализа генома бактерии Desulfovibrio desulfuricans L4 использован комбинированный подход с применением программных средств и данных из общедоступных биоинформатических ресурсов.
Исходные данные о нуклеотидной последовательности генома Desulfovibrio desulfuricans были получены из базы данных Национального центра биотехнологической информации США (NCBI). Идентификатор таксона в NCBI Taxonomy Browser: 876. Последовательности генома, включая хромосомы и плазмиды (репликоны), были загружены в формате FASTA для последующего анализа.
Из аннотированных геномных данных извлечены аминокислотные последовательности. Для визуализации и количественной оценки была построена гистограмма. Для обработки данных и анализа использовались Google Таблицы (см. раздел 4.1, см. раздел 5.4).
Для каждого репликона с помощью Python было подсчитано количество генов, кодирующих белки (см.раздел 4.2, раздел 5.1).
Определение доли каждого нуклеотида и проверка наличия симметрии пар AT и GC для каждого репликона. Расчет выполнен с использованием Python (см.раздел 4.3, см.раздел 5.2).
Проведен поиск ТОП-10 5-мер и анализ на принадлежность к нуклеотидным мотивам (см.раздел 4.4, см.раздел 5.3).
Анализ распределения для самого частого 5-мера. С помощью скрипта на Python построена тепловая карта локализации данного мотива (см.раздел 4.5, см.раздел 5.3).
Рисунок 1. Распределение длин белков в геноме. (Исходные данные в Разделе 5.4.)
Данная гистограмма демонстрирует распределение с выраженной правосторонней асимметрией, что типично для бактериальных геномов[5].
Большинство белков D. desulfuricans сосредоточено широким плато в диапазоне ~(70 – 430 а.о.), где количество белков в каждом интервале находится в диапазоне ~(180 – 258). Максимальное количество белков (258) наблюдается для интервала 230–269 а.о.
Таблица 1. Число генов и белков разных типов РНК
| Репликон | Хромосома | pDsulf-L4 |
|---|---|---|
| Белковые гены | 2931 | 12 |
| гены тPHK | 57 | 0 |
| гены рPHK | 9 | 0 |
| гены нкPHK | 1 | 0 |
| Другие PHK гены | 3 | 0 |
| Белковые псевдогены | 16 | 1 |
| PHK псевдогены | 0 | 0 |
| Всего псевдогенов | 16 | 1 |
| Всего генов | 3017 | 13 |
Таблица 2. Интерпретация полученных результатов по хромосоме
| Хромосома. Параметр | Значение | Интерпретация |
|---|---|---|
| Белковые гены | 2931 | Основной функциональный потенциал организма. Гены кодируют все необходимые ферменты, структурные белки и регуляторные факторы. |
| тРНК | 57 | Обеспечение трансляции (синтеза белка). тРНК переносят аминокислоты к рибосомам. |
| рРНК | 9 | Сборка рибосом. Гены рРНК обычно организованы в опероны. 9 генов скорее всего означают 3 оперона. |
| нкРНК | 1 | Регуляторные функции. Небольшое количество может указывать на неполную аннотацию регуляторных РНК или специфическую организацию регуляторных сетей. |
| Другие РНК | 3 | Специализированные РНК. Включают tmRNA (освобождение рибосом), SRP RNA (транспорт белков) и RNase P RNA (процессинг тРНК). |
| Белковые псевдогены | 16 | Эволюционные остатки. Присутствие 16 псевдогенов свидетельствует об эволюционных процессах и реорганизации генома. |
| Всего генов | 3017 | Стандартный размер генома. Общее число генов соответствует типичной организации свободноживущей бактерии. |
Вывод по хромосоме: Это полностью функциональный, самостоятельный бактериальный геном[6].
Таблица 3. Интерпретация полученных результатов по плазмиде
| Плазмида. Параметр | Значение | Интерпретация |
|---|---|---|
| Белковые гены | 12 | Специализированные функции. Эти гены, скорее всего, кодируют: • Белки для репликации плазмиды (Rep). • Белки для её стабильного наследования (Par). • Белки, обеспечивающие хозяйку полезным свойством (например, устойчивость к тяжелым металлам, антибиотикам или дополнительные метаболические пути). |
| Белковые псевдогены | 1 | Эволюционные изменения. Наличие псевдогена может указывать на недавнюю потерю функции или реорганизацию плазмиды. |
| РНК | 0 | Отсутствие аппарата трансляции. Это абсолютно нормально для плазмид. Они являются "нахлебниками" клетки-хозяина и используют её готовые рибосомы, тРНК и другие компоненты для синтеза своих белков. |
| Всего генов | 13 | Компактность. Плазмида — это небольшой, компактный молекулярный паразит или симбионт, несущий только самые необходимые для своего существования и функции гены. |
Вывод по плазмиде: pDsulf-L4 — это небольшая плазмида, которая придает бактерии определенное селективное преимущество в её нише. Наличие псевдогена свидетельствует об эволюционной динамике этого генетического элемента. Гены плазмиды не являются жизненно важными для клетки, но могут быть необходимыми для выживания в специфических условиях среды[6].
Общий вывод по геномной организации:
Анализ состава нуклеотидов позволяет подтвердить качество данных и провести первичную верификацию качества сборки и аннотации.
Таблица 4. Детализация нуклеотидного состава
| Полный геном | Хромосома | Плазмида |
|---|---|---|
|
A 20.92% T 21.25% G 28.95% C 28.87% Длина = 3050290 bp CDS = 2960 GC-контент = 57.83% AT-контент = 42.17% |
A 20.93% T 21.26% G 28.94% C 28.87% Длина = 3041002 bp CDS = 2947 GC-контент = 57.81% AT-контент = 42.19% |
A 19.26% T 18.01% G 33.0% C 29.73% Длина = 9288 bp CDS = 13 GC-контент = 62.73% AT-контент = 37.27% |
Анализ симметрии по парам AT и GC
Для кодирующих последовательностей полного генома и хромосомы наблюдается близкий к паритету состав комплементарных оснований (AT с отклонением ~0.3%, GC с отклонением <0.1%), что соответствует ожиданиям для кодирующих регионов двухцепочечной ДНК.
Для плазмиды отмечаются более значительные отклонения в парах оснований: AT различаются на 1.25%, GC — на 3.27%. Эти отклонения могут быть объяснены малым размером выборки: плазмида содержит всего 13 CDS общей длиной 9288 п.н., что на три порядка меньше хромосомы.
Анализ нуклеотидного состава выявил умеренно-высокий GC-контент (57.83% для полного генома). Соотношение AT и GC близко к паритету, что ожидаемо для бактериальных геномов. Интересно, что плазмида демонстрирует значительно более высокий GC-контент (62.73%) по сравнению с генами хромосомы. Это может указывать на происхождение плазмиды путём горизонтального переноса генов или отражать селективное давление на стабильность внехромосомных элементов[7].
Поиск десяти самых часто встречающихся 5-мер был выбран для целенаправленного выявления коротких мотивов, которые могут лежать в основе специфической системы регуляции генома.
Рисунок 2. ТОП-10 5-меров D. desulfuricans
Аргументы в пользу принадлежности полученных ТОП-10 последовательностей к мотивам
GC, CGC, GCG.Специфические кандидаты
GCGCG, CGCGC – возможные сайты для белков, связывающихся с GC-богатыми последовательностями;GCCGC – может быть частью промоторных элементов;GCGGC – возможный элемент вторичной структуры.Выявленные ТОП-10 5-меров представляют собой интересные кандидаты на регуляторные мотивы. Промоторная архитектура у GC-богатых бактерий часто сложна [7], что добавляет интереса к их анализу. Однако чтобы считать их действительно функциональными мотивами, требуются дополнительные доказательства (позиционная локализация, консервация, структурная/экспериментальная проверка), поскольку вычислительные методы предоставляют прогнозы, нуждающиеся в экспериментальной валидации[8].
Анализ распределения самого часто встречающегося 5-мера по геному позволит проверить потенциальную роль этого 5-мера в регуляции транскрипции, стабилизации структуры ДНК или как маркера мобильных генетических элементов, что может быть важно для понимания адаптации бактерии к анаэробным условиям.
Рисунок 3. Тепловая карта распределения 5-мер GCGGC (окно 10000bp)
Анализ распределения GCGGC
Биологическая интерпретация
Наблюдаемое распределение GCGGC (при условии, что кластеры локализованы в регуляторно-значимых зонах) может быть индикацией функционального значения этой последовательности. Однако это пока остаётся гипотезой: требуется дальнейшая проверка (позиционная привязка, структурный/топологический контекст, консервация, возможно — эксперимент).
Скрипт анализирует файл аннотации генома (feature table) и проводит количественную классификацию генетических элементов по репликонам: подсчитывает белок-кодирующие гены, различные типы РНК-генов, сохраняет результаты в Excel.
/home/students/y25/dudka2007/term1/mini_review/supplement/0-replicones_analysis.py
Скрипт анализирует нуклеотидный состав и GC-контент для каждого компонента, сохраняет статистику в Excel-файл.
/home/students/y25/dudka2007/term1/mini_review/supplement/1-atgc_analysis_updated.py
Скрипт состоит из двух блоков:
/home/students/y25/dudka2007/term1/mini_review/supplement/2-k-mer_search+heatmap.py