Анализ генома бактерии Mycobacterium marinum M

Автор: Панкратова П.А.
Факультет биоинженерии и биоинформатики Московского государственного университета имени М.В. Ломоносова

Аннотация

В данном исследовании выполнен геномный анализ штамма M бактерии Mycobacterium marinum — патогенного представителя рода Mycobacterium, вызывающего инфекционные заболевания у человека и животных. Анализ проведен с применением биоинформатических методов.

Введение

Mycobacterium marinum – это грамположительная микобактерия, являющаяся внутриклеточным патогеном, впервые выделенная из туберкулезных бугорков, полученных при вскрытии погибших морских рыб в Филадельфии в 1926 году[1].

Mycobacterium marinum широко распространена в водных экосистемах и является классическим патогеном холоднокровных животных, особенно рыб, в которых вызывает системное заболевание микобактериоз[2]. Для человека она представляет собой зоонозный патоген, вызывающий преимущественно кожные инфекции, например, Aquarium granuloma[3]. Инфекция обычно возникает при контакте поврежденной кожи с зараженной водой, рыбами или их инфицированными материалами. В рамках данной работы объектом исследования выступает конкретный штамм Mycobacterium marinum, обозначенный литерой M.

Mycobacterium marinum служит моделью для изучения патогенеза более опасных микобактерий, в частности M. tuberculosis. Детальный анализ генома отдельных штаммов позволяет выявить особенности, связанные с вирулентностью, адаптацией к хозяину и эволюцией паразитизма. Целью данного исследования был комплексный биоинформатический анализ генома штамма M M. marinum, включающий характеристику белкового состава, GC-состава кодирующих последовательностей, распределения генов по репликонам и изучение псевдогенов.

Систематическое положение Mycobacterium marinum[4]

  • Домен Bacteria
  • Царство Bacillati
  • Отдел Actinomycetota
  • Класс Actinomycetes
  • Порядок Mycobacteriales
  • Семейство Mycobacteriaceae
  • Род Mycobacterium
  • Вид Mycobacterium marinum

Методы и материалы

Данные для анализа получены из базы данных NCBI (Genome: Mycobacterium marinum M)[5]. Анализ включал файлы с кодирующими последовательностями (CDS) и таблицу геномных особенностей (feature table).

1. Построение гистограмм

Анализ длины белков и распределения GC% по CDS выполнен с использованием Google Таблиц (функция СЧЁТЕСЛИМН).
См. Сопроводительные материалы №1,2,4

2. Анализ репликонов

Расчёт процентного соотношения типов генов в репликонах (хромосома и плазмида) проведён с помощью языка Python (библиотеки pandas, gspread).
См. сопроводительные материалы №3

3. Анализ псевдогенов

Включал следующие этапы: построение гистограммы распределения длин псевдогенов; выявление кластеров псевдогенов (определяемых как группы псевдогенов, расположенные в геноме на расстоянии менее 5000 пар нуклеотидов друг от друга); построение гистограммы распределения длин этих кластеров; расчет плотности расположения псевдогенов внутри кластеров. Исходные данные получены путем фильтрации таблицы признаков (feature table) по классу «pseudogene».
См. сопроводительные материалы №4

Результаты и обсуждение

Длины белков, закодированных в геноме бактерии Mycobacterium marinum M

Рисунок 1. Распределение длин белков
Рисунок 1. Распределение длин белков Mycobacterium marinum M

Анализ данных показывает, что наиболее распространены белки, длина которых попадает в третий диапазон(от 200 до 300 аминокислот). Такая длина белка позволяет образовывать стабильные пространственные структуры и активные центры.[6] Наибольшая длина белка составляет 9858 аминокислот, наименьшая - 17. Длинные белки часто выполняют особые функции, связанные с патогенностью. Например, у микобактерий это могут быть поликетидсинтазы — ферменты для синтеза компонентов уникальной клеточной стенки, что критично для выживания в макрофагах. [7] Белков, имеющих размер 0-100 а.к., меньше 500 штук, такое небольшое количество объясняется их меньшей структурной устойчивостью и тем, что у бактерий часть регуляторных задач берут на себя малые РНК [6].

Дальнейший анализ белков Mycobacterium marinum M позволит выявить конкретные функции экстремально длинных белков и сравнить их с белками других видов.

GC-состав кодирующих последовательностей

Рисунок 2. Распределение GC-состава в кодирующих последовательностях Mycobacterium marinum M

Подавляющее большинство генов (основной пик на графике) попадает в интервал 65-70% GC. Такой высокий и консервативный GC-состав — отличительная черта рода Mycobacterium, связанная с термостабильностью ДНК и, возможно, адаптацией к синтезу белков при температуре тела теплокровного хозяина [7, 8]. Гены, чей GC-состав выходит за пределы 60-70%, могут представлять особый интерес как потенциальные приобретения путем горизонтального переноса гена (в случае низкого GC-состава) или как гены, кодирующие белки со специфической функцией или клеточной локализацией.

Распределение различных типов генов по репликонам

Таблица 1. Распределение долей длин различных типов генов от длин репликонов у Mycobacterium marinum M

Плазмида содержит только 60 генов, кодирующих белки. Все гены для тРНК, рРНК и других некодирующих РНК полностью отсутствуют.

Хромосома — основной геном: на ней сосредоточены все гены для некодирующих РНК и подавляющее большинство белковых генов. Относительно высокий процент псевдогенов (~1%) в хромосоме Mycobacterium marinum M может быть вызван потерей ненужных генов при адаптации к более специализированному образу жизни (к паразитизму). При этом значительная доля некодирующих РНК (~1%) указывает на развитую систему регуляции, необходимую для быстрого ответа на стресс.

Анализ псевдогенов

Рисунок 3. Распределение длин псевдогенов
Рисунок 4. Распределение длин кластеров псевдогенов

Наиболее распространенная длина псевдогена 0-300 пар нуклеотидов, максимальная длина псевдогена 19910 п.н., минимальная-63 п.н. Гистограмма демонстрирует четкую обратную зависимость между длиной псевдогена и его частотой встречаемости.

По результатам анализа можно видеть, что скопление кластеров из псевдогенов не характерно для Mycobacterium marinum M. Из 88 кластеров 59 имеет длину 1. Изолированное расположение кластеров может указывать на их независимое происхождение или на отсутствие механизмов, способствующих их группировке в геноме.

Рейтинг кластеров по плотности (Топ-5)

Таблица 2. Топ-5 наиболее плотных кластеров

Наиболее плотные кластеры имеют только 1 ген в своем составе, на основании этого факта можно сделать вывод о том, что высокая плотность в отдельных кластерах является результатом малой длины региона, а не следствием реального скопления генов.

Сопроводительные материалы

№1

Гистограмма длин белков

Таблица
№2

Гистограмма GC% по CDS

Таблица
№3

Распределение различных типов генов по репликонам

Код в Colab
№4

Анализ псевдогенов

Таблица

Список литературы

  1. Hashish E., Merwad A., Elgaml S., Amer A., Kamal H., Elsadek A., Marei A., Sitohy M. Mycobacterium marinum infection in fish and man: epidemiology, pathophysiology and management; a review // Veterinary Quarterly. – 2018. – Vol. 38, No 1. – P. 35–46. URL: NLOM (дата обращения: 07.12.2025).
  2. Akram, S. M., & Aboobacker, S. (2023, July 17). Mycobacterium marinum infection. In StatPearls. StatPearls Publishing. Retrieved October 26, 2025 URL: NLOM (дата обращения: 26.10.2025).
  3. Pereira C, Tauro LF, Shetty P. Aquarium granuloma: a diagnosis based on history. Int Surg J 2020;7:2036-8. URL: ISJ (дата обращения: 07.12.2025).
  4. Mycobacterium marinum M // NCBI Taxonomy URL: NCBI taxonomy (дата обращения: 05.12.2025).
  5. Геном бактерии Mycobacterium marinum M // NCBI URL: Данные NCBI (дата обращения: 01.12.2025).
  6. K.A. Dill, K. Ghosh, & J.D. Schmit, Physical limits of cells and proteomes, Proc. Natl. Acad. Sci. U.S.A. 108 (44) 17876-17882. URL: PNAS (дата обращения: 10.12.2025).
  7. Cole, S., Brosch, R., Parkhill, J. et al. Deciphering the biology of Mycobacterium tuberculosis from the complete genome sequence. Nature 393, 537–544 (1998) Nature URL: Nature (дата обращения: 10.12.2025).
  8. Héctor Musto, Hugo Naya, Alejandro Zavala, Héctor Romero, Fernando Alvarez-Valín, Giorgio Bernardi, Genomic GC level, optimal growth temperature, and genome size in prokaryotes, Biochemical and Biophysical Research Communications, Volume 347, Issue 1, 2006, Pages 1-3, ISSN 0006-291X, URL: BBRC (дата обращения: 10.12.2025).