Исследование генома бактерии Mycoplasmopsis pulmonis

Илющенко Дмитрий1
1Факультет биоинженерии и биоинформатики, Московский государственный университет

Аннотация

В данной работе исследуется особенности генома патогенной бактерии Mycoplasmopsis pulmonis – длины белков, закодированных в ее геноме, нуклеотидный состав кодирующих последовательностей, а также особенности организации генов в геноме.

Введение

Систематическое положение изучаемого объекта[1]:
Домен Bacteria
Царство Bacillati
Филум Mycoplasmatota
Отряд Mycoplasmoidales
Семейство Metamycoplasmataceae
Род Mycoplasmopsis
Вид Mycoplasmopsis pulmonis

Mycoplasmopsis pulmonis - бактерия, относящаяся к филуму Mycoplasmatota, отряду Mycoplasmoidales, являюящаяся патогенной и вызывающей респираторные инфекции у крыс и мышей[2]. Как и все остальные представители Mycoplasmatota, данная бактерия имеет своеобразное строение клеточных покровов - у нее отсутствует клеточная стенка, покровы представлены исключительно липидной мембранной, вследствие чего Mycoplasmopsis pulmonisspan является облигатным внутриклеточным паразитом эукариотических организмов. Паразитирует данная микоплазма на млекопитающих, преимущественно на грызунах, однако есть свидетельства о инфицировании ею людей, что приводило к пневмонии и усилению других респираторных заболеваний[3].
Так как данная микоплазма инфицирует преимущественно грызунов она является удобной моделью для изучения микоплазменных респираторных инфекций и микоплазм в целом[2].
В силу внутриклеточного облигатного паразитизма, Mycoplasmopsis pulmonis, как и другие микоплазмы демонстрирует крайне значительную редукцию генома, как с точки зрения размера – ее геном составляет 963 879 пар оснований, так и с точки зрения числа генов – 782 кодирующие последовательности, что значительно меньше по сравнению со свободноживущими бактериями. GC - состав генома данной бактерии составляет 26,6% [2].

Методы

Распределение длин белков, закодированных в геноме бактерии Mycoplasmopsis pulmonis

Исследование было выполнено с помощью методов электронных таблиц (S1)

Распределение CDS Mycoplasmopsis pulmonis по GC – составу

Исследование было выполнено с помощью методов электронных таблиц (S2)

Распределение различных типов генов по репликонам Mycoplasmopsis pulmonis

Исследование было выполнено с помощью методов электронных таблиц (S3)

Предсказание оперонов бактерии Mycoplasmopsis Pulmonis

Для предсказания оперонов использовались электронные таблицы (S4), а также авторский скрипт на языке Python в Google Colab (S5). Как критерий оперона были взяты два и более CDS каждый из которых отстает от предыдущего не более чем на 3 нуклеотида (допускаются пересечения)

Результаты и обсуждение

Распределение длин белков, закодированных в геноме бактерии Mycoplasmopsis Pulmonis

С целью анализа размеров белковых продуктов, закодированных в геноме бактерии M. pulmonis была построена столбчатая диаграмма (рис. 1), отражающая распределение длин белков
Наибольшее число белков расположилось в кармане 250-300 аминокислот, однако, но также мы можем наблюдать относительное “плато” в распределении на участке 100 - 300 аминокислотных остатков, белки же длинной более 1000 аминокислотных остатков крайне редки. Медианной длиной является 302 аминокислотных остатка, самым маленьким белком является 50S рибосомальный белок L36 длиной 37 аминокислотных остатков самым большим – Gli521, структурный белок поверхностного аппарата скольжения длиной 4279 аминокислотных остатков.

Рисунок 1. Распределение длин белков закодированных в геноме бактерии M. pulmonis

Распределение CDS Mycoplasmopsis Pulmonis по GC – составу

С помощью столбчатой диаграммы (рис. 2) было проанализировано распределение CDS Mycoplasmopsis pulmonis по GC – составу. Анализ гистограммы укрепляет представление о геноме M. pulmonis, как о геноме типичного внутриклеточного паразита, отражая крайне малое содержание GC в геномных последовательностях.
Процент GC соответствующий наибольшему числу CDS является 26-27% . Однако, мы можем наблюдать дополнительный пик в районе 22-23%. При дополнительном анализе было выяснено, что повышенное количество CDS в этом диапазоне содержания GC обуславливается содержанием в геноме 17 копий мобильного элемента IS1138B семейства IS3. Данный мобильный элемент внутри себя кодирует транспозазу и, скорее всего, является активным. Можно предположить, что данный мобильный элемент не потерял свою активность в результате отбора благодаря паразитическому образу жизни M. Pulmonis и, следовательно, пониженной конкуренции. Медианному значению GC состава CDS соответствует 27,12%. Самый высокий пик и медианное значение, как и ожидалось, близки к среднему по геному - 26,6%.

Рисунок 2. Распределение CDS M. Pulmonis по GC составу

Распределение различных типов генов по репликонам Mycoplasmopsis Pulmonis

С целью количественного анализа распределения генов различных типов по репликонам генома M. Pulmonis была построена таблица (Таблица 1).
Были подсчитаны количества генов белков, РНК каждого типа, а также количество псевдогенов для всех репликонов M. pulmonis.
На плазмиде данной бактерии находится всего 9 белок-кодирующих генов, все остальные гены (РНК, псевдогены, другие белок-кодирующие) расположены на хромосоме. Среди 9 генов, располагающихся на плазмиде 7 кодируют белки с неисследованной функцией, оставшиеся два гена tig кодируют триггер-фактор - рибосомальный шаперон, помогающий сворачиваться новосинтезированным белкам, а также обладающий пролин-изомеразной активностью, что ускоряет свертывание белков [4]. Это позволяет сделать осторожное предположение, что белки на плазмиде (в.т.ч. остальные 7 с неизученной функцией) составляют функциональную группу трансляционно-ассоциированных “помощников” фолдинга белка, однако, данное предположение требует дополнительного анализа последовательности, структуры и гомологов данных белков.

Таблица 1. Количество генов кодирующих белки, различные РНК или содержащих псевдогены на хромосоме и на плазмиде M. pulmonis. Строка tRNA соответствует количеству транспортных, строка rRNA - рибосомальных, tmRNA - транспортно-матричных, ncRNA - прочих некодирующих РНК. Также подсчитано общее число генов для каждого репликона и отдельно и для всего генома суммарно

Предсказание оперонов бактерии Mycoplasmopsis Pulmonis

С помощью данных о начале и конце генов была составлена таблица предполагаемых оперонов (S6) включившая в себя 38 гипотетических оперонов. В результате функционального анализа найденных оперонов были выделены некоторые, представляющие на взгляд автора наибольший интерес (Таблица 2).

Таблица 2. Избранные из таблицы оперонов (S4), предсказанных на основании таблицы геномных особенностей M. Pulmonis опероны с предположенными на основании функций белков, входящих в оперон функциями

  1. Оперон из трех белков, содержащих мембранный белок P60, связанный с ним секретируемый белок P80, который, в свою очередь, обеспечивает взаимодействие с нуклеотидной фосфорамидазой HinT, также закодированной в данном опероне. Точная клеточная функция данного комплекса не изучена, однако, предполагается что взаимодействие с осуществляющей ферментативную активность HinT обеспечивает некоторый сигнальный путь [5]
  2. Оперон, кодирующий систему рестрикции-модификации и включающий в себя ген эндонуклеазы рестрикции и две субъединицы метилтрансферазы
  3. Оперон, кодирующий субъединицы ABC-транспортера углеводов с неизвестной специфичностью
  4. Оперон, кодирующий комплекс модификации тРНК карбамоильными группами по азоту 37 аденина (рис. 3).
  5. Рисунок 3. N6-карбамоиладенин
  6. Оперон осуществляет терминацию трансляции в случае пропуска рибосомой стоп-кодона. Белки данного оперона отвечают за взаимодействие с транспортно-матричной РНК, терминацию трансляции и дальнейшую деградацию дефектной мРНК [6]
  7. Оперон содержит две субъединицы ДНК топоизомеразы 4 и еще один белок с неизвестной функцией. На основе окружения можно предположить, что функция данного белка также связана с изменением топологических характеристик молекулы ДНК, однако, данное предположение требует дальнейшего тщательного исследования
  8. Данный оперон кодирует две субъединицы эндонуклеазы рестрикции семейства Hsd. Интересно в данной эндонуклеазе то, что для других штаммов M. pulmonis для локусов данного гена установлена с помощью рекомбинации – инверсии [2]
  9. Оперон кодирует 50S рибосомальный белок, 30S рибосомальный белок и тРНК метилтрансферазу. Биологический смысл данного оперона вызывает вопросы, однако его структура (метилтрансфераза находится между рибосомальными белками) позволяет предположить осмысленность существования подобного оперона

Возможные направления дальнейших исследований

Проведенные исследования, в особенности анализ оперонов, а также более ранние работы других исследователей открывают простор для дальнейшего изучения генома бактерии Mycoplasmopsis pulmonis. Интересным направлением изучения, на взгляд автора, является исследование регуляции системы рестрикции – модификации Hsd. Данная система интересная тем, что ее экспрессия регулируется за счет инверсии генов в локусе. Функциональность и регуляция данной системы была установлена, однако, рекомбиназы, осуществляющей регуляцию найдено не было. Предполагается [2], что регуляция осуществляется за счет рекомбиназы локуса поверхностных антигенов vsa, регулируемого сходным образом. Последовательность, с которой связывается данная рекомбиназа установлена и носит название vrs-бокса[7]. Поиск данной последовательности в опероне Hsd мог бы опровергнуть гипотезу или привести к ней новое доказательство. Также на основании соседей по оперону можно предположить функции гипотетических белков, после чего, с помощью построения моделей структур данных белков и поиска их гомологов у других видов подтвердить или опровергнуть гипотезу о их функциональной принадлежности. Это позволит расширить представления о регуляции экспрессии генов, а также о составе протеома Mycoplasmopsis pulmonis.

Благодарность

Выражаю благодарность

  1. Моим соседям по комнате в общежитии за помощь в обсуждении сложных вопросов
  2. Преподавателям информатики за полученные за семестр ценные знания
  3. Анастасии Бессонницыной за поддержку в трудных ситуациях

Сопроводительные материалы

  1. CDS from genome of Mycoplasmopsis pulmonis лист prot_length — таблица длин белков, лист prot_length_hist — гистограмма длин белков
  2. CDS from genome of Mycoplasmopsis pulmonis лист CD%_hist — гистограмма CDS по содержанию GC
  3. Genomic features of Mycoplasmopsis pulmonis листы protein_coding_chromosome, protein_coding_plasmid, pseudogene, RNase_P_RNA, rRNA, tmRNA, SRP_RNA, tRNA — каждая таблица отвечает своей категории генов, каждая из категорий отображена в названии, gene_categories_by_replicon — общая таблица, приведенная в обзоре
  4. Genomic features of Mycoplasmopsis pulmonis лист operon_analysis — содержит в себе координаты начала и конца всех CDS, а также направление цепи, на которой эти CDS расположены и названия белковых продуктов CDS
  5. Operon finding скрипт на языке программирования Python, осуществляющий алгоритм поиска оперона по заданным критериям
  6. M. Pulmonis Hypothetical operons предсказанные опероны Mycoplasmopsis pulmonis

Также все сопроводительные материалы можно найти на моей wiki странице в разделе Сопроводительные материалы

Список литературы

  1. Систематическое положение Mycoplasmopsis pulmonis https://www.ncbi.nlm.nih.gov/datasets/taxonomy/2107/
  2. Isabelle Chambaud (2001), The complete genome of the murine respiratory pathogen Mycoplasma pulmonis, Oxford University Press
  3. Zai-qiang Guo (2024), A comprehensive review of Mycoplasma pneumoniae infection in chronic lung diseases: recent advances in understanding asthma, COPD, and bronchiectasis, Sec. Pulmonary medicine
  4. Tianyu Wan (2024), Dosage constraint of the ribosome-associated molecular chaperone drives the evolution and fates of its duplicates in bacteria, mBio
  5. Miriam Hopfe (2004), P80, the HinT interacting membrane protein, is a secreted antigen of Mycoplasma hominis, BMC Microbiology
  6. Kenneth C. Keiler (2015), Mechanisms of ribosome rescue in bacteria, Nat Rev Microbiology
  7. Xuejun Shen (2000), Gene Rearrangements in the vsa Locus of Mycoplasma pulmonis, Journal of Bacteriology