Факультет биоинженерии и биоинформатики, МГУ им. М.В. Ломоносова, Москва, Россия
Аннотация — Исследование посвящено анаэробной серной бактерий Thiomicrorhabdus aquaedulcis. Будут рассматриваться особенности бактериального генома.
Ключевые слова: Thiomicrohabdus aquaedulcis, серобактерия, kodomo
Таксономическое положение бактерии: …/84/96/63/Thiomicrorhabdus aquaedulcis HaS4^T; Bacteria, Pseudomonadota, Gammaproteobacteria. Рассматриваемый организм – аэробная сероокисляющая бактерия, изолированная из воды озера Харутори в Японии. Точный таксономический статус ещё не был определен. Является облигатным хемолитоавтотрофом, который растет при температуре от 0 до 25 °C (оптимум — 22 °C) и pH от 6.2 до 8.8 (оптимум — pH 6.6-7.4). Бактерии имеютт форму палочек, длиной 1.6–2.5 мкм, шириной 0.7–0.9 мкм и негативны по Граму. Филогенетический анализ, основанный на гене 16S рРНК, показал, что штамм связан с родом Thiomicrorhabdus, но филогенетически отличается от типовых штаммов существующих видов в этом роду. На основе его филогенетических и фенотипических свойств штамм HaS4T (=NBRC 112315T=BCRC 81110T) предлагается как типовой штамм нового неморского вида рода Thiomicrorhabdus с именем Thiomicrorhabdus aquaedulcis sp. nov. [1]
В исследовании будут рассмотрены количество встречаемых в геноме белков в зависимости от того, какому диапазону принадлежат их длины, количество пересечений кодирующих последовательностей (CDS) на плюс-цепи кольцевой молекулы ДНК и анализ встречаемости кодирующих последовательностей белков Thiomicrorhabdus aquaedulcis у других бактерий таксона Bacteria, Pseudomonadota, Gammaproteobacteria (далее – Сравниваемые бактерии).
Встречаемость белков в зависимости от их длин. В качестве источника информации используется таблица особенностей генома Thiomicrorhabdus aquaedulcis, размещенная на сайте Национального института здоровья. Анализ проведен с использованием возможностей сервиса Google sheets.
Распределение длин пересечений кодирующих последовательностей. Использованы, методы, идентичные методам, использованным в предыдущей задаче.
Встречаемость белков определенных назначений у бактерий одного и того же таксона. Рассмотрены таблицы особенности генома других бактерий, имеющих таксон Bacteria, Pseudomonadota, Gammaproteobacteria. Работа с таблицами производилась с помощью Microsoft Excel. Данные в таблицах были отфильтрованы и систематизированы с помощью программ, написанных на языке программирования Python. Для упрощения работы с таблицами использовались библиотеки csv (для записи содержимого csv-файлов в двумерные списки или списки из словарей вида {название столбца: значение i-й строки рассматриваемого столбца}), fnmatch (для работы с масками файлов и папок) и модуль listdir библиотеки os (для просмотра содержимого папок).
Для выполнения задачи было написано 3 программы:
Рассмотрены длины 2395 возможных продуктов трансляции CDS. На гистограмме (Рис. 1) изображено количество встречаемых белков в зависимости от того, в какой диапазон длины они входят.
Максимум количества белков приходится на диапазон 90-140 (295 единиц), помимо которого существуют локальные максимумы на диапазонах 290-340 (233 единицы), 590-640 (45 единиц) и 690-740 (41 единица). Количество возможных продуктов трансляции, превосходящих по длине 1040 (23 единицы), существенно меньше потенциальных белков, не превосходящих по длине 1040 (2383).
Наименьшая длина возможного полипептида – 21, белки такой длины встречаются 4 раза. Наибольшая длина – 3176 аминокислот, белок такой длины встречается единожды. Второй по величине полипептид имеет длину 1496 аминокислот, то есть его длина отличается от максимальной более чем в 2 раза. Белок максимальной длины не изображен на гистограмме, поскольку его размещение привело бы к затруднению анализа рисунка.
Рассмотрено 1255 кодирующих участков, расположенных на кольцевой бактериальной молекуле ДНК на плюс-цепи, среди них 122 последовательности пересекаются со следующей, что составляет около 9.72% от их общего количества. Большая доля пересекающихся последовательностей дает основание предположить, что в ходе эволюции бактерии уменьшение размера генома благоприятно влияло на распространение бактерии, из-за чего Thiomicrorhabdus aquaedulcis приобрела такую особенность.
На гистограмме (Рис. 2) изображено количество пересекающихся кодирующих последовательностей в зависимости от того, в какой диапазон попадают их длины пересечения. Наиболее распространенными длинами пересечений оказались значения от 1 до 10 нуклеотидов. За исключением локальных максимумов в диапазонах 26-30 и 51-55, зависимость можно считать убывающей. Интересно, что в геноме имеется одно пересечение соседних последовательностей длиной 91 нуклеотид. Его название – VWA domain-containing protein, однако связь с фактором фон Виллебранда мне пока что не понятна.
Отдельно рассмотрены длины пересечений в диапазоне от 1 до 15 нуклеотидов (Рис. 3). Чаще всего встречаются пересечения длиной 3 нуклеотида (57 единиц) и 7 нуклеотидов (16 единиц). Почти половина (7 единиц) длин пересечений не встречается ни разу, то есть пересечения “сгруппированы” по длинам. Такое распределение длин пересечений может говорить о том, что, с одной стороны, чем меньше длина пересечения, тем чаще она встречается, однако, с другой стороны, пересечения именно определенных длин могут иметь значение для бактерии.
Помимо таблицы особенностей генома исследуемой бактерии, рассмотрены 16 таблиц особенностей генома бактерий, предложенных другим студентам моего курса. Выбранные бактерии принадлежат тому же таксону, что и Thiomicrorhabdus aquaedulcis, то есть Bacteria, Pseudomonadota, Gammaproteobacteria. Проведен анализ встречаемости названий белков Thiomicrorhabdus aquaedulcis у Сравниваемых бактерий, а также анализ встречаемости названий белков Сравниваемых бактерий у Thiomicrorhabdus aquaedulcis (Рис. 4).
Наибольшая доля совпадений с названиями белков Thiomicrorhabdus aquaedulcis наблюдается у Pseudomonas frederiksbergensis (48,91%), что дает основание предполагать их возможное родство и/или схожие условия обитания. Наименьшая доля – у Glaesserella parasuis (32,79%), что составляет почти треть от общего набора названий белков исследуемой бактерии и также дает почву для предположений того, что бактерии принадлежат относительно близким таксонам.
Отдельно рассмотрена встречаемость названий белков Сравниваемых бактерий у исследуемой бактерии. Наибольшая доля наблюдается у Moraxella catarrhalis (42,29%), наименьшая – у Klebsiella pasteurii (16,28%). И среднее арифметическое, (24,92%) и медианное (23,14%) значения оказались ниже, чем соответствующие значения при измерении совпадений названий белков Сравниваемых бактерий с названиями белков Thiomicrorhabdus aquaedulcis (40,28% и 38,37% соответственно). Такой результат позволяет предположить, что геном рассматриваемой бактерии менее разнообразен, чем геном бактерий таксона Bacteria, Pseudomonadota, Gammaproteobacteria. Предположение о менее разнообразном геноме Thiomicrorhabdus aquaedulcis также подкрепляется результатом определения длин пересечений кодирующих последовательностей, доля которых оказалась аномально большой.