Исследование генома и протеома Methanocaldococcus lauensis

Аннотация

Methanocaldococcus lauensis – новый глубоководный термофильный метаноген, геном и протеом которого требует изучения и исследования для выяснения биологических и экологических особенностей данного организма. Этому и посвящен данный мини-обзор.

Введение

Объектом исследования является недавно открытый вид архей Methanocaldococcus lauensis [1], который принадлежит семейству Methanocaldococcaceae, отряд Methanococcales, класс Methanococci в составе филума Euryarchaeota (именно такое систематическое положение на данный момент приводится в National Center for Biotechnology Information (NCBI)) [5].

Образцы разных штаммов были взяты для исследования и культивации из глубоководных гидротермальных источников в окрестностях бассейна Лау (прилагательное lauensis означает, что вид относится к бассейну Лау или родом из Лау (Lau basin)) [1]. Интересно отметить, что разные виды данного рода архей были добыты из самых разных рифтовых зон Мирового океана (Рис. 1) [1].

Рис. 1. Гидротермальные источники Мирового океана, откуда были взяты колонии разных видов рода Methanocaldococcus. Зелёный круг – M. villosus (хребет Колбейнси), красный круг – M. indicus (Центрально-Индийский хребет), фиолетовый круг – M. infernus (Срединно-Атлантический хребет), желтые круги – M. bathoardescens (верхний круг, Восточно-Тихоокеанское поднятие), M. jannaschii (средний круг, Восточно-Тихоокеанское поднятие), M. vulcanius (нижний круг, Восточно-Тихоокеанское поднятие), голубой круг – M. lauensis (бассейн Лау).

Клетки у этих архей одиночные либо собираются в пары, они коккоидной формы, размер порядка 1.0-2.2 мкм в диаметре [1]. Организм является гипертермофилом (оптимальная темепература для роста составляет около 80-85 °C, pH порядка 6.2 а концентрация солей 20-25 г/л), облигатным анаэробом и метаногеном [1]. Интересной особенностью M. lauensis является отсутствие археллума (своеобразный жгутик некоторых архей) [3] у всех обнаруженных штаммов, их клетки неподвижны [1]. Это довольно странно, учитывая, что многие другие виды этого рода имеют данную структуру и используют ее для локомоции. Особенно в этом плане выделяются M. jannaschii и M. villosus, которые благодаря своим археллумам способны развивать самые большие в мире относительные скорости (порядка 500 своим длинам в секунду) [2]!

Метаногенные археи – это важная для развитии биологии группа организмов, особенно она интересует астробиологов (изучение особенностей организмов, живущих в экстремальных условиях) [4], биохимиков (изучение ферментов метаногенеза и их каталитическую способность при высоких температурах) [4] и даже медиков (изучение устройства археллума позволит создавать эффективных микророботов, способных точно доставлять лекарства в разные части организма) [2].

Цель исследования – это провести изучение генома и протеома (выявить какие-то новые особенности и уникальные характеристики у метаногенов) у новой археи, а также сравнить результаты с ее близкими родственниками (в основном с M. jannaschii).

Материалы и методы

Данные по геному и протеому были взяты из следующих файлов: *SG7_feature_table.txt.gz (таблица особенностей генома), *SG7_cds_from_genomic.fna.gz (нуклеотидная последовательность репликонов), *SG7_genomic.fna.gz (нуклеотидные последовательности генов обоих репликонов, кодирующих белки). Файлы были взяты из базы данных NCBI.

Анализ протеома (длины белков, опероны и продукты их экспрессии), межгенных промежутков и перекрывания генов, ролей генов и псевдогенов, нкРНК и рРНК были проведены с помощью методов электронных таблиц Google sheets. Использованные функции: СЧЕТЕСЛИ, МАКС, МИН, СРЗНАЧ, ЕСЛИ, И, ИЛИ, алгебраические операции. Также использовались фильтры и инструменты для построения гистрограмм.

Анализ тРНК был проведен с помощью скрипта на языке Bash [см. S3 в сопроводительных материалах].

Для анализа старт- и стоп-кодонов были использованы соответствующие скрипты на языке Python [см. S6 и S7 в сопроводительных материалах].

Для анализа нуклеотидного состава был использован скрипт на языке Python [см. S8 в сопроводительных материалах]. Диаграммы для обоих репликонов были построены в электронных таблицах Google sheets после перенесения туда результатов работы скрипта.

Данные для сравнения с родственной археей были любезно предоставлены автору (см. Благодарности). Там были использованы аналогичные методы электронных таблиц Google sheets и скрипты на Python.

Результаты

1. Длины белков

Рис. 2. Гистограмма длин белков, закодированных в геноме. Внизу расположены диапазоны длины (измеряется в аминокислотных остатках), слева написано количество белков.

Был проведен статистический анализ длин белков данной археи (длина измеряется числом аминокислотных остатков). Как видно на гистограмме (Рис. 2), большая часть белков (порядка 93%) имеют длину 35-560.

Минимальная длина составила 33 (транспозаза, белок вырезающий транспозоны) [6], максимальная же – 2641 (белок, содержащий домен NosD, ответственный за метаболизм меди) [7]. Среднее значение длин 289. Всего лишь 20 белков имеют длину больше 1000, они в основном выполняют функции, связанные с метаболизмом нуклеиновых кислот (гираза, хеликазы, полимеразы), а также метаболизмом меди и кобальта [см. таблицу S1 сопроводительных материалов].

Данные результаты позволяют сделать предположение, что у археи очень много мультисубъединичных комплексов, которые выполняют набор нескольких функций, где каждая субъединица это и есть белок, выполняющий конкретную небольшую функцию (отсюда и небольшая средняя длина).

2. Роли генов и их количество, анализ РНК

У рассматриваемой археи имеется два репликона в геноме: единственная кольцевая хромосома (главная молекула ДНК, ее размер составляет 1 532 285 пар оснований) и одна плазмида (очень маленький размер, всего лишь 5142 пары оснований). Для каждого репликона было подсчитано количество генов, кодирующих белки и разные РНК (Табл. 1). Нетрудно подсчитать, что всего генов у данного организма 1624 (1622 на главной хромосоме и всего лишь 2 на плазмиде). Примечательно, что плазмида кодирует только 2 белка, причем на данный момент непонятно, что они из себя представляют и какую функцию несут.

Как видно (Табл. 1), рРНК 7 типов: три 5S рРНК, две 16S и еще две 23S рРНК. Имеются также 2 малые некодирующие РНК, одна из них выполняет некую сигнальную функцию, вторая же входит в состав рибонуклеазного комплекса (ответственен за расщепление РНК) [8], которая, возможно, помимо уничтожения отработанных собственных РНК защищает архею от РНК-вирусов [см. таблицу S2 сопроводительных материалов].

Было проанализировано сколько тРНК соответствуют каждой аминокислоте (Табл. 2), оказалось, что у данной археи имеется 1 тРНК, соответствующая одной нестандартной аминокислоте, а именно селеноцистеину, приэтом тРНК для пирролизина (который встречается у метаногенов, у которых и был открыт) не обнаружено, как и не обнаружено антикодона CTA (который обычно ему соответствует) [9], вероятно, у этой археи имеется какая-то замена данной аминокислоты (скорее всего видоспецифическая модификация какой-то из 21) или вставка пирролизина происходит иначе.

Табл. 1. Число генов, кодирующих белки и разные типы РНК, для каждого репликона. нкРНК означает малая некодирующая РНК.
Табл. 2. Число различных тРНК.

Кроме того 28 генов на самом деле являются псевдогенами. Их довольно немного, значит на данный момент у археи накоплено небольшое количество мутаций.

3. Межгенные промежутки и перекрывание генов

Рис. 3. Гистограмма длин межгенных промежутков. Внизу расположены диапазоны длин промежутков (в нуклеотидах), слева их количество.
Рис. 4. Гистограмма длин перекрываний. Внизу расположены диапазоны длин участков перекрываний (в нуклеотидах), слева их количество.

Было подсчитано количество межгенных промежутков разной длины (промежутки считались между генами, кодирующими белки, расположенными на одной цепочке главной хромосомы). Как видно (Рис. 3), большая часть межгенных промежутков имеет небольшой размер (0-300 нуклеотидов), можно сделать предположение, что у археи ярко выражена оперонная организация генома (а крупные межгенные промежутки соответствуют промежуткам между этими оперонами).

На гистограмме (Рис. 3) самая первая колонка соответствуют межгенным промежуткам с отрицательной длиной, это значит, что у археи есть перекрывание генов. Данное явление было также проанализировано. Всего перекрывается 61 ген, гистограмма длин перекрываний (Рис. 4) показывает, что около половины из них перекрываются буквально по 1-2 кодонам, однако другая половина перекрывается уже значительно. Это позволяет сделать предположение о том, что в ходе трансляции таких перекрывающихся генов происходит сдвиг рамки считывания, пропускается стоп-кодон первого гена и аминокислотная цепочка продолжает расти (рибосома съезжает на последовательность, соответствующую второму белку), по итогу образуется совершенно новый более длинный полипептид по сравнению с исходными двумя.

Попробую подтвердить данное предположение. Было выяснено, что одними из перекрывающихся генов являются следующие: ген, кодирующий первую трансмембранную субъединицу PstC, и ген, кодирующий вторую трансмембранную субъединицу PstA. Обе эти субъединицы нужны для сборки и работы ABC-транспортера. Возможно, что архея сразу синтезирует эти субъединицы вместе, уже связанными, за счет перекрывания, что упрощает сборку транспортера (либо же синтезирует их вместе при определенных условиях). Можно обнаружить и другие примеры (белок, синтезирующий олигосахариды, белки системы CRISPR). Иногда подряд перекрываются три гена (4 и более не было замечено).

Однако есть и перекрывающиеся гены, которые кодируют совершенно разные белки, в этом случае сдвиг рамки считывания позволяет синтезировать совершенно другой белок с другой функцией, который на данный момент неизвестен и не изучен.

И наконец, многие из перекрывающихся генов непонятно, что кодируют (hypothetical protein), а таких генов около 100 на исследуемой цепочке главной хромосомы, вероятно тот факт, что гены перекрываются, как раз и затрудняет понимание функций продуктов их экспрессии [см. таблицу S4 в сопроводительных материалах].

4. Опероны и продукты их экспрессии

Было предсказано несколько оперонов у данной археи [см. таблицу S5 в сопроводительных материалах], здесь хочется обратить внимание на 3 наиболее интересных. Во-первых, у археи довольно крупный оперон связан с синтезом рибосомальных белков (Табл. 3), по всей видимости, происходит крайне быстрая и активная сборка и обновление рибосом в клетке. Анализ константы седиментации у этих белков (30S и 50S) позволяет сделать вывод, что эти рибосомы более близки по структуре, размерам и форме к прокариотическим рибосомам, нежели к эукариотическим.

Табл. 3. Продукты экспрессии генов первого оперона.
Табл. 4. Продукты экспрессии генов второго оперона.
Табл. 5. Продукты экспрессии генов третьего оперона.

Как видно из следующей таблицы (Табл. 4), архея имеет защитную против различных вирусов и прочих инородных нуклеиновых кислот систему CRISPR, белки которой синтезируются при экспрессии второго обнаруженного оперона. При анализе этих белков становится ясно, что архея использует иммунную систему I (B и D типов), а также II (B типа) за счет наличия белка Cas4. Как известно, системы второго типа активно используются в генной инженерии, возможно более детальное исследование белков у этой археи поможет развивать данную отрасль [10].

Последний третий оперон (Табл. 5) дает крайне неожиданные результаты, оказывается у археи в наличии гены, ответственные за белки археллума: есть и структурные белки и белок протонной помпы, необходимой для работы жгутика (аналогичные белки есть у видов со жгутиком того же рода) [2].

Однако, как было сказано ранее (смотри Введение), не обнаружено наличие археллума и подвижности у штаммов данного вида. Это позволяет сделать предположение о том, что у M. lauensis эти гены и оперон в целом стали по каким-то причинам молчащими. Возможно, причина в условиях окружающей среды ее обитания, они подавляют экспрессию данных генов (за счет каких-то веществ-репрессоров).

5. Анализ старт-кодонов и стоп-кодонов

Была подсчитана частота встречаемости каждого старт-кодона (Табл. 6): подавляющее большинство открытых рамок считывания начинается со стандартного старт-кодона ATG. Встречаются также и другие стандартные для прокариот старт-кодоны: TTG (88 раз) и GTG (59 раз) соответственно [11].

Единичные старт-кодоны полностью соответствуют псевдогенам, оставшиеся – либо псевдогенам, либо небольшому числу нормальных генов: архея использует нестандартные старт-кодоны ATC, ATA, ATT. Заметно, что эти нестандартные старт-кодоны подозрительно напоминают ATG (заменился лишь последний нуклеотид), учитывая их малое количество, можно предположить, что они возникли в результате мутаций, однако молекулярные механизмы данной археи, видимо, способны противостоять таким изменениям. Проверка по антикодонам тРНК показывает, что им скорее всего соответствуют метионин и изолейцин (что подтверждает высказанное предположение).

Аналогичные прошлому разделу подсчеты со стоп-кодонами (Табл. 7) показывают, что чаще всего встречается стоп-кодон TAA (больше 1000 раз), больше 100 раз встречаются два других стандартных стоп-кодона: TAG и TGA. Все остальные стоп-кодоны встречаются почти в единичном экземпляре и соответствуют псевдогенам.

Табл. 6. Старт-кодоны.
Табл. 7. Стоп-кодоны.

6. Нуклеотидный состав и частоты встречаемости каждого нуклеотида

Была вычислена доля каждого из 4 нуклеотидов для всех репликонов. Диаграмма для хромосомы (Рис. 5) показывает, что здесь число A приблизительно равно числу T, а G соответственно C, а вот для плазмиды это уже не так: отклонения вплоть до 8% (Рис. 6). Каких-то нестандартных нуклеотидов не обнаружено. Но самое, пожалуй, интересное, это то, что содержание G + C невелико в обоих репликонах (всего лишь около 30%). Это довольно, странно, учитывая, что архея гипертермофильная, по идее содержание таких нуклеотидов должно быть высоким (поскольку в паре G-C три водородных связи, из-за чего она прочнее, что позволяет выдерживать высокие температуры). Возможно, архея компенсирует это, образуя какие-то неканонические пары (проверить это нельзя, поскольку комплементарная цепочка не отсеквенирована), которые прочнее, либо у археи существуют специальные белки, поддерживающие структуру ДНК (что-то наподобие гистонов) и помогающие ей выдерживать такие экстремальные условия.

Рис. 5. Диаграмма процентного содержания нуклеотидов в хромосоме.
Рис. 6. Диаграмма процентного содержания нуклеотидов в плазмиде.

7. Сравнение генома и протеома с родственным видом M. jannaschii.

Было проведено сравнение некоторых характеристик генома и протеома обозреваемой археи с ее родственником (M. jannaschii, которая является базальным видом для данного рода, сравнение с ней позволит выявить некоторые эволюционные новшества у нового вида) [1].

Сравнивая Табл. 1 и Табл. 8, мы видим, что у родственной археи белков побольше (примерно на 300), число нкРНК (более того они совпадают по функциям) и тРНК такое же, однако рРНК всего лишь 6, а не 7 (интересно, для чего могла понадобиться дополнительная рРНК). Среди транспортных тРНК также отсутствует пирролизин и антикодон для него [см. лист RNAs в таблице S9 в сопроводительных материалах].

Статистический анализ белков практически идентичен (Рис. 2 и Рис. 7). Среднее значение длин у родственной археи составляет 275, минимальная длина белка 33, максимальная – 2894. Порядка 24 белков имеют длину больше 1000 (они также в основном выполняют функции, связанные с нуклеиновыми кислотами и метаболизмом металлов, преимущественно кобальта). Видимо, такой протеом является консервативным для данного рода метаногенов [см. лист proteins_cds в таблице S9 в сопроводительных материалах].

Качественный анализ протеома показывает, что у обоих архей имеются схожие гены, ответственные за синтез и работу археллума, однако у M. jannaschii жгутик имеется и отлично работает (смотри Введение), что подтверждает его редукцию у M. lauensis. Разновидности старт-кодонов такие же, их частоты почти совпадают, аналогично и со стоп-кодонами [см. листы start-codons и stop-codons в таблице S9 в сопроводительных материалах].

Табл. 8. Число генов, кодирующих белки и различные РНК для каждого репликона M. jannaschii.
Рис. 7. Гистограмма длин белков у M. jannaschii.

Заключение

Полученные результаты позволили выявить некоторые аномалии в биологии новой археи. Учитывая, что температурные и прочие физиологические условия места обитания данного вида в целом сходны с таковыми у ее родственников, можно предположить, что на эти изменения сильно повлияла уникальная глубоководная экосистема бассейна Лау (химический состав морской воды, другие организмы), которая на данный момент плохо изучена. Однако можно также предположить, что даже незначительные изменения температуры, pH и давления окружающей среды заставляют метаногенных архей менятся в другую сторону. Чтобы лучше понять природу этого вида и его окружения, необходимо больше исследований этой отдаленной географической зоны.

Сопроводительные материалы

S1. Таблица генов, кодирующих белки. Гены отсортированы по длине продукта их экспрессии в порядке убывания.

S2. Таблица генов, кодирующих различные РНК. Гены отсортированы по типам РНК, что они кодируют.

S3. Скрипт на языке Bash для подсчета количества разных тРНК. Программа принимает на вход текстовый файл формата .tsv с особенностями генома (feature table) и выдает отсортированный список количества тРНК, соответствующих разным аминокислотам.

S4. Таблица перекрывающихся генов. Значение yes в ячейках второй колонки означает, что ген перекрывается со следующим.

S5. Таблица с предполагаемыми оперонами. Те гены, у которых стоят рядом значения y в ячейках последнего столбца, скорее всего относятся к одному оперону.

S6. Скрипт на языке Python для вычисления частот старт-кодонов. Программа работает с файлом, содержащем последовательности генов, кодирующих белки, в формате .fna и выдает список частоты встречаемости каждого старт-кодона.

S7. Скрипт на языке Python для вычисления частот стоп-кодонов. Программа работает с файлом, содержащем последовательности генов, кодирующих белки, в формате .fna и выдает список частоты встречаемости каждого стоп-кодона.

S8. Скрипт на языке Python для вычисления процентного содержания нуклеотидов нуклеотидов в обоих репликонах. Программа работает с файлом, содержащем последовательности двух репликонов, в формате .fna и выдает процентное содержание каждого нуклеотида для обоих репликонов.

S9. Таблица по необходимым данным про геном и протеом родственной археи M. jannaschii. Содержит соответствующие сравниваемым результатам листы, белки также отсортированы по длине в порядке убывания, РНК по функциям.

Литература

  1. Stéphane L'Haridon, Steven Goulaouic, Emily St. John, Stéphanie Fouteau, Anna-Louise Reysenbach. Methanocaldococcus lauensis sp. nov., a novel deep-sea hydrothermal vent hyperthermophilic methanogen. International Journal of Systematic and Evolutionary Microbiology 73 (1). 2023.
  2. Lavinia Gambelli, Michail N. Isupov, Rebecca Conners, Mathew McLaren, Annett Bellack, Vicki Gold, Reinhard Rachel, Bertram Daum. An archaellum filament composed of two alternating subunits. Nature Communications 12 (1). 2022.
  3. Archaellum (Электронный ресурс): Wikipedia. The Free Encyclopedia. Режим доступа: https://en.wikipedia.org/wiki/Archaellum (дата обращения 06.12.2023).
  4. Methanocaldococcus jannaschii (Электронный ресурс): Wikipedia. The Free Encyclopedia. Режим доступа: https://en.wikipedia.org/wiki/Methanocaldococcus_jannaschii (дата обращения 06.12.2023).
  5. Methanocaldococcus lauensis (Электронный ресурс): NCBI. Taxonomy browser. Режим доступа: https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=2546128 (дата обращения 10.12.2023).
  6. Transposase (Электронный ресурс): Wikipedia. The Free Encyclopedia. Режим доступа: https://en.wikipedia.org/wiki/Transposase (дата обращения 06.12.2023).
  7. Conserved Protein Domain Family NosD (Электронный ресурс): NCBI. Protein Database. Режим доступа:https://www.ncbi.nlm.nih.gov/Structure/cdd/PF05048 (дата обращения 06.12.2023).
  8. Ribonuclease (Электронный ресурс): Wikipedia. The Free Encyclopedia. Режим доступа: https://en.wikipedia.org/wiki/Ribonuclease (дата обращения 06.12.2023).
  9. Pyrrolysine (Электронный ресурс): Wikipedia. The Free Encyclopedia. Режим доступа: https://en.wikipedia.org/wiki/Pyrrolysine (дата обращения 06.12.2023).
  10. CRISPR (Электронный ресурс): Wikipedia. The Free Encyclopedia. Режим доступа: https://en.wikipedia.org/wiki/CRISPR (дата обращения 06.12.2023).
  11. Start codon (Электронный ресурс): Wikipedia. The Free Encyclopedia. Режим доступа: https://en.wikipedia.org/wiki/Start_codon (дата обращения 06.12.2023).

Благодарности

Автор выражает благодарность своему однокурснику Абзалимову Амиру Ришатовичу за предоставление данных о геноме и протеоме M. jannaschii для сравнения с обозреваемой археей. Также выражаются благодарности ФББ МГУ за предоставление материалов и инструментов для подобного исследования.