Обзор генома и протеома археи Pyrobaculum ferrireducens

РЕЗЮМЕ

Pyrobaculum ferrireducens — архея, обитающая при экстремальных условиях. Данная работа направлена на изучение генома и протеома Pyrobaculum ferrireducens с помощью средств программирования и электронных таблиц, а также поиск интересных закономерностей.

КЛЮЧЕВЫЕ СЛОВА

археи, анаэробы, экстремофилы, железоредукторы, геном, протеом

ВВЕДЕНИЕ

Pyrobaculum ferrireducens — на данный момент последний обнаруженный представитель рода Pyrobaculum [1]. Штамм 1860Т был выделен из горячего источника кальдеры Узон, Камчатка. Клетки выглядят, как неподвижные палочки, окружены поверхностным слоем из белков (Рис. 1).

Pyrobaculum ferrireducens — строго анаэробный, облигатный гетеротроф, оптимально растущий и размножающийся при 90-95℃, что свидетельствует о гипертермофильности [2]. Это отражено в названии рода (дословно “огненная палочка”) [3].

Для роста необходимы белковые соединения в качестве доноров электронов и соединения Fe(III), нитраты, тиосульфаты, селениты, селенаты и арсенаты как акцепторы электронов [2].

img1
Рис. 1 Электронная микрофотография штамма 1860T (a) внешний вид, (b) внешний слой поверхности клетки (S-слой)

Анализ 16S рРНК гена [2] утверждает классификацию:

Стоит отметить наличие трех интронов в упомянутом гене [2]. Это нетипично для прокариот, что делает геном и протеом данного организма еще более интересными для изучения. Это является целью настоящей работы.

МАТЕРИАЛЫ И МЕТОДЫ

С ресурса были скачаны три файла: таблица локальных особенностей, геном и кодирующие последовательности. С помощью собственной программы count_seqs1 найдены количество ДНК в геноме и количество кодирующих последовательностей.

GC-состав получен с помощью программы GCContent1, написанной на языке Python. Так как в геноме изучаемого организма только одна последовательность ДНК, данная программа модифицирована для работы с геномами, содержащими только одну последовательность.

Частота использования стоп-кодонов вычислена с помощью программы stopcodons1, а названия кодирующих последовательностей, не оканчивающихся на стоп-кодоны, получены программой strangestopcodons1. Эти программы также написаны на языке Python.

Используя названия кодирующих последовательностей, не оканчивающихся на стоп-кодоны, и команду grep, получили описания таких кодирующих последовательностей.

Гистограмма и рисунок гистограммы получены с помощью электронных таблиц GoogleSheet. Для анализа белков столбец, содержащий длины был перенесён на отдельный лист. С помощью функции VLOOKUP длине белка было сопоставлено его название и GeneID. Для корректной работы данной функции столбец product_length на листе CDS помещён перед столбцом product_accession.

Вычисления GC-перекоса на различных промежутках проведены с помощью программ gcskew1, gcskeworiC1, gcskewter1. Результаты их работы перенесены в электронную таблицу, где также построены соответствующие графики. С помощью функций MIN, MAX и VLOOKUP найдены предполагаемые координаты начала и конца репликации (для корректной работы функции VLOOKUP столбец с координатами продублирован после столбца со значениями cumulative GC-skew).

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЯ

GC состав. В молекуле ДНК гуанин и цитозин соединены тремя водородными связями, в то время как аденин и тимин — только двумя. Считается, что чем больше GC состав, тем стабильнее ДНК [4]. GC состав Pyrobaculum ferrireducens составил 57%. Это показалось необычным, ведь данная архея обитает в экстремальных условиях [2]. Поэтому было решено сравнить её с другими прокариотными организмами [18] (Табл. 1).

table1
Табл. 1 Сравнение GC состава у разных прокариот

Если расположить организмы в порядке увеличения GC состава, можно заметить интересную закономерность. Организмы с малым GC составом склонны вести эндосимбионтный или паразитический образ жизни, а среди прокариот с большим значением GC состава чаще встречаются аэробные представители. Значение GC состава Pelobacter carbinolicus близко к значению GC состава изучаемого организма, и к тому же Pelobacter carbinolicus тоже строгий анаэроб. Такая закономерность позволяет предположить, что молекула ДНК должна быть устойчива не столько к высоким температурам, сколько к наличию кислорода в среде, так как кислород действительно высокоактивен.

Конечно, гипотеза может не подтвердиться при рассмотрении большего числа организмов, ведь уже Methylobacillus flagellatus — аэробная бактерия, хотя GC состав равен 55,7%, но выдвинутое предположение несомненно заслуживает внимания и требует дальнейшей проверки.

Частоты стоп-кодонов. Стоп-кодоны — это последовательность из трёх нуклеотидов, которая сигнализирует о прекращении синтеза белка. В генетическом коде есть три стоп-кодона: TGA, TAA, TAG. каждый из них имеет “цветовое название”. TGA называют “опал”, TAA – “охра”, TAG – “янтарь” [28]. Для Pyrobaculum ferrireducens были найдены частоты этих стоп-кодонов (Табл. 2).

table2
Табл. 2 Частота использования стоп-кодонов
Здесь необычно, что стоп-кодоны TGA и TAA встретились с практически одинаковой частотой. Возможно здесь играет роль наличие у археи, как и у эукариот, только одного фактора терминации трансляции, распознающего все три стоп-кодона [19]. Фактор терминации трансляции – это белок, который распознаёт стоп-кодон и завершает синтез полипептидной цепи. Для бактерий же характерно распознавание TAG фактором терминации трансляции I, TGA фактором терминации трансляции II, а TAA распознаётся обоими факторами [20].

Если сложить число встреч каждого стоп-кодона, получится, что на данные стоп-кодоны оканчивается 2737 кодирующих последовательностей. Но файл содержит 2751 кодирующую последовательность. Какими являются оставшиеся 14 последовательностей? Согласно их описаниям, все они являются псевдогенами. Псевдогены называли “генетическими ископаемыми” [21]. Действительно, многие псевдогены происходят от активно работающих генов, но из-за ряда причин перестают функционировать [22]. Псевдогены даже считали “мусорной ДНК”. Сейчас этому факту находится всё больше опровержений. Скорее всего, псевдогены играют важную роль в регуляции экспрессии генов [21, 23].

Гистограмма длин белков. После распределения белков, синтезируемых изучаемой археей, по длинам получена гистограмма (Рис. 2). Из гистограммы видно, что больше всего белков состоят из 100-200 аминокислотных остатков. Распределение белков по их длинам как плавно возрастает, так и убывает для данной археи, но есть едва заметное увеличение столбцов диаграммы при длине белков больше 1300. Проанализируем их.
Рис. 2 Гистограмма длин белков

Анализ самых длинных белков. Белки были отсортированы по убыванию длины, и каждой длине было сопоставлено название белка и GeneID. Оказывается, что самые большие продукты превосходят по длине наиболее встречающиеся более, чем в 30 раз. Но три самых больших продукта являются гипотетическими белками, то есть белками, существование которых было предсказано, но нет экспериментальных доказательств, что они экспрессируются [24]. В банке Uniprot они указываются, как компоненты мембран [25]. Можно предположить, что именно они способствуют выживанию Pyrobaculum ferrireducens при высоких температурах.

Среди самых крупных продуктов также стоит отметить белок, входящий в состав нитратредуктазы. Данный фермент участвует в метаболизме этой археи, так как она способна перерабатывать и нитраты, как упоминалось ранее.

Наблюдения о 16S рРНК гене. В литературе указано наличие трёх интронов в гене, кодирующем 16S рРНК [2]. Было решено в этом убедиться. На ресурсе находим следующую информацию: первый экзон расположен с 1 по 375 пару нуклеотидов, второй экзон — с 1092 по 1457 пару нуклеотидов, третий экзон — с 2243 по 2552 пару нуклеотидов, и четвёртый экзон — с 3153 по 3600 пару нуклеотидов. Между экзонами находятся интроны. Их количество как раз равно трём. Итак, подтвердилась ещё одна особенность изучаемой археи.

Поиск координат oriC и ter. Для прокариот характерно наличие кольцевой молекулы ДНК. Известно, что при делении клетки происходит репликация ДНК, то есть её удвоение. Репликация начинается и заканчивается в одних и тех же местах [29]. Для предсказания мест начала (oriC) и конца (ter) репликации используют GC-перекос (GC-skew). Это величина вычисляется по формуле (C − G)/(C + G), где С — это количество цитозина, а G — количество гуанина. Вычисления количеств этих оснований проводят на промежутке, который называют окно (window), передвигая его по последовательности цепи ДНК с определённым интервалом, называемым шагом (step). Было замечено, что минимальному суммарному значению GC-перекоса соответствует oriC, а максимальному — ter. Как правило, данный показатель используют на геномах бактерий, так как механизм репликации архей несколько отличается от бактериального механизма этого процесса [30]. Но, ради научного интереса, для изучаемой археи тоже был вычислен GC-перекос. Место предполагаемого начала репликации — это 128 290 нуклеотид, место терминации репликации — 2 429 752 нуклеотид (Рис. 3-5). Конечно метод недостаточно точный, так как сильно зависит от выбранного размера окна. Например, когда было выбрано окно размером 100 000 нуклеотидов, минимальное значение GC-skew приходилось на промежуток между 40 000 и 50 000 нуклеотидом.

img3
Рис. 3 Суммарный GC-перекос (cumulative GC-skew) для всего генома
img4
img5
Рис. 4-5 Суммарный GC-перекос в промежутке предполагаемого места начала репликации и суммарный GC-перекос в промежутке предполагаемого места конца репликации

Pyrobaculum ferrireducens обитает при экстремальных условиях, что нашло отражение и в её геноме и протеоме, которые нуждаются в дальнейшем изучении.

БЛАГОДАРНОСТИ

Благодарность д.б.н. Галине Борисовне Слободкиной, ведущему научному сотруднику Института микробиологии им. С.Н. Виноградского РАН, за предоставленные изображения.

Назад