Мини обзор генома археи Pyrococcus abyssi

Тимашков М.П.
Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова,

timvey45@mail.ru

Резюме

В представленном мини-обзоре генома содержатся общие сведения о геноме археи Pyrococcus abyssi GE5, соотношение последовательностей разных типов, встречаемость старт и стоп кодонов, а также частота встречаемости синонимичных кодонов для основных аминокислот, встречаемость в геноме различных тРНК и др. Исходные данные получены из свободных источников, в качестве инструментов используются электронные таблицы, командная оболочка Bash и Python.

Введение

Систематическое положение Pyrococcus abyssi

Домен: Archaea Царство: Euryarchaeota
Филум: Euryarchaeota
Класс: Thermococci
Отряд: Thermococcales
Семейство: Thermococcaceae
Род: Pyrococcus
Вид: Pyrococcus abyssi
Штамм: GE5

Pyrococcus abyssi - гипертермофильная архея, была выделена у морских гидротермальных источников в бассейне Северной Фиджи и изолирована в культуре.

Это анаэробный организм шаровидной формы (кокк), метаболизирующий серу, оптимальная температура для роста 96 градусов Цельсия. Использовался в качестве модельного организма в изучении ДНК полимеразы. Может также расти при высокой концентрации клеток в биореакторах.

В мини-обзоре исследуется геном его типового штамма GE5.

Геном археи состоит из одной кольцевой хромосомы и плазмиды pGT5.

На данный момент интерес изучения данного организма в основном мотивирован гипертермофильностью прокариота, так что изучение механизмов этого организма возможно в перспективе позволит создавать более совершенные инструменты взаимодействия с геномом.

Материалы и методы

В качестве материала для анализа использовались файл генома в формате Fasta[1] и таблица особенностей генома[2] с сайта NCBI[3]. Обработка данных производилась с использованием электронных таблиц Google Sheets[4], инструментарий командной оболочки BASH и среда программирования на языке python - Pycharm.

Результаты

Стандартные данные о геноме

Геном Pyrococcus abyssi состоит из одной кольцевой хромосомы и плазмиды pGT5

днк

размер, п.н.

кольцевая хромосома

1765118

плазмида pgt5

3444

Состав генома

Из размеров ожидаемо, что плазмида не несет большого количества генов. Она содержит два гена кодирующих белки, при этом роль один из них, исходя из имеющихся данных, спрогнозирован, но не был выделен. Зато второй белок - инициатор репликации, ген которого в остальном геноме не встречается. По-видимому именно из-за него плазмида не потерялась в ходе отбора, а возможно, что вынесение этого белка в плазмиду функционально важно, так как посредством самостоятельной репликации плазмиды или даже ее размножения в клетке возможна быстрая наработка инициаторного белка.


суммарно

cds

trn

ncrna

rrna

chromosome

1978

1907

46

21

4

plasmid

2

2

-

-

-

Расстояния на + цепи между кодирующими последовательностями

Посредством электронных таблиц были проанализированы расстояния между соседними последовательности в геноме (Диаграмма 1). Наличие отрицательных расстояний показывает, что не так мало последовательностей между собой перекрываются. Также заметно, что есть некоторое частое встречающееся расстояние около от 0 до 50, а далее последовательности распределяются на разные расстояния довольно случайно.

d1

Диаграмма 1 По горизонтали - различные расстояния между двумя соседними генами. По вертикали - количество таких промежутков. Заметно большое количество отрицательный расстояний и видно, что случайное распределение на промежутке расстояний 150-800 распространяется и дальше.

Длина белков

Аналогичным методом было оценено распределение длин белков (Диаграмма 2). На ней видно, что распределены вполне обычно: средняя длина порядка 300, не так много длинных белков, почти нет совсем коротких, так как, вероятно, в большинстве своем они мало функциональны для археи

d1

Диаграмма 2 По горизонтали - различные длины продуктов белок кодирующий последовательностей (в аминокислотных остатках. По вертикали - встречаемость таких длин. Заметно распределение, не слишком сильно отличающееся от стандартного. Одна вершина где-то около 150-200 аминокислотных остатков..

Старт кодоны

У прокариот встречаются различные старт кодоны, помимо привычного ATG. Путем написания программы на python[5] был совершен обсчет всех присутствующих в геноме старт кодонов.

кодон

встречаемость (%)

встречаемость (абс. кол.)

atg

83.59%

1579

gtg

10.32%

195

ttg

5.35%

101

ata

0.21%

4

atc

0.21%

4

att

0.21%

4

ctg

0.11%

2

Несколько упуская детали, но более наглядно можно представить данные в виде секторной диаграммы (Диаграмма 3)

d3

Диаграмма 3 На диаграмме изображены доли разных старт кодонов от их общего числа. Очевидно, что стандартный ATG в абсолютном большинстве. За ним также вполне характерный для прокариот GTG. Среди других, менее часто встречающихся, только TTG имеет какую-то значимую долю, остальные же встречаются в геноме фактически единично.

Встречаемость синонимичных кодонов аминокислот в продуктах + и - цепи вместе.

Несмотря на то, что есть синонимичные кодоны, кодирующие одну и ту же кислоту, в ходе эволюции организма бывает равновесие смещается в сторону конкретных кодонов, и тогда, бывает, возникают ситуации, когда надо знать это отношение. Например такая задача может возникать в биотехнологии, когда нужно максимально эффективно синтезировать белок, исходя из “предпочтений” возможных продуцентов и состава продукта приходиться подгонять синонимичные замены в продукте под продуцента, или продуцента под продукт. Поэтому было решено определить долю разных аминокислот в белковых продуктов + и - цепей ДН суммарно. Для этого была написана программа на python[5], с заимствованием словаря codon_table из лекции по практической информатике ФББ 2023 первого курса.

стоп кодоны

доля

встречаемость(шт.)

taa

29.12%

550

tag

20.49%

387

tga

50.4%

952

тРНК

тРНК как и другие гены иногда реплицируются, иногда теряются. У организмов с небольшим геномом, вероятно, такие потери и приобретения значимы, так как обеспечение генома тоже затратный процесс, то возможно, у таких изменений есть функционал. С помощью python[5] были подсчитаны все гены тРНК, однако, не были никак учтены отдельные антикодоны у тРНК. Учесть это, и, возможно, оценить вобблинг-взаимодействие тРНК с разными кодонами возможно могло бы показать что-то интересное, но это уже задел на будущее.Также, пожалуй, для оценки необходимо сравнить результат с другими организмами.