Краткий обзор генома археи Halobellus ramosii

Введение

Известно, что Halobellus ramosii – галофильная архея, которая была выделена из образца рапы из внутреннего гиперсоленого озера Фуэнте-де-Пьедра, являющийся солено-болотным заповедником диких птиц и расположенный в провинции Малага на юге Испании. Колонии археи были окрашены в красный цвет, а клетки – грамотрицательными, подвижными и плеоморфными. Архея способна расти на средах, содержащих 12,5-30 % общих солей при pH 7-8,5 и при температуре 25-50 °C. Наиболее оптимальные значения для среды обитания организма – 20% солей, значение pH – 7,5 и температура – 37°C.

Таксономия

ДоменArchaea
ЦарствоEuryarchaeota
КлассHalobacteria
ОтрядHaloferacales
СемействоHalobacteriaceae
РодHalobellus
ВидHalobellus ramosii

Методы

1. Гистограмма распределения длин белков была получена методом использования электронных таблиц Google sheets. За счет переноса таблицы белок-кодирующих участков [S1] в документ Google table и с помощью функций таблиц были получены карманы, диапазоны и распределение белков по диапазонам [S2]. После этого была получена гистограмма распределения длин белков.

2. Гистограмма распределения процентов GC по числу CDS выполнялась с помощью функций Google table =МАКС, =МИН, =СРЗНАЧ, =СЧЕТЕСЛИМН [S2], которые применялись к файлу с белок-кодирующими последовательностями.

3. Расчет частот старт-кодонов производился с помощью Bash-скрипта [S6], переноса полученных с помощью скрипта данных в документ Google table и дальнейшая работа с таблицей с помощью функций Google table [S3].

4. Расчет частот стоп-кодонов производился с помощью скрипта на Python [S5] и переноса полученных данных в таблицу Google table [S4].

5. Предсказание генов археи может быть получено за счет использования сервера RAST и аннотации генома прокариота на нем. С помощью базы данных GenBank (получен из NCBI Gene), сравнения с аннотацией и RAST и программы Blast, возможно прийти к нужному результату.

Результаты

Распределение длин белков

Гистограмма длин белков
Рис.1. Пики распределения в диапазонах 100-150, 250-300 и 700-750 а.о.

Гистограмма распределения длин белков содержит в себе информацию из таблицы особенностей генома данной археи. По гистограмме можно определить, как меняется количество белков с ростом длины белка На рис.1. видно три скачка, связанных с ростом количества белков относительно роста длины белка:

1. скачок на промежутке 100-150;

2. скачок на промежутке 250-300;

3. незначительный скачок на промежутке 700-750.

GC-состав

Гистограмма GC-состава
Рис.2. Преобладание GC-пар (65-70%)

На рис.2. можно заметить, что пик GC-состава приходится на 65-70%. Максимальное значение достигается в 67-68%, а минимальное - в 37%. Повышенное содержание GC-состава говорит о более высокой стабильности ДНК, что позволяет организмам выживать в неблагоприятных условиях. Архея halobellus ramosii в основном обитает в условиях повышенной температуры, исходя из чего, ее выживаемость в такой среде обитания объясняется высоким содержанием GC.

Старт-кодоны

Таблица 1. Распределение старт-кодонов
Кодон Все гены Псевдогены Функциональные гены
ATG2424182406
GTG3616355
CTG19217
TTG16016
ATC1019
ATA606
ATT303
CAG330
GAG220
GTT220
CGC220
Остальные110

Такие кодоны как GTG, CTG, TTG, ATC, ATA, ATT встречаются довольно часто, так как получаются за счет генной мутации, происходящей в старт-кодоне ATG. Появление других старт кодонов может также объясняться дупликацией, инсерсией и другими видами генных мутаций.

Стоп-кодоны

Таблица 2. Распределение стоп-кодонов
КодонЧастота
TGA6928
TAA1037

По результатам можно определить, что кодон TGA чаще других встречается в последовательностях (Таблица 2.). Это связано с высоким содержанием GC в геноме археи: количество TGA прямо пропорционально зависит от процента GC (чем более высокий процент GC, тем более высоким будет содержание стоп-кодона TGA). Частота встречаемости стоп-кодонов TAG и TAA обратно пропорционально содержанию GC в хромосоме, что и видно из таблицы – их существенно меньше, чем стоп-кодона TGA.

Предсказание генов археи.

С помощью базы данных GenBank (получен из NCBI Gene) и дальнейшего ее сравнения с аннотацией из RAST, а также фильтрации с помощью программы Blast, по последовательностям белка можно определить, какой белок принадлежит к какому семейству, из чего сделать вывод о возможных генах археи.

Вывод

Архея Halobellus ramosii довольно плохо изучена. Однако благодаря некоторым биоинформатическим методам, оказалось возможным подробно рассмотреть ее геном. В результате работы были получены данные о ее старт- и стоп-кодонах, были выявлены гистограммы длин белков и GC-состава археи. Также с помощью дополнительных источников можно было предсказать ее гены.

Сопроводительные материалы