Краткий обзор генома Краткий обзор генома археи Halobellus ramosii

Введение

Известно, что Halobellus ramosii – галофильная архея, которая была выделена из образца рапы из внутреннего гиперсоленого озера Фуэнте-де-Пьедра, являющийся солено-болотным заповедником диких птиц и расположенный в провинции Малага на юге Испании. Колонии археи были окрашены в красный цвет, а клетки – грамотрицательными, подвижными и плеоморфными. Архея способна расти на средах, содержащих 12,5-30 % общих солей при pH 7-8,5 и при температуре 25-50 °C. Наиболее оптимальные значения для среды обитания организма – 20% солей, значение pH – 7,5 и температура – 37°C.

Таксономия:

Домен: Archaea

Царство: Euryarchaeota

Класс: Halobacteria

Отдел: Haloferacales

Семейство: Halobacteriaceae

Род: Halobellus

Вид: Halobellus ramosii

Методы

1. Гистограмма распределения длин белков была получена методом использования электронных таблиц Google sheets. За счет переноса таблицы белок-кодирующих участков [S1] в документ Google table и с помощью функций таблиц были получены карманы, диапазоны и распределение белков по диапазонам [S2]. После этого была получена гистограмма распределения длин белков.

2. Гистограмма распределения процентов GC по числу CDS выполнялась с помощью функций Google table =МАКС, =МИН, =СРЗНАЧ, =СЧЕТЕСЛИМН [S2], которые применялись к файлу с белок-кодирующими последовательностями.

3. Расчет частот старт-кодонов производился с помощью Bash-скрипта [S6], переноса полученных с помощью скрипта данных в документ Google table и дальнейшая работа с таблицей с помощью функций Google table [S3].

4. Расчет частот стоп-кодонов производился с помощью скрипта на Python [S5] и переноса полученных данных в таблицу Google table [S4].

5. Предсказание генов археи может быть получено за счет использования сервера RAST и аннотации генома прокариота на нем. С помощью базы данных GenBank (получен из NCBI Gene), сравнения с аннотацией и RAST и программы Blast, возможно прийти к нужному результату.

Результаты

Гистограмма распределения длин белков

Гистограмма длин белковГистограмма распределения длин белков содержит в себе информацию из таблицы особенностей генома данной археи. По гистограмме можно определить, как меняется количество белков с ростом длины белка На рис.1. видно три скачка, связанных с ростом количества белков относительно роста длины белка:

1. скачок на промежутке 100-150;

2. скачок на промежутке 250-300;

3. незначительный скачок на промежутке 700-750.

GC состав по CDS

Гистограмма %GC по CDSНа рис.2. можно заметить, что пик GC-состава приходится на 65-70%. Максимальное значение достигается в 67-68%, а минимальное - в 37%. Повышенное содержание GC-состава говорит о более высокой стабильности ДНК, что позволяет организмам выживать в неблагоприятных условиях. Архея halobellus ramosii в основном обитает в условиях повышенной температуры, исходя из чего, ее выживаемость в такой среде обитания объясняется высоким содержанием GC.

Старт-кодоны

В геноме археи большая часть старт кодонов представлена ATG (Таблица 1.). Такие кодоны как GTG, CTG, TTG, ATC, ATA, ATT встречаются довольно часто, так как получаются за счет генной мутации, происходящей в старт-кодоне ATG. Появление других старт кодонов может также объясняться дупликацией, инсерсией и другими видами генных мутаций.

Таблица 1. Старт-кодоны
кодоны все гены псевдогены нормальные гены
ATG 2424 18 2406
GTG 361 6 355
CTG 19 2 17
TTG 16 0 16
ATC 10 1 9
ATA 6 0 6
ATT 3 0 3
CAG 3 3 0
GAG 2 2 0
GTT 2 2 0
CGC 2 2 0
Остальные 1 1 0

Стоп-кодоны

По результатам можно определить, что кодон TGA чаще других встречается в последовательностях (Таблица 2.). Это связано с высоким содержанием GC в геноме археи: количество TGA прямо пропорционально зависит от процента GC (чем более высокий процент GC, тем более высоким будет содержание стоп-кодона TGA). Частота встречаемости стоп-кодонов TAG и TAA обратно пропорционально содержанию GC в хромосоме, что и видно из таблицы – их существенно меньше, чем стоп-кодона TGA.

Таблица 2. Стоп-кодоны
кодоны частота встречаемости
TGA 6928
TAA 1037

Предсказание генов археи.

С помощью базы данных GenBank (получен из NCBI Gene) и дальнейшего ее сравнения с аннотацией из RAST, а также фильтрации с помощью программы Blast, по последовательностям белка можно определить, какой белок принадлежит к какому семейству, из чего сделать вывод о возможных генах археи.

Вывод

Архея Halobellus ramosii довольно плохо изучена. Однако благодаря некоторым биоинформатическим методам, оказалось возможным подробно рассмотреть ее геном. В результате работы были получены данные о ее старт- и стоп-кодонах, были выявлены гистограммы длин белков и GC-состава археи. Также с помощью дополнительных источников можно было предсказать ее гены.

Сопроводительные материалы

S1. Файл с белок-кодирующими последовательностями: CDS from genome

S2. Документ Google table с гистограммой длин белков (лист prot_len_hist) и вычислением распределения процентного содержания GC по CDS (лист gc2): CDS from genome of Halobellus ramosii

S3. Документ Google table с вычислением частот старт-кодонов: Start codons

S4. Документ Google table с частотами стоп-кодонов: Stop codons

S5. Документ Google sheets с кодом для вычисления стоп-кодонов: Stop codons

S6. Документ Google sheets с Bash-скриптом для вычисления старт-кодонов: Bash скрипт