Известно, что Halobellus ramosii – галофильная архея, которая была
выделена из образца рапы из внутреннего гиперсоленого озера
Фуэнте-де-Пьедра, являющийся солено-болотным заповедником диких птиц и
расположенный в провинции Малага на юге Испании. Колонии археи были
окрашены в красный цвет, а клетки – грамотрицательными, подвижными и
плеоморфными. Архея способна расти на средах, содержащих 12,5-30 %
общих солей при pH 7-8,5 и при температуре 25-50 °C. Наиболее оптимальные
значения для среды обитания организма – 20% солей, значение pH – 7,5 и
температура – 37°C.
Таксономия
Домен
Archaea
Царство
Euryarchaeota
Класс
Halobacteria
Отряд
Haloferacales
Семейство
Halobacteriaceae
Род
Halobellus
Вид
Halobellus ramosii
Методы
1. Гистограмма распределения длин белков была получена методом
использования электронных таблиц Google sheets. За счет переноса
таблицы белок-кодирующих участков [S1] в документ Google table и с
помощью функций таблиц были получены карманы, диапазоны и
распределение белков по диапазонам [S2]. После этого была получена
гистограмма распределения длин белков.
2. Гистограмма распределения процентов GC по числу CDS выполнялась с
помощью функций Google table =МАКС, =МИН, =СРЗНАЧ,
=СЧЕТЕСЛИМН [S2], которые применялись к файлу с белок-кодирующими последовательностями.
3. Расчет частот старт-кодонов производился с помощью Bash-скрипта
[S6], переноса полученных с помощью скрипта данных в документ
Google table и дальнейшая работа с таблицей с помощью функций
Google table [S3].
4. Расчет частот стоп-кодонов производился с помощью скрипта на Python
[S5] и переноса полученных данных в таблицу Google table [S4].
5. Предсказание генов археи может быть получено за счет использования
сервера RAST и аннотации генома прокариота на нем. С помощью базы
данных GenBank (получен из NCBI Gene), сравнения с аннотацией и
RAST и программы Blast, возможно прийти к нужному результату.
Результаты
Распределение длин белков
Рис.1. Пики распределения в диапазонах 100-150, 250-300 и 700-750 а.о.
Гистограмма распределения длин белков содержит в себе информацию
из таблицы особенностей генома данной археи.
По гистограмме можно определить, как меняется количество белков с ростом
длины белка На рис.1. видно три скачка, связанных с ростом количества
белков относительно роста длины белка:
1. скачок на промежутке 100-150;
2. скачок на промежутке 250-300;
3. незначительный скачок на промежутке 700-750.
GC-состав
Рис.2. Преобладание GC-пар (65-70%)
На рис.2. можно заметить, что пик GC-состава приходится на 65-70%.
Максимальное значение достигается в 67-68%, а минимальное - в 37%.
Повышенное содержание GC-состава говорит о более высокой стабильности
ДНК, что позволяет организмам выживать в неблагоприятных условиях.
Архея halobellus ramosii в основном обитает в условиях повышенной
температуры, исходя из чего, ее выживаемость в такой среде обитания
объясняется высоким содержанием GC.
Старт-кодоны
Таблица 1. Распределение старт-кодонов
Кодон
Все гены
Псевдогены
Функциональные гены
ATG
2424
18
2406
GTG
361
6
355
CTG
19
2
17
TTG
16
0
16
ATC
10
1
9
ATA
6
0
6
ATT
3
0
3
CAG
3
3
0
GAG
2
2
0
GTT
2
2
0
CGC
2
2
0
Остальные
1
1
0
Такие кодоны как GTG, CTG, TTG, ATC, ATA, ATT встречаются
довольно часто, так как получаются за счет генной мутации, происходящей в
старт-кодоне ATG. Появление других старт кодонов может также объясняться
дупликацией, инсерсией и другими видами генных мутаций.
Стоп-кодоны
Таблица 2. Распределение стоп-кодонов
Кодон
Частота
TGA
6928
TAA
1037
По результатам можно определить, что кодон TGA чаще других
встречается в последовательностях (Таблица 2.). Это связано с высоким
содержанием GC в геноме археи: количество TGA прямо пропорционально
зависит от процента GC (чем более высокий процент GC, тем более высоким
будет содержание стоп-кодона TGA). Частота встречаемости стоп-кодонов
TAG и TAA обратно пропорционально содержанию GC в хромосоме, что и
видно из таблицы – их существенно меньше, чем стоп-кодона TGA.
Предсказание генов археи.
С помощью базы данных GenBank (получен из NCBI Gene) и
дальнейшего ее сравнения с аннотацией из RAST, а также фильтрации с
помощью программы Blast, по последовательностям белка можно определить,
какой белок принадлежит к какому семейству, из чего сделать вывод о
возможных генах археи.
Вывод
Архея Halobellus ramosii довольно плохо изучена. Однако благодаря
некоторым биоинформатическим методам, оказалось возможным подробно
рассмотреть ее геном. В результате работы были получены данные о ее старт-
и стоп-кодонах, были выявлены гистограммы длин белков и GC-состава
археи. Также с помощью дополнительных источников можно было
предсказать ее гены.