Введение
Известно, что Halobellus ramosii – галофильная архея, которая была выделена из образца рапы из внутреннего гиперсоленого озера Фуэнте-де-Пьедра, являющийся солено-болотным заповедником диких птиц и расположенный в провинции Малага на юге Испании. Колонии археи были окрашены в красный цвет, а клетки – грамотрицательными, подвижными и плеоморфными. Архея способна расти на средах, содержащих 12,5-30 % общих солей при pH 7-8,5 и при температуре 25-50 °C. Наиболее оптимальные значения для среды обитания организма – 20% солей, значение pH – 7,5 и температура – 37°C.
Таксономия:
Домен: Archaea
Царство: Euryarchaeota
Класс: Halobacteria
Отдел: Haloferacales
Семейство: Halobacteriaceae
Род: Halobellus
Вид: Halobellus ramosii
Методы
1. Гистограмма распределения длин белков была получена методом использования электронных таблиц Google sheets. За счет переноса таблицы белок-кодирующих участков [S1] в документ Google table и с помощью функций таблиц были получены карманы, диапазоны и распределение белков по диапазонам [S2]. После этого была получена гистограмма распределения длин белков.
2. Гистограмма распределения процентов GC по числу CDS выполнялась с помощью функций Google table =МАКС, =МИН, =СРЗНАЧ, =СЧЕТЕСЛИМН [S2], которые применялись к файлу с белок-кодирующими последовательностями.
3. Расчет частот старт-кодонов производился с помощью Bash-скрипта [S6], переноса полученных с помощью скрипта данных в документ Google table и дальнейшая работа с таблицей с помощью функций Google table [S3].
4. Расчет частот стоп-кодонов производился с помощью скрипта на Python [S5] и переноса полученных данных в таблицу Google table [S4].
5. Предсказание генов археи может быть получено за счет использования сервера RAST и аннотации генома прокариота на нем. С помощью базы данных GenBank (получен из NCBI Gene), сравнения с аннотацией и RAST и программы Blast, возможно прийти к нужному результату.
Результаты
Гистограмма распределения длин белков
Гистограмма распределения длин белков содержит в себе информацию
из таблицы особенностей генома данной археи.
По гистограмме можно определить, как меняется количество белков с ростом
длины белка На рис.1. видно три скачка, связанных с ростом количества
белков относительно роста длины белка:
1. скачок на промежутке 100-150;
2. скачок на промежутке 250-300;
3. незначительный скачок на промежутке 700-750.
GC состав по CDS
На рис.2. можно заметить, что пик GC-состава приходится на 65-70%.
Максимальное значение достигается в 67-68%, а минимальное - в 37%.
Повышенное содержание GC-состава говорит о более высокой стабильности
ДНК, что позволяет организмам выживать в неблагоприятных условиях.
Архея halobellus ramosii в основном обитает в условиях повышенной
температуры, исходя из чего, ее выживаемость в такой среде обитания
объясняется высоким содержанием GC.
Старт-кодоны
В геноме археи большая часть старт кодонов представлена ATG (Таблица 1.). Такие кодоны как GTG, CTG, TTG, ATC, ATA, ATT встречаются довольно часто, так как получаются за счет генной мутации, происходящей в старт-кодоне ATG. Появление других старт кодонов может также объясняться дупликацией, инсерсией и другими видами генных мутаций.
кодоны | все гены | псевдогены | нормальные гены |
---|---|---|---|
ATG | 2424 | 18 | 2406 |
GTG | 361 | 6 | 355 |
CTG | 19 | 2 | 17 |
TTG | 16 | 0 | 16 |
ATC | 10 | 1 | 9 |
ATA | 6 | 0 | 6 |
ATT | 3 | 0 | 3 |
CAG | 3 | 3 | 0 |
GAG | 2 | 2 | 0 |
GTT | 2 | 2 | 0 |
CGC | 2 | 2 | 0 |
Остальные | 1 | 1 | 0 |
Стоп-кодоны
По результатам можно определить, что кодон TGA чаще других встречается в последовательностях (Таблица 2.). Это связано с высоким содержанием GC в геноме археи: количество TGA прямо пропорционально зависит от процента GC (чем более высокий процент GC, тем более высоким будет содержание стоп-кодона TGA). Частота встречаемости стоп-кодонов TAG и TAA обратно пропорционально содержанию GC в хромосоме, что и видно из таблицы – их существенно меньше, чем стоп-кодона TGA.
кодоны | частота встречаемости |
---|---|
TGA | 6928 |
TAA | 1037 |
Предсказание генов археи.
С помощью базы данных GenBank (получен из NCBI Gene) и дальнейшего ее сравнения с аннотацией из RAST, а также фильтрации с помощью программы Blast, по последовательностям белка можно определить, какой белок принадлежит к какому семейству, из чего сделать вывод о возможных генах археи.
Вывод
Архея Halobellus ramosii довольно плохо изучена. Однако благодаря некоторым биоинформатическим методам, оказалось возможным подробно рассмотреть ее геном. В результате работы были получены данные о ее старт- и стоп-кодонах, были выявлены гистограммы длин белков и GC-состава археи. Также с помощью дополнительных источников можно было предсказать ее гены.
Сопроводительные материалы
S1. Файл с белок-кодирующими последовательностями: CDS from genome
S2. Документ Google table с гистограммой длин белков (лист prot_len_hist) и вычислением распределения процентного содержания GC по CDS (лист gc2): CDS from genome of Halobellus ramosii
S3. Документ Google table с вычислением частот старт-кодонов: Start codons
S4. Документ Google table с частотами стоп-кодонов: Stop codons
S5. Документ Google sheets с кодом для вычисления стоп-кодонов: Stop codons
S6. Документ Google sheets с Bash-скриптом для вычисления старт-кодонов: Bash скрипт