Автор: Компаниец Мария Андреевна, студентка 1 курса факультета биоинженерии и биоинформатики Московского государственного университета им. М.В.Ломоносова
Данный обзор содержит результаты исследования генома и протеома бактерии Jeotgalibaca arthritidis. Был проведен анализ генома на наличие разных типов генов, был выявлен его нуклеотидный и GC-состав; анализ встречаемости k-меров в геноме и классификация белков по длинам, были определены места инициации и терминации репликации ДНК(точки oriC и ter).
Геном, протеом, гены, бактерия, Jeotgalibaca arthritidis, Jeotgalibaca sp.
Jeotgalibaca arthritidis, как и другие виды рода Jeotgalibaca, относится к грамположительным бактериям. Бактерии данного вида являются факультативными анаэробами, не образуют спор, кокки, клетки неподвижные. Была выделена из суставной жидкости свиньи.1 Размер генома составляет 2.35 млн пар нуклеотидов.2 Систематика бактерии Jeotgalibaca arthritidis:
Домен Bacteria
Тип Firmicutes
Класс Bacilli
Отряд Lactobacillales
Семейство Carnobacteriaceae
Род Jeotgalibaca3
Данные о геноме бактерии были взяты из базы данных NCBI.2
При написании работы были использованы следующие методы электронных таблиц(Excel 2010): фильтр, импортирование данных из других файлов, функция ВПР, распространение формул, адресация с помощью $, сортировка по значению, функция CЧЁТЕСЛИМН, создание таблиц и гистограмм(для создания плоской таблицы с информацией о геноме бактерии).
Были также использованы следующие программы:
Сервис GC-skew5 был использован для определения координат oriC и ter.
1.Длина генома
Геном Jeotgalibaca arthridis представлен одной хромосомой, плазмид нет. Длина генома составляет 2348096 п.н, идентификатор NZ_CP049740.1.(лист genome_size из таблицы с сопроводительными материалами).
2.Нуклеотидный состав
Нуклеотидный состав генома бактерии Jeotgalibaca arthritidis представлен в таблице 1.
Нуклеотид | Число встреч | % от общего числа |
---|---|---|
A | 725024 | 30,877 |
T | 725915 | 30,915 |
G | 450283 | 19,1765 |
C | 446874 | 19,031 |
Как видно из таблицы, наиболее часто встречающиеся азотистые основания- аденин(А) и тимин(Т). Число комплементарных оснований примерно равно друг другу(АТ и GC), что соответствует второму правилу Чаргаффа. Нуклеотиды с другими азотистыми основаниями не встречались.
3.GC-состав
С помощью программы geece мной была вычислена частота комплементарной пары G-C, которая составляет 0,38(38%). Следовательно, частота пары нуклеотидов А-Т составляет 0,62(62%). GC-состав , по сравнению с другими представителями типа Firmicutes, соответствует норме для данного типа.4
4.Встречаемость генов различных типов
Большую часть генома составляют белок-кодирующие гены, их число является стандартным для бактерий с таким размером генома. число псевдогенов не очень большое относительно размеров генома. Число генов, кодирующих тРНК и рРНК тоже соответствует норме.
gene type | count |
---|---|
protein_coding | 2192 |
pseudogene | 65 |
rRNA | 19 |
tRNA | 70 |
tmRNA | 1 |
SRP_RNA | 1 |
RNase_P_RNA | 1 |
ncRNA | 1 |
5.Анализ k-меров
Был проведени k-мерный анализ генома при k=2. С помощью программы wordcount wordsize 3 было определено число каждого слова длины k (k- мера) в геноме бактерии. Количество различных 2-меров :16.Чаще всего встречалось сочетания ТТ, AA, AT; реже всего-CG, CC,GG(данные находятся на листе k-mers таблицы с сопроводительными материалами). При анализе данных, представленных в гистограмме 1, было выявлено, что в геноме нет перепредставленных k-меров(cb>1,2), k-мер TA недопредставлен(cb<0,8), и k-меры TT, AA, AT, TG, CA, AG, CT,AC,GT,GC,GA, TC, GG, CG и CC встречаются с ожидаемой частотой.
6.Определение oriC и ter
На рисунке 1 показано соотношение гуанинов(G) и цитозинов(С) на одной цепочки ДНК бактерии(GC-skew). Оно вычисляется по формуле: Skew = (nucleotide1 - nucleotide2) / (nucleotide1 + nucleotide2), где nucleotide1-число гуанинов на 1000 нуклеотидов(выбран размер окна 1000), и nucleotide2-число цитозинов на 1000 нуклеотидов.5
Минимум GC-skew cumulative соответствует месту начала репликации(точке oriC), он достигается в точке 1049557. Максимум GC-skew cumulative соответствует месту окончания репликации(точке ter), он достигается в точке 2197729.
1.Длины белков
Информация о длинах белков бактерии находится на листе protlen таблицы с сопроводительными материалами.
Минимальная длина белка-27 аминокислотных остатков, максимальная-1507. Как видно из гистограммы, наибольшее количество белков приходится на диапазон 200-300 аминокислотных остатков, и совсем маленькое количество длинных белков(длины больше 900 аминокислотных остатков).
Был проведен обзор генома и протеома бактерии Jeotgalibaca arthritidis, в ходе которого были определены такие параметры, как встречаемость различных типов генов, GC-состав генома, координаты точек ori и ter, частота встречаемости k-меров. Эти параметры могут быть полезны при дальнейшем изучении бактерии.
Электронная таблица, содержащая сведения о геноме и протеоме, а также полученные во время анализа данные:kompaniets_suppl.xlcx