Биоинформатика

Особенности и общий анализ генома Bacillus mojavensis

Орлов Михаил Юрьевич, 1 курс 101 группа

Московский государственный университет имени М.В.Ломоносова

Введение

Bacillus mojavensis - аэробная, спорообразующая термофильная бактерия, которая образует круглые колонии и была выделена из почвы в пустыне Мохаве, США, за что и получила свое видовое название. В результате исследований у Bacillus mojavensis и родственных видов был обнаружен антагонизм с Fusarium moniliforme грибкомпатогеном кукурузы, выделяющим микотоксины. Дальнейшие исследования могут позволить раскрыть потенциал возможного контроля Fusarium moniliforme при помощи исследуемой бактерии или близкородственных видов.

Тип Фирмикуты
Класс Бациллы
Порядок Кариофаналы
Cемейство Bacillaceae
Род Бациллы
Вид Bacillus mojavensis

Габариты и состав генома

Геном Bacillus mojavensis представлен одной хромосомой, состоящей из 4 031 121 п.н.

Состав генома по нуклеотидам:

Нуклеотид Количество Доля от общего числа
a 1129218 28.01%
c 885192 21.96%
g 879785 21.82%
t 1136926 28.20%

Показатель GC-состава равен 43.78%, геном содержит 4167 кодирующих последовательностей. Соблюдается второе правил Чаргаффа, так как количество комплиментарных нуклеотидов примерно равно. Иных элементов кроме ACGT в последовательности не присутствует.

Состав генома по типам к.п.

Тип гена Количество Доля от общего числа
proteins 3952 94.84%
pseudogenes 98 2.35%
trna 85 2.04%
rrna 27 0.65%
tmrna 1 0.02%
srp_rna 1 0.02%
rnase_p_rna 1 0.02%
ncrna 2 0.05%

Анализ показывает, что большую часть генома бактерии составляют протеин-кодирующие последовательности (94.84%), РНКкодирующие последовательности составляют 2.81% генома, гены, утратившие свое значение в процессе эволюции 2.35%.

Анализ 3-меров в геноме

Гистограмма количества 3-меров в геноме:

В полном виде представлена на странице 3- меры приложения в Excel. Если мы упорядочим гистограмму по убыванию количества 3-меров, то увидим, что из общей выборки сильно выделяются 3-меры AAA и TTT:

Это свидетельствует о том, что в геноме бактерии содержится значительное количество поли-А и поли-Т хвостов. Остальные 3-меры встречаются в относительно равномерном количестве, мы не можем наблюдать сильно выдающихся по встречаемости или почти отсутствующих.

Закономерность распределения генов по прямой и обратной цепям

Таблица распределения генов по прямой и обратной цепям в абсолютном и процентном соотношениях (полную версию можно найти на листе направление генов в приложенных материалах):

Тип гена Прямая цепь Обратная цепь + -
protein_coding 1871 2081 47% 53%
pseudogene 45 53 46% 54%
trna 55 30 65% 35%
rrna 24 3 89% 11%
tmrna 0 1 0% 100%
srp_rna 1 0 100% 0%
rnase_p_rna 0 1 0% 100%
ncrna 0 2 0% 100%

Как мы видим из данных, гены по прямой и обратной цепи распределяются относительно равномерно.

Методы и инструменты

1) Внутренние инструменты Microsoft Excel и личные навыки работы с электронными таблицами.

2) Для подсчета количества 3-меров в геноме использовалась самостоятельно написанная программа kmer_count_tab.py, располагающаяся на сервере kodomo по адресу /home/students/y20/morlov/term1/block2/hom eworks.

3) Для анализа состава генома по нуклеотидам использовалась самостоятельно написанная программа gene_analisys.py, располагающаяся на сервере kodomo по адресу /home/students/y20/morlov/term1/block2/hom eworks.