Обзор протеома и генома бактерии
Bacillus simplex NBRC 15720
Резюме
Сначала были получены данные с помощью Excel таблицы: нуклеотидный состав ДНК генома, частоты комплементарных пар A-T и G-C, анализ k-меров в геноме. Описание результатов через разделы “Результаты и Обсуждение”.
Введение
Bacillus simplex NBRC 15720
Большая часть штаммов Bacillus simplex является аэробными. Реакция грамма переменна. Эти группы клеток в условии голодания образуют эндоспоры. Споры устойчивы к жаре, холоду, высыханию, радиации и дезинфектантам. Клетки - прямые стержни, и они встречаются цепочками, иногда поодиночке или парами. Количество генов 5402. Был проведён анализ протеома и геном.
Материалы и методы
Последовательность генома бактерии была взята из сайта NCBI: ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/002/243/645/GCF_002243645.1_ASM224364v1. Для обработки данных использовались методы работы с электронными таблицами:
- Импорт, создание таблицы, переименование страниц;
- Копирование, вставка, фильтры, удаление, сортировка по одному или нескольким элементам в порядке возрастания/убывания;
- Связь таблиц, находящихся на нескольких листах, с помощью функции ВПР (VLOOKUP);
- Форматирование (изменение ширины столбцов) и оформление таблицы;
- Вставка и удаление формул, знака «$» для правильного распространения формул вниз и направо;
- Метод специальной вставки, добавление примечаний.
Результаты и обсуждение
1.Нуклеотидный состав ДНК генома
Встречаются только нуклеотиды A,T,G,C. Число букв A примерно равно числу букв T, а число букв G приблизительно равно числу букв C. Данные находятся в таблице Excel в листе “nucl_comp”.
2.Частоты комплементарных пар A-T и G-C
Процентное соотношение нуклеотидов A-T равно 60%, а G-C равно 40%. То есть нуклеотидов A-T больше нуклеотидов G-C. Подробные данные есть в листе “frequency” в Excel таблице.
3.Длина последовательности генома
Длина последовательности генома равна 5645783. Круговой геном myxobacterium Sorangium cellulosum, состоящий из 13 033 779 базовых пар, является крупнейшим бактериальным геномом, секвенирован на сегодняшний день. Длина штамма Bacillus simplex NBRC 15720 почти в два раза меньше этого показателя, что всё же неплохо.
4.Встречаемость различных типов генов у Bacillus simplex NBRC 15720.
Чаще всего встречаются гены кодирующие белки. Реже всего встречаются Рибонуклеаза P, частица распознавания сигнала РНК и транспортно-матричная РНК. Данные есть в листе “ protein hypothetical” в Excel таблице.
5.Анализ k-меров в геноме
Чаще всего встречается последовательность AAA равная 221996, реже всего встречается последовательность CGC равная 38083.
Большинство отношений cb близко к 1, то есть погрешность минимальна. Подробные данные есть в листе “ protein_length ” в Excel таблице.
6.Диапозон длин белков
Больше всего белков длин в диапазоне от 100 до 200, белки длины в диапазоне от 200 и до 300 отличаются от первых по количеству на один белок. Меньше всего белков дины в диапазоне от 1600 до 5000. Подробные данные есть в листе “protein_length” в Excel таблице.
7.Анализ протеома
Из таблицы следует, что гипотетические белки занимают всего 12% от общего количества белков в протеоме данного штамма. Зачастую этот процент составляет от 20% до 40% белков, кодируемых в каждом недавно секвенировании генома. То есть в штамме Bacillus simplex NBRC 15720 количество гипотетических белков уже меньше этого показателя, о белках этого штамма известно уже больше, чем при его открытии. Данные есть в листе “ protein hypothetical” в Excel таблице.
Вывод:
Bacillus simplex NBRC 15720 – штамм палочковых бактерий со средней длинной генома среди бактерий. В изучении функций её белков есть прогресс.
Сопроводительные материалы
- Excel таблица STROGOV-supple-fin информация взята с сайта NCBI.
- На листе feat_table даны данные, из которых составлялись таблицы для анализа.
- На листе Chromosome's DNA length дана длина ДНК хромосомы.
- На листе occurrence of genes дана встречаемость генов.
- На листе nucl_comp дано количество нуклеотидов.
- На листе frequency дано процентное соотношение комплиментарных нуклеотидов.
- На листе OE даны данные по k-мерам.
- На листе protein_length даны диапазоны длин белков.
- На листе protein hypothetical дано число гипотетических белков и их процент от всех белков.
Ссылки на источники
- Общие сведения National Center for Biotechnology Information, U.S. National Library of Medicine 8600 Rockville Pike, Bethesda MD, 20894 USA https://www.ncbi.nlm.nih.gov/genome/?term=Bacillus%20simplexOrganism&cmd=DetailsSearch
- Количество генов https://www.genome.jp/kegg-bin/show_organism?org=T04304
- Информация про гипотетический белок https://en.wikipedia.org/wiki/Hypothetical_protein
- Информация про myxobacterium Sorangium cellulosum Susanne Schneiker et al. Complete genome sequence of the myxobacterium Sorangium cellulosum - PubMed (nih.gov)