Обзор сводной информации о геноме некоторого организма является удобной формой представления некоторых аспектов организации генома в краткой форме. В данной работе приведен обзор генома Prevotella bryantii – вид бактерий, выделенный из рубца крупного рогатого скота. Данные, вошедшие в обзор, были обработаны при помощи методов электронных таблиц.
Prevotella bryantii - это вид облигатных анаэробных бактерий, найденных в рубце (переднем желудке) крупного рогатого скота и отделившийся от типового вида Prevotella ruminicola (ранее Bacteroides ruminicola) рода Prevotella. Благодаря исследованию Августина [1] , Г. с соавторами, проведенном в 1997 г. определилась современная классификация бактерии Prevotella bryantii. Она принадлежит семейству Prevotellaceae отряда Bacteroidales, который входит в класс Bacteroidia типа Bacteroidota домена Bacteria. В работе исследуются особенности генома данной бактерии, а именно: распределение длин белков, кодируемых CDS, зависимость количества последовательностей ДНК, кодирующих белки с определенной функцией, от среды обитания бактерии.
В данной работе проанализирован геном Prevotella bryantii с идентификатором GCF_022024215.1_ASM2202421v1. Для обработки и визуализации данных была использована программа Google Sheets. Для составления сводных таблиц по конкретным темам на основе общей таблицы по геному был выбран ряд методов электронных таблиц, а именно функции: СЦЕПИТЬ, ДЛСТР, СЧЁТЕСЛИ, МАКС, МИН, ВПР; а также другие методы: транспонирование строк в столбцы и обратно, специальная вставка, распространение формул, вставка и форматирование гистограммы, сортировка и форматирование ячеек. Также для анализа частоты встречаемости разных функций белков, кодируемых CDS, были написаны соответствующие конвееры на Bash (Unix shell).
Общая длина генома Prevotella bryantii составляет 2 360 156 пар оснований. Геном бактерии состоит из 5653 кодирующего участка последовательности. Из них ровно 2826 генов, 2714 CDS (белок-кодирующих последовательностей), 82 tRNA (участков ДНК, кодирующих транспортную РНК), 27 rRNA (участков ДНК, кодирующих рибосомальную РНК), 2 ncRNA (участок ДНК, кодирующий некодирующую РНК, которая не транслируется в белок), 1 tmRNA (участок ДНК, кодирующий транспортно-матричную РНК). По всем данным, предоставленным выше, см. таблицу 1 сопроводительных материалов.
Было исследовано распределение длин белков, кодируемых CDS, и составлена гистограмма длин белков, которая заключает в себе следующие данные (см. таблицу 2 сопроводительных материалов):
Было проведено исследование взаимосвязи количества CDS, кодирующих белки с определёнными функциями, и средой обитания бактерии. Среди часто встречающихся белков помимо белков, необходимых для регуляции транскрипции генов (helix-turn-helix_transcriptional_regulator - 21), белков рецепторов внешней мембраны (TonB-dependent_receptor - 40) и белков с неизвестными функциями (hypothetical_protein - 430) были обнаружены белки внешней мембраны семейства RagB/SusD, участвующие в поглощении питательных веществ.(RagB/SusD_family_nutrient_uptake_outer_membrane_protein - 33) Это основные белки, связывающие крахмал, которые присутствует на поверхности клетки и обеспечивают связывание крахмала перед его транспортировкой в периплазму для расщепления. Можно сделать вывод, что наличие большого количества белков, метаболизирующих крахмал, свидетельствует о том, что бактерии обитают в желудке травоядных животных. Так же было обнаружено 13+11 CDS, кодирующих гликозилтрансферазы разных семейств. Гликозилтрансфераза2 - это ферменты, катализирующие гликозилирование. Гликозилирование у бактерий необходимо для обеспечения вирулентности и выживания в организме хозяина, из чего можно сделать вывод о взаимосвязи большого количества CDS, кодирующих эту группу ферментов и условиями обитания бактерии Prevotella Bryantii. C источниками, на основании которых были сделаны выводы о функциях белков, можно ознакомиться в таблице 1.
Примечания: пока таблица будет в формате картинки, потом оформлю её как полноценную html таблицу
Мы проанализировали процентное соотношение нуклеотидов в каждой белок кодирующей последовательности, вычислив максимальное, минимальное и среднее %GC, также составив гистограмму распределения соотношения нуклеотидов (рисунок 3), в результате чего получили нормальное распределение (распределение Гаусса) около среднего значения в 39,45%. Так же для визуализации отношения нуклеотидов в геноме был сделан рисунок 2. Из представленных данных можно сделать следующие выводы:
Таким образом, нами был составлен обзор генома бактерии Prevotella bryantii, в который вошли широкие темы, такие как размер генома, его состав по продуктам транскрипции генов, а также анализ распределения длин белков, кодируемых CDS данной бактерии. Помимо этого была выявлена взаимосвязь количества кодируемых белков с определёнными функциями и условиями среды обитания вида бактерий.
Файл Excel с сопроводительными сводными таблицами доступен к скачиванию с Google Диска по следующим ссылкам.
Стоит выразить благодарность преподавателям биоинформатики ФББ МГУ, составившим программу курса по биоинформатике, в рамках которого был написан данный обзор. И отдельно хотелось бы поблагодарить моих однокурсников, помогавших в решении технических задач, которые вызвали у меня трудности на этапе написания обзора.