Обзор генома и протеома бактерии Brucella suis 1330

Резюме

В работе представлены результаты исследования генома и протеома бактерии Brucella suis 1330. Был проанализирован GC-состав в двух ДНК (57%), была рассчитана частота встречаемости k-меров (k=3), также число гипотетических белков, производился поиск рибосомальных белков и рРНК, рассчитывалось число генов белков, псевдогенов, генов РНК на прямой и обратной цепи.

Ключевые слова

Brucella suis 1330, GC-состав, рибосомальные белки, k-меры, биологическое оружие.

Сокращения: а.о. – аминокислотные остатки, п.н. – пары нуклеотидов, B.suis 1330 – Brucella suis 1330, cb – Compositional Bias, O/E (Observed/Expected), ВСК.

Введение

Brucella suis 1330 патогенная бактерия семейства Brucellaceae. Грам-отрицательная альфа-протеобактерия, вызывающая бруцеллёз – опасное заболевание, которым страдают не только крупный рогатый скот, но и человек[1].
Болезнь провоцирует аборт и мертворождение у свиней. Впервые штамм был секвенирован в 2002 году, в 2011 было проведено повторное секвенирование. Данный вид использовали в качестве биологического оружия американские военные[2].
Число нуклеотидов равно 3315175. Количество хромосом у Brucella suis 1330 равно двум, а количество генов белков, кодирующих аминокислотные последовательности, - 3273. Обе хромосомы имеют кольцевую структуру.

Таксономия: Bacteria; Proteobacteria; Alphaproteobacteria; Rhizobiales; Brucellaceae; Brucella[3].

Материалы и методы

Для написания обзора последовательность генома и данные о протеоме бактерии была взята из сайта NCBI[4]. Для обработки данных использовались:

Результаты и обсуждение

Анализ генома

На листе «genes» в сопроводительных материалах содержится список генов белков и ДНК бактерии Brucella suis 1330. Геном B.suis 1330 представлен двумя хромосомами.
Длина ДНК на первой хромосоме (идентификатор NC_004310.3) составляет 2107794 п.н., на второй (идентификатор NC_004311.2) – 1207381 п.н. Следовательно, длина всего генома составляет 3315175 п.н. В геноме встречаются гены, кодирующие белки, рибосомальные и транспортные РНК, псевдогены. Их встречаемость приведена в таблице 1.
Частота пары G-C была подсчитана с помощью программы geecee. В итоге, GC-состав у Brucella suis 1330 на двух хромосомах одинаковы и составляют 57% от общего числа нуклеотидов в геномных ДНК, как представлено на листе «GC_content» в сопроводительных материалах. У данной бактерии процентный GC-состав выше, чем у почти всех представленных альфа-протеобактерий в Table 2[5], но ниже, чем у Gluconobacter oxydans 621H (60.8%) и Rhodopseudomonas palustris BisB18 (65%).
Из электронной таблицы, присутствующей в сопроводительных материалах (лист «genes_per_type»), видно, что больше всего в геноме встречается генов, кодирующих протеины, и меньше всего тех, которые кодируют рибосомальные РНК. Вдобавок, на листе «chance_genes» в сопроводительных материалах отмечено, сколько генов каждого типа встречается на прямой и обратной цепи. В результате, на прямой цепи («+») гены рРНК отсутствуют, а на обратной («-») присутствуют.
Был проведён анализ k-меров в геноме (k=3). Для начала мы использовали программу wordcount -wordsize 3, которая подсчитала частоту встречаемости каждого 3-мера в геноме (информация присутствует на листах «3-mers-4310» и «3-mers-4311» электронной таблицы в сопроводительных материалах). Затем при помощи программы cbcalc -s -K подсчитали ожидаемые и наблюдаемые значения встреч 3-меров. Подсчитали cb (Compositional Bias, или BCK), равное «наблюдаемое / ожидаемое».
Результаты можно увидеть на рисунке 1 и в сопроводительных материалах (листы «3-mers-cb-4310» и «3-mers-cb-4311»).

3-mers 1
Рис.1а. Анализ 3-меров хромосомы (идентификатор: NC_004310.3).
3-mers 2
Рис.1b. Анализ 3-меров хромосомы (идентификатор: NC_004311.2).

Анализ протеома

На листе «chance_genes» в сопроводительных материалах содержится информация о количестве генов, кодирующих белки, тРНК и рРНК, и псевдогенов по цепям ДНК. В итоге, на прямой цепи («+») содержится 1419 генов белков, на обратной («-») – 1461 ген. Данные результаты мы получили с помощью функции СЧЁТЕСЛИМН (таблица Excel).
Было также проанализировано, является ли распределение генов белков случайным. Примем в качестве нулевой гипотезы (Н0) предположение о том, что распределение в обеих цепях случайно. Степень свободы (df) равна 1, а уровень значимости (α) – 0.05 (доверительная вероятность (р), соответственно, 1 – 0.05 = 0.95). В ходе исследования было установлено, что критерий Пирсона наблюдаемого значения (χ2набл) намного меньше, чем χ2крит, вычисленный при помощи формулы ХИ2.ОБР (значения χ2 можно найти в справочных таблицах). Следовательно, принимается гипотеза Н0 о случайном распределении генов белков по обеим цепям ДНК, и отвергается альтернативная гипотеза (Н1).
На рисунке 2 представлена гистограмма распределения длин белков B.suis 1330. Видно, что наиболее представленным диапазоном длины 249-301 а.о. Максимальную длину имеет белок «autotransporter outer membrane beta-barrel domain-containing protein» (протеин бета-цилиндр, автотранспортёр наружной мембраны, содержащий домен), равную 3420 а.о. Минимальную – «50S ribosomal protein L36» (50S рибосомальный белок L36).

protlen
Рис.2. Гистограмма длин белков. На оси Ох – интервалы длин, на оси Оу – длина белков (в аминокислотных остатках).

Стандартное отклонение было посчитано с помощью функции СТАНДОТКЛОН.В и получилось равным, в результате, 209.4548169. Медиана и мода были рассчитаны с помощью соответствующих функций. Результаты вычислений представлены на листе «protlen» в сопроводительных материалах.
Из таблицы, находящейся в сопроводительных материалах (лист «hypprot»), следует, что гипотетические белки занимают всего 9.375% (всего их 270) от общего количества белков в протеоме данного штамма. На листе «ribprot» приведён список названий, координат и ориентаций рибосомальных белков и рибосомальных РНК. Данные были получены из листа «genes» той же электронной таблицы с помощью применения фильтра и копирования на нужный лист «ribprot».
Интересно заметить, что все гены рибосомальных РНК располагаются на обратной цепи ДНК; количество генов рибосомальных белков на прямой цепи равно четырнадцати.

Заключение

Таким образом, была проведена большая работа с геномом бактерии Brucella suis 1330, в которой были освещены темы, посвящённые исследованию и анализу генома (размер самого генома, наличие генов разных типов, наличие и распределение k-меров, GC-состав) и протеома (количество гипотетических и рибосомальных белков, исследование длин различных белков) прокариота. Исследование позволяет дополнить информацию о геноме данного прокариота, что поможет в будущем.

Сопроводительные материалы

Сопроводительные материалы (таблица Excel на kodomo): ссылка.

Благодарность

Мы выражаем благодарность всему преподавательскому составу факультета биоинженерии и биоинформатики МГУ им. Ломоносова за помощь в освоении гранита науки, интересную подачу материала и организацию занятий.

Список литературы