Учебный сайт Татьяны Миньковской

Обзор протеома бактерии Lactobacillus amylophilus DSM 20533 = JCM 1125

31.12.19

АБСТРАКТ: Исследован протеом бактерии Lactobacillus amylophilus DSM 20533 = JCM 1125
ключевые слова: протеом, бактерия, Lactobacillus amylophilus, электронные таблицы

1 ВВЕДЕНИЕ

Lactobacillus amylophilus — грамположительная бактерия из отряда Lactobacillales, класс Bacilli[1]. Используется в производстве молочной кислоты, в частности непосредственно из не гидролизованного картофельного крахмала[2]. Является гомоферментативной бактерией [3], то есть использует гликолитический путь разложения глюкозы. Выведены различные штаммы, наиболее эффективно перерабатывающие крахмал. Например, в работе Altafa B.J., et al подробно изучен штамм GV6 [4]. В данной работе рассмотрен протеом штамма DSM 20533 = JCM 1125.

Лактобациллы могут предотвращать адгезию Enterotoxigenic Escherichia coli и Salmonella Typhimurium на эпителиальной ткани кишечника, предотвращая его воспаление; защищают слизистый барьер [5]. Это свойство было подробно изучено Yu Q, Wang Z, Yang Q.

В данной работе был проведен анализ протеома Lactobacillus amylophilus DSM 20533 = JCM 1125 с использованием электронных таблиц Google sheets.

2 МЕТОДЫ

Были использованы следующие методы работы с электронными таблицами:

  • Импорт текстового файла из базы данных ncbi в таблицу
  • Разделение таблицы с данными о геноме на две с помощью фильтра
  • Объединение таблиц с помощью функции VLOOKUP
  • Изменение вида столбца strand с помощью функции IFS. С помощью этой функции вместо каждого + была поставлена 1, вместо знака — была поставлена −1. Это упростило использование некоторых дальнейших функций.
  • Фиксирование номера столбца или строки с помощью знака $
  • Специальная вставка
  • Сортировка строк по значению столбца
  • Построение диаграммы с заданным шагом (как с помощью встроенные функций, так и с помощью задания интервалов и построения таблицы вручную)
  • Построение круговых диаграмм
  • Подсчет подстрок и числовых значений с помощью формул COUNTIFS, COUNTA, COUNT, задание подстроки с помощью маски Маска была использована при подсчете рибосомных белков, при этом за таковые считались все белки, название которых включало слово «ribosomal».
  • Использование функции BINOM.DIST С помощью этой функции можно сделать вывод о том, было ли распределение генов по цепям случайным. Необходимо подсчитать количество всех генов, количество генов на (+)-цепи (примем их количество за количество удачных попыток) и задать вероятность удачи, то есть попадания генов на (+)-цепь: 0,5. На выходе получаем вероятность такого распределения.
3 РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

В ходе работы были исследованы длины белков, генов, межгеномных промежутков, изучены количественные соотношения между генами, кодирующими белки, чья работа связана с разными видами РНК, АТФ и т.п., а также гипотетические белки, рибосомальные белки, соотношение участков генов разных классов: кодирующие гены, псевдогены и другие. Кроме того, были посчитаны виды тРНК. Все результаты и их обсуждения приведены в соответствующих разделах ниже.

3.1 Изучение длин белков, генов, межгеномных промежутков

Гистограма 1 Fig. 1. Гистограмма длин белков. Были подсчитаны белки, попадающие в промежутки с интервалом 30.
Гистограмма 2 Fig. 2. Гистограмма длин генов. Были подсчитаны гены с определенной длиной с интервалом 70.

Гистограмма (Fig. 1) демонстрирует количество белков различной длины в протеоме бактерии. Видно, что наибольшее количество белков имеет длину от 60 до 330. При этом заметен небольшой типичный для бактерий изгиб на белков длины от 150 до 180 и новый пик за ним.

Интересно сравнить эту гистограмму с двумя другими (Fig, 2 и Fig. 3).

Видно (из Fig. 2), что длины генов коррелируют с длинами белков: можно заметить аналогичный спад и новый пик на второй гистограмме. Может показаться, что коротких генов сильно больше, чем коротких белков, однако это наблюдение легко объясняется тремя факторами: во-первых, необходимо учесть разницу в шаге гистограммы (70 — для генов и 30 — для белков), во-вторых длины генов по модулю больше длин белков, в-третьих, не все короткие гены кодируют белки.

Гистограмма 2 Fig. 3. Гистограмма длин межгеномных промежутков. Построена с помощью встроенных гистограмм, интервал — 50.

Обратим теперь внимание на третью гистограмму (Fig. 3). Она демонстрирует размеры межгеномных промежутков. Они были посчитаны как разность между концом данного гена и началом следующего Заметим, что часть генов имеет отрицательный промежуток. Это объясняется тем, что у бактерий для экономии места часть генов кодируются «внахлест»: начало следующего лежит до конца предыдущего. Интересно, однако, что таких генов всё же меньше, чем тех, которые отстоят на некоторое расстояние от предыдущего. Для бактерии это необычный результат. Возможно, он обусловлен относительной эволюционной сложностью данной бактерии и разросшимся в ходе эволюции геномом.

3.2 Изучение генов на прямой и обратной цепях протеома

3.2.1 Гены на прямой и обратной цепях

Посмотрим на таблицу с распределение генов tRNA, pseudogen, protein_coding и rRNA по прямой и обратной цепи (Table 1).

Заметим, что на + цепи меньше генов, чем на -. Проверить, было ли это распределение случайным можно, посчитав вероятность такого распределения. Постановим считать распределение случайным, если вероятность его появления больше 0,001. Функция BINOM.DIST показывает вероятность 0,0217, поэтому распределение генов можно считать случайным.

classall+-
tRNA551540
pseudogene542034
protein_coding1553749804

3.2.2 Соотношение pseudogen, gene_coding и других классов

Гистограма 1 Fig. 4. Соотношение белков разных классов. Их количества посчитаны с помощью функций COUNTIF

Посмотрим на соотношение генов разных классов (Fig. 4)

Видно, что у данной бактерии накопилось относительно много испорченных генов: их 3,2% от всего протеома, что примерно равно доле транспортных РНК в нём же. Это наблюдение может объясняться длинной эволюционной историей бактерии, в ходе которой многие белки ломались (случайно, а возможно, намеренно) и заменялись новыми, или не заменялись, если их функция была утрачена. Гипотеза о том, что псевдогены заменялись другими белками в ходе эволюции косвенно подтверждается тем, что некоторые виды белков (например, таутомеразы или оксиредуктазы) можно найти среди белков класса protein_coding (см. лист pseudogenes в сопроводительных материалах).

3.3 Гипотетические белки

Гистограма 1 Fig. 5. Соотношение гипотетических белков и остальных. Посчитаны с помощью функции COUNTIF и COUNTA.

Была составлена диаграмма, показывающая соотношение гипотетических генов и всех остальных.

Как можно увидеть из диаграммы (Fig. 5), около сорока процентов генома занимают гипотетические белки, то есть такие белки, для которых пока только предсказано существование, но не была доказана экспрессия in vivo. Такая большая доля говорит преимущественно о недостатке исследований бактерии, но может указывать и на определенные сложности, мешающие изучить экспрессию и работу тех или иных белков.

3.4 Соотношение белков по категориям

Гистограма 1 Fig. 6. Соотношение количеств белков, чья работа связана с ATP, rRNA, tRNA, рибосомами. Посчитаны аналогично гипотетическим белкам с использованием масок.

Как видно из диаграммы (Fig. 6), выбранные нами гены составляют лишь небольшую часть протеома бактерии. Все, кроме RNA при этом занимают примерно одинаковые части генома бактерии, на ATP-белки приходится больше всего.

3.5 Рибосомальные белки

Гистограма 1 Fig. 7. Количества и названия рибосомных белков. Подсчитаны с помощью фильтра и функции COUNTIF.

Как видно из диаграммы (Fig. 7), в основном все рибосомальные белки встречаются в протеоме Lactobacillus amylophilus в единственном экземпляре. Копии есть лишь у семи белков из 35. Скорее всего, это указывает на необходимость повышенной экспрессии данных генов:

  • 16S ribosomal RNA
  • 23S ribosomal RNA
  • 30S ribosomal protein S14
  • 30S ribosomal protein S21
  • 50S ribosomal protein L33
  • 5S ribosomal RNA
  • ribosomal protein L11 methyltransferase

Названия остальных белков можно найти в сопроводительных материалах, лист ribisomes.

3.6 Транспортные РНК

Гистограма 1 Fig. 8. Количества и названия рибосомных белков. Подсчитаны с помощью фильтра и функции COUNTIF.

На гистограмме (Fig. 8) показаны количества тРНК для различных аминокислотных остатков. Больше всего остатков лейцина, метионина, серина, аргинина и треонина. Возможно, именно эти аминокислоты используются бактерией в наиболее важных белках чаще всего.

4 БЛАГОДАРНОСТИ

Благодарю за помощь в выполнении данной работы преподавателей информатики за своевременную помощь с возникающими затруднениями, а также однокурсников за плодотворные обсуждения и возможность сравнить несколько бактерий для лучшего понимания материала.

5 СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ

Таблица с анализом данных секвенирования

6 СПИСОК ЛИТЕРАТУРЫ
  • (2) Yen HW, Kang JL, Lactic acid production directly from starch in a starch-controlled fed-batch operation using Lactobacillus amylophilus. Department of Chemical and Materials Engineering, Tunghai University, Taichung, Taiwan, ROC.
  • (3) Jianguo Liu et al., Glucose metabolic flux distribution of Lactobacillus amylophilus during lactic acid production using kitchen waste saccharified solution, 2013 John Wiley & Sons Ltd and Society for Applied Microbiology
  • (4) AltafaB.J., et al.. Single step fermentation of starch to l(+) lactic acid by Lactobacillus amylophilus GV6 in SSF using inexpensive nitrogen sources to replace peptone and yeast extract — Optimization by RSMMd
  • (5) Yu Q, Wang Z, Yang Q, Lactobacillus amylophilus D14 protects tight junction from enteropathogenic bacteria damage in Caco-2 cells. 2012 American Dairy Science Association.
  • База данных NCBI, страница Genome (дата доступа 13.12.2019)
  • (1) http://www.cazy.org/b7419.html (дата доступа 08.12.2019)