Обзор протеома бактерии Lactobacillus casei ATCC 393
РЕЗЮМЕ
Цель данной работы — исследование генома и протеома
бактерии Lactobacillus casei ATCC 293T. В данной работе было
определено общее число белков, число генов на различных
цепях ДНК, различия в числе генов на плазмидах и
хромосоме. Была выдвинута и проверена гипотеза о
равномерном распределении генов по цепям ДНК. Также были
составлены гистограммы длин белков.
1. ВВЕДЕНИЕ
Данная бактерия относится к роду Lactobacillus. Данный хемоорганогетеротроф по типу метаболизма, грам-положительный факультативный анаэроб. Основным продуктом метаболизма является молочная кислота, что и обуславливает промышленное использование рода в целом и штамма в частности в производстве молочнокислой и винной продукции. Из субстратов предпочитает сахара, их простые производные и многоатомные спирты.
Имеет геном в 29 Mbp и плазмиду в 29 kbp. У данного штамма описано 2777 белков [5] (или предположительно белок-кодирующих последовательностей) [3]. Некоторые ферменты данного штамма (L-aparaginase) применяются в медицине и биотехнологии [4].
Данный штамм пытались отнести к другому виду (L. rhamnosus) [1], а позднее предполагалось, что в данный штамм объединены культуры, которые относятся к разным штаммам вида L. casei[2].
2. МАТЕРИАЛЫ И МЕТОДЫ
Для проверки гипотез были использованы электронные таблицы Google sheets и Python 3.7. Все сделанные таблицы и скрипты можно найти в сопроводительных материалах
Информация о протеоме была получена из была данных GenomeNCBI.
Для анализа данных были использованы стандартные функции Google sheets : AVERAGE(подсчёт среднего значения), BINOM.DIST(подсчёт вероятности наблюдаемого числа успешных испытаний), MEDIAN(подсчёт медианы выборки), COUNTIFS(подсчёт компонентов выборки, соответствующих определенным условиям), VLOOKUP(поиск строк с соответствующем значением в определенной ячейке), стандартная версия Python3.7.
Для проверки случайности распределения генов по цепям был использован критерий p-value (расчёт в таблице).
3. РЕЗУЛЬТАТЫ
3.1 Категоризация и подсчёт генов по категориям
Категоризация и подсчёт генов по категориям
В ходе данной работы все гены данного штамма были разбиты на следующие категории : белок-кодирующие последовательности, последовательности, кодирующие РНК (мной были выделены подкатегории тРНК — кодирующие и рРНК — кодирующие последовательности), ген, пришедшие от бактериофагов, псевдогены.
В общей сложности, данный штамм несет 2777 генов, из которых 2704 кодируют белок, оставшиеся 73 — РНК-кодирующие. В ходе анализа не было обнаружено псевдогенов, что говорит о недостаточной степени изученности данного штамма. Результаты представлены в таблице 1.
3.1.1 Категоризация и подсчёт генов.
Категория
Число генов в категории
Фаговые последовательности
177
РНК - кодирующие последователбности
73
Белок-кодирующие последовательности
2704
Общее число генов
2777
3.2 Анализ распределения генов по плазмидам и хромосоме
В ходе работы было выяснено, что гены распределены между хромосомой и единственной плазмидой в соотношении 1:68,425, то есть большая часть из них лежит на хромосоме.
При этом все гены рибосомальных РНК и белков лежат исключительно на хромосоме.
3.2.1 Категоризация и подсчёт генов.
Категория
Абсолютное значение
Процентаж
Плазмидные гены
40
1,44%
Хромосомные гены
2737
98,56%
3.3 Анализ распределения генов по “+” и “-” цепям
Было выяснено, что у данного штамма 1346 хромосомных генов лежит на «+» цепи, 1391 — на «-». На плазмиде на «+» цепи лежит 21 ген, а на «-» - 19
Посчитав p-value для хромосомных и плазмидных генов, было обнаружено, что распределение генов по цепям близко к распределению Бернулли, что еще раз доказывает гипотезу о равнозначности цепей для любого организма, для РНК наблюдается то же.
Значение p-value
Вердикт (о случйнрости распределения)
На плазмиде
0,8746
Random
На хромосоме
0,4003
Random
Степень доверия
0,0001
3.4 Анализ длин белков
Было выяснено, что средняя длина белка для данной бактерии — примерно 297 аминокислот, медиана данной выборки 258 аминокислот, среднеквадратичное отклонение составило 297 аминокислот, максимальная длина — 2456 аминокислот, а минимальная — 38 аминокислот.
3.4.1 Анализ длин белков
Парметр
Значение
Средняя длина
297,2
Медиана
258
Стандартное ротклонение
207,0
Мaксимальная длина
2456
Минимальная длина
38
В ходе работы была построена гистограмма длин белков данного штамма («интервал» между столбиками составляет 20 аминокислот). На гистограмме мы видим 2 нечетких пика : первый на 100-120 аминокислотах, второй на 200-240 аминокислотах, что подтверждает поставленную гипотезу.
Также в ходе работы были проанализированы длины белок-кодирующих ОРФов на хромосоме и плазмиде.
Из гистограммы видно, что на плазмиде сосредоточились, в основном, короткие белки и не наблюдается 2 четких пика.
3.5 Таблица длин белков по выделенным категориям
В ходе работы была проанализирована встречаемость
о п ределё н ны х кате го р и й белков (п редст авле ны в
сопроводительных материалах). Поиск проводился по
ключевому слову в названии белка (все ключевые слова
представлены в сопроводительных материалах). Если в
названии белка (взято из файла, содержащего названия вс
белков, скопированные из основной таблицы, представлен в
сопроводительных материалах) встречалось ключевое слово,
то белок относился к искомой категории, а его название
записывало сь в соответствующий файл (скрипт в
сопроводительных материалах).
В тoм числе было oбнаружено 17 АТФаз, 33
гликозилтрансферазы, 117 транскрипционных регуляторов, 62
оксидоредуктазы, 24 мембранных белка, 37 синтетаз, 79 киназ,
260 транспортеров (из которых 181 относятся к семейству
ABC-транспортеров), 8 белков системы репарации и 117
фаговых белков. Белков, содержащих в названии подстроку
‘pathogen’ выявлено не было (что согласуется с условной
патогенностью данного штамма)
Вызывает интерес количество фаговых белков у данного
штамма (6,4 %), однако дальнейший анализ затруднен из-за
отсутствия информации об этих белках.
ОБСУЖДЕНИЕ И ДИСКУССИЯ
В ходе работы была показана недостоверность использованных материалов, так как в таблице отсутствовала информация о псевдогенах
Из-за маленького размера плазмиды и относительно мелких, «метаболических» белках на ней, я могу утверждать о ее эволюционной молодости и нестабильности
Кроме этого, были подтверждены поставленные гипотезы, то есть доказана случайность распределения генов по цепям ДНК и найдены 2 пика распространенной длины белков, что свидетельствует о большом числе двухдоменных белков в протеоме.
Dicks et al. “Reclassification of Lactobacillus casei subsp. casei ATCC 393 and Lactobacillus rhamnosus ATCC 15820 as Lactobacillus zeae norn. rev., Designa- tion of ATCC 334 as the Neotype of L. casei subsp. casei, and Rejection of the Name Lactobacillus paraca- sei” International Journal of systematic bacteriology, Jan,. 1996, p. 337-340
H. Toh et al. “Genomic Adaptation of the Lactobacillus casei Group” PloS one, Oct., 2013