Обзор протеома

Обзор протеома бактерии Lactobacillus casei ATCC 393

РЕЗЮМЕ

Цель данной работы — исследование генома и протеома бактерии Lactobacillus casei ATCC 293T. В данной работе было определено общее число белков, число генов на различных цепях ДНК, различия в числе генов на плазмидах и хромосоме. Была выдвинута и проверена гипотеза о равномерном распределении генов по цепям ДНК. Также были составлены гистограммы длин белков.

1. ВВЕДЕНИЕ
Данная бактерия относится к роду Lactobacillus. Данный хемоорганогетеротроф по типу метаболизма, грам-положительный факультативный анаэроб. Основным продуктом метаболизма является молочная кислота, что и обуславливает промышленное использование рода в целом и штамма в частности в производстве молочнокислой и винной продукции. Из субстратов предпочитает сахара, их простые производные и многоатомные спирты. Имеет геном в 29 Mbp и плазмиду в 29 kbp. У данного штамма описано 2777 белков [5] (или предположительно белок-кодирующих последовательностей) [3]. Некоторые ферменты данного штамма (L-aparaginase) применяются в медицине и биотехнологии [4]. Данный штамм пытались отнести к другому виду (L. rhamnosus) [1], а позднее предполагалось, что в данный штамм объединены культуры, которые относятся к разным штаммам вида L. casei [2].
L. casei must be here
Рис. 1. Электронная фотография Lactobacillus casei в среде
2. МАТЕРИАЛЫ И МЕТОДЫ
Для проверки гипотез были использованы электронные таблицы Google sheets и Python 3.7. Все сделанные таблицы и скрипты можно найти в сопроводительных материалах Информация о протеоме была получена из была данных GenomeNCBI. Для анализа данных были использованы стандартные функции Google sheets : AVERAGE(подсчёт среднего значения), BINOM.DIST(подсчёт вероятности наблюдаемого числа успешных испытаний), MEDIAN(подсчёт медианы выборки), COUNTIFS(подсчёт компонентов выборки, соответствующих определенным условиям), VLOOKUP(поиск строк с соответствующем значением в определенной ячейке), стандартная версия Python3.7. Для проверки случайности распределения генов по цепям был использован критерий p-value (расчёт в таблице).
3. РЕЗУЛЬТАТЫ
3.1 Категоризация и подсчёт генов по категориям
Категоризация и подсчёт генов по категориям В ходе данной работы все гены данного штамма были разбиты на следующие категории : белок-кодирующие последовательности, последовательности, кодирующие РНК (мной были выделены подкатегории тРНК — кодирующие и рРНК — кодирующие последовательности), ген, пришедшие от бактериофагов, псевдогены. В общей сложности, данный штамм несет 2777 генов, из которых 2704 кодируют белок, оставшиеся 73 — РНК-кодирующие. В ходе анализа не было обнаружено псевдогенов, что говорит о недостаточной степени изученности данного штамма. Результаты представлены в таблице 1.
3.1.1 Категоризация и подсчёт генов.
Категория Число генов в категории
Фаговые последовательности 177
РНК - кодирующие последователбности 73
Белок-кодирующие последовательности 2704
Общее число генов 2777
3.2 Анализ распределения генов по плазмидам и хромосоме
В ходе работы было выяснено, что гены распределены между хромосомой и единственной плазмидой в соотношении 1:68,425, то есть большая часть из них лежит на хромосоме. При этом все гены рибосомальных РНК и белков лежат исключительно на хромосоме.
Not today...
Fig. 1. Диаграмма распределения белков по хромосоме и плазмиде
3.2.1 Категоризация и подсчёт генов.
Категория Абсолютное значениеПроцентаж
Плазмидные гены 40 1,44%
Хромосомные гены 2737 98,56%
3.3 Анализ распределения генов по “+” и “-” цепям
Было выяснено, что у данного штамма 1346 хромосомных генов лежит на «+» цепи, 1391 — на «-». На плазмиде на «+» цепи лежит 21 ген, а на «-» - 19 Посчитав p-value для хромосомных и плазмидных генов, было обнаружено, что распределение генов по цепям близко к распределению Бернулли, что еще раз доказывает гипотезу о равнозначности цепей для любого организма, для РНК наблюдается то же.
Значение p-valueВердикт (о случйнрости распределения)
На плазмиде 0,8746 Random
На хромосоме 0,4003 Random
Степень доверия 0,0001
3.4 Анализ длин белков
Было выяснено, что средняя длина белка для данной бактерии — примерно 297 аминокислот, медиана данной выборки 258 аминокислот, среднеквадратичное отклонение составило 297 аминокислот, максимальная длина — 2456 аминокислот, а минимальная — 38 аминокислот.
3.4.1 Анализ длин белков
Парметр Значение
Средняя длина 297,2
Медиана 258
Стандартное ротклонение 207,0
Мaксимальная длина 2456
Минимальная длина 38
В ходе работы была построена гистограмма длин белков данного штамма («интервал» между столбиками составляет 20 аминокислот). На гистограмме мы видим 2 нечетких пика : первый на 100-120 аминокислотах, второй на 200-240 аминокислотах, что подтверждает поставленную гипотезу. Также в ходе работы были проанализированы длины белок-кодирующих ОРФов на хромосоме и плазмиде. Из гистограммы видно, что на плазмиде сосредоточились, в основном, короткие белки и не наблюдается 2 четких пика.
NOTFORYOU
Fig.3.4.1 Гистограмма длин белков
NOTFORYOU
Fig.3.4.2 Гистограмма длин хромосомальных белков
NOTFORYOU
Fig.3.4.3 Гистограмма длин плазмидных белков
3.5 Таблица длин белков по выделенным категориям
В ходе работы была проанализирована встречаемость о п ределё н ны х кате го р и й белков (п редст авле ны в сопроводительных материалах). Поиск проводился по ключевому слову в названии белка (все ключевые слова представлены в сопроводительных материалах). Если в названии белка (взято из файла, содержащего названия вс белков, скопированные из основной таблицы, представлен в сопроводительных материалах) встречалось ключевое слово, то белок относился к искомой категории, а его название записывало сь в соответствующий файл (скрипт в сопроводительных материалах).
В тoм числе было oбнаружено 17 АТФаз, 33 гликозилтрансферазы, 117 транскрипционных регуляторов, 62 оксидоредуктазы, 24 мембранных белка, 37 синтетаз, 79 киназ, 260 транспортеров (из которых 181 относятся к семейству ABC-транспортеров), 8 белков системы репарации и 117 фаговых белков. Белков, содержащих в названии подстроку ‘pathogen’ выявлено не было (что согласуется с условной патогенностью данного штамма) Вызывает интерес количество фаговых белков у данного штамма (6,4 %), однако дальнейший анализ затруднен из-за отсутствия информации об этих белках.
NOTFORYOU
Количество фаговых белков в протеоме.
ОБСУЖДЕНИЕ И ДИСКУССИЯ
В ходе работы была показана недостоверность использованных материалов, так как в таблице отсутствовала информация о псевдогенах Из-за маленького размера плазмиды и относительно мелких, «метаболических» белках на ней, я могу утверждать о ее эволюционной молодости и нестабильности Кроме этого, были подтверждены поставленные гипотезы, то есть доказана случайность распределения генов по цепям ДНК и найдены 2 пика распространенной длины белков, что свидетельствует о большом числе двухдоменных белков в протеоме.
ССЫЛКИ НА СОПРОВОДИТЕЛЬНЫЕ МАТЕРИАЛЫ
ИСТОЧНИКИ
  1. Dicks et al. “Reclassification of Lactobacillus casei subsp. casei ATCC 393 and Lactobacillus rhamnosus ATCC 15820 as Lactobacillus zeae norn. rev., Designa- tion of ATCC 334 as the Neotype of L. casei subsp. casei, and Rejection of the Name Lactobacillus paraca- sei” International Journal of systematic bacteriology, Jan,. 1996, p. 337-340
  2. H. Toh et al. “Genomic Adaptation of the Lactobacillus casei Group” PloS one, Oct., 2013
  3. https://genome.jgi.doe.gov/portal/lacca/lacca.home.html
  4. https://europepmc.org/article/med/31388208
  5. Страница Lactobacillus subsp. casei ATCC 393