Левин И., 1-й семестр

Краткий обзор протеома бактерии Lactobacillus amylolyticus

Автор: Левин Илья Михайлович, 1-й курс ФББ МГУ им. Ломоносова.

Аннотация

В данном обзоре представлены результаты анализа генома и протеома бактерии Lactobacillus amylolyticus, полученные с помощью электронных таблиц Microsoft Office Excel 365 (MS Excel), на основе данные из базы данных NCBI. Данная работа была проведена в рамках обучения на 1-м курсе ФББ МГУ им. М. В. Ломоносова.

Введение

В данном обзоре будут показаны результаты обработки данных о геноме и протеоме Lactobacillus amylolyticus. С помощью возможностей, предоставленных MS Excel, был проанализирован геном и протеом бактерии. Во время работы была использована хромосомная таблица бактерии с сайта NCBI, с помощью функционала MS Excel приведена в формат плоской таблицы генов и проанализирована автором на наличие гипотетических белков, рибосомальных белков, псевдогенов, генов РНК, а также проводились расчёты числа генов, кодирующих белок.

Материалы и методы

Материалы были взяты из архива геномов Национального центра биотехнологической информации (NCBI)[1]. При обработке материалов были использованы следующие возможности электронных таблиц MS Office Excel 365:

  1. Импорт файла в формате “.txt” в формат “.xlsx”;
  2. Функции: ВПР, СТОЛБЕЦ, CЧЁТЕСЛИ, СЧЁТЕСЛИМН, МИН, МАКС, СУММ, ПОИСК, ЕСЛИОШИБКА, СЧЁТЗ, ABS;
  3. Фильтр;
  4. Сортировка;
  5. Операции с таблицей через буфер;
  6. Связь таблиц;
  7. Оформление простой таблицы;
  8. Адресация с использованием "$";
  9. Автозаполнение формул;
  10. Построение гистограммы.

Результаты и обсуждение

Геном Lactobacillus amylolyticus представлен 1 хромосомой. Эта бактерия имеет 1 плазмиду[2]. Геном состоит из 421788 азотистых оснований, в нём закодировано 1461 белок, а также 85 РНК разных видов.

Распределение белков по длинам

Для того, чтобы понять, каким образом распределены белки в протеоме L. amylolyticus, была построена гистограмма распределения белков по длинам (см. рис. 1).

Самый маленький белок имеет длину 32 аминокислотных остатка (а. о.) и является гипотетическим, в то время как самый большой белок имеет длину 1435 а. о. и носит название ДНК-полимераза III PolC-типа. Как мы можем заметить, большинство белков имеют длину от 100 до 400 а. о., а самыми многочисленными являются белки в рамках от 200 до 300 а. о., количество которых насчитывает 366 штук и составляет 25% от всего протеома бактерии. Функционально эти белки очень разнообразны, из-за чего вряд ли удастся установить их функциональную принадлежность. В целом можно лишь сказать, что клетке очень выгодно синтезировать белки именно длины от 100 а. о. до 400 а. о., так как такого количества аминокислотных остатков вполне достаточно для того, чтобы формировать белки с необходимым функционалом, но и при этом не тратить большого количества энергии и ресурсов на их создание. Количество самых маленьких (длина менее 50 а. о.) и самых больших (длина более 1000 а. о.) совпадает и составляет 14 штук.

Гистограмма длин белков
Рис. 1. Гистограмма длин белков Lactobacillus amylolyticus.

Распределение генов на прямой и комплементарной цепях

Ген белка содержит в себе информацию о том или ином белке организма, кодируя её в виде ДНК. Судя по таблице числа генов в геноме L. amylolyticus (см. табл. 1), в геноме данной бактерии всего 1461 таких генов: 745 на прямой цепи и 716 на комплементарной.

Табл. 1. Распределение генов по цепям в геноме L. amylolyticus
Название Прямая цепь Комплементарная цепь
Гены белка 745 716
Псевдогены 61 69
Гены РНК 37 48

Псевдогены - нефункциональные аналоги структурных генов, утратившие способность кодировать белок и не экспрессирующиеся в клетке[3]. В геноме L. amylolyticus их количество на прямой и комплементарной цепях не сильно отличается: 61 на прямой цепи, 69 на комплементарной (см. табл. 1).

Гены РНК в большинстве случаев кодируют информацию о последовательности разных типов РНК. В случае L. amylolyticus этих типов 5: RNase_P_RNA, rRNA, SRP_RNA, tmRNA, tRNA. Все РНК распределены по 2-м цепям таким образом: на прямой цепи находятся 37 штук, на комплементарной – 48 (см. табл. 1).

Из подобного распределения генов по цепям ДНК можно сделать вывод, что эти гены были распределены по 2-м цепям случайным образом с вероятностью 0,5, так как соотношение количеств генов на прямой и комплементарной цепях примерно равно 1. Это наблюдение подтверждает гипотезу о том, что распределение генов по цепям происходит случайным образом с вероятностью 0,5.

Статистическая проверка случайности распределения

Проверим гипотезу, приведённую выше, статистически с помощью функций MS Excel СЛЧИС, ЕСЛИ, СЧЁТЕСЛИ и ABS.

Проведём симуляцию случайного распределения генов бактерии L. amylolyticus. С помощью комбинации функций СЛЧИС и ЕСЛИ сгенерируем таблицу 1676 строк на 1000 столбцов, каждая ячейка которой будет содержать либо «+1», либо «-1». Каждый столбец такой таблицы будет имитировать последовательность генов одной цепи, а числа «+1» и «-1» будут имитировать расположение гена на одной из двух цепей ДНК (прямой и комплементарной). Сверху каждого столбца с помощью функции СЧЁТЕСЛИ я буду подсчитывать количество «+1» и «-1» отдельно, а также подсчитывать отклонение каждого числа «+1» и «-1» от 838 (именно от 838, так как распределение по 838 «генов» на каждой цепи является ожидаемым) и брать от него модуль функцией ABS. У нашей бактерии отклонение от ожидаемого распределения генов составляет 5. Далее я посчитаю количество отклонений, значение которых больше либо равно 5 (далее «отклонения-5»), и полученное значение поделю на 1000, тем самым найдя вероятность появления отклонений-5.

Расчёты (лист «Случайность распределения» в Сопроводительных материалах) показали, что вероятность появления отклонений-5 у рассматриваемых 1000 «цепей» равна 0,832. Таким образом, можно смело сказать, что распределение генов на прямой и комплементарной цепях действительно происходит случайно.

Процентное соотношение белков в протеоме бактерии

Гипотетические белки – такие белки, существование которых ещё не доказано, или функция которых ещё не обнаружена. На данный момент ведутся обширные работы по определению биологической роли белка и значения в контексте клетки – предсказанию функции белка.

Табл. 2. Процентное соотношение белков в протеоме L. amylolyticus
Вид белка Количество Процентное содержание
Гипотетические белки 388 26.21%
Рибосомные белки 56 3.83%

Данная проблема возникла вследствие сверхбыстрых темпов развития технологий секвенирования, за которыми не успевают темпы экспериментально доказательной характеристики открытых белков[4]. Таблица 2, отображающая процентное соотношение белков в протеоме L. amylolyticus, показывает, что в протеоме нашей бактерии всего 383 таких белка, что составляет примерно 26% от всего протеома бактерии. Основываясь на этих данных, можно смело сказать, что протеом этой бактерии не изучен на 26%.

Рибосомные белки входят в состав рибосом клетки. В геноме L. amylolyticus закодировано 56 таких белков (почти 4% от всего протеома), что отвечает среднему показателю у прокариотических клеток [5] (см. табл. 2).

Рибосомные РНК, закодированные в геноме бактерии

Всего в геноме бактерии L. amylolyticus закодировано 18 рРНК. Их всего 3 типа: 5S, 16S и 23S рРНК.

Сопроводительные материалы

- готовые результаты расчётов и построения гистограмм.

Благодарности

Выражаю огромную благодарность всему составу преподавателей за то, что дали такую возможность провести собственное (почти) биоинформатическое исследование и немного побыть учёным. Отдельная благодарность Сергею Александровичу Спирину и Алексеевскому Андрею Владимировичу, которые постарались в полной мере донести до нашего курса простые и правильные методы работы с электронными таблицами, а также показали, как интересно и увлекательно вести научную работу.

Список литературы:

  1. NCBI Genomes: страница генома Lactobacillus amylolyticus (08.12.2019);
  2. NCBI Genomes: общие сведения о геноме Lactobacillus amylolyticus (12.12.2019);
  3. Википедия Свободная энциклопедия, русская – Псевдогены (12.12.2019);
  4. Википедия Свободная энциклопедия, русская – Предсказание функции белка (12.12.2019);
  5. Википедия Свободная энциклопедия, русская – Рибосома, Рибосомные белки (12.12.2019).