В данном обзоре представлены результаты анализа генома и протеома бактерии Lactobacillus amylolyticus, полученные с помощью электронных таблиц Microsoft Office Excel 365 (MS Excel), на основе данные из базы данных NCBI. Данная работа была проведена в рамках обучения на 1-м курсе ФББ МГУ им. М. В. Ломоносова.
В данном обзоре будут показаны результаты обработки данных о геноме и протеоме Lactobacillus amylolyticus. С помощью возможностей, предоставленных MS Excel, был проанализирован геном и протеом бактерии. Во время работы была использована хромосомная таблица бактерии с сайта NCBI, с помощью функционала MS Excel приведена в формат плоской таблицы генов и проанализирована автором на наличие гипотетических белков, рибосомальных белков, псевдогенов, генов РНК, а также проводились расчёты числа генов, кодирующих белок.
Материалы были взяты из архива геномов Национального центра биотехнологической информации (NCBI)[1]. При обработке материалов были использованы следующие возможности электронных таблиц MS Office Excel 365:
Геном Lactobacillus amylolyticus представлен 1 хромосомой. Эта бактерия имеет 1 плазмиду[2]. Геном состоит из 421788 азотистых оснований, в нём закодировано 1461 белок, а также 85 РНК разных видов.
Для того, чтобы понять, каким образом распределены белки в протеоме L. amylolyticus, была построена гистограмма распределения белков по длинам (см. рис. 1).
Самый маленький белок имеет длину 32 аминокислотных остатка (а. о.) и является гипотетическим, в то время как самый большой белок имеет длину 1435 а. о. и носит название ДНК-полимераза III PolC-типа. Как мы можем заметить, большинство белков имеют длину от 100 до 400 а. о., а самыми многочисленными являются белки в рамках от 200 до 300 а. о., количество которых насчитывает 366 штук и составляет 25% от всего протеома бактерии. Функционально эти белки очень разнообразны, из-за чего вряд ли удастся установить их функциональную принадлежность. В целом можно лишь сказать, что клетке очень выгодно синтезировать белки именно длины от 100 а. о. до 400 а. о., так как такого количества аминокислотных остатков вполне достаточно для того, чтобы формировать белки с необходимым функционалом, но и при этом не тратить большого количества энергии и ресурсов на их создание. Количество самых маленьких (длина менее 50 а. о.) и самых больших (длина более 1000 а. о.) совпадает и составляет 14 штук.
Ген белка содержит в себе информацию о том или ином белке организма, кодируя её в виде ДНК. Судя по таблице числа генов в геноме L. amylolyticus (см. табл. 1), в геноме данной бактерии всего 1461 таких генов: 745 на прямой цепи и 716 на комплементарной.
Табл. 1. Распределение генов по цепям в геноме L. amylolyticus | ||
---|---|---|
Название | Прямая цепь | Комплементарная цепь |
Гены белка | 745 | 716 |
Псевдогены | 61 | 69 |
Гены РНК | 37 | 48 |
Псевдогены - нефункциональные аналоги структурных генов, утратившие способность кодировать белок и не экспрессирующиеся в клетке[3]. В геноме L. amylolyticus их количество на прямой и комплементарной цепях не сильно отличается: 61 на прямой цепи, 69 на комплементарной (см. табл. 1).
Гены РНК в большинстве случаев кодируют информацию о последовательности разных типов РНК. В случае L. amylolyticus этих типов 5: RNase_P_RNA, rRNA, SRP_RNA, tmRNA, tRNA. Все РНК распределены по 2-м цепям таким образом: на прямой цепи находятся 37 штук, на комплементарной – 48 (см. табл. 1).
Из подобного распределения генов по цепям ДНК можно сделать вывод, что эти гены были распределены по 2-м цепям случайным образом с вероятностью 0,5, так как соотношение количеств генов на прямой и комплементарной цепях примерно равно 1. Это наблюдение подтверждает гипотезу о том, что распределение генов по цепям происходит случайным образом с вероятностью 0,5.
Проверим гипотезу, приведённую выше, статистически с помощью функций MS Excel СЛЧИС, ЕСЛИ, СЧЁТЕСЛИ и ABS.
Проведём симуляцию случайного распределения генов бактерии L. amylolyticus. С помощью комбинации функций СЛЧИС и ЕСЛИ сгенерируем таблицу 1676 строк на 1000 столбцов, каждая ячейка которой будет содержать либо «+1», либо «-1». Каждый столбец такой таблицы будет имитировать последовательность генов одной цепи, а числа «+1» и «-1» будут имитировать расположение гена на одной из двух цепей ДНК (прямой и комплементарной). Сверху каждого столбца с помощью функции СЧЁТЕСЛИ я буду подсчитывать количество «+1» и «-1» отдельно, а также подсчитывать отклонение каждого числа «+1» и «-1» от 838 (именно от 838, так как распределение по 838 «генов» на каждой цепи является ожидаемым) и брать от него модуль функцией ABS. У нашей бактерии отклонение от ожидаемого распределения генов составляет 5. Далее я посчитаю количество отклонений, значение которых больше либо равно 5 (далее «отклонения-5»), и полученное значение поделю на 1000, тем самым найдя вероятность появления отклонений-5.
Расчёты (лист «Случайность распределения» в Сопроводительных материалах) показали, что вероятность появления отклонений-5 у рассматриваемых 1000 «цепей» равна 0,832. Таким образом, можно смело сказать, что распределение генов на прямой и комплементарной цепях действительно происходит случайно.
Гипотетические белки – такие белки, существование которых ещё не доказано, или функция которых ещё не обнаружена. На данный момент ведутся обширные работы по определению биологической роли белка и значения в контексте клетки – предсказанию функции белка.
Табл. 2. Процентное соотношение белков в протеоме L. amylolyticus | ||
---|---|---|
Вид белка | Количество | Процентное содержание |
Гипотетические белки | 388 | 26.21% |
Рибосомные белки | 56 | 3.83% |
Данная проблема возникла вследствие сверхбыстрых темпов развития технологий секвенирования, за которыми не успевают темпы экспериментально доказательной характеристики открытых белков[4]. Таблица 2, отображающая процентное соотношение белков в протеоме L. amylolyticus, показывает, что в протеоме нашей бактерии всего 383 таких белка, что составляет примерно 26% от всего протеома бактерии. Основываясь на этих данных, можно смело сказать, что протеом этой бактерии не изучен на 26%.
Рибосомные белки входят в состав рибосом клетки. В геноме L. amylolyticus закодировано 56 таких белков (почти 4% от всего протеома), что отвечает среднему показателю у прокариотических клеток [5] (см. табл. 2).
Всего в геноме бактерии L. amylolyticus закодировано 18 рРНК. Их всего 3 типа: 5S, 16S и 23S рРНК.
- готовые результаты расчётов и построения гистограмм.
Выражаю огромную благодарность всему составу преподавателей за то, что дали такую возможность провести собственное (почти) биоинформатическое исследование и немного побыть учёным. Отдельная благодарность Сергею Александровичу Спирину и Алексеевскому Андрею Владимировичу, которые постарались в полной мере донести до нашего курса простые и правильные методы работы с электронными таблицами, а также показали, как интересно и увлекательно вести научную работу.