← назад к I семестру

Практикум № 01

Мини-обзор генома бактерии Humibacter sp. BT305

Анализ генома и протеома грамположительной актинобактерии Humibacter sp. BT305: распределение длин белков, аминокислотный состав протеома, расстояния между РНК-генами и частота стоп-кодонов в кодирующих последовательностях.

~4,3тыс
белков в протеоме
70,8%
GC-состав генома
13,31%
аланина в протеоме
3 584
валидных стоп-кодонов
○ abstract

Аннотация

В данном мини-обзоре анализируется геном и протеом грамположительной бактерии Humibacter sp. BT305. Обзор носит описательный характер, результаты по возможности подкрепляются биоинформатическими закономерностями.

○ 01

Введение

Таксономия: cellular organisms; Bacteria; Actinomycetota; Actinomycetia; Micrococcales; Microbacteriaceae; Humibacter; Humibacter sp. BT305.

Род Humibacter был впервые предложен Ваз-Морейрой и соавторами [1], а типовым видом был Humibacter albus. Этот род относится к семейству Microbacteriaceae типа Actinobacteria, а Humibacter sp. были выделены из широкого спектра природных источников: компост из осадка сточных вод [1], древесная стружка агарового дерева [2], образцы почвы из естественных пещер [3], места гнездования белой цапли [4], почвы сельскохозяйственных полей [5].

Представители рода Humibacter являются аэробами, грамположительными, подвижной или неподвижной формы, имеют короткую палочковидную форму. Их клетки содержат орнитин и 2,4-диаминомасляную кислоту (DAB) в составе пептидогликана клеточной стенки, N-ацетилированный муреин и основные менахиноны (MK) 11 и 12 [1–5]. Геномный анализ близкородственных родов (например, Leifsonia), принадлежащих к семейству Microbacteriaceae, показал, что эти микробы могут способствовать росту растений [6] и устойчивости к тяжёлым металлам [7], что позволяет предположить их применение в сельском хозяйстве.

Бактерия Humibacter aquilariae BT305 была выделена из тонкого кишечника взрослого кастрированного крупного рогатого скота мясного направления. Содержимое подвздошной кишки было взято на местной бойне (Гунви-Гун, Южная Корея). Протокол исследования был одобрен институциональным наблюдательным советом Университета Кюнг Хи [KHUASP, (SE)-17-026], и эксперименты проводились в соответствии с руководящими принципами ARRIVE [8]. Изолят культивировали на агаре для инфузии мозгового вещества (BHI) (Бектон, Дикинсон, Франклин Лейкс, Нью-Джерси, США) в аэробных условиях в течение 36 ч при температуре 30°C.

Цель настоящего мини-обзора — описать основные особенности организации генома и протеома Humibacter sp. BT305 на основе аннотаций NCBI и простых биоинформатических анализов. В работе рассматриваются:

  • Распределение длин белков в протеоме;
  • Определение самых частых аминокислот в протеоме;
  • Распределение расстояния между РНК-генами;
  • Подсчёт количества стоп-кодонов в CDS.
○ 02

Методы

Последовательность генома и аннотированные списки генов Humibacter sp. BT305 были получены с сайта NCBI (National Center for Biotechnology Information) в формате GenBank/таблиц особенностей [9]. На их основе сформированы рабочие таблицы, содержащие координаты CDS, длины генов и белков, а также текстовые аннотации.

Источники данных и расчёты

Длины белков. Для всех CDS использовались аннотированные длины белков из файла GCF_003347035.1_ASM334703v1_protein.faa.gz; распределение по интервалам и средние значения рассчитывались в Google Sheets.

Аминокислотный состав. Использовались аннотированные белковые последовательности из файла GCF_003347035.1_ASM334703v1_protein.faa.gz, импортированные в Google Sheets.

Расстояния между РНК-генами. Использовались аннотации генов rRNA и tRNA, извлечённые из файла GCF_003347035.1_ASM334703v1_feature_table.txt.gz.

Стоп-кодоны. Использовались нуклеотидные CDS, взятые из файла GCF_003347035.1_ASM334703v1_cds_from_genomic.fna.gz. Обработка выполнялась Python-скриптом.

○ 03

Распределение длин белков в протеоме

При помощи электронных таблиц было вычислено распределение белков по длине аминокислотных остатков (см. Рис. 1). Длины белков бактерии Humibacter sp. BT305 в основном лежат в диапазоне 60–660 аминокислот; белки длиной более 660 встречаются реже, а случаи белков длиной свыше 1140 единичны (всего 34). Наибольшее число белков имеют в своём составе 120–360 аминокислотных остатков. Самый длинный белок состоит из 2549 аминокислот, самый короткий — из 22.

На диаграмме видно: аминокислот с длиной менее 60 немного, затем, после резкого возрастания количества длин белков в диапазоне 60–360, происходит постепенное снижение числа белков с большей длиной.

Гистограмма длин белков
Рис. 1 Гистограмма распределения длин белков в протеоме Humibacter sp. BT305.

У Humibacter sp. BT305 большое количество длинных белков — для обычных бактерий это редко. Можно предположить, что это связано с тем, что бактерии необходимы крупные ферменты для расщепления сложных органических соединений, так как она встречается в разных природных источниках.

○ 04

Определение самых частых аминокислот в протеоме

В ходе исследования было подсчитано, сколько раз каждая аминокислота встречается в протеоме. Также была найдена доля в процентах относительно общего количества аминокислот (см. Табл. 1). Была построена круговая диаграмма на основе процентного содержания аминокислот в протеоме (см. Рис. 2).

Особенностью протеома Humibacter sp. BT305 является высокое содержание гидрофобных аминокислот — аланина (13,31%), лейцина (10,17%), валина (9,15%) и глицина (9,02%). Такая структура типична для бактерий с высоким GC-составом генома (70,8%), относящихся к актинобактериям. Богатство гидрофобных остатков указывает на наличие у бактерии большого количества мембранных и структурно плотных ферментов, что согласуется с её обнаружением в почве, древесине и кишечнике животных — экосистемах со сложными органическими субстратами.

Отметим, что селеноцистеин отсутствовал в протеоме бактерии.

Табл. 1 · Частота аминокислот в протеоме
Код Название Количество Доля
AАланин149 91813,31%
LЛейцин114 54010,17%
VВалин103 0339,15%
GГлицин101 6269,02%
RАргинин83 5137,42%
DАспарагиновая кислота71 8646,38%
SСерин69 6626,19%
TТреонин69 1056,14%
PПролин63 2505,62%
EГлутаминовая кислота62 9865,59%
IИзолейцин47 9594,26%
FФенилаланин33 8933,01%
QГлутамин30 4972,71%
YТирозин22 4852,00%
HГистидин21 3271,89%
NАспарагин19 8991,77%
KЛизин19 8911,77%
MМетионин18 7751,67%
WТриптофан16 4731,46%
CЦистеин5 4630,49%
UСеленоцистеин00%
Круговая диаграмма аминокислотного состава
Рис. 2 Диаграмма аминокислотного состава протеома Humibacter sp. BT305.
○ 05

Распределение расстояния между РНК-генами

В ходе исследования были построены гистограммы расстояний между РНК-генами для каждого их типа.

тРНК-гены

Исследование расстояний между тРНК-генами в геноме Humibacter sp. BT305 (Рис. 3) показало крайне неравномерную и разреженную структуру их расположения. Расстояния между соседними тРНК-генами варьируют в чрезвычайно широком диапазоне — от десятков нуклеотидов (87–102 п. н.) до значений, превышающих 400 000–500 000 п. н. Можно предположить, что такое разнообразие интервалов свидетельствует о том, что тРНК-гены образуют характерные для быстрорастущих бактерий кластеры и распределены по геному рассеянно, вставляясь в структуру хромосомы единичными элементами.

Гистограмма расстояний между тРНК-генами
Рис. 3 Гистограмма расстояний между тРНК-генами.

У многих активных и быстрорастущих бактерий тРНК-гены часто организованы в компактные группы по 5–10 генов, что обеспечивает высокую скорость синтеза белка и позволяет быстро наращивать рибосомальный аппарат при переходе в фазу интенсивного роста. В случае Humibacter sp. BT305 мы видим противоположную ситуацию: тандемных групп почти нет, а огромные промежутки между отдельными копиями тРНК-генов указывают на низкую потребность клетки в ускоренной трансляции и на ориентацию на медленный темп роста.

рРНК-гены

Анализ расстояний между рибосомальными генами (рРНК) в геноме Humibacter sp. BT305 (Рис. 4) показывает характерную для актинобактерий структуру, свидетельствующую о наличии нескольких рРНК-оперонов и умеренной скорости роста организма. Обнаружены две группы коротких расстояний между рРНК-генами (1756 нт и 2734 нт), а также один длинный интервал длиной примерно 450 000 нт.

Гистограмма расстояний между рРНК-генами
Рис. 4 Гистограмма расстояний между рРНК-генами.

Можно предположить, что функционально ограниченное число rrn-оперонов накладывает верхний предел на скорость сборки рибосом и, следовательно, на максимально возможную скорость деления клетки. Бактерии, имеющие всего 1–2 rrn-оперона, обычно растут медленно, но проявляют повышенную устойчивость к стрессам и обладают более гибкими метаболическими возможностями.

некодирующие РНК

Анализ генома Humibacter sp. BT305 показывает, что некодирующие РНК (нкРНК) представлены в нём крайне ограниченно. В отличие от тРНК- и рРНК-генов, которые образуют множество интервалов благодаря своей численности, нкРНК обнаружены в аннотации только в виде двух элементов. Это подтверждается тем, что между соседними нкРНК-генами был зафиксирован всего один интервал длиной около 896 000 нт.

Низкая представленность нкРНК характерна для бактерий с относительно простой системой регуляции. В отличие от сложных организмов и бактерий с развитой сигнальной архитектурой — таких как многие патогены или симбионты с плотным взаимодействием с хозяином — представители почвенных и сапрофитных микробных сообществ часто обладают минимальным набором нкРНК. Они используют преимущественно базовые механизмы контроля экспрессии генов и не нуждаются в сложных регуляторных сетях с участием множества малых некодирующих РНК.

○ 06

Подсчёт количества стоп-кодонов в CDS

Для оценки особенностей генетического кода (в частности, факторов терминации) был проведён анализ терминальных триплетов во всех CDS генома Humibacter sp. BT305 (Табл. 2). Подсчёт выполнялся с помощью программы, написанной на языке Python. Валидный стоп-кодон (TAA, TAG или TGA) содержали 3584 последовательности.

Распределение стоп-кодонов оказалось характерным для актинобактерий с высоким GC-содержанием: доминирующим стоп-кодоном является TGA (78,2%), за ним следуют TAG (18,4%) и редкий TAA (3,4%). Преобладание TGA отражает филогенетические особенности Microbacteriaceae и, вероятно, связано с более высокой функциональной значимостью терминационного фактора RF2, распознающего этот кодон. Низкая частота AT-богатого TAA согласуется с общей тенденцией избегания AT-триплетов в GC-насыщенных геномах.

Табл. 2 · Подсчёт стоп-кодонов в CDS
Стоп-кодон Количество Доля
TGA2 80378,2%
TAG65918,4%
TAA1223,4%
○ 07

Сопроводительные материалы

01 · Google-таблица с гистограммой длин белков

Длина каждого белка определялась как число аминокислотных остатков с использованием стандартной функции LEN. Полученные значения были сгруппированы по интервалам длины, после чего с применением функции COUNTIF подсчитывалось количество белков в каждом интервале. На основе полученных данных была построена гистограмма распределения длин белков в протеоме.

Источник: ftp.ncbi.nlm.nih.gov/…/GCF_003347035.1_ASM334703v1/

02 · Google-таблица с количеством аминокислот

Аминокислотные последовательности были размещены в одном столбце, после чего для каждой аминокислоты рассчитывалось число её вхождений формулами вида =LEN(A1) - LEN(SUBSTITUTE(A1; "A"; "")). Формула применялась ко всем строкам и суммировалась функцией SUM. На основе общего количества всех аминокислот вычислялись процентные доли каждого типа. Итоговые значения использовались для построения таблицы и диаграммы аминокислотного состава протеома.

источник: Google-таблица, предоставленная автором на личной странице kodomo.

03 · Google-таблица с распределением РНК-генов

Для каждого типа РНК-генов (rRNA и tRNA) координаты генов сортировались по положению в геноме, после чего вычислялись расстояния между соседними генами как разность между начальной координатой следующего гена и конечной координатой предыдущего. Расчёты выполнялись в табличной форме с использованием стандартных функций Google Sheets. Полученные значения использовались для построения гистограмм распределения расстояний между РНК-генами.

источник: Google-таблица, предоставленная автором на личной странице kodomo.

04 · Python-скрипт для подсчёта стоп-кодонов в CDS

Программа выполняет автоматическую обработку FASTA-файла с нуклеотидными последовательностями CDS. Для каждой последовательности извлекается терминальный триплет, проверяется его соответствие стандартным стоп-кодонам (TAA, TAG, TGA), после чего подсчитывается их абсолютная частота и процентное распределение. Результатом работы скрипта является таблица с количеством каждого стоп-кодона и их долей среди всех валидных CDS.

источник: код, предоставленный автором на личной странице kodomo.

○ 08

Список литературы

  1. Vaz-Moreira I, Nobre MF, Ferreira AC, Schumann P, Nunes OC, Manaia CM. 2008. Humibacter albus gen. nov., sp. nov., isolated from sewage sludge compost. Int J Syst Evol Microbiol 58:1014–1018.
  2. Lin SY, Hameed A, Liu YC, Hsu YH, Hsieh YT, Lai WA, Young CC. 2017. Humibacter aquilariae sp. nov., an actinobacterium isolated from an agarwood chip. Int J Syst Evol Microbiol 67:1468–1472.
  3. Lee SD. 2013. Humibacter antri sp. nov., an actinobacterium isolated from a natural cave, and emended description of the genus Humibacter. Int J Syst Evol Microbiol 63:4315–4319.
  4. Park J, Kim YR, Kim MK, Jo JH, Im WT, Kim SB. 2016. Humibacter soli sp. nov., isolated from soil. Int J Syst Evol Microbiol 66:2509–2514.
  5. Kim EK, Hoang VA, Kim YJ, Nguyen NL, Sukweenadhi J, Kang JP, Yang DC. 2015. Humibacter ginsengiterrae sp. nov., and Humibacter ginsengisoli sp. nov., isolated from soil of a ginseng field. Int J Syst Evol Microbiol 65:2734–2740.
  6. Kang SM, Asaf S, Kim SJ, Yun BW, Lee IJ. 2016. Complete genome sequence of plant growth-promoting bacterium Leifsonia xyli SE134, a possible gibberellin and auxin producer. J Biotechnol 239:34–38.
  7. Egidi E, Wood JL, Fox EM, Liu W, Franks AE. 2017. Draft genome sequence of Leifsonia sp. strain NCR5, a rhizobacterium isolated from cadmium-contaminated soil. Genome Announc 5:e00520-17.
  8. Kilkenny C, Browne WJ, Cuthill IC, Emerson M, Altman DG. 2010. Improving bioscience research reporting: the ARRIVE guidelines for reporting animal research. PLoS Biol 8:e1000412.
  9. NCBI Genome Assembly GCF_003347035.1: ftp.ncbi.nlm.nih.gov/…/GCF_003347035.1_ASM334703v1/

вернуться к I семестру