Мини-обзор генома бактерии Humibacter sp. BT305
Анализ генома и протеома грамположительной актинобактерии Humibacter sp. BT305: распределение длин белков, аминокислотный состав протеома, расстояния между РНК-генами и частота стоп-кодонов в кодирующих последовательностях.
Аннотация
В данном мини-обзоре анализируется геном и протеом грамположительной бактерии Humibacter sp. BT305. Обзор носит описательный характер, результаты по возможности подкрепляются биоинформатическими закономерностями.
Введение
Таксономия: cellular organisms; Bacteria; Actinomycetota; Actinomycetia; Micrococcales; Microbacteriaceae; Humibacter; Humibacter sp. BT305.
Род Humibacter был впервые предложен Ваз-Морейрой и соавторами [1], а типовым видом был Humibacter albus. Этот род относится к семейству Microbacteriaceae типа Actinobacteria, а Humibacter sp. были выделены из широкого спектра природных источников: компост из осадка сточных вод [1], древесная стружка агарового дерева [2], образцы почвы из естественных пещер [3], места гнездования белой цапли [4], почвы сельскохозяйственных полей [5].
Представители рода Humibacter являются аэробами, грамположительными, подвижной или неподвижной формы, имеют короткую палочковидную форму. Их клетки содержат орнитин и 2,4-диаминомасляную кислоту (DAB) в составе пептидогликана клеточной стенки, N-ацетилированный муреин и основные менахиноны (MK) 11 и 12 [1–5]. Геномный анализ близкородственных родов (например, Leifsonia), принадлежащих к семейству Microbacteriaceae, показал, что эти микробы могут способствовать росту растений [6] и устойчивости к тяжёлым металлам [7], что позволяет предположить их применение в сельском хозяйстве.
Бактерия Humibacter aquilariae BT305 была выделена из тонкого кишечника взрослого кастрированного крупного рогатого скота мясного направления. Содержимое подвздошной кишки было взято на местной бойне (Гунви-Гун, Южная Корея). Протокол исследования был одобрен институциональным наблюдательным советом Университета Кюнг Хи [KHUASP, (SE)-17-026], и эксперименты проводились в соответствии с руководящими принципами ARRIVE [8]. Изолят культивировали на агаре для инфузии мозгового вещества (BHI) (Бектон, Дикинсон, Франклин Лейкс, Нью-Джерси, США) в аэробных условиях в течение 36 ч при температуре 30°C.
Цель настоящего мини-обзора — описать основные особенности организации генома и протеома Humibacter sp. BT305 на основе аннотаций NCBI и простых биоинформатических анализов. В работе рассматриваются:
- Распределение длин белков в протеоме;
- Определение самых частых аминокислот в протеоме;
- Распределение расстояния между РНК-генами;
- Подсчёт количества стоп-кодонов в CDS.
Методы
Последовательность генома и аннотированные списки генов Humibacter sp. BT305 были получены с сайта NCBI (National Center for Biotechnology Information) в формате GenBank/таблиц особенностей [9]. На их основе сформированы рабочие таблицы, содержащие координаты CDS, длины генов и белков, а также текстовые аннотации.
Источники данных и расчёты
Длины белков. Для всех CDS использовались аннотированные длины белков из файла GCF_003347035.1_ASM334703v1_protein.faa.gz; распределение по интервалам и средние значения рассчитывались в Google Sheets.
Аминокислотный состав. Использовались аннотированные белковые последовательности из файла GCF_003347035.1_ASM334703v1_protein.faa.gz, импортированные в Google Sheets.
Расстояния между РНК-генами. Использовались аннотации генов rRNA и tRNA, извлечённые из файла GCF_003347035.1_ASM334703v1_feature_table.txt.gz.
Стоп-кодоны. Использовались нуклеотидные CDS, взятые из файла GCF_003347035.1_ASM334703v1_cds_from_genomic.fna.gz. Обработка выполнялась Python-скриптом.
Распределение длин белков в протеоме
При помощи электронных таблиц было вычислено распределение белков по длине аминокислотных остатков (см. Рис. 1). Длины белков бактерии Humibacter sp. BT305 в основном лежат в диапазоне 60–660 аминокислот; белки длиной более 660 встречаются реже, а случаи белков длиной свыше 1140 единичны (всего 34). Наибольшее число белков имеют в своём составе 120–360 аминокислотных остатков. Самый длинный белок состоит из 2549 аминокислот, самый короткий — из 22.
На диаграмме видно: аминокислот с длиной менее 60 немного, затем, после резкого возрастания количества длин белков в диапазоне 60–360, происходит постепенное снижение числа белков с большей длиной.
У Humibacter sp. BT305 большое количество длинных белков — для обычных бактерий это редко. Можно предположить, что это связано с тем, что бактерии необходимы крупные ферменты для расщепления сложных органических соединений, так как она встречается в разных природных источниках.
Определение самых частых аминокислот в протеоме
В ходе исследования было подсчитано, сколько раз каждая аминокислота встречается в протеоме. Также была найдена доля в процентах относительно общего количества аминокислот (см. Табл. 1). Была построена круговая диаграмма на основе процентного содержания аминокислот в протеоме (см. Рис. 2).
Особенностью протеома Humibacter sp. BT305 является высокое содержание гидрофобных аминокислот — аланина (13,31%), лейцина (10,17%), валина (9,15%) и глицина (9,02%). Такая структура типична для бактерий с высоким GC-составом генома (70,8%), относящихся к актинобактериям. Богатство гидрофобных остатков указывает на наличие у бактерии большого количества мембранных и структурно плотных ферментов, что согласуется с её обнаружением в почве, древесине и кишечнике животных — экосистемах со сложными органическими субстратами.
Отметим, что селеноцистеин отсутствовал в протеоме бактерии.
| Код | Название | Количество | Доля |
|---|---|---|---|
| A | Аланин | 149 918 | 13,31% |
| L | Лейцин | 114 540 | 10,17% |
| V | Валин | 103 033 | 9,15% |
| G | Глицин | 101 626 | 9,02% |
| R | Аргинин | 83 513 | 7,42% |
| D | Аспарагиновая кислота | 71 864 | 6,38% |
| S | Серин | 69 662 | 6,19% |
| T | Треонин | 69 105 | 6,14% |
| P | Пролин | 63 250 | 5,62% |
| E | Глутаминовая кислота | 62 986 | 5,59% |
| I | Изолейцин | 47 959 | 4,26% |
| F | Фенилаланин | 33 893 | 3,01% |
| Q | Глутамин | 30 497 | 2,71% |
| Y | Тирозин | 22 485 | 2,00% |
| H | Гистидин | 21 327 | 1,89% |
| N | Аспарагин | 19 899 | 1,77% |
| K | Лизин | 19 891 | 1,77% |
| M | Метионин | 18 775 | 1,67% |
| W | Триптофан | 16 473 | 1,46% |
| C | Цистеин | 5 463 | 0,49% |
| U | Селеноцистеин | 0 | 0% |
Распределение расстояния между РНК-генами
В ходе исследования были построены гистограммы расстояний между РНК-генами для каждого их типа.
тРНК-гены
Исследование расстояний между тРНК-генами в геноме Humibacter sp. BT305 (Рис. 3) показало крайне неравномерную и разреженную структуру их расположения. Расстояния между соседними тРНК-генами варьируют в чрезвычайно широком диапазоне — от десятков нуклеотидов (87–102 п. н.) до значений, превышающих 400 000–500 000 п. н. Можно предположить, что такое разнообразие интервалов свидетельствует о том, что тРНК-гены образуют характерные для быстрорастущих бактерий кластеры и распределены по геному рассеянно, вставляясь в структуру хромосомы единичными элементами.
У многих активных и быстрорастущих бактерий тРНК-гены часто организованы в компактные группы по 5–10 генов, что обеспечивает высокую скорость синтеза белка и позволяет быстро наращивать рибосомальный аппарат при переходе в фазу интенсивного роста. В случае Humibacter sp. BT305 мы видим противоположную ситуацию: тандемных групп почти нет, а огромные промежутки между отдельными копиями тРНК-генов указывают на низкую потребность клетки в ускоренной трансляции и на ориентацию на медленный темп роста.
рРНК-гены
Анализ расстояний между рибосомальными генами (рРНК) в геноме Humibacter sp. BT305 (Рис. 4) показывает характерную для актинобактерий структуру, свидетельствующую о наличии нескольких рРНК-оперонов и умеренной скорости роста организма. Обнаружены две группы коротких расстояний между рРНК-генами (1756 нт и 2734 нт), а также один длинный интервал длиной примерно 450 000 нт.
Можно предположить, что функционально ограниченное число rrn-оперонов накладывает верхний предел на скорость сборки рибосом и, следовательно, на максимально возможную скорость деления клетки. Бактерии, имеющие всего 1–2 rrn-оперона, обычно растут медленно, но проявляют повышенную устойчивость к стрессам и обладают более гибкими метаболическими возможностями.
некодирующие РНК
Анализ генома Humibacter sp. BT305 показывает, что некодирующие РНК (нкРНК) представлены в нём крайне ограниченно. В отличие от тРНК- и рРНК-генов, которые образуют множество интервалов благодаря своей численности, нкРНК обнаружены в аннотации только в виде двух элементов. Это подтверждается тем, что между соседними нкРНК-генами был зафиксирован всего один интервал длиной около 896 000 нт.
Низкая представленность нкРНК характерна для бактерий с относительно простой системой регуляции. В отличие от сложных организмов и бактерий с развитой сигнальной архитектурой — таких как многие патогены или симбионты с плотным взаимодействием с хозяином — представители почвенных и сапрофитных микробных сообществ часто обладают минимальным набором нкРНК. Они используют преимущественно базовые механизмы контроля экспрессии генов и не нуждаются в сложных регуляторных сетях с участием множества малых некодирующих РНК.
Подсчёт количества стоп-кодонов в CDS
Для оценки особенностей генетического кода (в частности, факторов терминации) был проведён анализ терминальных триплетов во всех CDS генома Humibacter sp. BT305 (Табл. 2). Подсчёт выполнялся с помощью программы, написанной на языке Python. Валидный стоп-кодон (TAA, TAG или TGA) содержали 3584 последовательности.
Распределение стоп-кодонов оказалось характерным для актинобактерий с высоким GC-содержанием: доминирующим стоп-кодоном является TGA (78,2%), за ним следуют TAG (18,4%) и редкий TAA (3,4%). Преобладание TGA отражает филогенетические особенности Microbacteriaceae и, вероятно, связано с более высокой функциональной значимостью терминационного фактора RF2, распознающего этот кодон. Низкая частота AT-богатого TAA согласуется с общей тенденцией избегания AT-триплетов в GC-насыщенных геномах.
| Стоп-кодон | Количество | Доля |
|---|---|---|
| TGA | 2 803 | 78,2% |
| TAG | 659 | 18,4% |
| TAA | 122 | 3,4% |
Сопроводительные материалы
01 · Google-таблица с гистограммой длин белков
Длина каждого белка определялась как число аминокислотных остатков с использованием стандартной функции LEN. Полученные значения были сгруппированы по интервалам длины, после чего с применением функции COUNTIF подсчитывалось количество белков в каждом интервале. На основе полученных данных была построена гистограмма распределения длин белков в протеоме.
Источник: ftp.ncbi.nlm.nih.gov/…/GCF_003347035.1_ASM334703v1/
02 · Google-таблица с количеством аминокислот
Аминокислотные последовательности были размещены в одном столбце, после чего для каждой аминокислоты рассчитывалось число её вхождений формулами вида =LEN(A1) - LEN(SUBSTITUTE(A1; "A"; "")). Формула применялась ко всем строкам и суммировалась функцией SUM. На основе общего количества всех аминокислот вычислялись процентные доли каждого типа. Итоговые значения использовались для построения таблицы и диаграммы аминокислотного состава протеома.
источник: Google-таблица, предоставленная автором на личной странице kodomo.
03 · Google-таблица с распределением РНК-генов
Для каждого типа РНК-генов (rRNA и tRNA) координаты генов сортировались по положению в геноме, после чего вычислялись расстояния между соседними генами как разность между начальной координатой следующего гена и конечной координатой предыдущего. Расчёты выполнялись в табличной форме с использованием стандартных функций Google Sheets. Полученные значения использовались для построения гистограмм распределения расстояний между РНК-генами.
источник: Google-таблица, предоставленная автором на личной странице kodomo.
04 · Python-скрипт для подсчёта стоп-кодонов в CDS
Программа выполняет автоматическую обработку FASTA-файла с нуклеотидными последовательностями CDS. Для каждой последовательности извлекается терминальный триплет, проверяется его соответствие стандартным стоп-кодонам (TAA, TAG, TGA), после чего подсчитывается их абсолютная частота и процентное распределение. Результатом работы скрипта является таблица с количеством каждого стоп-кодона и их долей среди всех валидных CDS.
источник: код, предоставленный автором на личной странице kodomo.
Список литературы
- Vaz-Moreira I, Nobre MF, Ferreira AC, Schumann P, Nunes OC, Manaia CM. 2008. Humibacter albus gen. nov., sp. nov., isolated from sewage sludge compost. Int J Syst Evol Microbiol 58:1014–1018.
- Lin SY, Hameed A, Liu YC, Hsu YH, Hsieh YT, Lai WA, Young CC. 2017. Humibacter aquilariae sp. nov., an actinobacterium isolated from an agarwood chip. Int J Syst Evol Microbiol 67:1468–1472.
- Lee SD. 2013. Humibacter antri sp. nov., an actinobacterium isolated from a natural cave, and emended description of the genus Humibacter. Int J Syst Evol Microbiol 63:4315–4319.
- Park J, Kim YR, Kim MK, Jo JH, Im WT, Kim SB. 2016. Humibacter soli sp. nov., isolated from soil. Int J Syst Evol Microbiol 66:2509–2514.
- Kim EK, Hoang VA, Kim YJ, Nguyen NL, Sukweenadhi J, Kang JP, Yang DC. 2015. Humibacter ginsengiterrae sp. nov., and Humibacter ginsengisoli sp. nov., isolated from soil of a ginseng field. Int J Syst Evol Microbiol 65:2734–2740.
- Kang SM, Asaf S, Kim SJ, Yun BW, Lee IJ. 2016. Complete genome sequence of plant growth-promoting bacterium Leifsonia xyli SE134, a possible gibberellin and auxin producer. J Biotechnol 239:34–38.
- Egidi E, Wood JL, Fox EM, Liu W, Franks AE. 2017. Draft genome sequence of Leifsonia sp. strain NCR5, a rhizobacterium isolated from cadmium-contaminated soil. Genome Announc 5:e00520-17.
- Kilkenny C, Browne WJ, Cuthill IC, Emerson M, Altman DG. 2010. Improving bioscience research reporting: the ARRIVE guidelines for reporting animal research. PLoS Biol 8:e1000412.
- NCBI Genome Assembly GCF_003347035.1: ftp.ncbi.nlm.nih.gov/…/GCF_003347035.1_ASM334703v1/