Мини-обзор генома бактерии Adhaeribacter radiodurans

Мисюрёва А. А. | Факультет биоинженерии и биоинформатики МГУ им. М.В. Ломоносова

Аннотация

Проведён биоинформатический анализ генома почвенной бактерии Adhaeribacter radiodurans. Установлено распределение межгенных промежутков генома (медиана - 250 п.н.). Мода GC состава кодирующих участков - 43-44%, что является нехарактерным показателем для радиорезистентных бактерий. Распределение генов резко неоднородно: выявлены «пустые» участки (6.4% генома) и сверхплотные кластеры (5.7%). Протеом типичен для бактерий (медиана длины белка 288 а.о.), но включает экстремально длинные белки. Полученные данные в ходе данного мини-обзора скорее указывают на адаптацию к ризосфере, а не на классическую радиорезистентность.

Введение

Adhaeribacter radiodurans – вид граммотрицательных бактерий, принадлежащий к семейству Hymenobacteraceae в филуме Bacteroidota [1]. Данный микроорганизм был выделен из ризосферы (слоя почвы, прилегающего к корням растения, толщиной не более 2–5 мм) [3] злака Elymus tsukushiensis, растущего на островах Докдо в Республике Корея. Клетки этой бактерии представляют собой неподвижные палочки размером от 0,7 до 1,0 мкм в ширину и от 2,5 до 5,5 мкм в длину. У бактерии данного вида присутствуют такие ферменты как каталаза (катализирует разложение пероксида водорода) и оксидаза (участвует в катаболизме) [1]. Предположительно, это может свидетельствовать о аэробности или микроаэрофильности бактерии. Видовое название «radiodurans» было дано из-за предполагаемой радиационной устойчивости организма к излучению. Однако для подтверждения его радиационной резистентности и выяснения других физиологических особенностей необходимы дальнейшие исследования [2]. В рамках данного мини-обзора были построены гистограммы длин белков, межгенных промежутков, в том числе пересекающихся, исследовано распределение CDS по GC-составу, а также плотность генома.

Таблица 1. Таблица полной таксономии Adhaeribacter radiodurans [4]

DomainBacteria
KingdomPseudomonadati
PhylumBacteroidota
ClassCytophagia
OrderCytophagales
FamilyHymenobacteraceae
GenusAdhaeribacter
SpeciesAdhaeribacter radiodurans

Методы

Аннотированный геном Adhaeribacter radiodurans был скачан с сайта NCBI с помощью команды wget в командной оболочке Bash. Для подсчета количества значений, попадающих в заданный карман для дальнейшего построения гистограммы была использована команда =COUNTIFS. Для подсчета межгенных промежутков координаты CDS были отсортированы по возрастанию и была задана формула вычитающая координату начала следующего кодирующего участка из предыдущего. Статистические показатели были вычислены с помощью соответствующих формул: =STDEV.P (стандартное отклонение), =MIN (минимальное значение), =MAX (максимальное значение), =AVERAGE (среднее значение), =MODE (мода) В ходе исследования плотности генома для определения, к какому окну принадлежит кодирующий участок использовалась формула = CEILING. Все задания данного мини-обзора были выполнены с помощью инструментария электронных таблиц Google Sheets (построение графиков, диаграмм, вычисление статистических показателей) и командной оболочки Bash (работа с файлами)

Результаты

Длины белков, закодированных в геноме Adhaeribacter radiodurans

Для протеома бактерии было определено распределение белков по длине, составлена гистограмма (Рисунок 1) и подсчитаны некоторые статистические показатели (Таблица 2), а также составлена гистограмма белков с наибольшей длиной (Рисунок 2). Для более подробного ознакомления см. ссылку S2 сопроводительных материалов.

Рисунок 1
Рисунок 1. Распределение белков A. radiodurans по длине в аминокислотных остатках

Таблица 2. Статистические показатели распределения длин белков (аминокислот)

Статистический показательЗначение
Максимальная длина белка5441
Минимальная длина белка23
Медианная длина белка288
Среднее значение длины белка356.6
Стандартное отклонение длины белка289.5

Основная масса белков — короткие (до 350 а.о.), что типично для бактериальных протеомов. Длинные белки (свыше 2400 а.о.) — исключение, но они есть, что может быть связано с наличием белковых комплексов, особенностями метаболизма или адаптации к условиям среды (в том числе радиорезистентности)

Рисунок 2
Рисунок 2. Гистограмма белков с наибольшей длиной

На второй гистограмме изображен «хвост» распределения (Рисунок 2), показывающий белки, имеющие наибольшие показатели длины. Интервалы шире, чем в первой гистограмме, что позволяет лучше визуализировать редкие случаи. Больше всего белков с длинами, попадающими в карманы: 2400-2700 и 3000-3300 (по 2). Всего диаграмме представлены 6 самых длинных белков бактерии (Таблица 3):

Таблица 3. Сравнительная таблица самых длинных белков в геноме

НазваниеДлина продукта
malectin domain-containing carbohydrate-binding protein5441
PKD domain-containing protein3230
malectin domain-containing carbohydrate-binding protein3217
LamG-like jellyroll fold domain-containing protein2774
isopeptide-forming domain-containing fimbrial protein2616
cell surface protein SprA2434

1) Malectin domain-containing carbohydrate-binding protein - углевод-связывающий белок, содержащий малектиновый домен, является сенсорной структурой в системе контроля качества гликопротеинов: специализируется на распознавании определенного типа дефектных или неправильно свернутых гликопротеинов [7]

2) PKD domain-containing protein — это «датчик потока и состава среды» в бактерии. Располагается на поверхности, часто на ресничке [6]

3) LamG-like jellyroll fold domain-containing protein - располагается на внешней поверхности клетки или в межклеточном пространстве. Специализируется на мультивалентных взаимодействиях - способен надёжно, специфично и часто многократно соединять разные биологические "детали" (клетки, белки, компоненты матрикса) в единую, стабильную и функциональную трехмерную структуру [9]

4) Isopeptide-forming domain-containing fimbrial protein - строительный блок (субъединица) пили, обеспечивает ее экстремальную механическую прочность посредством изопептидной связи. Изопептидная связь — ковалентная связь между боковыми группами аминокислот (чаще всего лизина и аспарагина/глутамина), расположенных внутри одного белка

5) Cell surface protein SprA - Поверхностный белок, ответственный за выброс токсичных белков через трансмембранный канал (пору), при этом это часто предполагает гибель самой клетки (автолиз) [10]

Межгенные промежутки в геноме Adhaeribacter radiodurans

Для генома была построена гистограмма межгенных промежутков (см. ссылку S1 сопроводительных материалов) с карманом в 20 пар оснований (Рисунок 3). Расстояние, равное нулю соответствует расположенным вплотную генам, расстояние, меньше нуля - пересекающимся генам. Гистограмма межгенных промежутков в геноме Adhaeribacter radiodurans демонстрирует унимодальное распределение (единственный пик). Ярко выраженный пик приходится на область коротких промежутков между генами - 0- 20 п.н., что может говорить о возможной оперной активности генома исследуемой бактерии.

Рисунок 3
Рисунок 3. Гистограмма межгенных промежутков на плюс цепи

Таблица 4. Статистические показатели распределения длин межгенных промежутков (пар оснований)

ПараметрПлюс цепьМинус цепь
Максимальная длина3906839542
Минимальная длина-566-6796132
Медианная длина250246
Мода межгенного промежутка-3-3

Для сравнительного анализа был проанализирован генетический материал CDS на минус цепи (Рисунок 5). Единственное значительное отличие - значение самого короткого промежутка: -6796132 пар оснований (Таблица 4)

Рисунок 5
Рисунок 5. Гистограмма межгенных промежутков на минус цепи

Также отдельно была построена гистограмма пересечений между генами (Рисунок 6). Пики гистограммы указывают на области сверхвысокой плотности генов: наибольшее количество перекрывающихся кодирующих областей приходятся на карман 0-5 п.н.

Рисунок 6
Рисунок 6. Гистограмма пересечений генов

Распределение CDS бактерии Adhaeribacter radiodurans по GC-составу

Содержание гуанина и цитозина в геноме составляет 40,8 моль% [1]. Гистограмма показывает унимодальное распределение (см. таблицу S2 сопроводительных материалов) с пиком в области 43-44%, что соответствует низкому общему GC-составу генома данной почвенной бактерии (Рисунок 7). Распределение имеет слабую положительную асимметрию (длинный хвост немного перемещен в сторону высоких GC).

Рисунок 7
Рисунок 7. Гистограмма GC состава генома бактерии

Пограничное значение GC состава (между средним и низким) указывает на некоторое противоречие: высокий GC состав обычно встречается у экстремофилов (термофилов или радиоустойчивых организмов), так как высокие температуры и повреждающие факторы требуют стабильной ДНК, которую обеспечивает высокий GC [11]. Однако видовое название radiodurans было дано именно из-за предполагаемой радиорезистентности, но, если ограничиться исключительно GC составом, из гистограммы Adhaeribacter radiodurans можно сделать вывод, что она таковым не является. Для микроорганизмов с низким GC составом характерна ассоциация с организмами (комменсализм, паразитизм, симбиоз) или анаэробными условиями обитания [12], что подтверждается обитанием этой бактерии в ризосфере.

Плотность генома Adhaeribacter radiodurans

В качестве собственной задачи был составлен линейный график плотности генома Adhaeribacter radiodurans (Рисунок 8). Весь геном был поделен на участки, длиной 10 000 пар нуклеотидов каждый. С помощью методов и формул электронных таблиц Google Sheets (см. таблицу S1 сопроводительных материалов) было подсчитано, сколько генов содержится в каждом таком "кармане". Единственное важное замечание: гены, которые начинались в одном, а заканчивались в другом промежутке, считались в обоих из них. Самым густым оказался 174 (1 730 000 - 1 740 000 п.н.) - на нем было обнаружено 12 генов.

Рисунок 8
Рисунок 8. Линейная диаграмма плотности генома бактерии

Также была составлена таблица отражающая количество участков низкой, средней и высокой плотности соответственно и вычислены некоторые статистические показатели для более детального анализа. Больше всего участков с низкой плотностью (тремя или четырьмя генами на промежутке) - их 101, а меньше всего - пустых: 22 участка (Таблица 6).

Таблица 6. Статистические показатели плотности генома

Статистический показательЗначение
Самый густой участок174 (на нем расположено 12 генов)
Медианная плотность4
Средняя плотность4,47

Таблица 7. Сравнительная таблица плотности геномов прокариотов [13]

Организм% межгенной/регуляторной ДНК
Escherichia coli11-13%
Deinococcus radiodurans8-9%
Streptomyces coelicolor10-12%
Methanocaldococcus jannaschii7-9%

1. Исходя из показателей плотности генома других прокариотов, (Таблица 7) можно сказать, что в геноме A. radiodurans довольно мало некодирующих участков (только 6.4% без генов)(Таблица 7). 2. Экстремальные контрасты — от 0 до 9+ генов в соседних окнах. 3. Широкое плато в середине — нет четкого стандарта распределения, следовательно, оптимальной плотности генома

Выводы

Сопроводительные материалы

Список литературы

  1. [1] Hwang YI, Son JS, Lee SY, Kim MJ, Park JM, Shin JH, Ghim SY. Adhaeribacter radiodurans sp. nov., isolated from the rhizospheric soil of Elymus tsukushiensis, a plant native to the Dokdo Islands, Republic of Korea. Int J Syst Evol Microbiol 2021; 71:4612.
  2. [2] LPSN Species: Adhaeribacter radiodurans
  3. [3] Yee, Mon Oo; Kim, Peter; Li, Yifan; Singh, Anup K.; Northen, Trent R.; Chakraborty, Romy. Specialized Plant Growth Chamber Designs to Study Complex Rhizosphere Interactions. Frontiers in Microbiology. 12 625752, 26 March 2021.
  4. [4] Таксономия бактерии была взята с сайта NCBI TAXONOMY BROWSER
  5. [5] Sergey Hosid, Edward N, Trifonov and Alexander Bolshoy. Sequence periodicity of Escherichia coli is concentrated in intergenic regions. BMC Molecular Biology 26 August 2004, 5:14
  6. [6] Owen M. Woodward and Terry Watnick Molecular. Structure of the PKD Protein Complex Finally Solved. Commentary on Su Q, Hu F, Ge X, et al. Structure of the human PKD1-PKD2 complex. Science. 2018;361(6406).
  7. [7] He Yang, Dong Wang, Li Guo, Huairong Pan, Robert Yvon, Scott Garman, Hen-Ming Wu, Alice Y. Malectin/Malectin-like domain-containing proteins: A repertoire of cell surface molecules with broad functional potential. CheungThe Cell Surface Volume 7, December 2021, 100056
  8. [8] Veggiani, Bijan Zakeri, Mark Howarth. Superglue from bacteria: unbreakable bridges for protein nanotechnology. Gianluca Trends in Biotechnology. Volume 32, Issue 10, October 2014, Pages 506-512
  9. [9] Georg Beckmann, Jens Hanke, Peer Bork, Jens G. Reich. Merging extracellular domains: fold prediction for laminin G-like and amino-terminal thrombospondin-like modules based on homology to pentraxins. Journal of Molecular Biology, Volume 275, Issue 5, 6 February 1998, Pages 725-730
  10. [10] Lijuan Gao Yahong Tan Weican Zhang Qingsheng Qi Xuemei Lu. Cytophaga hutchinsonii SprA and SprT Are Essential Components of the Type IX Secretion System Required for Ca2+ Acquisition, Cellulose Degradation, and Cell Motility. Front. Microbiol., 12 February 2021
  11. [11] Galtier N, Lobry J.R. Relationships between genomic G+C content, RNA secondary structures, and optimal growth temperature in Prokaryotes. Journal of Molecular Evolution. 44 (6): 632-636.
  12. [12] John P. McCutcheon, Bradon R. McDonald, Nancy A. Moran. Origin of an Alternative Genetic Code in the Extremely Small and GC-Rich Genome of a Bacterial Symbiont. Plos Genetics
  13. [13] Mira, A., Ochman, H. & Moran, N.A. Deletional bias and the evolution of bacterial genomes. Trends Genet. 17, 589-596 November 2001
← Вернуться к списку отчётов