Мини-обзор генома бактерии


Введение


Объектом изучения стал геном бактерии Xanthomonas cucurbitae. X. cucurbitae – грам-отрицательная бактерия, относящаяся к классу Gammaproteobacteria, семейству Xanthomonadaceae, роду Xanthomonas [1]. Xanthomonas cucurbitae является фитопатогеном, поражающим растения семейства Тыквенные – тыкву, кабачок, огурец, патиссон, в меньшей степени арбуз и тыкву. Характерными симптомами заражения являются хлороз (пожелтение) листьев с округлыми пятнами некротической (отмирающей) ткани, пятна коричневого цвета на плодах, загнивание плодов. Эпифитотии (массовые поражения растений) Тыквенных, вызванные X. cucurbitae, были отмечены во многих странах мира, например, в США, Индии, на территории Российской Федерации, Молдовы, Казахстана [2]. В этих странах были отмечены поражения X. cucurbitae до 50-70% урожая тыквенных культур [3]. Тем не менее, изучение генома X. cucurbitae только начинается (так, первое полномасштабное исследование генома и протеома бактерии было произведено лишь в 2021 году), и остается большое поле для его анализа [4].

Поэтому из-за важного практического значения как фитопатогена и малой изученности генома и протеома, X. cucurbitae и была выбрана объектом данного исследования. Изучение протеома данной бактерии важно в том числе для дальнейшего выявления факторов патогенности.

В нашей работе на основании анализа генома X. cucurbitae были проанализированы частоты встречаемости белков различной длины в протеоме и межгенных промежутков различной длины в геноме данной бактерии.


Материалы и методы


Получение данных. Исходные данные были взяты из геномной таблицы бактерии из библиотеки данных NCBI [4]. Ссылка на геномную таблицу приведена в разделе “Сопроводительные материалы”.

Построение гистограммы длин белков. Выявление частот встречаемости различных длин белков и построение гистограммы длин белков проводилось с использованием онлайн-инструмента для работы с таблицами ‘Google Таблицы’.

Построение гистограммы длин межгенных промежутков. На основании данных из геномной таблицы с помощью инструментов “Гугл Таблиц” были выявлены расположенные на “+”-цепи ДНК кольцевой хромосомы X. cucurbitae белок-кодирующие последовательности (CDS), найдены интервалы между ними и выявлено перекрывание этих CDS. Были оставлены только последовательно идущие CDS, определены расстояния (интервалы) между ними и с помощью ‘Google Таблиц’ построена гистограмма расстояний между неперекрывающимися CDS на “+”-цепи ДНК кольцевой хромосомы X. cucurbitae.

Ссылки на источники данных и подробное объяснение этапов анализа геномной таблицы и построения диаграмм размещены в разделе “Сопроводительные материалы”.


Результаты и обсуждения


1. Гистограмма длин белков X.Cucurbitae


Результаты. На основании данных о белках, представленных в геномной таблице X. cucurbitae, была построена гистограмма длин белков, отражающая особенности распределения белков из протеома по длине (числу аминокислотных остатков). Вначале поиск белков производился на интервале от 0 до 1799 аминокислотных остатков. Полученная гистограмма приведена на Рисунке 1 ниже.

Рисунок 1. Гистограмма длин белков X. cucurbitae, содержащих до 1600 аминокислотных остатков.

Как видно из гистограммы, большинство белков в геноме бактерии X. cucurbitae имеют длины до 599 аминокислотных остатков. Для белков с длинами выше 599, но ниже 1500 аминокислот выявлена закономерность убывания количества белков с увеличением числа аминокислот в исследуемом диапазоне.

Самое большое количество белков приходится на длины 100-199 аминокислотных остатков, второе место по числу занимают белки с длинами 200-299, третье - белки с длинами 300-399. В каждом из этих трех диапазонов насчитывается более 300 белков.

Затем, с целью выявления самых длинных белков в протеоме, диапазон длин белков был расширен вправо. Была построена гистограмма длин белков X. cucurbitae, содержащих более 1500 остатков. Данная гистограмма представлена на Рис. 2.

Рисунок 2. Гистограмма длин белков X. cucurbitae, содержащих от 1500 до 5900 аминокислотных остатков.

В диапазоне от 1500 до 1900 остатков было найдено 5 белков, в диапазоне от 1900 до 2300 остатков - один белок. Самый длинный белок был найден в диапазоне от 4700 до 5100 остатков.

Данные о больших белках в протеоме X. cucurbitae, представленные на гистограмме на Рисунке 2, подтверждаются значениями из геномной таблицы. При сортировке белков протеома X. cucurbitae по длине выявляются 7 белков с длинами более 1500 остатков. Пять из них действительно принадлежат диапазону 1500-1900 остатков (их длины 1513, 1610, 1633, 1674 и 1785), один белок, длиной 2095, принадлежит диапазону 1900-2300 остатков, а самый длинный из обнаруженных белков (5086 остатков), принадлежит диапазону 4700-5100. Фрагмент геномной таблицы с названиями обсуждаемых белков приведен ниже (Таблица 1). Белков большей длины в протеоме X. cucurbitae не обнаруживается.

На всем диапазоне длин белков было найдено среднее значение длины белка и медиана. Они представлены в Таблице 2. Также из данной таблицы видно, что из 1903 белков протеома X. cucurbitae длину более 1500 аминокислотных остатков имеют 7 белков, что составляет лишь 0,37%.

Таблица 1. Белки из протеома X. cucurbitae с максимальной длиной.
Таблица 2. Белки из протеома X. cucurbitae с максимальной длиной.

Обсуждение. Среднее значение длины белков - 347 аминокислот - довольно предсказуемо и совпадает со средним значением длины, характерных для бактериальных белков [5]. Однако большинство белков бактерии имеют длину от 100 до 200 остатков, что немного меньше, чем среднее значение. Можно предположить, что среди белков с такой длиной преобладают транскрипционные факторы и другие белки-регуляторы активности генов, а также ферменты.

Крупных (более 1500 аминокислотных остатков) белков в протеоме X. cucurbitae всего 0,37%. Такое малое количество крупных белков довольно ожидаемо и характерно для протеомов почти всех живых организмов, включая и бактерий. Как правило, большинство высокомолекулярных белков в протеомах организмов - это мультисубъединичные ферментативные комплексы [6]. В Таблице 1 выше приведены названия белков с длинами белков с длиной более 1500 аминокислот. Среди них, например, есть НАД- глутамат-дегидрогеназа (1674 остатка) и комплекс биосинтеза целлюлозы (1513 остатков).



2. Гистограмма длин расстояний между соседними неперекрывающимися CDS на “+”-цепи ДНК кольцевой хромосомы X. cucurbitae.


Геном X. cucurbitae, по данным геномной таблицы из библиотеки NCBI, содержит 8064816 нуклеотидов. Из них 966391 нуклеотид приходится на CDS. Таким образом, на CDS приходится 12% генома, следовательно, некодирующие последовательности - 88% генома, т.е. оставшиеся 7098425 нуклеотидов.

В геноме бактерии содержится 3951 CDS, из них 885 не перекрываются. Между этими неперекрывающимися CDS было выявлено 884 CDS суммарной длиной 966391 нуклеотид. Если принять, что длины всех CDS примерно одинаковы, то по такому приблизительному подсчету ожидаемая средняя длина межгенного промежутка между неперекрывающимися CDS составляет приблизительно 1100 нуклеотидов. Однако такая оценка является грубой и требует проверки.

Результаты. На основании данных о CDS, представленных в геномной таблице X. cucurbitae, были построены гистограммы длин расстояний между соседними неперекрывающимися CDS на “+”-цепи ДНК кольцевой хромосомы X. cucurbitae. Вначале был проанализирован диапазон исследуемых длин промежутков (расстояний) между CDS до 0 до 15000 пар нуклеотидов. Результаты отражены на представленной ниже гистограмме 3. Алгоритм построения гистограммы приведен в разделе “Сопроводительные материалы”.

Рисунок 3. Гистограмма длин расстояний между соседними неперекрывающимися CDS на “+”-цепи ДНК кольцевой хромосомы X. cucurbitae.

Из гистограммы видно, что наибольшее количество расстояний между CDS имеют длину до 1000 пар нуклеотидов (количество таких CDS - 590). Длину 1000 пар нуклеотидов (сокращенно - п.н.) и более имеют уже значительно меньше расстояний. Каждому из последующих диапазонов длин принадлежат уже менее 50 расстояний между CDS, а каждому из последних 4 диапазонов - всего 2 или 1 межгенная последовательности. Отдельно стоит отметить, что расстояния между некоторыми из соседних CDS равны нулю. По данным геномной таблицы, таких нулевых расстояний в геноме X. cucurbitae найдено 17. Некоторые из них приведены в Таблице 3.


Таблица 3. Примеры расстояний между CDS в геноме X. cucurbitae, равных нулю.

Далее был подробнее рассмотрен диапазон длин межгенных промежутков от 0 до 1000 нуклеотидов. Результаты представлены ниже на гистограмме на рисунке 4.


Из построенной гистограммы видно, что большинство межгенных промежутков длиной до 1000 нуклеотидов не превышают 99 нуклеотидов в длину. С увеличением длины межгенного промежутка наблюдается тенденция к уменьшению числа таких промежутков, найденных в геноме. С учетом того, что при поиске на более больших интервалах (рисунок 3) наибольшее число промежутков было найдено именно до 1000 нуклеотидов длиной, можно сказать, что в геноме X. cucurbitae преобладают межгенные промежутки длиной менее 100 нуклеотидов.

Рисунок 4. Гистограмма длин расстояний между соседними неперекрывающимися CDS на “+”-цепи ДНК кольцевой хромосомы X. cucurbitae. Показаны расстояния длиной от 0 до 1000 нуклеотидов.
Рисунок 5. Гистограмма длин расстояний между соседними неперекрывающимися CDS на “+”-цепи ДНК кольцевой хромосомы X. cucurbitae. Показаны расстояния длиной от 15000 до 36000 п.н.

Затем, с целью выявления более длинных межгенных расстояний, диапазон длин был расширен вправо. Была построена гистограмма длин расстояний между соседними неперекрывающимися CDS на “+”-цепи ДНК кольцевой хромосомы X. cucurbitae, содержащих от 15000 до 36000 пар нуклеотидов, представленная на Рисунке 5. Из гистограммы видно, что число расстояний между соседними неперекрывающимися CDS, превышающих длину 15000 п.н., не так уж много. Всего найдено 7 таких расстояний, самое большое из них лежит в диапазоне от 33000 до 34500 п.н.

Перед построением гистограммы была проведена сортировка найденных межгенных расстояний по длине и обнаружено, что максимально длинная из встречающихся последовательностей имеет расстояние в 33931 п.н.. оэтому поиск последовательностей длиной выше этого значения не дает результатов, следовательно, на гистограмме длины промежутков длиной выше 36000 п.н. не отображались за отсутствием принадлежащих этим диапазонам межгенных расстояний.

Два максимальных по длине межгенных промежутка приведены в таблице 4.

Таблица 4. Максимальные по длине расстояния между CDS X. cucurbitae.

Таблица 5. Данные о распределении межгенных промежутков по длине.

Некоторые статистические параметры для всей совокупности межгенных промежутков X. cucurbitae указаны в Таблице 5 ниже.

Обсуждение. Полученное распределение длин промежутков между неперекрывающимися CDS соотносится c характерным распределением в бактериальных геномах [7]. В соответствии с общей закономерностью, большинство (50%) межгенных промежутков X. cucurbitae имеют длину до 300 нуклеотидов. Можно предположить, что такие короткие межгенные последовательности могут являться регуляторными (участвовать в регуляции работы генов) или представлять собой некодирующие повторы “бессмысленной” ДНК, например, остатки вирусной ДНК в бактериальном геноме.

Количество межгенных интервалов длиной выше 1500 п.н. в геноме X. cucurbitae очень невелико (0,79%), что также соответствует общей для бактериальных геномов закономерности. Вероятно, последовательности такой большой длины, могут включать в себя сразу несколько больших регуляторных последовательностей, или являться кластерами некодирующих повторов, например, “потомками” транспозонов, или же такие последовательности могли возникнуть в результате накопления в больших белок-кодирующих генах мутаций, приводящих к невозможности транскрипции этого гена и дальнейшего синтеза белкового продукта. Все эти предположения требуют проверки, например, сравнения этих последовательностей с межгенными последовательностями родственных видов бактерий.

Изначальное предположение о средней длине межгенного промежутка в 1100 нуклеотидов, основанное на примерном равенстве длин всех межгенных промежутков, хорошо соотносится с найденной средней длиной промежутка в 1070 нуклеотидов. Однако стоит понимать, что медиана смещена влево относительно этого значения и большой вклад в значение средней длины вносят единичные длинные последовательности, сильно выбивающиеся из общей закономерности.

Литература


1. Lazarev A.M. (N.I. Vavilov Institute, St. Petersburg, Russia). 2008. Xanthomonas campestris pv. cucurbitae. In A.N.Afonin,S.L. Greene, N.I. Dzyubenko, A.N. Frolov (eds.). 2009. Interactive Agricultural Ecological Atlas of Russia and Neighboring Countries. Economic Plants and their Diseases, Pests and Weeds. Ссылка на источник


2. Jarial, Kumud & Jarial, Rajender & Gupta, Satish. (2015). Bacterial Spot ( Xanthomonas cucurbitae) of cucurbits: A review. NBU Journal of Plant Sciences. 9. 33-39. 10.55734/NBUJPS.2015.v09i01.004.

3. Rai R, Pasion J, Majumdar T, Green CE, Hind SR. Genome Sequencing and Functional Characterization of Xanthomonas cucurbitae, the Causal Agent of Bacterial Spot Disease of Cucurbits. Phytopathology. 2021 Aug;111(8):1289-1300. doi: 10.1094/PHYTO-06-20-0228-R. Epub 2021 Sep 11. PMID: 33734871.

4. Данные с портала NCBI Ссылка на портал NCBI

5. Tiessen, A., Pérez-Rodríguez, P. & Delaye-Arredondo, L.J. Mathematical modeling and comparison of protein size distribution in different plant, animal, fungal and microbial species reveals a negative correlation between protein size and protein number, thus providing insight into the evolution of proteomes. BMC Res Notes 5, 85 (2012). https://doi.org/10.1186/1756-0500-5-85

6. Nevers, Y., Glover, N.M., Dessimoz, C. et al. Protein length distribution is remarkably uniform across the tree of life. Genome Biol 24, 135 (2023). https://doi.org/10.1186/s13059-023-02973-2

7. Rogozin IB, Makarova KS, Natale DA, Spiridonov AN, Tatusov RL, Wolf YI, Yin J, Koonin EV. Congruent evolution of different classes of non-coding DNA in prokaryotic genomes. Nucleic Acids Res. 2002 Oct 1;30(19):4264-71. doi: 10.1093/nar/gkf549. PMID: 12364605; PMCID: PMC140549.


Сопроводительные материалы


Геномная таблица X. cucurbitae

Рабочая таблица в системе Гугл Таблицы