Мини-обзор генома Rhodococcus fascians

А. К. Рыбаков
Московский государственный универститет им. М. В. Ломоносова
Факультет биоинженерии и биоинформатики
Ленинские горы МГУ 1, стр. 73, Москва, 1119991, Россия
Ключевые слова: Листовые галлы, фитогормоны, локус fas, линейная плазмида

Аннотация

В обзоре проведена обработка генома Rhodococcus fascians D188 различными статистическими и структурными методами. Автором проведён анализ генома и протеома, выполнены статистическое исследование о случайности распределения генов на хромосоме и плазмидах бактерии, структурное исследование гипотетического пируватдегидрогеназного комплекса уникального типа и, наконец, GC-skew-тест для поиска oriC и ter репликации в кольцевой хромосоме и кольцевой плазмиде.

Введение

Rhodococcus fascians - грамположительная бактерия из семейства Mycobacteriaceae [2]. В пределах своего рода родококк является единственным фитопатогенным видом [1]. Родококк заражает декоративные растения [1], но может инфицировать и сельскохозяйственные культуры [3]. Разнообразие морфологических изменений, вызываемых Rhodococcus fascians, варьируется от деформации листьев до образования "ведьминых мётел" и листовых галлов [1]. Родококк способен не только к эпифитному, но и к эндофитному существованию. Например, с помощью FISH родококк был обнаружен во внутренних тканях листьев, где занимал межклетники [4]. Гены вирулентности R. fascians находятся на 180Кб линейной плазмиде pFiD188. Вирулентность определяют локусы fas и att. Белки оперона att синтезируют продкуты, накапливающиеся при попадании родококка на растение и активирующие оперон fas, кодирующий цитокинин-оксидазу и глутатион S-трансферазу, синтезирующие неизвестное сигнальное вещество [1]. Изучение R. fascians может помочь не только спасти декоративные растения и урожаи калифорнийских фисташек [3], но и расширить наши представления о сигнальных веществах в растениях. В настоящем обзоре приводится статистический анализ генома и протеома R. fascians, структурное исследование пирувадегидрогеназы из локуса fas, а также поиск ori и ter репликации хромосомы и кольцевой плазмиды.

Материалы и методы

Материалы

Геном, хромосомная таблица, последовательности транслированных белковых CDS Rhodococcus fascians D188 взяты из базы данных Национального центра биотехнологической информации США.

Методы

Данные о длинах ДНК, распределение длин белков, количественный анализ протеома и генов РНК выполнены при помощи анализа хромосомной таблицы в Google Spreadsheets. Гипотеза о случайности распределения генов по двум цепям хромосом и плазмид выполнена при помощи собственных Python- и Bash-скриптов в Google Colaboratory. Моделирование 3D-структуры пируватдегидрогеназа-подобного белка осуществлёно в открытом Сolab-блокноте AlphaFold2. Построение графиков cumulative GC-skew также проведено в Colab с помощью собственного сценария Python.

Результаты

Описание стандартных геномных данных

Ниже приведена информация о длинах геномных ДНК, распределении длин белков, описаны результаты количественного анализа протеома и генов функциональных РНК.

Как следует из данных таблицы 1, GC-состав у плазмид и хромосомы практически не отличется. Необычным является крупный размер обоих плазмид.

Статистические данные о белках протеома

На основании информации о длинах реальных и гипотетических белков была построена гистограмма, отражающая распределение их длин. Точки на оси X задаются рекурсией Poclen(n), зависящей от номера точки. Мотивировка нетривиального устройства этой рекурсии состоит в стремлении уловить характерный паттерн в распределении длин белков, называемый "двугорбием" (см. рис. 1).
$$Poclen(n) = \begin{cases} \ {A_{n}} = {A_{n-1}} + 3n &\text{n < 1174}\\ \ {A_{n}} = {A_{n-1}} + 200 &\text{n > 1174}\\ \end{cases}$$

Рис. 1. Распределение длин белков. Ось count - количество белков, ось length - длина белка. Подписи на оси length соответствуют нижней границе кармана гистограммы.

Количественный анализ протеома
Как следует из таблицы 2, 15% предполагаемого протеома составляют гипотетические белки.

Данные таблицы 3 обнаруживают, что 4 рибосомальных белка повторяются в хромосомной таблице несколько раз. Исходя из того, что последовательности этих белков различны, можно выдвинуть осторожное предположение о получении бактерией части этих белков в результате горизонтального переноса генов.

Количественный анализ генов некодирующих РНК

Среди генов прочих функциональных РНК в таблице 4 отмечено наличие одно малой РНК. Обычно такие РНК обладают регуляторной активностью, что функционально сближает их с микроРНК эукариот, однако длина бактериальных sRNA, как правило, в несколько раз больше [5].

Распределение генов по двум цепям ДНК

С помощью хромосомной таблицы было посчитано количество белков отдельно на прямой и на обратной цепях ДНК для хромосомы и двух плазмид, результаты представлены в таблице 5.

Далее с помощью критерия Пирсона [6] была проверена о случайности распределения генов по прямой и обратной цепям с вероятностью 0,5.

Поскольку количество генов на одной цепи однозначно определяет их число на другой, степень свободы равняется единице. При уровне значимости 0,05 этот статистический тест подтверждил интуицию о том, что на хромосоме распределение случайно, тогда как на плазмидах - нет: значения х2 получились равными 0,4, 26,1 и 11,0 соответсвенно при крайнем для критерия - 3,841. Неслучайность распределения белков на плазмидах может быть объяснена, во-первых, их гораздо меньшим относительно хромосомы размером, а во-вторых, кластеризацией генов на них.

Предсказание структуры ПДГ-подобного белка

Как было сказано выше, вирулентность родококка обуславливают локусы fas и att плазмиды pFiD188. Локус fas состоит из одного оперона, в состав которого входят 6 ORF, в т. ч. ORF1, ORF2 и ORF3 [1], на которых мы сейчас и сосредоточимся. ORF1 соответствует цитохрому P450. ORF2 кодирует ферредоксин-подобный белок, C-конец которого очень напоминает &alpha-субъединицу пируватдегидрогеназы, а ORF3 -- тиамин-пирофосфат-связывающий белок (TPPBP), похожий на &beta-субъединицу пируватдегидрогеназы. Предполагается [1], что два последних белка действительно работают как единая пируватдегидрогеназа (ПДГ). Обычные ПДГ восстанавливают NAD+ до NADH, и при необходимости направления электронов к цитохрому P450 их перенос опосредуется ферредоксином (Fd). В нашем же случае ПДГ, по-видимому, сразу восстанавливает Fd своей &alpha-субъединицы, после чего с него электроны переносятся непосредственно на P450. В ходе обзора были смоделированы структуры Fd и TPPBP, а также гипотетического пирувадегидрогеназного комплекса.

Рис. 2. Модели молекул ферредоксина (слева) и тиаминпирофосфат-свзывающего белка (справа), построенные с помощью AlphaFold2. Окраска отражает качество фолдинга в данной точке, которое возрастает от красного к синему.

Рис. 3. Пируватдегидрогеназный комплекс, составленный TPPBP (слева) и Fd (справа).

Исходя из полученной структуры ПДГ возможно выдвинуть предположение о том, что связь между двумя её субъединицами осуществляется за счёт электростатических взаимодействий: вероятно, положительно заряженные боковые цепи лизина и аргинина взаимодействуют с остатками глумата и аспартата.

Рис. 4. Аминокислотные остатки на поверхностях TPPBP (слева) и Fd (справа), по которым они взаимодействуют.

Исходя из полученной структуры ПДГ возможно выдвинуть предположение о том, что в формировании комплекса не принимают участия гидрофобные взаимодействия, поскольку с обоих сторон на поверхности белка мы видим полярные и заряженные аминокислотные остатки.

Поиск ori и ter репликации: Cumulative GC-skew

GC-skew ("GC-перекос") - мера преобладания количества гуанина над количеством цитозина, рассчитвывающаяся как отношение разности количеств G и C к сумме их количеств в определённом промежутке генома - окне. Cumulative GC-skew определяется сумма всех GC-skew, посчитанных для всех позиций до данной с определённым шагом. Ранее было показано, что расчёт последней метрики часто позволяет определить координаты точек начала (oriС) и терминации репликации (ter) в кольцевых ДНК бактерий как координаты точек, в которых достигаются соответственно минимум и максимум суммарного GC-перекоса [7]. В ходе анализа генома R. fascians были построены графики изменения описанного параметра, результаты построения представлены на рис. 5 и в таблице 6.

Рис. 5. Графики изменения cumulative GC-skew. Слева показан график для кольцевой хромосомы, справа - для кольцевой плазмиды pFiD188. На обоих графиках по оси x отложены координаты позиций в геноме, а по оси y - соответствующие им значения перекоса. Для хромосомы параметр расчитан с окном в 100000 нуклеотидов и шагом в 1000, для плазмиды - в 1000 и 100 соответственно.

Данные графика изменения cumulative GC-skew для плазмиды не позволяют сделать однозначного вывода о положении точки терминации её репликации. Вероятно, трудная интерпретируемость этого результата преимущественно связана с размером плазмиды. Для oriC плазмиды и хромосомы и ter хромосомы результат получается однозначным.

Литература

[1] Goethals K. et al. Leafy gall formation by Rhodococcus fascians. Annual review of phytopathology. – 2001. – Т. 39. – №. 1. – С. 27-52.

[2] Chun J, Kang SO, Hah YC, Goodfellow. Phylogeny of mycolic acid-containing actinomycetes. J. Ind. Microbiol. 17:205–13, 1996.

[3] Dhaouadi S., A. H M., Rhouma A. The plant pathogen Rhodococcus fascians. History, disease symptomatology, host range, pathogenesis and plant–pathogen interaction. Annals of Applied Biology. – 2020. – Т. 177. – №. 1. – С. 4-15.

[4] Amann RI, Ludwig W, Schleifer K-H, Phylogenetic identification and in situ detection of individual microbial cells without cultivation. Microbiol. Rev. 59:143–69, 1995.

[5] Huang J. et al. (ed.). Bioinformatics in microRNA research. – New York, NY, USA: Humana Press, 2017

[6] Костенко И. В., Крамаренко Т. А. Анализ данных в научных исследованиях с использованием критерия Пирсона. Информационное общество: современное состояние и перспективы развития. – 2017. – С. 24-26.

[7] Song J., Ware A., Liu S. L. Wavelet to predict bacterial ori and ter: a tendency towards a physical balance. BMC genomics. – 2003. – Т. 4. – №. 1. – С. 1-15.

Сопроводительные материалы