Мини-обзор генома Rhodococcus fascians
А. К. Рыбаков
Московский государственный универститет им. М. В. Ломоносова
Факультет биоинженерии и биоинформатики
Ленинские горы МГУ 1, стр. 73, Москва, 1119991, Россия
Аннотация
В обзоре проведена обработка генома Rhodococcus fascians D188 различными статистическими и структурными методами. Автором проведён анализ генома и протеома, выполнены статистическое исследование о случайности распределения генов на хромосоме и плазмидах бактерии, структурное исследование гипотетического пируватдегидрогеназного комплекса уникального типа и, наконец, GC-skew-тест для поиска oriC и ter репликации в кольцевой хромосоме и кольцевой плазмиде.
Введение
Rhodococcus fascians - грамположительная бактерия из семейства Mycobacteriaceae [2]. В пределах своего рода родококк является единственным фитопатогенным видом [1]. Родококк заражает декоративные растения [1], но может инфицировать и сельскохозяйственные культуры [3]. Разнообразие морфологических изменений, вызываемых Rhodococcus fascians, варьируется от деформации листьев до образования "ведьминых мётел" и листовых галлов [1]. Родококк способен не только к эпифитному, но и к эндофитному существованию. Например, с помощью FISH родококк был обнаружен во внутренних тканях листьев, где занимал межклетники [4]. Гены вирулентности R. fascians находятся на 180Кб линейной плазмиде pFiD188. Вирулентность определяют локусы fas и att. Белки оперона att синтезируют продкуты, накапливающиеся при попадании родококка на растение и активирующие оперон fas, кодирующий цитокинин-оксидазу и глутатион S-трансферазу, синтезирующие неизвестное сигнальное вещество [1]. Изучение R. fascians может помочь не только спасти декоративные растения и урожаи калифорнийских фисташек [3], но и расширить наши представления о сигнальных веществах в растениях. В настоящем обзоре приводится статистический анализ генома и протеома R. fascians, структурное исследование пирувадегидрогеназы из локуса fas, а также поиск ori и ter репликации хромосомы и кольцевой плазмиды.
Материалы и методы
Материалы
Геном, хромосомная таблица, последовательности транслированных белковых CDS Rhodococcus fascians D188 взяты из базы данных Национального центра биотехнологической информации США.
Методы
Данные о длинах ДНК, распределение длин белков, количественный анализ протеома и генов РНК выполнены при помощи анализа хромосомной таблицы в Google Spreadsheets. Гипотеза о случайности распределения генов по двум цепям хромосом и плазмид выполнена при помощи собственных Python- и Bash-скриптов в Google Colaboratory. Моделирование 3D-структуры пируватдегидрогеназа-подобного белка осуществлёно в открытом Сolab-блокноте AlphaFold2. Построение графиков cumulative GC-skew также проведено в Colab с помощью собственного сценария Python.
Результаты
Описание стандартных геномных данных
Ниже приведена информация о длинах геномных ДНК, распределении длин белков, описаны результаты количественного анализа протеома и генов функциональных РНК.
Статистические данные о белках протеома
Количественный анализ протеома
Количественный анализ генов некодирующих РНК
Распределение генов по двум цепям ДНК
Поскольку количество генов на одной цепи однозначно определяет их число на другой, степень свободы равняется единице. При уровне значимости 0,05 этот статистический тест подтверждил интуицию о том, что на хромосоме распределение случайно, тогда как на плазмидах - нет: значения х2 получились равными 0,4, 26,1 и 11,0 соответсвенно при крайнем для критерия - 3,841. Неслучайность распределения белков на плазмидах может быть объяснена, во-первых, их гораздо меньшим относительно хромосомы размером, а во-вторых, кластеризацией генов на них.
Предсказание структуры ПДГ-подобного белка
Как было сказано выше, вирулентность родококка обуславливают локусы fas и att плазмиды pFiD188. Локус fas состоит из одного оперона, в состав которого входят 6 ORF, в т. ч. ORF1, ORF2 и ORF3 [1], на которых мы сейчас и сосредоточимся. ORF1 соответствует цитохрому P450. ORF2 кодирует ферредоксин-подобный белок, C-конец которого очень напоминает &alpha-субъединицу пируватдегидрогеназы, а ORF3 -- тиамин-пирофосфат-связывающий белок (TPPBP), похожий на &beta-субъединицу пируватдегидрогеназы. Предполагается [1], что два последних белка действительно работают как единая пируватдегидрогеназа (ПДГ). Обычные ПДГ восстанавливают NAD+ до NADH, и при необходимости направления электронов к цитохрому P450 их перенос опосредуется ферредоксином (Fd). В нашем же случае ПДГ, по-видимому, сразу восстанавливает Fd своей &alpha-субъединицы, после чего с него электроны переносятся непосредственно на P450. В ходе обзора были смоделированы структуры Fd и TPPBP, а также гипотетического пирувадегидрогеназного комплекса.
Исходя из полученной структуры ПДГ возможно выдвинуть предположение о том, что связь между двумя её субъединицами осуществляется за счёт электростатических взаимодействий: вероятно, положительно заряженные боковые цепи лизина и аргинина взаимодействуют с остатками глумата и аспартата.
Исходя из полученной структуры ПДГ возможно выдвинуть предположение о том, что в формировании комплекса не принимают участия гидрофобные взаимодействия, поскольку с обоих сторон на поверхности белка мы видим полярные и заряженные аминокислотные остатки.
Поиск ori и ter репликации: Cumulative GC-skew
GC-skew ("GC-перекос") - мера преобладания количества гуанина над количеством цитозина, рассчитвывающаяся как отношение разности количеств G и C к сумме их количеств в определённом промежутке генома - окне. Cumulative GC-skew определяется сумма всех GC-skew, посчитанных для всех позиций до данной с определённым шагом. Ранее было показано, что расчёт последней метрики часто позволяет определить координаты точек начала (oriС) и терминации репликации (ter) в кольцевых ДНК бактерий как координаты точек, в которых достигаются соответственно минимум и максимум суммарного GC-перекоса [7]. В ходе анализа генома R. fascians были построены графики изменения описанного параметра, результаты построения представлены на рис. 5 и в таблице 6.
Данные графика изменения cumulative GC-skew для плазмиды не позволяют сделать однозначного вывода о положении точки терминации её репликации. Вероятно, трудная интерпретируемость этого результата преимущественно связана с размером плазмиды. Для oriC плазмиды и хромосомы и ter хромосомы результат получается однозначным.
Литература
[1] Goethals K. et al. Leafy gall formation by Rhodococcus fascians. Annual review of phytopathology. – 2001. – Т. 39. – №. 1. – С. 27-52.
[2] Chun J, Kang SO, Hah YC, Goodfellow. Phylogeny of mycolic acid-containing actinomycetes. J. Ind. Microbiol. 17:205–13, 1996.
[3] Dhaouadi S., A. H M., Rhouma A. The plant pathogen Rhodococcus fascians. History, disease symptomatology, host range, pathogenesis and plant–pathogen interaction. Annals of Applied Biology. – 2020. – Т. 177. – №. 1. – С. 4-15.
[4] Amann RI, Ludwig W, Schleifer K-H, Phylogenetic identification and in situ detection of individual microbial cells without cultivation. Microbiol. Rev. 59:143–69, 1995.
[5] Huang J. et al. (ed.). Bioinformatics in microRNA research. – New York, NY, USA: Humana Press, 2017
[6] Костенко И. В., Крамаренко Т. А. Анализ данных в научных исследованиях с использованием критерия Пирсона. Информационное общество: современное состояние и перспективы развития. – 2017. – С. 24-26.
[7] Song J., Ware A., Liu S. L. Wavelet to predict bacterial ori and ter: a tendency towards a physical balance. BMC genomics. – 2003. – Т. 4. – №. 1. – С. 1-15.
Сопроводительные материалы
- Проводился анализ следующей геномной - сборки
- Хромосомная таблица в Google Spreadsheets
- Python-сценарий для расчёта по критерию Пирсона
- Python-сценарий для построения графиков GC-skew
- Расширенные результаты фолдинга ферредоксина
- Расширенные результаты тиаминпирофосфат-связывающего белка
- Расширенные результаты гипотетического пируватдегидрогеназного комплекса