Сигналы и мотивы в бактериальных белках и геномах

Для дальнейшего анализа был выбран бактериальный белок DnaA. Данный белок играет ключевую роль в процессе инициации трансляции в бактериальных клетках. Связываясь с DnaA-боксами в области ориджина репликации мономеры DnaA олигомеризуются, вызывая локальное положительное суперскручивание ДНК, из-за чего возникает компенсаторное первичное расплетание ДНК в соседнем AT-богатом участке (DUE - DNA unwinding element) и становится возможна сборка репликативных вилок (Рис. 1) [1,2].

DnaA protein functioning
Рисунок 1. Доменная организация белка DnaA (сверху) и схема его функционирования в процессе инициации репликации у бактерий (снизу) [1].

DnaA является представителем суперсемейства AAA+ АТФаз и состоит из 4 доменов: I - отвечает за взаимодействие с другими белками, в том числе соседними мономерами DnaA; II - гибкий линкер; III - AAA+ АТФазный домен, связывает и гидролизует АТФ, а также участвует в олигомеризации DnaA и, по-видимому, может взаимодействовать с одноцепочечной ДНК, стабилизируя образовавшийся репликативный глазок; IV - содержит стуктуру спираль-поворот-спираль (HTH) и отвечает за связывание с ДНК (Рис. 1) [1,2].

Домен III содержит несколько мотивов - Walker A и Walker B, отвечающие за связывание и гидролиз АТФ соответственно, а также Sensor I и Sensor II, ответственные за переходы белка между активным (в комплексе с АТФ, способен к олигомеризации) и неактивным (в комплексе с АДФ, не способен к олигомеризации) состояниями [1,2].

Описание белкового мотива при помощи паттерна

Из SwissProt были выбраны аминокислотные последовательности DnaA бактерий Geotalea daltonii (DNAA_GEODF), Thermotoga maritima (DNAA_THEMA), Cupriavidus necator (DNAA_CUPNH), Photobacterium profundum (DNAA_PHOPR), Nitrosomonas europaea (DNAA_NITEU), Clostridium perfringens (DNAA_CLOPE), Deinococcus radiodurans (DNAA_DEIRA), Magnetococcus marinus (DNAA_MAGMM), Paraburkholderia phytofirmans (DNAA_PARPJ), Caulobacter vibrioides (DNAA_CAUVN). Последовательности были выровнены при помощи встроенного на сайте UniProt иснтрумента (алгоритм - Clustal Omega).

Из полученного выравнивания был выбран участок без гэпов, приведенный на рисунке 2.

Aligned DnaA sequences
Рисунок 2. Участок выравнивания последовательностей DnaA, выбранный для построения паттерна. Рамкой выделены позиции, вошедшие в начальный вариант паттерна - колонки 317-331 выравнивания и позиции 183-197 в последовательности DnaA Caulobacter vibrioides.

Для данного участка изначально был составлен паттерн NP[LV][LFY][FIL][HY]G[PGD][YVT]G[FL]GKTH (позиции 183-197 в DnaA Caulobacter vibrioides) и осуществлен поиск белков, содержащих данный паттерн, в базе данных SwissProt:

fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern NP[LV][LFY][FIL][HY]G[PGD] [YVT]G[FL]GKTH -outfile dnaa_1.txt

В данном случае в выдаче оказались 337 белков, все из которых имели мнемонику DNAA*, однако в SwissProt имеются последовательности 585 белков с подобной мнемоникой.

При ослаблении паттерна до PxxxxGxxGxGKTH (позиции 184-197 в DnaA Caulobacter vibrioides) удается найти 546 белков с мнемоникой DNAA*, при дальнейшем ослаблении в результаты поиска начинают попадать другие белки, не имеющие отношения к DnaA. Такое упрощение паттерна позволило уменьшить число ложноотрицательных результатов с 248 до 39.

Поиск мотивов при помощи MEME

По последовательностям выбранных белков DnaA был осуществлен поиск мотивов программой MEME (длина мотива 8-15 аминокислот, не более трех мотивов):

meme DnaA.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15

В результате были найдены 3 мотива, присутствующие во всех 10 белках. Один из мотивов совпал с тем, что ранее описывался при помощи паттерна. Этот мотив является мотивом Walker A или же P-петлей и необходим для связывания АТФ. Второй мотив все еще находится в области домена DnaA (в его C-концевой части) и, по-видимому, соответствует какому-то из мотивов Sensor 1 и Sensor 2.

Третий мотив расположен в C-концевой части белков (в домене IV), по-видимому, в структуре HTH, что подтверждается результатами анализа данных последовательностей инструментом InterProScan. Согласно этим результатам третий мотив во всех 10 белках заканчивается за 1 аминокислотный остаток до конца домена спираль-поворот-спираль.

Поскольку для домена III белка DnaA из бактерии Thermotoga maritima есть структура в PDB (PDB ID: 2Z4S), была возможность проверить, действительно ли первый мотив формирует контакты с АТФ или АДФ. Как оказалось (Рис. 3), данный мотив действительно участвует в связывании адениловых нуклеотидов и формирует с ними многочисленные полярные связи.

P-loop in DnaA
Рисунок 3. Первый мотив (логотип изображен сверху) из найденных MEME и его положение в третичной структуре домена III DnaA Thermotoga maritima(снизу, PDB ID структуры: 2Z4S). Синим цветом на изображении слева выделен мотив, зеленым - остальная часть домена III. Справа показаны многочисленные полярные контакты между аминокислотными остатками мотива (палочковая модель, розовый остов) и молекулой АДФ (палочковая модель, зеленый остов) с ионом магния (фиолетовая сфера).

Далее был выполнен поиск белков из SwissProt, содержащих найденные мотивы, при помощи программы mast:

mast meme.html /P/y24/term4/bacteria-sw.fasta

Среди находок присутствовал белок DnaA бактерии Escherichia coli (DNAA_ECOLI), для домена IV которого есть структура в PDB (PDB ID: 1J1V). Как оказалось, третий мотив из найденных MEME формирует участок домена, взаимодействующий с большой бороздкой ДНК (Рис. 4). Похоже, что этот мотив участвует в узнавании DnaA-боксов и связывании с ними.

HTH domain of DnaA
Рисунок 4. Третий из найденных мотивов (логотип сверху) в структуре домена IV DnaA Escherichia coli (снизу, PDB ID структуры: 1J1V). Слева оранжевым цветом выделен мотив, красным - оставшаяся часть домена IV. Справа показаны полярные контакты между остатками мотива (палочковая модель, розовый остов) и двойной спиралью ДНК (участвующие в связывании нуклеотидные остатки показаны в виде палочковой модели с зеленым остовом, остальная часть ДНК - синим цветом).

Также среди находок имелся DnaA бактерии Aquifex aeolicus (DNAA_AQUAE), для которого есть структура (PDB ID: 3R8F). Данная струтктура представляет собой тетрамер из доменов III DnaA, связанный с негидролизуемым аналогом АТФ (AMPPCP) и одноцепочечной ДНК. Второй мотив, по-видимому, важен для взаимодействия DnaA с оцДНК и образует с ней полярные контакты (Рис. 5).

Motif in DnaA
Рисунок 5. Второй из обнаруженным MEME мотивов (логотип сверху) и его положение в структуре домена III DnaA Aquifex aeolicus (снизу, PDB ID структуры: 3R8F). В верзней структуре темно-синим выделен мотив в мономерах домена III DnaA (показаны разными цветами). Справа показано взаимодействие данного мотива (палочковая модель, зеленый остов) с одноцепочечной олиго-А ДНК (палочковая модель, розовый остов).

Всего были найдены 609 белков, из которых 582 имели мнемонику DNAA*. Остальные находки попадали в выдачу чаще всего по причине наличия P-петли, при этом E-value меньше 1 имели только DnaA и во всех таких белках были найдены все 3 мотива. Большую часть ложноположительных находок составили белки RuvB, которые также, как и DnaA, относятся к суперсемейству AAA+ АТФаз.

Как можно заметить 3 белка DnaA из SwissProt так и не были найдены. Но все же поиск по трем мотивам позволил значительно снизить количество ложноотрицательных результатов в сравнении с поиском по паттерну.

Поиск последовательностей Шайна-Дальгарно в геноме бактерии Octadecabacter antarcticus 307

Как было показано ранее в миниобзоре особенностей генома бактерии Octadecabacter antarcticus 307 консервативность последовательности Шайна-Дальгарно (SD) у рассматриваемой бактерии довольно низка.

Консенсусная последовательность SD у E. coli - AGGAGG, где наиболее консервативным является участок GAGG. При помощи программы fuzznuc был осуществлен поиск последовательностей Шайна-Дальгарно по паттерну [AG][AG]GAGG на обеих цепях с допустимым наличием 1 несовпадения:

fuzznuc -sequence genome.fna -pattern [AG][AG]GAGG -complement -pmismatch 1 -rformat gff -outfile SD_weaker.gff

В результате были найдены 104 716 последовательностей, соответствующих паттерну (103 245 на хромосоме и 1 471 на плазмиде). Для их валидации был написан скрипт на Python, соотносящий потенциальные SD с ближайшими CDS из таблицы генетических особенностей, расположенными после SD на той же цепи. Правдоподобными считались SD, полностью попадающие в область длиной 20 нуклеотидов до перед первым нуклеотидом CDS. Другой скрипт на Python был написан с целью определения для каждой CDS, найдена для нее вероятная SD или нет.

Среди находок присутствовали 3 219 правдоподобных последовательностей (3.07% от всех, 3 190 на хромосоме, 29 на плазмиде). Правдоподобные SD имелись у 2 290 CDS, из которых 2 076 были функциональными, 214 - CDS псевдогенов. Тест хи-квадрат для функциональных и нефункциональных CDS, для которых были или не были найдены правдоподобные последовательности SD по паттерну, дал результат 4.565, что больше критического значения для уровня значимости 0.05 (3.841).

Тест хи-квадрат для признаков: последовательность является правдоподобной SD, последовательность находится в пределах 20 нуклеотидов от начала CDS, дал результат 1 665.1 для хромосомы и 1.15 для плазмиды. Также для этих признаков были подсчитаны отношения шансов с 95%-ми доверительными интервалами: для хромосомы оно составило 2.08 (2.00 - 2.15), для плазмиды - 1.23 (0.84 - 1.78).

На основании данных по GC-составу репликонов (54.64% для хромосомы и 52.79% для плазмиды) были рассчитаны ожидаемые количества находок по использованному паттерну и 95%-е доверительные интервалы для них. Для хромосомы - 80 070 (79 520 - 80 620), для плазмиды - 996 (935 - 1 058).

Можно сделать вывод, что последовательности соответствующие выбранному паттерну для поиска SD, более распространены, чем можно было бы ожидать исходя из частот нуклеотидов. Также, по-видимому, близкие к консенсусу последовательности Шайна-Дальгарно чаще сохраняются перед функциональными CDS, чего, в целом, и следовало ожидать. Помимо этого для последовательностей, соответствующих паттерну, в хромосоме Octadecabacter antarcticus 307 характерно "предпочтение" по отношению к 20-нуклеотидным областям перед CDS (отношение шансов около 2 и огромное значение хи-квадрата), чего не удалось показать в плазмиде данной бактерии.

Все рассчеты приведены в таблице.

ЛИТЕРАТУРА И ИСТОЧНИКИ

  1. Mott ML, Berger JM. DNA replication initiation: mechanisms and regulation in bacteria. Nat Rev Microbiol. 2007 May;5(5):343-54. doi: 10.1038/nrmicro1640. PMID: 17435790.

  2. Wegrzyn K and Konieczny I (2024) Toward an understanding of the DNA replication initiation in bacteria. Front. Microbiol. 14:1328842. doi: 10.3389/fmicb.2023.1328842