Для дальнейшего анализа был выбран бактериальный белок DnaA. Данный белок играет ключевую роль в процессе инициации трансляции в бактериальных клетках. Связываясь с DnaA-боксами в области ориджина репликации мономеры DnaA олигомеризуются, вызывая локальное положительное суперскручивание ДНК, из-за чего возникает компенсаторное первичное расплетание ДНК в соседнем AT-богатом участке (DUE - DNA unwinding element) и становится возможна сборка репликативных вилок (Рис. 1) [1,2].
DnaA является представителем суперсемейства AAA+ АТФаз и состоит из 4 доменов: I - отвечает за взаимодействие с другими белками, в том числе соседними мономерами DnaA; II - гибкий линкер; III - AAA+ АТФазный домен, связывает и гидролизует АТФ, а также участвует в олигомеризации DnaA и, по-видимому, может взаимодействовать с одноцепочечной ДНК, стабилизируя образовавшийся репликативный глазок; IV - содержит стуктуру спираль-поворот-спираль (HTH) и отвечает за связывание с ДНК (Рис. 1) [1,2].
Домен III содержит несколько мотивов - Walker A и Walker B, отвечающие за связывание и гидролиз АТФ соответственно, а также Sensor I и Sensor II, ответственные за переходы белка между активным (в комплексе с АТФ, способен к олигомеризации) и неактивным (в комплексе с АДФ, не способен к олигомеризации) состояниями [1,2].
Описание белкового мотива при помощи паттерна
Из SwissProt были выбраны аминокислотные последовательности DnaA бактерий Geotalea daltonii (DNAA_GEODF), Thermotoga maritima (DNAA_THEMA), Cupriavidus necator (DNAA_CUPNH), Photobacterium profundum (DNAA_PHOPR), Nitrosomonas europaea (DNAA_NITEU), Clostridium perfringens (DNAA_CLOPE), Deinococcus radiodurans (DNAA_DEIRA), Magnetococcus marinus (DNAA_MAGMM), Paraburkholderia phytofirmans (DNAA_PARPJ), Caulobacter vibrioides (DNAA_CAUVN). Последовательности были выровнены при помощи встроенного на сайте UniProt иснтрумента (алгоритм - Clustal Omega).
Из полученного выравнивания был выбран участок без гэпов, приведенный на рисунке 2.
Для данного участка изначально был составлен паттерн NP[LV][LFY][FIL][HY]G[PGD][YVT]G[FL]GKTH (позиции 183-197 в DnaA Caulobacter vibrioides) и осуществлен поиск белков, содержащих данный паттерн, в базе данных SwissProt:
fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern NP[LV][LFY][FIL][HY]G[PGD]
[YVT]G[FL]GKTH -outfile dnaa_1.txt
В данном случае в выдаче оказались 337 белков, все из которых имели мнемонику DNAA*, однако в SwissProt имеются последовательности 585 белков с подобной мнемоникой.
При ослаблении паттерна до PxxxxGxxGxGKTH (позиции 184-197 в DnaA Caulobacter vibrioides) удается найти 546 белков с мнемоникой DNAA*, при дальнейшем ослаблении в результаты поиска начинают попадать другие белки, не имеющие отношения к DnaA. Такое упрощение паттерна позволило уменьшить число ложноотрицательных результатов с 248 до 39.
Поиск мотивов при помощи MEME
По последовательностям выбранных белков DnaA был осуществлен поиск мотивов программой MEME (длина мотива 8-15 аминокислот, не более трех мотивов):
meme DnaA.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15
В результате были найдены 3 мотива, присутствующие во всех 10 белках. Один из мотивов совпал с тем, что ранее описывался при помощи паттерна. Этот мотив является мотивом Walker A или же P-петлей и необходим для связывания АТФ. Второй мотив все еще находится в области домена DnaA (в его C-концевой части) и, по-видимому, соответствует какому-то из мотивов Sensor 1 и Sensor 2.
Третий мотив расположен в C-концевой части белков (в домене IV), по-видимому, в структуре HTH, что подтверждается результатами анализа данных последовательностей инструментом InterProScan. Согласно этим результатам третий мотив во всех 10 белках заканчивается за 1 аминокислотный остаток до конца домена спираль-поворот-спираль.
Поскольку для домена III белка DnaA из бактерии Thermotoga maritima есть структура в PDB (PDB ID: 2Z4S), была возможность проверить, действительно ли первый мотив формирует контакты с АТФ или АДФ. Как оказалось (Рис. 3), данный мотив действительно участвует в связывании адениловых нуклеотидов и формирует с ними многочисленные полярные связи.
Далее был выполнен поиск белков из SwissProt, содержащих найденные мотивы, при помощи программы mast:
mast meme.html /P/y24/term4/bacteria-sw.fasta
Среди находок присутствовал белок DnaA бактерии Escherichia coli (DNAA_ECOLI), для домена IV которого есть структура в PDB (PDB ID: 1J1V). Как оказалось, третий мотив из найденных MEME формирует участок домена, взаимодействующий с большой бороздкой ДНК (Рис. 4). Похоже, что этот мотив участвует в узнавании DnaA-боксов и связывании с ними.
Также среди находок имелся DnaA бактерии Aquifex aeolicus (DNAA_AQUAE), для которого есть структура (PDB ID: 3R8F). Данная струтктура представляет собой тетрамер из доменов III DnaA, связанный с негидролизуемым аналогом АТФ (AMPPCP) и одноцепочечной ДНК. Второй мотив, по-видимому, важен для взаимодействия DnaA с оцДНК и образует с ней полярные контакты (Рис. 5).
Всего были найдены 609 белков, из которых 582 имели мнемонику DNAA*. Остальные находки попадали в выдачу чаще всего по причине наличия P-петли, при этом E-value меньше 1 имели только DnaA и во всех таких белках были найдены все 3 мотива. Большую часть ложноположительных находок составили белки RuvB, которые также, как и DnaA, относятся к суперсемейству AAA+ АТФаз.
Как можно заметить 3 белка DnaA из SwissProt так и не были найдены. Но все же поиск по трем мотивам позволил значительно снизить количество ложноотрицательных результатов в сравнении с поиском по паттерну.
Поиск последовательностей Шайна-Дальгарно в геноме бактерии Octadecabacter antarcticus 307
Как было показано ранее в миниобзоре особенностей генома бактерии Octadecabacter antarcticus 307 консервативность последовательности Шайна-Дальгарно (SD) у рассматриваемой бактерии довольно низка.
Консенсусная последовательность SD у E. coli - AGGAGG, где наиболее консервативным является участок GAGG. При помощи программы fuzznuc был осуществлен поиск последовательностей Шайна-Дальгарно по паттерну [AG][AG]GAGG на обеих цепях с допустимым наличием 1 несовпадения:
fuzznuc -sequence genome.fna -pattern [AG][AG]GAGG -complement -pmismatch 1 -rformat gff
-outfile SD_weaker.gff
В результате были найдены 104 716 последовательностей, соответствующих паттерну (103 245 на хромосоме и 1 471 на плазмиде). Для их валидации был написан скрипт на Python, соотносящий потенциальные SD с ближайшими CDS из таблицы генетических особенностей, расположенными после SD на той же цепи. Правдоподобными считались SD, полностью попадающие в область длиной 20 нуклеотидов до перед первым нуклеотидом CDS. Другой скрипт на Python был написан с целью определения для каждой CDS, найдена для нее вероятная SD или нет.
Среди находок присутствовали 3 219 правдоподобных последовательностей (3.07% от всех, 3 190 на хромосоме, 29 на плазмиде). Правдоподобные SD имелись у 2 290 CDS, из которых 2 076 были функциональными, 214 - CDS псевдогенов. Тест хи-квадрат для функциональных и нефункциональных CDS, для которых были или не были найдены правдоподобные последовательности SD по паттерну, дал результат 4.565, что больше критического значения для уровня значимости 0.05 (3.841).
Тест хи-квадрат для признаков: последовательность является правдоподобной SD, последовательность находится в пределах 20 нуклеотидов от начала CDS, дал результат 1 665.1 для хромосомы и 1.15 для плазмиды. Также для этих признаков были подсчитаны отношения шансов с 95%-ми доверительными интервалами: для хромосомы оно составило 2.08 (2.00 - 2.15), для плазмиды - 1.23 (0.84 - 1.78).
На основании данных по GC-составу репликонов (54.64% для хромосомы и 52.79% для плазмиды) были рассчитаны ожидаемые количества находок по использованному паттерну и 95%-е доверительные интервалы для них. Для хромосомы - 80 070 (79 520 - 80 620), для плазмиды - 996 (935 - 1 058).
Можно сделать вывод, что последовательности соответствующие выбранному паттерну для поиска SD, более распространены, чем можно было бы ожидать исходя из частот нуклеотидов. Также, по-видимому, близкие к консенсусу последовательности Шайна-Дальгарно чаще сохраняются перед функциональными CDS, чего, в целом, и следовало ожидать. Помимо этого для последовательностей, соответствующих паттерну, в хромосоме Octadecabacter antarcticus 307 характерно "предпочтение" по отношению к 20-нуклеотидным областям перед CDS (отношение шансов около 2 и огромное значение хи-квадрата), чего не удалось показать в плазмиде данной бактерии.
Все рассчеты приведены в таблице.
ЛИТЕРАТУРА И ИСТОЧНИКИ
Mott ML, Berger JM. DNA replication initiation: mechanisms and regulation in bacteria. Nat Rev Microbiol. 2007 May;5(5):343-54. doi: 10.1038/nrmicro1640. PMID: 17435790.
Wegrzyn K and Konieczny I (2024) Toward an understanding of the DNA replication initiation in bacteria. Front. Microbiol. 14:1328842. doi: 10.3389/fmicb.2023.1328842