Signals & Motifs

Эндонуклеазы рестрикции

Эндонуклеазы рестрикции, или рестриктазы – это гидролазы, субстратом которых являются нуклеиновые кислоты. Они расщепляют нуклеиновые кислоты в середине цепи и только при наличии в них точной последовательности нуклеотидов, сайта рестрикции. Система рестрикции-модификации является основой бактериального иммунитета, который помогает защищаться от чужеродных ДНК, попадающих в клетку бактерии благодаря бактериофагам.

Сама же бактериальная ДНК должна быть некоторым образом защищена от рестрикции. Так как рестриктазы узнают ДНК не по последовательности непосредственно, а по форме субстрата, то различные модификации могли бы предотвратить рестрикцию ДНК бактерии. Известно, что для этих целей используется метилирование. Однако рестрикция собственной ДНК все же может происходить как из-за недостаточной специфичности фермента, так и из-за отсутствия метилирования[1]. Логично предположть в таком случае недопредставленность сайтов рестрикции в бактериальном геноме. Эта гипотеза и проверяется в данной работе.

Известно, что рестриктазы работают вместе с метилазами, образуя систему рестрикции-модификации (RM). В этой работе были исследованы сайты рестрикции системы RM типа II на примере штамма B90A Sphingobium indicum. Подробнее о геноме этой альфа-протеобактерии можно узнать в обзоре.

Краткий обзор рестриктаз Sphingobium indicum

Ниже представлена карта генов рестриктаз (рис. 1), которые зарегистрированы в базе данных REBASE. У данного штамма найдены только системы RM II и III типов. Из рестриктаз II типа у трех из них подтверждены сайты рестрикции (табл. 1). Подробнее обо всех найденных рестриктазах можно узнать из записи в REBASE.

Рис. 1 – карта генов системы RM в геноме штамма B90A Sphingobium indicum
Табл. 1 – рестриктазы II типа с известными сайтами рестрикции
Название рестриктазы Сайт рестрикции
M.SinB90AORF3797P GANTC
M.SinB90AORF4622P CCGCGG
SinB90AORF12009P CAATTG

Представленность сайтов рестрикции

Предполагается, что среди известных в REBASE сайтов рестрикции в геноме недопредставлены те, для которых у бактерии имеются системы рестрикции. Поиск сайтов рестрикции проводился в геноме из GenBank (AC: GCA_000264945.2). Список всевозможных сайтов рестрикции был составлен на основе уникальных последовательностей более двух нуклеотидов из таблицы известных сайтов в REBASE. Колонка с последовательностями была выделена с помощью Excel в отдельный файл raw_list.txt, затем с помощью конвейера sort raw_list.txt | uniq | grep -E "[ATGC]{3}" > list.txt был создан окончательный список искомых последовательностей. Представленность сайта определялась с помощью метода Карлина в веб-сервисе CBcalc (выдача доступна по ссылке). За недопредставленные сайты были приняты те, для которых соотношение правдоподобия составляло менее 80% (список). На основе списка недопредставленных сайтов по таблице рестриктаз из REBASE с помощью скрипта был получен список из 2230 предполагаемых (putative) на основе экспериментальных данных рестриктаз, соответствуих этим сайтам.

Поиск гомологов с помощью PSI-BLAST

Был исследован ассоциированный с рибосомой ингибитор трансляции А, выделенный из E. coli. Он также известен как ассоциированный с рибосомой фактор Y, или просто белок Y. Его мнемоника: YFIA_ECOLI; AC в Swiss-Prot: P0AD49. Известно, что он препятствует диссоциации рибосомы, подавляяет элонгацию трансляции, но вместе с тем повышает ее точность[2]. Возможно, он связывается с рибосомой, предположительно, в A-сайте[3], либо в A~ и P-сайте[4]. Предположительно, для эффективного взаимодействия непосредствеенно с рибосомой требуется очень высокая консервативность аминокислотной последовательности белка. Это означает медленную эволюцию и маловероятное возниконовение паралогов. Все это говорит о том, что семейство гомологов должно быть весьма специфичным. Для проверки этой гипотезы был использован PSI-BLAST по базе данных Swiss-Prot (E-значение: 0,005). В табл. 2 ниже показан результат работы итеративного алгоритма.

Табл. 2 – результаты итерации PSI-BLAST
номер итерации число находок выше порога (0,005) идентификатор худшей находки выше порога E-value этой находки идентификатор лучшей находки ниже порога E-value этой находки
1 22 Q49VV1.1 8,00E-04 P19954.2 0,023
2 27 O05886.4 3e-09
3 27 O05886.4 2e-24

Действительно, как видно из таблицы выше, результат был стабильным уже на первой итерации, после применения обычного алгоритма BALST. Разрыв между E-значениями худшей находки из 22-х выше порога и лучшей (единственной) находки ниже порога составил шесть порядков. Это может объясняться очень высокой специфичностью белкового семейства. Во второй итерации по прошедшим отбор находкам был построен PPSM, после чего по нему был произведен новый поиск. Добавилось еще пять записей; находок ниже порога не было. На третьей итерации после построения новой PSSM поиск по ней не принес новых результатов, а худшее Е-значение составило всего 2e-24. Это окончательно доказывает крайне высокую специфичность семейства.

Библиография

[1] Rusinov I, Ershova A, Karyagina A, Spirin S, Alexeevski A. Lifespan of restriction-modification systems critically affects avoidance of their recognition sites in host genomes. BMC Genomics. 2015 Dec 21;16:1084. doi: 10.1186/s12864-015-2288-4. PMID: 26689194; PMCID: PMC4687349.

[2] Sabharwal D, Song T, Papenfort K, Wai SN. The VrrA sRNA controls a stationary phase survival factor Vrp of Vibrio cholerae. RNA Biol. 2015;12(2):186-96. doi: 10.1080/15476286.2015.1017211. PMID: 25826569; PMCID: PMC4615753.

[3] Agafonov DE, Spirin AS. The ribosome-associated inhibitor A reduces translation errors. Biochem Biophys Res Commun. 2004 Jul 23;320(2):354-8. doi: 10.1016/j.bbrc.2004.05.171. PMID: 15219834.

[4] Agafonov DE, Kolb VA, Spirin AS. Ribosome-associated protein that inhibits translation at the aminoacyl-tRNA binding stage. EMBO Rep. 2001 May;2(5):399-402. doi: 10.1093/embo-reports/kve091. PMID: 11375931; PMCID: PMC1083885.

[5] Vila-Sanjurjo A, Schuwirth BS, Hau CW, Cate JH. Structural basis for the control of translation initiation during stress. Nat Struct Mol Biol. 2004 Nov;11(11):1054-9. doi: 10.1038/nsmb850. Epub 2004 Oct 24. Erratum in: Nat Struct Mol Biol. 2007 Apr;14(4):351. PMID: 15502846.