Изучение представленности сайтов рестрикции

Данная работа посвящена ознакомлению с возможностями базы REBASE, а именно - изучению представленности сайтов системы рестрикции-модификации II типа в геноме бактерии.

Системы рестрикции-модификации (RM) служат механизмом клеточной защиты от вирусов, позволяющим бактерии уничтожать чужеродную ДНК, попавшую в клетку. Все системы RM делятся на 3 типа, самый представленный из которых - тип II, представлен метилазами и эндонуклеазами рестрикциями, работающими вместе. [1]

Подготовка данных к работе

В базе данных REBASE был выбран Flexibacter (Bernardetia) litoralis DSM 6794 - анаэробная Грам-отрицательная бактерия, выделенная из фильтра морского аквариума.[2]
Ее полный геном был скачан из БД NCBI Assembly (ASM26550v1).

В геноме исследовалась представленность сайтов, узнающихся системой RM II-типа. С полным списом возможных сайтов можно ознакомиться по ссылке.
Для начала, приведем рестриктазы II-типа с известными сайтами, чье наличие в геноме точно подтверждено по данным REBASE

Рестриктаза II Сайт
M.Fli6794ORF693P AAGCTT
M.Fli6794III CATG
M.Fli6794ORF1080P
Fli6794ORF1080P
GGCC
Fli6794IIP
M.Fli6794II
GTYRAC
M.Fli6794ORF1402P CCGG
M.Fli6794ORF1820P
Fli6794ORF1820P
GGNCC
M.Fli6794ORF2135P AAGCTT
M.Fli6794ORF2209P
Fli6794ORF2209P
CGCG
M2.Fli6794IVP
M1.Fli6794IV
Fli6794IVP
GGTGA
M1.Fli6794ORF3617P
M2.Fli6794ORF3617P
GATC
Схематическое отображение генома F.litoralis и рестриктаз в нем.

Процедура поиска

  1. Первым делом необходимо получить последовательности сайтов рестрикции длиной больше 2 нуклеотидов из исходного файла. Для этого был написан скрипт на Python. С полученными последовательностями можно ознакомиться по ссылке.
  2. Полученные последовательности и геном бактерии были переданы онлайн-сервису CB Calc, который оценивает представленность определенных последовательностей в геноме по методу С.Карлина ("method of Burge and co-authors" в программе). Программа выдает файл, содержащий информацию о представленности сайтов в геноме.
  3. Для выбора "недопредставленных" сайтов был выбран рекомендуемый порог O/E ratio в 0.8. Отбор осуществлялся с помощью скрипта, который в результате выдает файл с последовательностями недопредставленных сайтов.
  4. Наконец, необходимо получить список экспериментально проверенных эндонуклеаз, сайты которых недопредставлены в геноме M.aerguinosa. Для этого был написан скрипт, который учитывает колонку 'Putative' в исходном файле и находит название рестриктазы в REBASE, которой соответствует найденный CB Calc сайт.

Результат: файл, содержащий названия и соответствующий сайт рестриктаз, которые, предположительно, недопредставлены в геноме.

Поиск гомологов в геноме

Финальным этапом данной работы является поиск в геноме бактерии гомологов рестриктаз с недопредставленными сайтами. Для этого, первым делом, необходимо подготовить файл с последовательностями нужных рестриктаз.
Из файла с последовательностями всех рестриктаз II-типа с помощью скрипта были выбраны рестриктазы, чей сайт недопредставлен в геноме. С полученными последовательностями проводился поиск blastp, ограниченный по организму B. litoralis DSM 6794. С результатом можно ознакомиться по ссылке.
Общее количество находок крайне низко, причем подавляющее большинство рестриктаз не имеет ни одного гипотетического гомолога. Только для 10 рестриктаз из 69 в запросе был найден хотя бы 1 гомолог.

Найденные белки сведены в таблицу ниже:

Query Hits
Lph2132ORFBP hypothetical protein (WP_014798048.1)
Pin14ORF1619P ! HincII family type II restriction endonuclease (WP_014797179.1)
SspUCH001ORFAP ! HNH endonuclease (WP_157698953.1)
hypothetical protein Fleli_2332 (AFM04705.1)
SsuLS9NORFFP PAS domain-containing protein (WP_014797062.1)
TpeTA4ORF1280P hypothetical protein (WP_014799424.1)
UbaSCBORF5587P hypothetical protein (WP_014799424.1)
Vsp6RORF2130P ! NgoPII family restriction endonuclease (WP_014796977.1)
WchORF8360P ! HpaII family restriction endonuclease (WP_217192962.1)
Wsp55ORF1947P ! Eco47II family restriction endonuclease (WP_014797669.1)
Zfo19928ORFJP 7 находок-метилаз
! DNA (cytosine-5-)-methyltransferase
(WP_014798050.1, WP_014797670.1, WP_014796976.1, WP_014798147.1, WP_014798051.1, WP_081485499.1, WP_014798035.1)

Как видно, среди находок присутствуют гипотетические белки, эндонуклеазы и 1 метилаза, что позволяет сделать предположение об отсутствии у бактерии подавляющего числа рестриктаз, чьи сайты недопредставлены в геноме, однако наличии некоторых гомологичных белков, чьи сайты все равно недопредставлены.

PSI-BLAST

Из предложенного списка выбран случайный идентификатор O05886. Данный ID имеет 'Ribosome hibernation promotion factor' - фактор, инициирующий гибернацию рибосом (перевод их в неактивное состояние) у бактерии Mycobacterium tuberculosis.
Гибернация рибосом - механизм, позволяющий бактериям длительное время находиться в состоянии покоя c сохраненными рибосомами. Связывание субъединиц рибосом с HPF защищает их от деградации, поэтому при переходе в активное состояние бактерия может использовать "старые" рибосомы и не синтезировать новые.[3]

Данный белок был использован для запуска PSI-BLAST. Результаты запусков итераций приведены в таблице ниже.

№ итерации Число находок выше порога (0,005) ID худшей находки выше порога E-value этой находки ID лучшей находки ниже порога E-value этой находки
1 20 P17161.1 0.003 P17160.1 0.005
2 27 P71346.3 1e-11 нет -
3 29 P06727.4 0.003 P33621.1 0.007
4 38 P02651.2 0.0002 O46409.1 0.007
5 46 P32918.2 0.004 O42296.1 0.008
6 136 A0A6P6DKR7.1 0.005 P0DKW8.2 0.005

Первая итерация PSI-BLAST является обыкновенным BLAST'ом, поэтому разницы в E-value между лучшей и худжей находкой не наблюдается. Дальнейшие итерации учитывают PSSM, построенную по находкам, которая вносит вклад в расчет E-value новых находок (поэтому он значительно меньше).

Как видно из таблицы, увеличение числа итераций (>2) не привело к стабилизации числа находок. С каждой новой итерацией число находок и E-value худшей из них увеличиваются. Это объясняется постепенным учетом все более разнородных белков, что увеличивает "простор" для нахождения новых белков.

Такое явление позволяет сделать вывод о низкой консервативности этого семейства либо наличие сходных участков последовательности в другой группе белков. Видимо, семейство не такое специфичное и сходные белки встречаются в большом числе видов.

References

  1. Sitaraman R. The role of DNA restriction-modification systems in the biology of Bacillus anthracis // Frontiers in Microbiology. – 2016. – Т. 7. – С. 11.
  2. Hahnke, R. L., Meier-Kolthoff, J. P., García-López, M., Mukherjee, S., Huntemann, M., Ivanova, N. N., Woyke, T., Kyrpides, N. C., Klenk, H. P., & Göker, M. (2016). Genome-Based Taxonomic Classification of Bacteroidetes. Frontiers in microbiology, 7, 2003. https://doi.org/10.3389/fmicb.2016.02003
  3. Theng S., Williamson K. S., Franklin M. J. Role of hibernation promoting factor in ribosomal protein stability during Pseudomonas aeruginosa dormancy //International journal of molecular sciences. – 2020. – Т. 21. – №. 24. – С. 9494.