Данная работа посвящена ознакомлению с возможностями базы REBASE, а именно - изучению представленности сайтов системы рестрикции-модификации II типа в геноме бактерии.
Системы рестрикции-модификации (RM) служат механизмом клеточной защиты от вирусов, позволяющим бактерии уничтожать чужеродную ДНК, попавшую в клетку. Все системы RM делятся на 3 типа, самый представленный из которых - тип II, представлен метилазами и эндонуклеазами рестрикциями, работающими вместе. [1]
В базе данных REBASE был выбран Flexibacter (Bernardetia) litoralis DSM 6794 - анаэробная Грам-отрицательная бактерия, выделенная из фильтра морского аквариума.[2]
Ее полный геном был скачан из БД NCBI Assembly (ASM26550v1).
В геноме исследовалась представленность сайтов, узнающихся системой RM II-типа. С полным списом возможных сайтов можно ознакомиться по ссылке.
Для начала, приведем рестриктазы II-типа с известными сайтами, чье наличие в геноме точно подтверждено по данным REBASE
Рестриктаза II | Сайт |
---|---|
M.Fli6794ORF693P | AAGCTT |
M.Fli6794III | CATG |
M.Fli6794ORF1080P Fli6794ORF1080P |
GGCC |
Fli6794IIP M.Fli6794II |
GTYRAC |
M.Fli6794ORF1402P | CCGG |
M.Fli6794ORF1820P Fli6794ORF1820P |
GGNCC |
M.Fli6794ORF2135P | AAGCTT |
M.Fli6794ORF2209P Fli6794ORF2209P |
CGCG |
M2.Fli6794IVP M1.Fli6794IV Fli6794IVP |
GGTGA |
M1.Fli6794ORF3617P M2.Fli6794ORF3617P |
GATC |
Результат: файл, содержащий названия и соответствующий сайт рестриктаз, которые, предположительно, недопредставлены в геноме.
Финальным этапом данной работы является поиск в геноме бактерии гомологов рестриктаз с недопредставленными сайтами. Для этого, первым делом, необходимо подготовить файл с последовательностями нужных рестриктаз.
Из файла с последовательностями всех рестриктаз II-типа с помощью скрипта были выбраны рестриктазы, чей сайт недопредставлен в геноме. С полученными последовательностями проводился поиск blastp, ограниченный по организму B. litoralis DSM 6794. С результатом можно ознакомиться по ссылке.
Общее количество находок крайне низко, причем подавляющее большинство рестриктаз не имеет ни одного гипотетического гомолога. Только для 10 рестриктаз из 69 в запросе был найден хотя бы 1 гомолог.
Найденные белки сведены в таблицу ниже:
Query | Hits |
---|---|
Lph2132ORFBP | hypothetical protein (WP_014798048.1) |
Pin14ORF1619P | ! HincII family type II restriction endonuclease (WP_014797179.1) |
SspUCH001ORFAP | ! HNH endonuclease (WP_157698953.1) hypothetical protein Fleli_2332 (AFM04705.1) |
SsuLS9NORFFP | PAS domain-containing protein (WP_014797062.1) |
TpeTA4ORF1280P | hypothetical protein (WP_014799424.1) |
UbaSCBORF5587P | hypothetical protein (WP_014799424.1) |
Vsp6RORF2130P | ! NgoPII family restriction endonuclease (WP_014796977.1) |
WchORF8360P | ! HpaII family restriction endonuclease (WP_217192962.1) |
Wsp55ORF1947P | ! Eco47II family restriction endonuclease (WP_014797669.1) |
Zfo19928ORFJP | 7 находок-метилаз ! DNA (cytosine-5-)-methyltransferase (WP_014798050.1, WP_014797670.1, WP_014796976.1, WP_014798147.1, WP_014798051.1, WP_081485499.1, WP_014798035.1) |
Как видно, среди находок присутствуют гипотетические белки, эндонуклеазы и 1 метилаза, что позволяет сделать предположение об отсутствии у бактерии подавляющего числа рестриктаз, чьи сайты недопредставлены в геноме, однако наличии некоторых гомологичных белков, чьи сайты все равно недопредставлены.
Из предложенного списка выбран случайный идентификатор O05886. Данный ID имеет 'Ribosome hibernation promotion factor' - фактор, инициирующий гибернацию рибосом (перевод их в неактивное состояние) у бактерии Mycobacterium tuberculosis.
Гибернация рибосом - механизм, позволяющий бактериям длительное время находиться в состоянии покоя c сохраненными рибосомами. Связывание субъединиц рибосом с HPF защищает их от деградации, поэтому при переходе в активное состояние бактерия может использовать "старые" рибосомы и не синтезировать новые.[3]
Данный белок был использован для запуска PSI-BLAST. Результаты запусков итераций приведены в таблице ниже.
№ итерации | Число находок выше порога (0,005) | ID худшей находки выше порога | E-value этой находки | ID лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 20 | P17161.1 | 0.003 | P17160.1 | 0.005 |
2 | 27 | P71346.3 | 1e-11 | нет | - |
3 | 29 | P06727.4 | 0.003 | P33621.1 | 0.007 |
4 | 38 | P02651.2 | 0.0002 | O46409.1 | 0.007 |
5 | 46 | P32918.2 | 0.004 | O42296.1 | 0.008 |
6 | 136 | A0A6P6DKR7.1 | 0.005 | P0DKW8.2 | 0.005 |
Первая итерация PSI-BLAST является обыкновенным BLAST'ом, поэтому разницы в E-value между лучшей и худжей находкой не наблюдается. Дальнейшие итерации учитывают PSSM, построенную по находкам, которая вносит вклад в расчет E-value новых находок (поэтому он значительно меньше).
Как видно из таблицы, увеличение числа итераций (>2) не привело к стабилизации числа находок. С каждой новой итерацией число находок и E-value худшей из них увеличиваются. Это объясняется постепенным учетом все более разнородных белков, что увеличивает "простор" для нахождения новых белков.
Такое явление позволяет сделать вывод о низкой консервативности этого семейства либо наличие сходных участков последовательности в другой группе белков. Видимо, семейство не такое специфичное и сходные белки встречаются в большом числе видов.