Проверка недопредставленности сайтов рестрикции в геноме археи Thermoplasma volcanium GSS1

Для проверки недопредставленности сайтов рестрикции в геноме археи, я выбрал геном термоацидофильной археи Thermoplasma volcanium GSS1.

В базе данных REBASE, были найдены рестриктазы типа II с известными сайтами рестрикции:

Название рестриктазы II Сайт рестрикции
M.TvoI CATG
M.TvoDam GATC
M.TvoORF1192P CCWGG
M.TvoORF1400P GANTC
M.TvoORF1413P CCSGG
TvoORF1413P CCSGG
TvoORF1416P CCWGG
M.TvoORF1416P CCWGG

C cайта NCBI был скачан геном организма. Также с помощью скрипта были получены все сайты рестрикции из таблицы длиной больше 2. Следующей командой была получена таблица с оценкой представленности полученных сайтов рестрикции в геноме археи:

cbcalc genome_.fasta -s rsites.txt -o presented_sites.tsv

Из всех находок скриптом были выделены те, что имеют О/Е меньше рекомендованного 0.8. Среди этих сайтов можно увидеть комплементарный сайтам рестрикции нескольких рестриктаз из таблицы (GGWCC). Недопредставленность сайта рестрикции рестриктаз, имеющихся в клетки археи был ожидаем, так как системы рестрикции-модификации служат для архей и бактерий защитой против чужеродных ДНК. Свой же геном должен иметь меньше участков, "уязвимых" к своим рестриктазам.

Для поиска гомологов рестриктаз недопредставленных сайтов рестрикции сначала были получены идентификаторы рестриктаз недопредставленных сайтов рестрикции из таблицы. Затем был составлен файл с последовательностями данных рестриктаз. Они были направлены на вход программе Blast. Выдача показала, что в геноме очень мало участков, которые могут кодировать гомологов рестриктаз из других организмов (поставил довольно малое значение E-value = 0.01, чтобы увидеть как можно больше потенциальных гомологов). Лишь несколько находок показали довольно высокое значение E-value:

1

PSI-BLAST

Из предложенного списка был выбран случайный идентификатор(AC) B2V8C0 (Probable septum site-determining protein MinC, ингибитор клеточного деления, блокирует образование полярных Z-кольцевых перегородок). После 3 итераций результат стабилизировался (список находок выше порога не поменялся по сравнению с предыдущей итерацией). Разница между E-value худшей находки выше порога и лучшей находки ниже порога огромная. Исходя из этого можно говорить о том, что полученные находки с высокой долей вероятности составляют семейство гомологичных белков.

Номер итерации Число находок выше порога (0.005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 163 Q88M41.2 0.004 Q4US07.1 0.006
2 188 Q9ZM51.1 6e-07 A7H8E6.1 0.037
3 188 Q9ZM51.1 2e-11 A7H8E6.1 0.024