Для проверки недопредставленности сайтов рестрикции в геноме археи, я выбрал геном термоацидофильной археи Thermoplasma volcanium GSS1.
В базе данных REBASE, были найдены рестриктазы типа II с известными сайтами рестрикции:
Название рестриктазы II | Сайт рестрикции |
---|---|
M.TvoI | CATG |
M.TvoDam | GATC |
M.TvoORF1192P | CCWGG |
M.TvoORF1400P | GANTC |
M.TvoORF1413P | CCSGG |
TvoORF1413P | CCSGG |
TvoORF1416P | CCWGG |
M.TvoORF1416P | CCWGG |
cbcalc genome_.fasta -s rsites.txt -o presented_sites.tsv
Из всех находок скриптом были выделены те, что имеют О/Е меньше рекомендованного 0.8. Среди этих сайтов можно увидеть комплементарный сайтам рестрикции нескольких рестриктаз из таблицы (GGWCC). Недопредставленность сайта рестрикции рестриктаз, имеющихся в клетки археи был ожидаем, так как системы рестрикции-модификации служат для архей и бактерий защитой против чужеродных ДНК. Свой же геном должен иметь меньше участков, "уязвимых" к своим рестриктазам.
Для поиска гомологов рестриктаз недопредставленных сайтов рестрикции сначала были получены идентификаторы рестриктаз недопредставленных сайтов рестрикции из таблицы. Затем был составлен файл с последовательностями данных рестриктаз. Они были направлены на вход программе Blast. Выдача показала, что в геноме очень мало участков, которые могут кодировать гомологов рестриктаз из других организмов (поставил довольно малое значение E-value = 0.01, чтобы увидеть как можно больше потенциальных гомологов). Лишь несколько находок показали довольно высокое значение E-value:
Из предложенного списка был выбран случайный идентификатор(AC) B2V8C0 (Probable septum site-determining protein MinC, ингибитор клеточного деления, блокирует образование полярных Z-кольцевых перегородок). После 3 итераций результат стабилизировался (список находок выше порога не поменялся по сравнению с предыдущей итерацией). Разница между E-value худшей находки выше порога и лучшей находки ниже порога огромная. Исходя из этого можно говорить о том, что полученные находки с высокой долей вероятности составляют семейство гомологичных белков.
Номер итерации | Число находок выше порога (0.005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 163 | Q88M41.2 | 0.004 | Q4US07.1 | 0.006 |
2 | 188 | Q9ZM51.1 | 6e-07 | A7H8E6.1 | 0.037 |
3 | 188 | Q9ZM51.1 | 2e-11 | A7H8E6.1 | 0.024 |