Сайты рестрикции

Представленность сайтов рестрикции

Я взял бактерию Neisseria gonorrhoeae 98D159, являющуюся возбудителем гонореи. Ссылка на NCBI.

Далее мной был скачан ее геном. После этого я из исходного файла с рестриктазами II типа и их сайтами с помощью скрипта получил все сайты рестрикции.

Список полученных сайтов совместно с геномом были проанализированы в онлайн-инструменте CBcalc и был выбран method of Burge and co-authors по умолчанию. Этот сервис инструмент оценивает представленность сайтов в заданном геноме. В полученном файле располагается список рестриктаз с посчитанным O/E-ratio. Выбрав предел для O/E-ratio равным 0.8, с помощью скрипта я получил список всех недопредставленных рестриктаз совместно с их названиями.

Итоговый список со всеми рестриктазами и их последовательностями. Как можно увидеть, представленные рестриктазы не свойственны бактерии Neisseria gonorrhoeae 98D159. Но есть рестриктаза Tsu2489ORF1987 c аналогичным сайтом рестрикции GGNNCC, как и у выбранной мной бактерии рестриктазы Ngos1291ORF9120P, а также еще три сайта GATC, GGCC и GGTGA, узнающихся рестриктазами нейссерии. Таким образом, показано, что несколько сайтов рестрикции, характерных для данной бактерии недопредставленны в ее геноме.

**Рис 1.** Схематическое изображение генов рестриктаз в геноме *Neisseria gonorrhoeae 98D159*

PSI-blast

Я выбрал идентификатор Q7VDL2 (probable septum site-determining protein MinC) из морской фотосинтезирующей бактерии Prochlorococcus marinus. Функцией данного белка является ингибирование образование септы (перегородки) при клеточном делении за счет дестабилизации FtsZ.

Далее для поиска гомологов этого белка я воспользовался PSI-blast. На первом шаге ожидаемо E-value лучшей и худшей находок не отличаются (см. таблицу), так как запускается классический Blast. Затем во второй находке поиск ведется по построенной PSSM и на ней не обнаруживается находок ниже порога, а хорошая находка имеет E-value 7e-08. На третьем цикле E-value уже значительно отличаются, но я решил продолжить. На 4 цикле количество находок увеличилась на одну, разница между E-value уменьшилась. На последней - пятой итерации стабилизировалось количество находок. Последующие итерациях также все стабилизировалось.

Таким образом, 188 из 189 найденных белки являются MinC, то есть принадлежат одному семейству и обладают высоким сходством. Стабилизация на третьей итерации также играет в пользу этого предположения.

Номер итерации	Число находок выше порога (0,005)	Идентификатор худшей находки выше порога	E-value этой находки	Идентификатор лучшей находки ниже порога	E-value этой находки
1	146	Q9AG20.1	0.005	A8GFG7.1	0.005
2	188	B6JKX0.1	7e-08	-	-
3	188	Q9ZM51.1	2e-12	A7H8E6.1	0.014
4	189	A8MHK8.1	0.001	A7H8E6.1	0.013
5	189	A8MHK8.1	4e-10	A7H8E6.1	0.009