Представленность сайтов рестрикции

Я взял бактерию Neisseria gonorrhoeae 98D159, являющуюся возбудителем гонореи. Ссылка на NCBI.

Далее мной был скачан ее геном. После этого я из исходного файла с рестриктазами II типа и их сайтами с помощью скрипта получил все сайты рестрикции.

Список полученных сайтов совместно с геномом были проанализированы в онлайн-инструменте CBcalc и был выбран method of Burge and co-authors по умолчанию. Этот сервис инструмент оценивает представленность сайтов в заданном геноме. В полученном файле располагается список рестриктаз с посчитанным O/E-ratio. Выбрав предел для O/E-ratio равным 0.8, с помощью скрипта я получил список всех недопредставленных рестриктаз совместно с их названиями.

Итоговый список со всеми рестриктазами и их последовательностями. Как можно увидеть, представленные рестриктазы не свойственны бактерии Neisseria gonorrhoeae 98D159. Но есть рестриктаза Tsu2489ORF1987 c аналогичным сайтом рестрикции GGNNCC, как и у выбранной мной бактерии рестриктазы Ngos1291ORF9120P, а также еще три сайта GATC, GGCC и GGTGA, узнающихся рестриктазами нейссерии. Таким образом, показано, что несколько сайтов рестрикции, характерных для данной бактерии недопредставленны в ее геноме.

Рис 1. Схематическое изображение генов рестриктаз в геноме Neisseria gonorrhoeae 98D159

PSI-blast

Я выбрал идентификатор Q7VDL2 (probable septum site-determining protein MinC) из морской фотосинтезирующей бактерии Prochlorococcus marinus. Функцией данного белка является ингибирование образование септы (перегородки) при клеточном делении за счет дестабилизации FtsZ.

Далее для поиска гомологов этого белка я воспользовался PSI-blast. На первом шаге ожидаемо E-value лучшей и худшей находок не отличаются (см. таблицу), так как запускается классический Blast. Затем во второй находке поиск ведется по построенной PSSM и на ней не обнаруживается находок ниже порога, а хорошая находка имеет E-value 7e-08. На третьем цикле E-value уже значительно отличаются, но я решил продолжить. На 4 цикле количество находок увеличилась на одну, разница между E-value уменьшилась. На последней - пятой итерации стабилизировалось количество находок. Последующие итерациях также все стабилизировалось.

Таким образом, 188 из 189 найденных белки являются MinC, то есть принадлежат одному семейству и обладают высоким сходством. Стабилизация на третьей итерации также играет в пользу этого предположения.

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1146Q9AG20.10.005A8GFG7.10.005
2188B6JKX0.17e-08--
3188Q9ZM51.12e-12A7H8E6.10.014
4189A8MHK8.10.001A7H8E6.10.013
5189A8MHK8.14e-10A7H8E6.10.009
© Руслан Нагимов, 2021