Я взял бактерию Neisseria gonorrhoeae 98D159, являющуюся возбудителем гонореи. Ссылка на NCBI.
Далее мной был скачан ее геном. После этого я из исходного файла с рестриктазами II типа и их сайтами с помощью скрипта получил все сайты рестрикции.
Список полученных сайтов совместно с геномом были проанализированы в онлайн-инструменте CBcalc и был выбран method of Burge and co-authors по умолчанию. Этот сервис инструмент оценивает представленность сайтов в заданном геноме. В полученном файле располагается список рестриктаз с посчитанным O/E-ratio. Выбрав предел для O/E-ratio равным 0.8, с помощью скрипта я получил список всех недопредставленных рестриктаз совместно с их названиями.
Итоговый список со всеми рестриктазами и их последовательностями. Как можно увидеть, представленные рестриктазы не свойственны бактерии Neisseria gonorrhoeae 98D159. Но есть рестриктаза Tsu2489ORF1987 c аналогичным сайтом рестрикции GGNNCC, как и у выбранной мной бактерии рестриктазы Ngos1291ORF9120P, а также еще три сайта GATC, GGCC и GGTGA, узнающихся рестриктазами нейссерии. Таким образом, показано, что несколько сайтов рестрикции, характерных для данной бактерии недопредставленны в ее геноме.
Я выбрал идентификатор Q7VDL2 (probable septum site-determining protein MinC) из морской фотосинтезирующей бактерии Prochlorococcus marinus. Функцией данного белка является ингибирование образование септы (перегородки) при клеточном делении за счет дестабилизации FtsZ.
Далее для поиска гомологов этого белка я воспользовался PSI-blast. На первом шаге ожидаемо E-value лучшей и худшей находок не отличаются (см. таблицу), так как запускается классический Blast. Затем во второй находке поиск ведется по построенной PSSM и на ней не обнаруживается находок ниже порога, а хорошая находка имеет E-value 7e-08. На третьем цикле E-value уже значительно отличаются, но я решил продолжить. На 4 цикле количество находок увеличилась на одну, разница между E-value уменьшилась. На последней - пятой итерации стабилизировалось количество находок. Последующие итерациях также все стабилизировалось.
Таким образом, 188 из 189 найденных белки являются MinC, то есть принадлежат одному семейству и обладают высоким сходством. Стабилизация на третьей итерации также играет в пользу этого предположения.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
---|---|---|---|---|---|
1 | 146 | Q9AG20.1 | 0.005 | A8GFG7.1 | 0.005 |
2 | 188 | B6JKX0.1 | 7e-08 | - | - |
3 | 188 | Q9ZM51.1 | 2e-12 | A7H8E6.1 | 0.014 |
4 | 189 | A8MHK8.1 | 0.001 | A7H8E6.1 | 0.013 |
5 | 189 | A8MHK8.1 | 4e-10 | A7H8E6.1 | 0.009 |