Сигналы и мотивы 3


В базе данных REBASE я выбрала бактерию Salmonella enterica 2010K-2370, в геноме которой есть эндонуклеазы рестрикции II типа с известными сайтами рестрикции. Сайты рестрикции можно увидеть на рисунке 1



Геном бактерии был скачен в файл salm.fasta

Сначала из данной в задании таблицы со всеми недопредставленными сайтами были выбраны известные сайты длины 2 и более нуклеотидов: allsites.txt

Затем проведен поиск по геному по методу С.Карлина (method of Burge and co-authors) с помощью сайта CB Calc. На выходе был получен файл, содержащий информацию о представленности сайтов в геноме: результат

Чтобы отобрать наиболее недопредставленные сайты, с помощью электронных таблиц я установила порог контрастности 0,8 и меньше
Результат

И с помощью все тех же электронных таблиц оторала экспериментально проверенные эндонуклеазы:
из таблицы TypeII_REs.tsv отобрала только те эндонуклеазы, которые содержат "no" в столбце "Putative" и среди них нашла те, которые узнают сайты из моего набора недопредставленных сайтов.
Найденные эндонуклеазы



PSI-BLAST

Из предложенного списка я выбрала белок B2V8C0. AC был подан на вход PSI-BLAST с поиском по банку Swiss-Prot и остальными парметрами по умолчанию. Первая итерация не показала разницы между E-value худшей находки выше порога и лучшей находки ниже порога, что ожидаемо. На второй итерации разница между e-value заметно возросла (на несколько порядков), а на третьей результат стабилизировался, находки выше порога не менялись. На основании этого можно сделать вывод, что полученные находки, вероятно, составляют семейство гомологичных белков.