1. Недопредставленность сайтов рестрикции в геноме бактерии или археи

Выбрана бактерия Laribacter hongkongensis LHGZ1. Полный геном был скачан из БД NCBI Assembly (PRJNA389628).

res.txt - файл с полным списком всех рестриктаз (со страницы задания практикума)

В разделе summary базы данных REBASE для выбранной бактерии характеристики систем рестрикции-модификации, в том числе эндонуклеазы и их специфические сайты.

Рестриктазы II-типа и сайты рестрикции, подвержденные REBASE:

GATC (M.LhoZ1ORF1952P)

CCWGG (V.LhoZ1ORF3482P, M.LhoZ1ORF3482P)

Отбор недопредставленных сайтов.

C помощью программы cbcalc получена таблица представленности известных сайтов рестрикции (список получен из list.txt) в геноме. Столбец O/E ratio был отсортирован по убыванию, пороговое значение - 0,8 (отобраны сайты со значением меньше порога).

Далее были получены последовательности сайтов и список эндонуклеаз, их узнающий (из файла res.txt)

good_sites.txt - файл с последовательностями недопредставленных сайтов

nucleases.txt - файл с эндонуклеазами, узнающими недопредставленные сайты

2. PSI-BLAST