Учебный сайт
Владимира Ноздрина

Сигналы и мотивы 3

Проверка сайтов рестрикции на непредставленность

В этом задании я изучал сайты рестрикции для уже известных для Kibdelosporangium phytohabitans KLBMP1111 рестриктаз, а также смотрел недопредставленность сайтов рестрикции для других рестриктаз типа II.
Судя по этому сайту у бактерии известно два сайта рестрикции: CCGCGG и GCCGGC. Чтобы узнать, насколько эти сайты недопредставлены, я скачал геном этой бактерии из NCBI. Эти сайты и геном бактерии я подал на вход программе cbcalc с опцией --burge. Получился файл out.tsv. Судя по этому сайту, сайт CCGCGG имеет контраст (отношение наблюдаемого количества сайтов к ожидаемому) составляет 0.941, а GCCGGC – 0.660. При пороге 0.8 недопредставленным является только GCCGGC.
Чтобы узнать, какие из экспериментально проверенных эндонуклеаз специфичны к этому сайту, я написал скрипт на Python. Список всех таких рестриктаз я записал в файл RM.tsv.
Теперь нужно было разобраться со всеми известными сайтами рестрикции для рестриктаз типа II. Для начала я написал скрипт, который просто достаёт из таблицы с рестриктазами последовательности сайтов рестрикции. stdout этого скрипта я перенаправил в cbcalc. Получился файл out2.tsv. Этот файл большой, поэтому чтобы отобрать сайты с контрастом ниже порога (0.8) я написал ещё один скрипт. Теперь есть файл out3.tsv, в котором есть только строчки из out2.tsv в которых контраст ниже 0.8.
Наконец, чтобы получить список всех экспериментально проверенных рестриктаз, мне пришлось написать ещё один скрипт. Полученный список представлен в файле RM.tsv.

PSI-Blast

В этом задании нужно было искать семейство гомологичных белков для O05886 с помощью PSI-BLAST. В ходе выполнения этого задания я запустил 10 итераций PSI-BLAST на стандартных настройках по swissprot и по ходу дела заполнял таблицу. За десять итераций поиск так и не стабилизировался, а добавлял всё больше и больше последовательностей. Видимо, эти белки образуют не очень консервативное семейство белков, либо не образуют семейство вообще.