Сигналы и мотивы, 2

Задание 1. PSI-BLAST.

P0AD49 - AC выбранного мной белка. Это ribosome-associated inhibitor A, принадлежащий E.coli (strain K12). Предотвращает формирование димерной 70S-субъединицы рибосомы, тем самым не давая собраться трансляционному комплексу, предотвращая трансляцию. Список находок PSI-BLAST после второй итерации содержал неизменное количество находок, только две с наихудшим результатом выше порога поменялись местами. Находки с наилучшими результатами ниже порога тоже меняются местами, поэтому я решила, что находки сошлись. Разрыв в E-value между наихудшей находкой выше порога и наилучшей находкой ниже порога составлял как минимум два порядка (а на более поздних итерациях значительно больше), так что можно считать найденные белки хорошим семейством.
Таблица

Задание 2. Эндонуклеазы рестрикции.

Список потенциальных сайтов рестрикции был скачан с kodomo. Команды, с помощью которых вырезан список: cut -f5 TypeII_REs.tsv(вырезание 5 столбца Recognition site).
sort -u sites.fasta > si.fasta - команда для сортировки полученного списка сайтов рестрикции и записи в отдельный файл. Затем с NCBI Genome был скачан геном бактерии Nitrosomonas europaea ATCC 19718. cbcalc -s sites.fasta -o out.tsv --burge genome.fasta - запуск CBCAlc - программы для вычисления контраста по Карлину, позволяющая оценить представленность сайтов в геноме бактерии. sort -k5,5g out.tsv -o oe.txt - получаем список сайтов рестрикции с указанием их представленности в геноме, то есть отношением наблюдаемого количества сайтов в геноме к ожидаемому. Файл с сайтами, не достигнувшими порога 0.8, которые считаем недопредставленными, таких сайтов в геноме моей бактерии оказалось девять.
Список эндонуклеаз рестрикции, которые эти сайты узнают (и содержат "no" в столбце Predicted таблицы с описанием всех известных эндонуклеаз), был получен из изначального файла со списком эндонуклеаз рестрикции с помощью python-скрипта и сохранён в файле.