Для последовательности с ID = P74518 роведены итерации PSI-Blast с порогом E-value 0.005. Результаты представлены в таблице 1.
Это фактор остановки трансляции у Synechocystis sp.
Ссылка на uniprotЗадача – попытаться предсказать специфичность некоторых эндонуклеаз рестрикции в геноме бактерии
Список потенциальных сайтов рестрикции получен из файла (источник - сайт kodomo), составленного на основе данных, полученных из базы REBASE
TypeII_REs.tsv нуждался в предварительной обработке
cut -f 5 TypeII_REs.tsv | sort -u > site.fasta
Опция "-f 5" позволяет вырезать 5 столбец, в котором находились сайты рестрикции, а "sort -u" предотвращает появление повторов
Полученный файл был обработан вручную: удалены сайты из 1 нуклеотида и заголовки
Далее была оценена представленность сайтов в геноме бактерии (вычисление контраста по Карлину с помощью программы cbcalc)
cbcalc -s site.fasta -o burge_out.tsv -K genome.fna.gz
Результаты были отсортированы по возрастанию O/E ratio
sort -k5,5g burge_out.tsv > burge_sorted.tsv
Были взяты первые 9 сайтов, так как их O/E ratio сильно отличаются друг от друга (большой разброс разностей между соседними величинами)
Выбрал порог величиной в 0.880 (в рекомендациях к выполнению задания было предложено значнение 0.800). Считаю, что такое соотношение тоже показывает недопредставленность сайтов
head -n 10 burge_sorted.tsv > selected.tsv
Список отобранных сайтов: CTAG GAGCTC GTATAC CTCGAG CTTAAG CTNAG CCTAGG ACTAGT CACGAG
Были отобраны эндонуклеазы, содержащие "no" в столбце "Predicted" (белковая активность подтверждена) и узнающие сайт из моего набора недопредставленных сайтов
awk -F '\t' '{ sites="CTAG GAGCTC GTATAC CTCGAG CTTAAG CTNAG CCTAGG ACTAGT CACGAG" if ($11 == "no" && index(sites, $5) != 0) print $1 }' TypeII_REs.tsv > out.out
Результаты работы можно посмотреть по ссылке