Выбрала белок с идентификатором O05886. Необходим для димеризации активных рибосом 70S в рибосомы 100S в стационарной фазе. Рибосомы 100S трансляционно неактивны и иногда присутствуют во время экспоненциального роста. При помощи PSI-BLAST была составлена таблица итераций. Почти все найденные белки были функционально связаны с рибосомой (либо являлись, как и исходный белок, факторами гибернации рибосомы, либо выполняли сходные функции).
Целью задания было предсказание специфичности эндонуклеаз рестрикции бактерии Desulfovibrio alaskensis G20 на основе недопредставленности сайтов рестрикции в геноме.
Список потенциальных сайтов рестрикции получен из файла, скачанного с kodomo. Команды bash, позволившие вырезать список:
cut -f 5 TypeII_REs.tsv | sort -u > sites.txt
Из полученного файла sites.txt были в дальнейшем вырезаны три строки: строка с неизвестным сайтом, строка из одной буквы C (для одной буквы бессмысленно оценивать контраст по частотам букв), бывшая заголовочная строка.
Затем была оценена представленность сайтов в геноме бактерии — вычислен контраст по Карлину (программа cbcalc на kodomo). Выполненные команды:
cbcalc -s sites.txt -o burge.tsv --burge DSA.fasta
sort -k5,5g burge.tsv > sorted.tsv
У полученного таким образом файла контрасты расположены по возрастанию. Были взяты первые 11 сайтов, так как их значения контраста меньше 0,8.
Затем было необходимо получить идентификаторы экспериментально подтверждённых белков, имеющих специфичность к выявленным сайтам. Вот какая команда была использована:awk -F '\t' '{ sites="CTAG CCNGG CCWGG CGATCG CTCGAG GGATCC GTCGAC TTAATTAA CACGTG CTNAG GCCGGC" if ($11 == "no" && index(sites, $5) != 0) print $1 }' TypeII_REs.tsv > revealed.txt