Практикум 8. Сигналы и мотивы III

PSI-BLAST

Выбрала белок с идентификатором O05886. Необходим для димеризации активных рибосом 70S в рибосомы 100S в стационарной фазе. Рибосомы 100S трансляционно неактивны и иногда присутствуют во время экспоненциального роста. При помощи PSI-BLAST была составлена таблица итераций. Почти все найденные белки были функционально связаны с рибосомой (либо являлись, как и исходный белок, факторами гибернации рибосомы, либо выполняли сходные функции).

Ссылка на таблицу.

Эндонуклеазы рестрикции

Целью задания было предсказание специфичности эндонуклеаз рестрикции бактерии Desulfovibrio alaskensis G20 на основе недопредставленности сайтов рестрикции в геноме.

Список потенциальных сайтов рестрикции получен из файла, скачанного с kodomo. Команды bash, позволившие вырезать список:

cut -f 5 TypeII_REs.tsv | sort -u > sites.txt

Из полученного файла sites.txt были в дальнейшем вырезаны три строки: строка с неизвестным сайтом, строка из одной буквы C (для одной буквы бессмысленно оценивать контраст по частотам букв), бывшая заголовочная строка.

Затем была оценена представленность сайтов в геноме бактерии — вычислен контраст по Карлину (программа cbcalc на kodomo). Выполненные команды:

cbcalc -s sites.txt -o burge.tsv --burge DSA.fasta
sort -k5,5g burge.tsv > sorted.tsv

У полученного таким образом файла контрасты расположены по возрастанию. Были взяты первые 11 сайтов, так как их значения контраста меньше 0,8.

Затем было необходимо получить идентификаторы экспериментально подтверждённых белков, имеющих специфичность к выявленным сайтам. Вот какая команда была использована:
awk -F '\t' '{
sites="CTAG CCNGG CCWGG CGATCG CTCGAG GGATCC GTCGAC TTAATTAA CACGTG CTNAG GCCGGC"
if ($11 == "no" && index(sites, $5) != 0) print $1
}' TypeII_REs.tsv > revealed.txt

Полученный файл.