Практикум №8

Сигналы и мотивы III

PSI-blast

Для последовательности с ID = P74518 роведены итерации PSI-Blast с порогом E-value 0.005. Результаты представлены в таблице 1.

Это фактор остановки трансляции у Synechocystis sp.

Ссылка на uniprot

Эндонуклеазы рестрикции

Задача – попытаться предсказать специфичность некоторых эндонуклеаз рестрикции в геноме бактерии

Список потенциальных сайтов рестрикции получен из файла (источник - сайт kodomo), составленного на основе данных, полученных из базы REBASE

TypeII_REs.tsv нуждался в предварительной обработке

 cut -f 5 TypeII_REs.tsv | sort -u > site.fasta 

Опция "-f 5" позволяет вырезать 5 столбец, в котором находились сайты рестрикции, а "sort -u" предотвращает появление повторов

Полученный файл был обработан вручную: удалены сайты из 1 нуклеотида и заголовки

Далее была оценена представленность сайтов в геноме бактерии (вычисление контраста по Карлину с помощью программы cbcalc)

cbcalc -s site.fasta -o burge_out.tsv -K genome.fna.gz

Результаты были отсортированы по возрастанию O/E ratio

sort -k5,5g burge_out.tsv > burge_sorted.tsv

Были взяты первые 9 сайтов, так как их O/E ratio сильно отличаются друг от друга (большой разброс разностей между соседними величинами)

Выбрал порог величиной в 0.880 (в рекомендациях к выполнению задания было предложено значнение 0.800). Считаю, что такое соотношение тоже показывает недопредставленность сайтов

head -n 10 burge_sorted.tsv > selected.tsv

Список отобранных сайтов: CTAG GAGCTC GTATAC CTCGAG CTTAAG CTNAG CCTAGG ACTAGT CACGAG

Были отобраны эндонуклеазы, содержащие "no" в столбце "Predicted" (белковая активность подтверждена) и узнающие сайт из моего набора недопредставленных сайтов

awk -F '\t' '{
sites="CTAG GAGCTC GTATAC CTCGAG CTTAAG CTNAG CCTAGG ACTAGT CACGAG"
if ($11 == "no" && index(sites, $5) != 0) print $1
}' TypeII_REs.tsv > out.out

Результаты работы можно посмотреть по ссылке

Вернуться на главную страницу