8.Практикум 8

Таблица итераций

Белок (O05886) - Ribosome hibernation promotion factor (PHF) организма Mycobacterium tuberculosis. Необходим для димеризации активных рибосом 70S в рибосомы 100S в стационарной фазе. Рибосомы 100S трансляционно неактивны и иногда присутствуют во время экспоненциального роста. Уже на 5 итерации список находок выше порога не поменялся по сравнению с предыдущей итерацией, что говорит о том, что это семейство четко обособлено. Помимо этого, ступенька между худшей "правильной" находкой и "лучшей" неправильной находкой весьма значительна, что так же свидетельствует в пользу того, что это действительно семейство гомологичных белков.

В данном задании нужно было сделать предсказание о специфичности эндонуклеаз рестрикции в геноме бактерии (Salinispora tropica CNB-440). Для того, чтобы получить последовательности сайтов рестрикции, уникальных и отсортированных, была использована команда " cut -f 5 TypeII_REs.tsv | sort -u > sites.txt ". Также был удален заголовок, сайт, состоящий только из 1 C и строка с неопознанным сайтом. Затем была оценена представленность этих сайтов в геноме бактерии с помощью команды " cbcalc -s sites.txt -o burge.tsv --burge bacgen_pr8.fasta ", а затем были отсортированы командой " sort -k5,5g burge.tsv > sorted.tsv", так что сайты в полученном файле были расположены по возрастанию. Были отобраны 10 сайтов с O/E ratio (BCK) < 0.8. Отобранные сайты можно скачать по

ссылке.

На 3 этапе с помощью команды:


awk -F '\t' '{
sites="TTATAA CTAG CTGCAG TTTAAA CTCGAG CATATG ACTAGT CCTNAGG CTNAG GAGCTC"
if ($11 == "no" && index(sites, $5) != 0) print $1
}' TypeII_REs.tsv > found.txt

Из таблицы TypeII_REs.tsv были отобраны только те эндонуклеазы, которые содержали no в столбце "Predicted" и были бы специфичны к полученным на предыдущем этапе сайтам. Файл с таблицей можно скачать по

ссылке.