Практикум 9.

EMBOSS: пакет программ для анализа последовательностей

Задание 1.

Задача 1

Я пыталась.Вроде работает.
Просто посмотрите на ето (bash).
bash pr9_1.sh <длина последовательностей> <геном бактерии>
По задумке автора, данный скрипт принимает в качестве 1-2 аргументов длину (число) и файл с геномом бактерии. Далее создается 100 рандомных последовательностей данной длины, которые используются в дальнейшем как запрос в blastn, а в качестве базы данных используется данный геном. blastn осуществляется с параметром e-value меньше 0.1. Далее количество находок подсчитывается как количество строк в выходном файле бласта с -outfmt 6 (cut вырезает из wc имя файла) и делится на 100 (чтобы получить среднее значение).
Кстати, в этом и следующем скрипте, я сначала использовала команду dos2unix *.fasta, чтобы предотвратить появление значка нотки (восьмая, возврат каретки, перенос строки?), связанное, как я поняла, с различиями символов переноса строк в Windows и Linux, ОДНАКО потом от Руслана я узнала, что можно делать совсем подругому, поэтому я исправила скрипты.
help

Задача 4

Можете скачать скрипт для bash этой задачи (Аннотированный файл как 1ый аргумент). Данный скрипт читает файл с помощью команды extractfeat и выделяет из нее аннотированные как CDS участки последовательности (-type CDS), пишет их в новый файл, а также добавляет к описаниям последовательности функцию белка (-describe product)