Решение задач с помощью скрипта EMBOSS

В первой задаче нужно было проверить, сколько находок с E-value < 0.1 в среднем находит blastn для случайной последовательности данной длины в данном геноме бактерии. Для этого в начале была создана база из генома заданной нам бактерии ('makeblastdb -in $1 -dbtype "nucl" -out pr9_db'). Затем было получено 100 случайных последовательностей с заданной длинной ('makenucseq -codon '' -amount 100 -len $2 -out random.fasta'). За этим последовал blastn случайных последовательностей по базе заданного генома, который на выходе получал файл табличного формата со значениями e-value <= 0.01. ('blastn -task "blastn" -query "random.fasta" -db "pr9_db" -outfmt "6 evalue" -evalue 0.1 -out "output.tsv"'). Затем было подсчитано количество строк (=нужных последовательностей) и их число было разделено на 100 (количество последовательностей), которое в итоге и является средним количеством последовательностей с заданной e-value ('a=$(wc -l output.tsv | cut -f1 -d ' '); echo "scale=2;$a/100" | bc -l'). Потом были удалены уже ненужные файлы ('rm pr9_db.* | rm random.fasta | rm output.tsv'). Запуск был произведен при помощью команд "bash pr9_1.sh sequence_9.fasta 1000". Результат тестового запуска (в ковычках) - ".04"

Скрипт можно скачать по ссылке.

В четвертой задаче требовалось по данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product). С помощью команды extractfeat и её опции -type CDS были получены кодирующие последовательности CDS, а с помощью опции -describe product были получены подписи из поля product, для тех CDS, где это поле было ('extractfeat $1 -type CDS -describe product -out result.fasta'). Запуск был произведен при помощью команд "bash pr9.sh sequence.gb". Результат тестового запуска можно скачать по ссылке.

Скрипт можно скачать по ссылке.

Назад
На главную