Практикум 9. EMBOSS и Entrez Direct

Задание 1

Упражнения по EMBOSS

1. Несколько файлов в формате fasta собрать в единый файл

seqret '/P/y21/term3/pr9/to_join/*.fasta' first.fasta

2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы

seqretsplit -sequence '/P/y21/term3/pr9/to_split/coding1.fasta' -auto

4. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл

transeq '/P/y21/term3/pr9/coding.fasta' fourth.fasta -frame 1 -table 0

5. Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности, используя указанную таблицу генетического кода

getorf '/P/y21/term3/pr9/coding.fasta' fifth.orf -minsize 33 -table 1

6. Перевести выравнивание из формата fasta в формат msf

seqret '/P/y21/term3/pr9/alignment.fasta' -outseq msf::sixth.msf

Эти команды можно найти в файле по ссылке: emboss.txt

Задание 2

Скрипт можно посмотреть в файле: edirect.sh

При запуске программы

./edirect.sh "NC_022094.1" "GCA_003604245.1"

получили следующее:

2022931 46102

а также файлы NC_001759.json и NC_001759_proteins.fasta. Их содержимое можно посмотреть здесь:

NC_001759.json NC_001759_proteins.fasta