EMBOSS и локальный BLAST

Задание 1.

Упражнение 1. Несколько файлов в формате fasta собрать в единый файл

Входные файлы:

Файл 1 Файл 2

Данные файлы были размещены в папке pr9

Примененная команда bash:
seqret "pr9/*" allinone.fasta

Выводной файл

Упражнение 2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы

Входной файл:

Файл с несколькими последовательностями

Примененная команда bash:
seqret allinone.fasta -ossingle2 -auto

Выводные файлы:

Файл 1 Файл 2

Упражнение 3. Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле

Входные файлы:

Последовательность хромосомы
Список 3 кодирующих последовательностей

Примененная команда bash:
seqret @CDSlist.txt -outseq 3CDS.fasta

Выводной файл

Упражнение 4. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.

Входной файл с 3 кодирующими последовательностями

Примененная команда bash:
transeq -table 0 3CDS.fasta protein9_4.fasta

Выводной файл

Упражнение 5. Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности.

Входной файл с нуклеотидной последовательностью

Примененная команда bash:
getorf -minsize 9 nucl.fasta orf.fasta

Выводной файл (открытые рамки, длинною не менее 9 нуклеотидов)

Упражнение 6. Перевести выравнивание из формата fasta в формат msf.

Входной файл с выравниванием в формате fasta

Примененная команда bash:
seqret cs1cs2.fasta -outseq msf::aligncs1cs2pr9.msf

Выводной файл с выравниванием в формате msf

Упражнение 7. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа)

Входной файл с выравниванием в формате fasta

Примененная команда bash:
infoalign alignp7pr9.fasta -outfile p7pr9.txt -refseq 2 -only -name -idcount

Выводной файл с числом совпадающих букв

Упражнение 8. (featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.

Входной файл формата gb

Примененная команда bash:
featcopy sequence.gb sequence.gff -offormat2 gff

Выводной файл в табличном формате gff

Упражнение 9. (extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.

Входной файл формата gb

Примененная команда bash:
extractfeat sequence1.gb -type CDS -outseq p9pr9.fasta

Выводной файл

Упражнение 10. Перемешать буквы в данной нуклеотидной последовательности.

Входной файл с нуклеотидной последовательностью

Примененная команда bash:
shuffleseq nucl.fasta -outseq shuffle.fasta

Выводной файл

Упражнение 11. Создать три случайных нуклеотидных последовательностей длины 100.

Примененная команда bash:
makenucseq -amount 3 -length 100 -outseq makenucseq.fasta

Выводной файл

Упражнение 12. Найти частоты кодонов в данных кодирующих последовательностях.

Файл с 3 кодирующими последовательностями

Примененная команда bash:
compseq 3CDS.fasta -word 3 -outfile out.fasta

Выводной файл

Задание 2.

Выбранная мною задача: "4.По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product)"

Данную задачу я выполняла с помощью bash.

Входной файл формата gb

Примененная команда bash:
extractfeat sequence1.gb -type CDS -describe product -outseq prod_seq1.fasta

Выводной файл
Ссылка на скрипт