EMBOSS и локальный BLAST

1. EMBOSS

1. Несколько файлов в формате fasta собрать в единый файл.

исходные данные файл 1 и файл 2
команды с параметрами: seqret '*.fasta' -outseq 1.fasta
результат файл

2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы

исходные данные файл
команды с параметрами: seqret 1.fasta -ossingle2 -auto
результат файл 1 и файл 2
для удобства файлы были переименованы после выполнения команды, тк далее будут копированы в папку, где их оригинал уже содержится

4. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.

исходные данные файл c 2мя последовательностями
команды с параметрами: transeq -table 0 3.fasta 3_p.fasta
результат файл

6. Перевести выравнивание из формата fasta в формат msf.

исходные данные файл в fasta
команды с параметрами: seqret 4.fasta -outseq msf::4.msf
результат файл в msf

7. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа).

исходные данные файл с выравниванием в fasta
команды с параметрами: infoalign 5.fasta -outfile 5.txt -refseq 2 -only -name -idcount
результат файл в txt

8.(featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.

исходные данные файл в формате gb
команды с параметрами: featcopy 6.gb 6.gff -offormat2 gff
результат файл в формате gff

10. Перемешать буквы в данной нуклеотидной последовательности.

исходные данные файл
команды с параметрами: shuffleseq 7.fasta 7_1.fasta
результат файл

11. Создать три случайных нуклеотидных последовательностей длины 100.

исходные данные - нет
команды с параметрами: makenucseq -amount 3 -length 100 8.fasta -auto
результат файл

12. Найти частоты кодонов в данных кодирующих последовательностях.

исходные данные файл
команды с параметрами: cusp 9.fasta 9_1.fasta
результат файл

14. Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).

исходные данные файл с 2мя последовательностями, выравненными через needle
команды с параметрами: degapseq 10.fasta 10_1.fasta
результат файл с 2мя невыровненными последовательностями

15. Перевести символы конца строки из формата Windows в формат Unix.

исходные данные файл windows
команды с параметрами: noreturn -system unix 11.txt 11_1.txt
результат файл unix

2. Локальный BLAST

Мною была выбрана задача номер 4:
По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product).
Исходные данные файл
Команда: extractfeat 12.gb -type CDS -describe product -outseq 12.fasta
Выходной файл файл
Скрипт
extractfeat (extract features from sequence(s)) позволяет извлечь из последовательности те участки, которые имеют определенные свойства/особенности (например, кодирующая последовательность в хромосоме).
используем -type CDS.
-describe product добавляет в описание функцию белка из поля product


© Grigorjeva Masha