GATC

EMBOSS и локальный BLAST

1. EMBOSS

1. Несколько файлов в формате fasta собрать в единый файл.

исходные данные файл 1 и файл 2

команды с параметрами: seqret '*.fasta' -outseq 1.fasta

результат файл

2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы

исходные данные файл

команды с параметрами: seqret 1.fasta -ossingle2 -auto

результат файл 1 и файл 2

для удобства файлы были переименованы после выполнения команды, тк далее будут копированы в папку, где их оригинал уже содержится

4. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.

исходные данные файл c 2мя последовательностями

команды с параметрами: transeq -table 0 3.fasta 3_p.fasta

результат файл

6. Перевести выравнивание из формата fasta в формат msf.

исходные данные файл в fasta

команды с параметрами: seqret 4.fasta -outseq msf::4.msf

результат файл в msf

7. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа).

исходные данные файл с выравниванием в fasta

команды с параметрами: infoalign 5.fasta -outfile 5.txt -refseq 2 -only -name -idcount

результат файл в txt

8.(featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.

исходные данные файл в формате gb

команды с параметрами: featcopy 6.gb 6.gff -offormat2 gff

результат файл в формате gff

10. Перемешать буквы в данной нуклеотидной последовательности.

исходные данные файл

команды с параметрами: shuffleseq 7.fasta 7_1.fasta

результат файл

11. Создать три случайных нуклеотидных последовательностей длины 100.

исходные данные - нет

команды с параметрами: makenucseq -amount 3 -length 100 8.fasta -auto

результат файл

12. Найти частоты кодонов в данных кодирующих последовательностях.

исходные данные файл

команды с параметрами: cusp 9.fasta 9_1.fasta

результат файл

14. Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).

исходные данные файл с 2мя последовательностями, выравненными через needle

команды с параметрами: degapseq 10.fasta 10_1.fasta

результат файл с 2мя невыровненными последовательностями

15. Перевести символы конца строки из формата Windows в формат Unix.

исходные данные файл windows

команды с параметрами: noreturn -system unix 11.txt 11_1.txt

результат файл unix

2. Локальный BLAST

Мною была выбрана задача номер 4:
По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product).

Исходные данные файл

Команда: extractfeat 12.gb -type CDS -describe product -outseq 12.fasta

Выходной файл файл

Скрипт

extractfeat (extract features from sequence(s)) позволяет извлечь из последовательности те участки, которые имеют определенные свойства/особенности (например, кодирующая последовательность в хромосоме).

используем -type CDS.

-describe product добавляет в описание функцию белка из поля product

© Grigorjeva Masha