EMBOSS и локальный BLAST
1. EMBOSS
1. Несколько файлов в формате fasta собрать в единый файл.
команды с параметрами: seqret '*.fasta' -outseq 1.fasta
результат файл
2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
исходные данные файл
команды с параметрами: seqret 1.fasta -ossingle2 -auto
для удобства файлы были переименованы после выполнения команды, тк далее будут копированы в папку, где их оригинал уже содержится
4. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.
команды с параметрами: transeq -table 0 3.fasta 3_p.fasta
результат файл
6. Перевести выравнивание из формата fasta в формат msf.
команды с параметрами: seqret 4.fasta -outseq msf::4.msf
7. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа).
команды с параметрами: infoalign 5.fasta -outfile 5.txt -refseq 2 -only -name -idcount
8.(featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.
команды с параметрами: featcopy 6.gb 6.gff -offormat2 gff
10. Перемешать буквы в данной нуклеотидной последовательности.
исходные данные файл
команды с параметрами: shuffleseq 7.fasta 7_1.fasta
результат файл
11. Создать три случайных нуклеотидных последовательностей длины 100.
исходные данные - нет
команды с параметрами: makenucseq -amount 3 -length 100 8.fasta -auto
результат файл
12. Найти частоты кодонов в данных кодирующих последовательностях.
исходные данные файл
команды с параметрами: cusp 9.fasta 9_1.fasta
результат файл
14. Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).
команды с параметрами: degapseq 10.fasta 10_1.fasta
15. Перевести символы конца строки из формата Windows в формат Unix.
команды с параметрами: noreturn -system unix 11.txt 11_1.txt
2. Локальный BLAST
Мною была выбрана задача номер 4:
По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product).
Исходные данные файл
Команда: extractfeat 12.gb -type CDS -describe product -outseq 12.fasta
Выходной файл файл
extractfeat (extract features from sequence(s)) позволяет извлечь из последовательности те участки, которые имеют определенные свойства/особенности (например, кодирующая последовательность в хромосоме).
используем -type CDS.
-describe product добавляет в описание функцию белка из поля product
© Grigorjeva Masha