EMBOSS: пакет программ для анализа последовательностей

10 заданий по EMBOSS

Номер задания и его формулировка Ссылки на исходные файлы Команды Ссылки на выходные файлы
1. Несколько файлов в формате fasta собрать в единый файл file1.fasta file2.fasta file3.fasta
seqret -seq fasta::*.fasta -out 1n.fasta
1n.fasta
2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы 2file.fasta
seqretsplit -seq 2file.fasta -auto
hsp71_yeast.fasta prpc_emeni.fasta tert_schpo.fasta
4. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл. 4file.fasta
transeq -seq 4file.fasta -out 4n.fasta -table 4
4n.fasta
5. Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности 5file.fasta
getorf -seq 5file.fasta -out 5n.fasta -minsize 400
5n.fasta
6. Перевести выравнивание из формата fasta в формат msf file1.fasta
descseq -seq file1.fasta -out 6n.msf -osformat2 msf
6n.fasta
7. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа) 7file.fasta
infoalign 7file.fasta -out 7n.fasta -refseq 2 -name -simcount -only
7n.fasta
10. Перемешать буквы в данной нуклеотидной последовательности 10file.fasta
shuffleseq -seq 10file.fasta -out 10n.fasta
10n.fasta
11. Создать три случайных нуклеотидных последовательностей длины 100
makenucseq -out 11n.fasta -auto -amount 3 -length 100
11n.fasta
12. Найти частоты кодонов в данных кодирующих последовательностях 10file.fasta
cusp -seq 10file.fasta -out 12n.cusp
12n.fasta
14. Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей) 7file.fasta
 degapseq -seq 7file.fasta -out 14n.fasta
14n.fasta

Скрипт

Номер задания и его формулировка Ссылка на исходный файл Ссылка на скрипт Ссылка на выходной файл
4. По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product) sequence.gb productgb.sh cds_product.fasta

© Агаева Зара, 2018