EMBOSS: пакет программ для анализа последовательностей

10 заданий по EMBOSS

Номер задания и его формулировка	Ссылки на исходные файлы	Команды	Ссылки на выходные файлы
1. Несколько файлов в формате fasta собрать в единый файл	file1.fasta file2.fasta file3.fasta	seqret -seq fasta::*.fasta -out 1n.fasta	1n.fasta
2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы	2file.fasta	seqretsplit -seq 2file.fasta -auto	hsp71_yeast.fasta prpc_emeni.fasta tert_schpo.fasta
4. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.	4file.fasta	transeq -seq 4file.fasta -out 4n.fasta -table 4	4n.fasta
5. Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности	5file.fasta	getorf -seq 5file.fasta -out 5n.fasta -minsize 400	5n.fasta
6. Перевести выравнивание из формата fasta в формат msf	file1.fasta	descseq -seq file1.fasta -out 6n.msf -osformat2 msf	6n.fasta
7. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа)	7file.fasta	infoalign 7file.fasta -out 7n.fasta -refseq 2 -name -simcount -only	7n.fasta
10. Перемешать буквы в данной нуклеотидной последовательности	10file.fasta	shuffleseq -seq 10file.fasta -out 10n.fasta	10n.fasta
11. Создать три случайных нуклеотидных последовательностей длины 100		makenucseq -out 11n.fasta -auto -amount 3 -length 100	11n.fasta
12. Найти частоты кодонов в данных кодирующих последовательностях	10file.fasta	cusp -seq 10file.fasta -out 12n.cusp	12n.fasta
14. Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей)	7file.fasta	degapseq -seq 7file.fasta -out 14n.fasta	14n.fasta

Скрипт

Номер задания и его формулировка	Ссылка на исходный файл	Ссылка на скрипт	Ссылка на выходной файл
4. По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product)	sequence.gb	productgb.sh	cds_product.fasta