EMBOSS

Задания

Задание	Исходные данные	Команда	Выход
1. Несколько файлов в формате fasta собрать в единый файл.	a, b	seqret 'fasta::?.fasta' -outseq ab.fasta	ab
Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.	ab	seqretsplit ab.fasta -auto	a, b
Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.	trgt	transeq target.fasta -table 5 -out target_pep.fasta	pep
Вывести открытые рамки длиной не менее заданной (50), имеющиеся в данной нуклеотидной последовательности.	ev	getorf ebolavirus.fasta -minsize 50 -outseq ebola_orf.fasta	orf
Перевести выравнивание из формата fasta в формат msf.	align	seqret muscle.fasta msf::muscle.msf	msf
Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа).	align	infoalign muscle.fasta -refseq 2 -only -name -idcount idcount.txt	idcount
(featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.	ev	featcopy ebolavirus.gb gff::feat.gff	feat table
extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.	ev.gb	extractfeat ebolavirus.gb -type CDS feat.fasta	features
Перемешать буквы в данной нуклеотидной последовательности.	trgt	shuffleseq target.fasta shuffled_target.fasta	shuffled
Создать три случайных нуклеотидных последовательностей длины 100.	-	makenucseq -amount 3 -length 100 random.fasta -auto	rand
Найти частоты кодонов в данных кодирующих последовательностях.	feat	cusp feat.fasta cusp.txt	cusp
tranalign) Выровнять кодирующие последовательности соответственно выравниванию белков — их продуктов.		???
Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).	align	degapseq muscle.fasta degap.fasta	degapped
Перевести символы конца строки из формата Windows в формат Unix.	dos	noreturn doslike.fasta unixlike.fasta	unix
	np fastq	seqret fastq::DRR048282.fastq fasta::sra.fasta	fasta

Скрипт #3

Скрипт

Найти частоты динуклеотидов в геноме бактерии, сравнить их с ожидаемыми и определить динуклеотид, частота которого наиболее отклоняется от наблюдаемой.

Скрипт находит наиболее отклоняющийся от ожидаемых частот динуклеотид и выводит его вместе с коэффициентом (ур. 1).

\begin{equation} k_{MN}=\frac{f_{MN}}{f_{M}*f_{N}} \end{equation}

Для примера использования взяли геном бактерии Escherichia coli str. K-12 substr. MG1655. Наиболее отличающийся динуклеотид AG - его реальная встречаемость 0.713 от ожидаемой.