EMBOSS

Задания

Задание Исходные данные Команда Выход

1. Несколько файлов в формате fasta собрать в единый файл.

a, b
seqret 'fasta::?.fasta' -outseq ab.fasta
			  
ab

Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.

ab
seqretsplit ab.fasta -auto			
			  
a, b

Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.

trgt
transeq target.fasta -table 5 -out target_pep.fasta			
			  
pep

Вывести открытые рамки длиной не менее заданной (50), имеющиеся в данной нуклеотидной последовательности.

ev
getorf ebolavirus.fasta -minsize 50 -outseq ebola_orf.fasta			
			  
orf

Перевести выравнивание из формата fasta в формат msf.

align
seqret muscle.fasta msf::muscle.msf			
			  
msf

Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа).

align
infoalign muscle.fasta -refseq 2 -only -name -idcount idcount.txt
			  
idcount

(featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.

ev
featcopy ebolavirus.gb gff::feat.gff			
			  
feat table

extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.

ev.gb
extractfeat ebolavirus.gb -type CDS feat.fasta
			  
features

Перемешать буквы в данной нуклеотидной последовательности.

trgt
shuffleseq target.fasta shuffled_target.fasta
			  
shuffled

Создать три случайных нуклеотидных последовательностей длины 100.

-
makenucseq -amount 3 -length 100 random.fasta -auto			
			  
rand

Найти частоты кодонов в данных кодирующих последовательностях.

feat
cusp feat.fasta cusp.txt
			  
cusp

tranalign) Выровнять кодирующие последовательности соответственно выравниванию белков — их продуктов.

???
			  

Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).

align
degapseq muscle.fasta degap.fasta
			  
degapped

Перевести символы конца строки из формата Windows в формат Unix.

dos
noreturn doslike.fasta unixlike.fasta
			  
unix

np fastq
seqret fastq::DRR048282.fastq fasta::sra.fasta
			  
fasta

Скрипт #3

Скрипт

Найти частоты динуклеотидов в геноме бактерии, сравнить их с ожидаемыми и определить динуклеотид, частота которого наиболее отклоняется от наблюдаемой.

Скрипт находит наиболее отклоняющийся от ожидаемых частот динуклеотид и выводит его вместе с коэффициентом (ур. 1).

\begin{equation} k_{MN}=\frac{f_{MN}}{f_{M}*f_{N}} \end{equation}

Для примера использования взяли геном бактерии Escherichia coli str. K-12 substr. MG1655. Наиболее отличающийся динуклеотид AG - его реальная встречаемость 0.713 от ожидаемой.


© Бушмакин Илья, 2017