EMBOSS

Команды пакета EMBOSS
1.Собрать несколько файлов в формате fasta в единый файл:
Ссылка на исходный файл
Ссылка на исходный файл
Ссылка на исходный файл
Ссылка на исходный файл
Ссылка на исходный файл
   seqret "sqnc*.fasta" outseq.fasta                                                                  

Ссылка на файл с результатом
2.Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.
Ссылка на исходный файл
 seqretsplit seqal.fasta

Ссылка на файл с результатом
Ссылка на файл с результатом
Ссылка на файл с результатом
4.Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.
Ссылка на исходный файл
 transeq -sequence seqal.fasta -outseq tranlate.fasta -table 0 -frame 1

Ссылка на файл с результатом
5.Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности.
Ссылка на исходный файл
 getorf seq1.fasta -minsize 50

Ссылка на файл с результатом
6.Перевести выравнивание из формата fasta в формат msf.
Ссылка на исходный файл
seqret fasta::alignmuscle.fasta msf::alignmuscle.msf

Ссылка на файл с результатом
8.Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.
Ссылка на исходный файл
 featcopy gb::pseudomonas.gb gff::pseudomonas.gff

Ссылка на файл с результатом
10.Перемешать буквы в данной нуклеотидной последовательности.
Ссылка на исходный файл
 shuffleseq seq1.fasta -seq1shuffled.fasta

Ссылка на файл с результатом
11.Создать три случайных нуклеотидных последовательностей длины 100.
makenucseq -amount 3 -length 100 randomseq.fasta

Ссылка на файл с результатом
12.Найти частоты кодонов в данных кодирующих последовательностях.
Ссылка на исходный файл
 cusp seq1.fasta

Ссылка на файл с результатом
14.Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).
Ссылка на исходный файл
 degapseq alignmuscle.fasta

Ссылка на файл с результатом
Скрипт
Ссылка на скрипт
Описание: программа создаёт 100 случайных последовательностей заданной длины (первый аргумент командной строки), а затем с помощью blastn с ограничением по e-value 0.1 ищет сопадения в базе данных, созданной из генома бактерии (второй аргумент командной строки). Затем проводится подсчёт числа строк в полученной таблице и делится на 100.


©Кондратенко Наталья, 2017