EMBOSS: пакет программ для анализа последовательностей

1. Качество сборки генома

1. Несколько файлов в формате fasta собрать в единый файл.
Исходные файлы: COI_R.fasta, COI_F.fasta, result.txt
Команда: "seqret @result.txt -outseq result.fasta"
Результат: result.fasta

2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.
Исходные файлы: result1.fasta
Команда: "seqretsplit result1.fasta"
Результат: u00096.3_cds_aac73113.1_2.fasta, u00096.3_cds_aac73114.1_3.fasta

4. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.
Исходные файлы: num3.fasta
Команда: "transeq -table 0 -sequence num3.fasta -outseq num4.fasta"
Результат: num4.fasta

5.Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности.
Исходные файлы: seq5.fasta
Команда: "getorf -table 0 -minsize 500 seq5.fasta result5.fasta"
Результат: result5.fasta

6.Перевести выравнивание из формата fasta в формат msf.
Исходные файлы: num6.fasta
Команда: "seqret num6.fasta msf::num6.msf"
Результат: num6.msf

8.(featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.
Исходные файлы: seq3.gb
Команда: "featcopy seq3.gb -outfeat featcopy.gff"
Результат: featcopy.gff

10.Перемешать буквы в данной нуклеотидной последовательности.
Исходные файлы: seq5.fasta
Команда: "shuffleseq seq5.fasta -outseq num10.fasta"
Результат: num10.fasta

11.Создать три случайных нуклеотидных последовательностей длины 100.
Команда: "makenucseq -amount 3 -length 100 -outseq num11.fasta -auto"
Результат: num11.fasta

12.Найти частоты кодонов в данных кодирующих последовательностях.
Исходные файлы: result.fasta
Команда: "cusp result.fasta num12.cusp"
Результат: num12.cusp

14.Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).
Исходные файлы: num16.fasta
Команда: "degapseq num16.fasta num17.fasta"
Результат: num17.fasta

2. Скрипт

Задача: по данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product)
Исходные данные: sequen.gb
Команда: "extractfeat sequen.gb -type CDS -describe product -outseq resseq.fasta"
Выходной файл: resseq.fasta
Скрипт
В данном скрипте использовалась программа extractfeat из пакета EMBOSS, которая позволяет извлечь из последовательности так сказать особенности.
Так как нас интересуют белки - используем -type CDS. Ещё нам нужны функции, поэтому используем -describe product.

Вернуться на главную страницу


© Наумова Юлия, 2018