EMBOSS

~mashkovskayaav

• Цель данного практикума - выполнить операции с файлами нуклеотидных или белковых последовательностей с помощью программ из пакета EMBOSS;

Часть 1

Задание 1

- Несколько файлов в формате fasta собрать в единый файл;

Исходные файлы: NC_011942160.fasta, NC_015971143.fasta;

Команда:

seqret "*fasta" -outseq sequences.fasta

Результат: sequences.fasta


Задание 2

- Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы;

Исходные файлы: sequences.fasta

Команда:

seqretsplit sequences.fasta -outseq "*.fasta"

Результат: 3376700-3377745.fasta, c863922-863175.fasta;


Задание 3

- Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле;

Исходные файлы: seq.gb, usa.txt;

Команда:

seqret @usa.txt -outseq all.fasta

Результат: all.fasta


Задание 4

- Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл

Исходные файлы: all.fasta

Команда:

transeq all.fasta -frame=1 -table 0 -outseq all.pep

Результат: all.pep


Задание 5

- Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности;

Исходные файлы: fungi.fasta

Команда:

getorf fungi.fasta -minsize 50 -outseq fungi.orf

Результат: fungi.orf


Задание 6

- Перевести выравнивание из формата fasta в формат msf;

Исходные файлы: align.fasta

Команда:

aligncopy align.fasta -aformat2 msf -outfile align.msf

Результат: align.msf


Задание 7

- Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа);

Исходные файлы: cara_alignment.fasta

Команда:

infoalign cara_alignment.fasta -refseq 2 -only -name -idcount -outfile cara_align.txt

Результат: cara_align.txt


Задание 8

- Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff;

Исходные файлы: seq.gb

Команда:

featcopy seq.gb -outfeat feature.gff

Результат: feature.gff


Задание 9

- Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями;

Исходные файлы: seq.gb

Команда:

exstractfeat seq.gb -type CDS -outseq features.fasta

Результат: features.fasta


Задание 10

- Перемешать буквы в данной нуклеотидной последовательности;

Исходные файлы: numberone.fasta

Команда:

shuffleseq numberone.fasta -outseq shuffle.fasta

Результат: shuffle.fasta


Часть 2

Задание 4

- По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка;

Скрипт;

• При запуске скрипта необходимо ввести название исходного файла с геномом в качетсве аргумента; c помощью программы extractfeat создается файл, содержащий необходимую информацию;

• Пример использования:

где seq.gb - название исходного файла, который подается в качестве аргумента;

• Результат: создается файл feat.fasta


©Машковская Анна, 2018