Учебный сайт Юдиной А.С.

Работа с программами пакета EMBOSS.

Задание 1.

Требуется несколько файлов в формате fasta собрать в единый файл.
Исходные данные взяты из практикума 8 - eif3g.fasta, tert.fasta, hsp71.fasta
Запрос - seqret "*.fasta" seqs.fasta
Полученные файл - seqs.fasta.

Задание 2.

Требуется один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.
Исзодный файл - seqs.fasta.
Запрос - seqretsplit seqs.fasta
Полученные файлы - o13339.1.fasta, p10591.4.fasta, p78795.2.fasta.

Заднаие 3.

Требуется из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам.
Для выполнения этого задания из последовательности Escherichia coli CFT073, complete genome (AE014075) были выбраны 3 кодирующие последовательности. Их координаты записаны в файл myfile.txt.
Запрос - seqret @myfile.txt fasta:list3.fasta
Полученный файл - list3.fasta.

Задание 4.

Требуется транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
Входной файл (получен в предыдущем упражнении) - list3.fasta.
Запрос - transeq -table 0 list3.fasta protein.fasta
Полученный файл - protein.fasta.

Задание 5.

Требуется транслировать последовательность нуклеотидов из исходного файла в шести рамках считывания.
Входной файл (получен в третьем упражнении) - list3.fasta.
Запрос - transeq -table 0 -frame 6 list3.fasta proteins.fasta
Полученный файл - proteins.fasta.

Задание 6.

Требуетс перевести выранивание из формата fasta в формат .msf. Который дает более детальное описание выравнивания.
Входной файл (получен в результате рабоыт во втором семестре в блоке 3) - align_test.fasta.
Запрос - seqret align_test.fasta -outseq msf::align_test.msf
Полученный файл - align_test.msf.

Задание 7.

Требуется выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными. Для решения подобной задачи удобнее всего пользоваться программой infoalign и получать данные в виде таблицы.
Входной файл (получен в результате рабоыт во втором семестре в блоке 3) - align_test.fasta.
Запрос - infoalign align_test.fasta -refseq 2 -only -name -idcount
Полученный фацл - align_test.infoalign.

Задание 8.

Требуется перевести аннотации особенностей в записи формата .gb в табличный формат .gff. Программа featcopy переводит данные в таблице особенностей в нужный формат.
Входной файл (взят для организма, рассматриваемого в задании 3) - sequence.gb
Запрос - featcopy sequence.gp sequence.gff
Полученный файл - sequence.gff

Задание 9.

Требуется из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями с добавлением функции белка из поля product.
Входной файл sequence7.gb
Запрос - extractfeat sequence7.gb -type CDS -describe product prots.fasta
Полученный файл - prots.fasta.

Задание 10.

Требуется перемешать буквы в данной нуклеотидной последовательности.Такая операция может быть нужна как контроль того, что наша находка не явялется случайной.
Входной файл - somegen.fasta.
Запрос - shuffleseq somegen.fasta newgen.fasta
Полученный файл - newgen.fasta.
Для полученной случайной последовательности был запущен blastn с параметрами по умолчагнию (E=10) с целью найти совападения c Е<0.1. Такие последовательности не были обнаружены, кроме того не было найдено ни одной более менее совпадающей с запрашиваемым файлом последовательности.

Рис.1. Находки blastn