EMBOSS

Часть 1

Задание 1. Несколько файлов в формате fasta собрать в единый файл.

исходные данные: PBP24373.fasta, PFL89028.fasta
команда: seqret @1.txt -outseq 1.fasta
выходной файл: 1.fasta

Задание 2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.

исходные данные: 2.fasta
команда: seqretsplit 2.fasta
выходные файлы: 3648294-3648377.fasta, ws2962.fasta, c98902-98162.fasta

Задание 3. Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.

исходные данные: последовательнось хромосомы, список координат
команда: seqret @3.txt -outseq 3.fasta
выходной файл: 3.fasta

Задание 4. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.

исходные данные: 3.fasta
команда: transeq -table 0 -seq 3.fasta -outseq 4.fasta
выходной файл: 4.fasta

Задание 5. Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности.

исходные данные: sequence.fasta
команда: transeq sequence.fasta -frame=6 5.fasta
выходной файл: 5.fasta

Задание 6. Перевести выравнивание из формата fasta в формат msf.

исходные данные: 6ali.fasta
команда: seqret 6ali.fasta msf::6.msf
выходной файл: 6.msf

Задание 7. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имена последовательностей и числа).

исходные данные: 7ali.fasta
команда: infoalign 7ali.fasta refseq=2 -only -name -idcount 7.txt
выходной файл: 7.txt

Задание 8. (featcopy) Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.

исходные данные: sequence.gb
команда: featcopy sequence.gb gff::sequence.gff
выходной файл: sequence.gff

Задание 9. (extractfeat) Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.

исходные данные: sequence.gb
команда: extractfeat sequence.gb -type CDS 9.fasta
выходной файл: 9.fasta

Задание 10. Перемешать буквы в данной нуклеотидной последовательности.

исходные данные: seq.fasta
команда: shuffleseq seq.fasta 10.fasta
выходной файл: 10.fasta

Часть 2

нужно: по данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product)
исходные данные: sequence.gb
команда: extractfeat sequence.gb -type CDS -describe product -outseq res_seq2.fasta
выходной файл: res_seq2.fasta
скрипт

© Бруман Софья, 2018