Анализа последовательностейс помошью пакета программ EMBOSS

Десять упражнений

Таблица 1:отчёт о выполнении десяти упражнений.

Номер и название задания

Исходные данные

Команды с параметрами

Результат

1.Несколько файлов в формате fasta собрать в единый файл.

ecoli1.fasta
ecoli2.fasta
ecoli3.fasta
list

seqret @list ecoli_sum.fasta

ecoli_sum.fasta

2.Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.

fungi_sum.fasta

seqretsplit fungi_sum.fasta -auto

result1
result2
result3

3.Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.

Sacchar_c.gb

seqret @fragment Sacchar_gen.fasta

Sacchar_gen.fasta

4.Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.

Sacchar_gen.fasta

transeq Sacchar_gen.fasta -table 12 Sacchar_prot.fasta

Sacchar_prot.fasta

5.Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности.

sacchar_c.fasta

getorf sacchar_c.fasta -minsize 5000 sacchar_c.orf

sacchar_c.orf

6.Перевести выравнивание из формата fasta в формат msf.

alig.fasta

seqret alig.fasta msf::alig.msf

alig.msf

8.Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.

featcopy Sacchar_c.gb Sacchar_feat.gff

Sacchar_feat.gff

9.Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.

Sacchar_c.gb

extractfeat Sacchar_c.gb -type CDS Sacchar_cds.fasta

Sacchar_cds.fasta

10.Перемешать буквы в данной нуклеотидной последовательности.

seq.fasta

shuffleseq seq.fasta  shaff_seq.fasta

shaff_seq.fasta

11.Создать три случайных нуклеотидных последовательностей длины 100.

None

makenucseq -amount 3 -length 100 random_seq.fasta -auto

random_seq.fasta

12.Найти частоты кодонов в данных кодирующих последовательностях.

Sacchar_gen.fasta

cusp Sacchar_gen.fasta codcount.cusp

codcount.cusp

14.Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).

alig.fasta

degapseq alig.fasta nomorealig.fasta

nomorealig.fasta

12.Найти частоты кодонов в данных кодирующих последовательностях.

Sacchar_gen.fasta

cusp Sacchar_gen.fasta codcount.cusp

codcount.cusp

Cкрипт: задание 4

Скирпт в python.
Изначальный файл.
Конечный файл.

Команда для вызова скрипта:

python task4.py Sacchar_c.gb

Данный скрипт принимает в качестве 1 аргумента командной строки название файла, содержащего аанотацию, формате gb (из GenBank или RefSeq) или embl (из ENA) и создает файл CDS.fasta с кодирующими последовательностями.

Третий семестр(осенний семестр 2018)


© Болихова Анаст