Анализа последовательностейс помошью пакета программ EMBOSS

Десять упражнений

Таблица 1:отчёт о выполнении десяти упражнений.

Номер и название задания	Исходные данные	Команды с параметрами	Результат
1.Несколько файлов в формате fasta собрать в единый файл.	ecoli1.fasta ecoli2.fasta ecoli3.fasta list	seqret @list ecoli_sum.fasta	ecoli_sum.fasta
2.Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.	fungi_sum.fasta	seqretsplit fungi_sum.fasta -auto	result1 result2 result3
3.Из файла с аннотированной хромосомой в формате gb (из GenBank или RefSeq) или embl (из ENA) вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.	Sacchar_c.gb	seqret @fragment Sacchar_gen.fasta	Sacchar_gen.fasta
4.Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.	Sacchar_gen.fasta	transeq Sacchar_gen.fasta -table 12 Sacchar_prot.fasta	Sacchar_prot.fasta
5.Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности.	sacchar_c.fasta	getorf sacchar_c.fasta -minsize 5000 sacchar_c.orf	sacchar_c.orf
6.Перевести выравнивание из формата fasta в формат msf.	alig.fasta	seqret alig.fasta msf::alig.msf	alig.msf
8.Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.		featcopy Sacchar_c.gb Sacchar_feat.gff	Sacchar_feat.gff
9.Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.	Sacchar_c.gb	extractfeat Sacchar_c.gb -type CDS Sacchar_cds.fasta	Sacchar_cds.fasta
10.Перемешать буквы в данной нуклеотидной последовательности.	seq.fasta	shuffleseq seq.fasta shaff_seq.fasta	shaff_seq.fasta
11.Создать три случайных нуклеотидных последовательностей длины 100.	None	makenucseq -amount 3 -length 100 random_seq.fasta -auto	random_seq.fasta
12.Найти частоты кодонов в данных кодирующих последовательностях.	Sacchar_gen.fasta	cusp Sacchar_gen.fasta codcount.cusp	codcount.cusp
14.Удалить символы гэпов из выравнивания (превратив его тем самым снова в набор невыровненных последовательностей).	alig.fasta	degapseq alig.fasta nomorealig.fasta	nomorealig.fasta
12.Найти частоты кодонов в данных кодирующих последовательностях.	Sacchar_gen.fasta	cusp Sacchar_gen.fasta codcount.cusp	codcount.cusp

Cкрипт: задание 4

Скирпт в python.
Изначальный файл.
Конечный файл.

Команда для вызова скрипта:

python task4.py Sacchar_c.gb

Данный скрипт принимает в качестве 1 аргумента командной строки название файла, содержащего аанотацию, формате gb (из GenBank или RefSeq) или embl (из ENA) и создает файл CDS.fasta с кодирующими последовательностями.

Третий семестр(осенний семестр 2018)