NA

Практикум 9. EMBOSS.

Задание 1.

≈

Номер и название Исходные файлы Команда с параметрами Результат

1. Несколько файлов в формате fasta собрать в единый файл. 1 seqret @1 1.fasta 1.fasta

2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы. proba.fasta seqretsplit proba.fasta emboss_001.fasta emboss_001.fasta
emboss_002.fasta
emboss_003.fasta
emboss_004.fasta
emboss_005.fasta

3. Из файла с аннотированной хромосомой в формате gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле. 3cds.txt
sequence.gb seqret @3cds.txt 3cds.fasta 3cds.fasta

4. Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл. 3cds.fasta transeq 3cds.fasta 3aacds.fasta -frame 1 -table 0 3aacds.fasta

5. Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности. sequence.gb getorf gb::sequence.gb orfs.fasta -table 0 -minsize 1000 orfs.fasta

6. Перевести выравнивание из формата fasta в формат msf. ali.fasta seqret ali.fasta msf::ali.fasta ali.msf
7. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными. 7.fasta infoalign 7.fasta 7.infoalign -refseq 2 -only -name -idcount 7.infoalign

8. Перевести аннотации особенностей из файла формата gb в табличный формат gff. sequence.gb featcopy sequence.gb 8.gff 8.gff

9. Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями. sequence.gb extractfeat sequence.gb 9.fasta -type CDS 9.fasta

10. Перемешать буквы в данной нуклеотидной последовательности. 10.fasta shuffleseq 10.fasta 10shuffle.fasta -shuffle 5 10shuffle.fasta

Задание 2.

Упражнение 3.

Исходный файл:Salmonella enterica subsp. enterica serovar Typhi str. CT18, complete genome (NC_003198.1)

Скрипт python

Ответ для генома данной бактерии: GC.

Номер и название	Исходные файлы	Команда с параметрами	Результат
1. Несколько файлов в формате fasta собрать в единый файл.	1	seqret @1 1.fasta	1.fasta
2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.	proba.fasta	seqretsplit proba.fasta emboss_001.fasta	emboss_001.fasta emboss_002.fasta emboss_003.fasta emboss_004.fasta emboss_005.fasta
3. Из файла с аннотированной хромосомой в формате gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.	3cds.txt sequence.gb	seqret @3cds.txt 3cds.fasta	3cds.fasta
4. Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода, и положить результат в один fasta файл.	3cds.fasta	transeq 3cds.fasta 3aacds.fasta -frame 1 -table 0	3aacds.fasta
5. Вывести открытые рамки длиной не менее заданной, имеющиеся в данной нуклеотидной последовательности.	sequence.gb	getorf gb::sequence.gb orfs.fasta -table 0 -minsize 1000	orfs.fasta
6. Перевести выравнивание из формата fasta в формат msf.	ali.fasta	seqret ali.fasta msf::ali.fasta	ali.msf
7. Выдать в файл число совпадающих букв между второй последовательностью выравнивания и всеми остальными.	7.fasta	infoalign 7.fasta 7.infoalign -refseq 2 -only -name -idcount	7.infoalign
8. Перевести аннотации особенностей из файла формата gb в табличный формат gff.	sequence.gb	featcopy sequence.gb 8.gff	8.gff
9. Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.	sequence.gb	extractfeat sequence.gb 9.fasta -type CDS	9.fasta
10. Перемешать буквы в данной нуклеотидной последовательности.	10.fasta	shuffleseq 10.fasta 10shuffle.fasta -shuffle 5	10shuffle.fasta