EMBOSS. Анализ последовательностей

Практикум 9. EMBOSS. Анализ последовательностей

Задание 1. Упражнения по EMBOSS для нуклеотидных последовательностей.

Создать три случайных нуклеотидных последовательностей длины 100.
Команда:
```
makenucseq -auto -length 100 -amount 3 -outseq fasta:1_out.fasta
```
Результат: 1_out.fasta

Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.
Входные файлы: 1_out.fasta
Команда:
```
seqretsplit 1_out.fasta
```
Результат: emboss_001.fasta , emboss_002.fasta , emboss_003.fasta
Комментарий: использовался файл с последовательностями из предыдущего задания.

Несколько файлов в формате fasta собрать в единый файл.
Входные файлы: emboss_001.fasta , emboss_002.fasta , emboss_003.fasta, 3_in_list.txt
Команда:
```
seqret @3_in_list.txt -outseq fasta:3_out.fasta
```
Результат: 3_out.fasta
Комментарий: использовались последовательности, полученные в предыдущем задании.

Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.
Входные файлы: herpes.gb
Команда:
```
extractfeat herpes.gb -type CDS -describe product -outseq 4_out.fasta
```
Результат: 4_out.fasta

Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.
Входные файлы: herpes.gb
Команда:
```
featcopy herpes.gb -outfeat 5_out.gff
```
Результат: 5_out.gff

Из файла с аннотированной хромосомой в формате gb вырезать три кодирующих последовательности.
Входные файлы: 6_in_list.txt, herpes.gb
Команда:
```
seqret @6_in_list.txt -outseq 6_out.fasta
```
Результат: 6_out.fasta

Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности.
Входные файлы: 6_out.fasta
Команда:
```
transeq 6_out.fasta -frame 1 -table 0 -outseq 7_out.fasta
```
Результат: 7_out.fasta
Комментарий: в задании использовался файл, полученный в предыдущем упражнеии.

Перевести выравнивание из формата fasta в формат msf.
Входные файлы: 8_in.fasta
Команда:
```
seqret 8_in.fasta -outseq msf:8_out.msf
```
Результат: 8_out.msf

Удалить символы гэпов из выравнивания.
Входные файлы: 8_in.fasta
Команда:
```
degapseq 8_in.fasta -outseq 9_out.fasta
```
Результат: 9_out.fasta
Комментарий: использовался входной файл для предыдущего упражнения.

Перемешать буквы в данной нуклеотидной последовательности.
Входные файлы: nana_1.fasta
Команда:
```
shuffleseq nana_1.fasta -outseq 10_out.fasta
```
Результат: 10_out.fasta

Задание 2. Скрипт на Python

По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product).

Файл со скриптом: script.py

Запуск скрипта:

python script.py <genbank file> <result file name (опционально)>

Пример выполнения скрипта для файла hepres.gb: herpes_coding.fasta.

1 курс

2 курс

3 курс

4 курс

5 курс

6 курс

Практикум 9. EMBOSS. Анализ последовательностей

Задание 1. Упражнения по EMBOSS для нуклеотидных последовательностей.

Задание 2. Скрипт на Python