Практикум 9. EMBOSS. Анализ последовательностей
Задание 1. Упражнения по EMBOSS для нуклеотидных последовательностей.
-
Создать три случайных нуклеотидных последовательностей длины 100.
Команда:makenucseq -auto -length 100 -amount 3 -outseq fasta:1_out.fasta
Результат: 1_out.fasta -
Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.
Входные файлы: 1_out.fasta
Команда:seqretsplit 1_out.fasta
Результат: emboss_001.fasta , emboss_002.fasta , emboss_003.fasta
Комментарий: использовался файл с последовательностями из предыдущего задания. -
Несколько файлов в формате fasta собрать в единый файл.
Входные файлы: emboss_001.fasta , emboss_002.fasta , emboss_003.fasta, 3_in_list.txt
Команда:seqret @3_in_list.txt -outseq fasta:3_out.fasta
Результат: 3_out.fasta
Комментарий: использовались последовательности, полученные в предыдущем задании. -
Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.
Входные файлы: herpes.gb
Команда:extractfeat herpes.gb -type CDS -describe product -outseq 4_out.fasta
Результат: 4_out.fasta -
Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.
Входные файлы: herpes.gb
Команда:featcopy herpes.gb -outfeat 5_out.gff
Результат: 5_out.gff -
Из файла с аннотированной хромосомой в формате gb вырезать три кодирующих последовательности.
Входные файлы: 6_in_list.txt, herpes.gb
Команда:seqret @6_in_list.txt -outseq 6_out.fasta
Результат: 6_out.fasta -
Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности.
Входные файлы: 6_out.fasta
Команда:transeq 6_out.fasta -frame 1 -table 0 -outseq 7_out.fasta
Результат: 7_out.fasta
Комментарий: в задании использовался файл, полученный в предыдущем упражнеии. -
Перевести выравнивание из формата fasta в формат msf.
Входные файлы: 8_in.fasta
Команда:seqret 8_in.fasta -outseq msf:8_out.msf
Результат: 8_out.msf -
Удалить символы гэпов из выравнивания.
Входные файлы: 8_in.fasta
Команда:degapseq 8_in.fasta -outseq 9_out.fasta
Результат: 9_out.fasta
Комментарий: использовался входной файл для предыдущего упражнения. -
Перемешать буквы в данной нуклеотидной последовательности.
Входные файлы: nana_1.fasta
Команда:shuffleseq nana_1.fasta -outseq 10_out.fasta
Результат: 10_out.fasta
Задание 2. Скрипт на Python
По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product).
Файл со скриптом: script.py
Запуск скрипта:
python script.py <genbank file> <result file name (опционально)>
Пример выполнения скрипта для файла hepres.gb: herpes_coding.fasta.