Главная
О себе
Список курсов
Сайт ФББ

Практикум 9. EMBOSS. Анализ последовательностей

Задание 1. Упражнения по EMBOSS для нуклеотидных последовательностей.

  1. Создать три случайных нуклеотидных последовательностей длины 100.
    Команда:
    makenucseq -auto -length 100 -amount 3 -outseq fasta:1_out.fasta
    Результат: 1_out.fasta

  2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.
    Входные файлы: 1_out.fasta
    Команда:
    seqretsplit 1_out.fasta
    Результат: emboss_001.fasta , emboss_002.fasta , emboss_003.fasta
    Комментарий: использовался файл с последовательностями из предыдущего задания.

  3. Несколько файлов в формате fasta собрать в единый файл.
    Входные файлы: emboss_001.fasta , emboss_002.fasta , emboss_003.fasta, 3_in_list.txt
    Команда:
    seqret @3_in_list.txt -outseq fasta:3_out.fasta
    Результат: 3_out.fasta
    Комментарий: использовались последовательности, полученные в предыдущем задании.

  4. Из данного файла с хромосомой в формате gb или embl получить fasta файл с кодирующими последовательностями.
    Входные файлы: herpes.gb
    Команда:
    extractfeat herpes.gb -type CDS -describe product -outseq 4_out.fasta
    Результат: 4_out.fasta

  5. Перевести аннотации особенностей из файла формата gb или embl в табличный формат gff.
    Входные файлы: herpes.gb
    Команда:
    featcopy herpes.gb -outfeat 5_out.gff
    Результат: 5_out.gff

  6. Из файла с аннотированной хромосомой в формате gb вырезать три кодирующих последовательности.
    Входные файлы: 6_in_list.txt, herpes.gb
    Команда:
    seqret @6_in_list.txt -outseq 6_out.fasta
    Результат: 6_out.fasta

  7. Транслировать (с первого кодона, то есть в первой рамке) кодирующие последовательности.
    Входные файлы: 6_out.fasta
    Команда:
    transeq 6_out.fasta -frame 1 -table 0 -outseq 7_out.fasta
    Результат: 7_out.fasta
    Комментарий: в задании использовался файл, полученный в предыдущем упражнеии.

  8. Перевести выравнивание из формата fasta в формат msf.
    Входные файлы: 8_in.fasta
    Команда:
    seqret 8_in.fasta -outseq msf:8_out.msf
    Результат: 8_out.msf

  9. Удалить символы гэпов из выравнивания.
    Входные файлы: 8_in.fasta
    Команда:
    degapseq 8_in.fasta -outseq 9_out.fasta
    Результат: 9_out.fasta
    Комментарий: использовался входной файл для предыдущего упражнения.

  10. Перемешать буквы в данной нуклеотидной последовательности.
    Входные файлы: nana_1.fasta
    Команда:
    shuffleseq nana_1.fasta -outseq 10_out.fasta
    Результат: 10_out.fasta

Задание 2. Скрипт на Python

По данному аннотированному файлу в формате gb (из GenBank или RefSeq) или embl (из ENA) создать файл с кодирующими последовательностями в формате fasta, добавив в описание каждой последовательности функцию белка (из поля product).

Файл со скриптом: script.py

Запуск скрипта:

python script.py <genbank file> <result file name (опционально)>

Пример выполнения скрипта для файла hepres.gb: herpes_coding.fasta.