EMBOSS

Упражнения

  • Упражнение1. (seqret) Несколько файлов в формате fasta собрать в единый файл

  • Для начала создадим файл в USA-формате (listfile) в директории ls. Используем команду ls>list.
    Затем объединяем эти файлы в один с помощью программы seqret: seqret @list sequences.fasta

  • Упражнение2. (seqretsplit) Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы

  • Используем команду seqretsplit completesequences.fasta seq.fasta В файле completesequencea.fasta записано три последовательности. Программа seqretsplit записывает каждую из этих последовательностей в отдельный файл.

  • Упражнение4. (transeq) Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.

  • На вход подана некая нуклеотидная последовательность мРНК и выбрана таблица генетического кода №5.Программа транслирует последовательность начиная с первого нуклеотида (а не ищет старт-кодон), поэтому имеем множество стоп-кодонов(*).


  • Упражнение5. (transeq) Транслировать данную нуклеотидную последовательность в шести рамках.



  • Упражнение6. (seqret) Перевести выравнивание из fasta формате в формат .msf



  • Упражнение7. (infoalign) Выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и число)



  • Упражнение8. (featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff

  • Я использовала файл NC_013943.gbk - запись для хромосомы из бактерии Denitrovibrio acetiphilus DSM 12809



  • Упражнение10. (shuffle) Перемешать буквы в данной нуклеотидной последовательности

  • С помощью команды shuffle -o shuffled.fasta sequence.fasta я перемешала буквы в последовательности sequence.fasta и записала полученный результат в файл shuffled.fasta

  • Упражнение11. (cusp)Найти частоты кодонов в данных кодирующих последовательностях



  • Упражнение12. (compsec) Найти частоты динуклеотидов в данной нуклеотидной последовательности и сравнить их с ожидаемыми



  • Почти для всех динуклеотидов частота встречаемости не очень значительно отличается от ожидаемой

    Сравнение аннотации генов белков в одной хромосоме бактерии или археи с трансляциями длинных открытых рамок считывания



    Для работы я выбрала бактерию из 1 семестра Denitrovibrio acetiphilus DSM 12809, которая имеет одну хромосому.AC (в GenBank CP001968, в RefSeq NC_013943) Последовательность хромосомы в формате genbank

    Рис1. Бактерии под увеличением

    Получение трансляции открытых рамок с помощью команды getorf пакета EMBOSS

    Так как данная программа извлекает открытые рамки считывания только с нуклеотидных последовательностей (которых нет в формате .gb), был использована Последовательность хромосомы в формате fasta

    Я установила следующие опции
    Таблица 1. Опции команды getorf.
    Опция Значение
    -table 11 Таблица генетического кода для генома бактерии
    -minsize 180 Минимальная длина открытой рамки - 180 п.н.
    -circular Кольцевая хромосома
    -find 0 Выходные последовательности - трансляции открытых рамок от стоп кодона до стоп кодона


  • Команда: getorf bac.fasta -table 11 -minsize 180 -circular -find 0 res.fasta

  • Fasta-файл с открытыми рамками

    Получение списка координат и ориентаций найденных открытых рамок с помощью infoseq
    Таблица 2. Опции команды infoseq.
    Опция Значение
    -only Показывать только указанные параметры
    -name ID открытой рамки
    -length Длина трансляции в остатках
    -description Описание содержит координаты открытых рамок


    Обработанный результат в формате .xlsx
    Для получения списка аннотированных генов белков я скачала файлы с расширениями .ptt (хромосомная таблица со списком генов белков)и .faa (с последовательностями белков в формате fasta):NC_013943.ptt,NC_013943.faa
    Обработав файл NC_013943.ptt я получила таблицу аннотированных генов белков в формате Excel:Prots.xslx

    Для сравнения двух полученных таблиц я использовала Excel.
    Полученная таблица: compare.xlsx


    Рис2. Фрагмент сравнительной таблицы

    Можно заметить, что открытые рамки длиннее, чем соответствующие белки
    Аннотированных белков примерно в несколько раз меньше, чем открытых рамок. Это можно объяснить тем, что наличие открытой рамки не гарантирует присутствие гена, кодирующего белок.

    © Козлова Анастасия, 2015