Главная
Семестры
Обо мне
Ссылки

EMBOSS и сравнение геномов


1. Команды EMBOSS

  • Задание: несколько файлов в формате fasta собрать в единый файл.
    Выполнение: Использовавшиеся данные: 3 последовательности в fasta-формате и txt-файл с названиями этих последовательностей. На выходе получаем файл с тремя заданными последовательностями.
    Команда: seqret @1list.txt sequences.fasta
  • Задание: один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы.
    Выполнение: Использовавшиеся данные: файл с последовательностями (3). На выходе получаем 3 последовательности.
    Команда: seqretsplit sequences.fasta
  • Задание: из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле.
    Выполнение: Использовавшиеся данные: файл с id и координатами нужных последовательностей. На выходе получаем файл с этими последовательностями.
    Команда: seqret @3list.txt fasta:chromcds.fasta
  • Задание: транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
    Выполнение: Использовавшиеся данные: файл с кодирующей последовательностью. На выходе получаем файл с аминокислотной последовательностью.
    Команда: transeq chromcds.fasta fasta:chromprot.fasta
  • Задание: транслировать данную нуклеотидную последовательность в шести рамках.
    Выполнение: Использовавшиеся данные: файл с кодирующей последовательностью. '-frame n' означает транслирование в n рамок. Выходной файл в формате pep.
    Команда: transeq -frame 6 chromcds.fasta 6prot.pep
  • Задание: перевести выравнивание и из fasta формате в формат .msf.
    Выполнение: Использовавшиеся данные: выравнивание fasta-формате. На выходе получаем файл с выравниванием в msf-формате.
    Команда: seqret align.fasta msf:align.msf
  • Задание: выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными.
    Выполнение: Использовавшиеся данные: выравнивание в fasta-формате. '-refseq 2' значит, что за сравниваем все последовательности со второй. '-only -name -idcount' значит, что в выходной поток попадают только название последовательности и число совпадающих букв. 'stdout' отправить все в стандартный поток, а не в файл.
    Команда: infoalign -refseq 2 -only -name -idcount align.fasta stdout
  • Задание: Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
    Выполнение: Использовавшиеся данные: gb-файл с пластидой. На выходе получаем файл с аннотациями особенностей в табличном формате.
    Команда: featcopy -features feat.gb -outfeat gfile.gff
  • Задание: перемешать буквы в данной нуклеотидной последовательности.
    Выполнение: Использовавшиеся данные: исходный fasta-файл. На выходе получаем файл с перемешанными нуклеотидами.
    Команда: shuffle 1.fasta > ev1.fasta
  • Задание: найдите частоты кодонов в данных кодирующих последовательностях.
    Выполнение: Использовавшиеся данные: файл с кодирующей последовательностью. На выходе получаем файл с частотами кодонов.
    Команда: cusp chromcds.fasta chromcds.cusp
  • Задание: найдите частоты динуклеотидов в данной нуклеотидной последовательности и сравните их с ожидаемыми.
    Выполнение: Использовавшиеся данные: файл в формате fasta. '-word 2' значит, что находим частоты слов длины 2, т.е. динуклеотиды. На выходе получаем файл с частотами.
    Команда: compseq ev1.fasta -word 2 -calcfreq ev1.composition
  • Задание: выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов.
    Выполнение: Использовавшиеся данные: файл с кодирующими последовательностями, выравнивание их белков. На выходе получаем файл с выравниванием кодирующих последовательностей.
    Команда: tranalign chromcds.fasta protalign.fasta alignchrom.fasta

2. Карта локального сходства

Взял две археи: Halobacterium sp. JI20-1 (по оси У) - LN831302 и Halobacterium sp. NRC-1 (по оси Х) - AE004437. Размер слова 32 убирает большинство шумов, а карта не меняется. Сходство между гомологичными участками составляет 82%.

Красные прямоугольники 1, 2, 3, 5 - инверсии. Красные прямоугольники 4 - инверсированный участкок с транслокациями. Прямоугольник 6 - регион с большим количеством эволюционных изменений, разобраться в которых не просто.
Синий кружок 1 - инверсия участка. Синий кружок 2 - делеция участка у бактерии по оси Х.