EMBOSS. Выравнивание геномов

I

(seqret) Несколько файлов в формате fasta собрать в единый файл

Были использованы файлы HSP7C_HUMAN.fasta, TERT_HUMAN.fasta и CISY_HUMAN.fasta из предыдущего практикума. В этом случае было удобно собрать файлы по маске.
Использованная команда: seqret "*_HUMAN.fasta" HUMAN.fasta
Выходной файл: HUMAN.fasta

(seqretsplit) Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы

Был взят файл HUMAN.fasta из предыдущего задания.
Использованная команда: seqretsplit HUMAN.fasta
Выходные файлы: hsp7c_human.fasta, tert_human.fasta и cisy_human.fasta

(seqret) Перевести выравнивание из .fasta-формата в формат .msf

Был взят файл alignment.fasta. После перевода в .msf-формат получен файл alignment.msf, в котором, в отличие от исходного .fasta-файла, приведено выравнивание всех последовательностей вместе, а не по отдельности, а также содержится дополнительная информация о последовательностях.
Использованная команда: seqret alignment.fasta msf::alignment.msf
Выходные файлы: alignment.msf

(featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff

Featcopy читает таблицы особенностей и переводит их в любой из поддерживаемых форматов. Исходный файл - sequence.gb.
Использованная команда: featcopy sequence.gb sequence.gff
Выходные файлы: sequence.gff

(infoalign) Выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и число).

Infoalign выдает различную информацию о последовательностях во входном множественном выравнивании (USA, имя, длину, количество гэпов, совпадений и пр.) в сравнении с эталонной последовательностью. По умолчанию эталонной последовательностью является вычисленная консенсусная последовательность, но ее можно задать и вручную по имени или порядковому номеру в файле. Нам необходимо было провести сравнение со второй последовательностью, поэтому была использована опция -refseq 2. Чтобы получить на выходе только имя и информацию о количестве совпадений были использованы опции -only -name -idcount.
Использованная команда: infoalign alignment.msf -refseq 2 -only -name -idcount stdout
Выходные файлы: скриншот вывода

II

Для выполнения задания были взяты бактерии Yersinia pestis Nepal516 и Yersinia pestis Antiqua. Это патогенные бактерии, вызывающие чуму. С помощью blast2seq было построено выравнивание и получена карта локального сходства для этих двух штаммов.

Данная карта показывает участки сходства на основании результатов работы blastn. Выравнивания показаны в виде непрерывных линий. Совпадения прямой цепи (plus strand) отображены линиями, идущими из левого нижнего в правый верхний угол, совпадения комплементарной цепи (minus strand) — из левого верхнего в правый нижний. Количество линий соответсвует количеству найденных blastn выравниваний. Последовательность на оси OY (Query) имеет длину 4702289, полседовательность на оси OX (Reference) — 4534590. Минимальная цена деления на осях составляет 50000. Cходство (Identity %) между гомологичными участками в данном выравнивании — 99% (среднее сходство по нескольким наиболее длинным выравниваниям). Описание эволюционных событий:

  1. инверсии;
  2. транслокации;
  3. вставки.