EMBOSS: пакет программ для анализа последовательностей

1) Несколько файлов в формате fasta собрать в единый файл

Я использовал 3 файла с последовательностью белков из предыдущего практикума: гистон Н4 крысы, RPB1 человека и TERT человека. Файлы для удобства я собирал по маске.

Испoльзованная мною команда - seqret "*_PROTEIN.fasta" PROTEIN.fasta

Результат - PROTEIN.fasta

2) Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы

Я взял файл из прошлого упражнения PROTEIN.fasta

Испoльзованная команда - seqretsplit PROTEIN.fasta

Результат - np_001258150.1.fasta, o14746.1.fasta, p24928.2.fasta

3) Транслировать кодирующие последовательности в аминокислотные. Результат - в одном fasta файле

Файл c геномом аденовируса 2 типа будет содержать входные данные.

Испoльзованная команда - transeq -table 0 Aden2.fasta pr.fasta

Результат - pr.fasta

4) Перевести выравнивание и из fasta формате в формат .msf

Файл c гистоном крысы Н4 his_PROTEIN.fasta будет исходным.

Испoльзованная команда - seqret his_PROTEIN.fasta msf::his.msf

Результат - his.msf

5) Перемешать буквы в данной нуклеотидной последовательности

Роль входного файла исполнит obr.fasta из практикума по секвенированию по Сангеру.

Испoльзованная команда - shuffle -o 111.fasta obr.fasta

Результат - 111.fasta

Для выходного файла был запущен BLASTN с параметрами по умолчанию. Не нашлось ни одной достоверной находки (у всех E-valuе слишком мал).

Построение карты локального сходства

Для построения карты локального сходства я взял 2 бактерии Helicobacter pylori B38, strain B38 и Helicobacter pylori B38, strain 26695-1MET

Helicobacter pylori — спиралевидная грамотрицательная бактерия, около 3 мкм в длину, диаметром около 0,5 мкм. Она обладает 4–6 жгутиками и способностью чрезвычайно быстро двигаться даже в густой слизи или агаре. Она микроаэрофильна, то есть требует для своего развития наличия кислорода, но в значительно меньших концентрациях, чем содержащиеся в атмосфере.

Ниже представлена карта локального сходства, полученная с помощью алгоритма blast2seq для этих двух штаммов.

Cходство (Identity %) между гомологичными участками в данном выравнивании - 96%, было найдено как среднее сходство по нескольким наиболее длинным выравниваниям).

Пояснения к карте сходства:
Синтеничные области - участки геномов, состоящие из ортологичных областей с сохранением их порядка на хромосоме для сравниваемых геномов.
Инверсия — хромосомная перестройка, при которой происходит поворот участка хромосомы на 180°.
Дупликация — разновидность хромосомных перестроек, при которой участок хромосомы оказывается удвоенным.
Транслокация (вставка) — тип хромосомных перестроек, при которой происходит перенос участка хромосомы на негомологичную хромосому.
Делеция — хромосомная перестройка, при которых происходит потеря участка хромосомы.

© Борисов Евгений 2015