EMBOSS

  1. Несколько файлов в формате fasta собрать в единый файл
    seqret NC\*.fasta all.fasta

    входные файлы

    NC_010103.1.fasta
    NC_010740.1.fasta
    NC_010167.1.fasta
    NC_012442.1.fasta

    Выдача программы

    seqs4.fasta

  2. Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
    seqretsplit seqs4.fasta seq.fasta

  3. Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле

    Использовали файл sequence.gb, координаты трех кодирующих последовательностей записали в файл list.txt

    seqret @list.txt seqs.fasta

    Последовательности записаны в файл seqs.fasta


  4. Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
    transeq human_mito_cds.fasta trans.fasta -table 2

  5. Транслировать данную нуклеотидную последовательность в шести рамках.
    transeq seq.fasta trans.fasta -frame 6

  6. Перевести выравнивание и из fasta формате в формат .msf
    seqret D_AgeI.fasta msf::align.msf

  7. Выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и число)
    infoalign aln.msf inf.txt -refseq 2 -only -name -idcount
    inf.txt

  8. Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
    featcopy NC_009894.gbk try.gff

  9. Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product)
    extractfeat NC_009894.gbk info.fasta -type CDS -describe product

  10. Перемешать буквы в данной нуклеотидной последовательности;
    shuffle -o shuf.fasta NC_009894.gbk

  11. Найдите частоты кодонов в данных кодирующих последовательностях
    cusp human_mito_cds.fasta table.txt
    table.txt

  12. Найдите частоты динуклеотидов в данной нуклеотидной последовательности и сравните их с ожидаемыми
    compseq human_mito_cds.fasta -word 2 info.txt -calcfreq в файле info.txt есть таблица в которой в 3 колонке найденная частота в 4ой колонке ожидаемая частота, в 5ой колонкe отношение вычисленной частоты к ожидаемой частоте

  13. Выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов
    tranalign cdss_D-ddeI.fasta proteins_D-DdeI.fasta align.fasta

Карта локального сходства геномов.

Мы построили карту локального сходства геномов бактерий Thermotoga maritima MSB8 NC_023151.1 и Thermotoga neapolitana DSM 4359 NC_011978.1

Для построения карты локального сходства использовался blast2seq (алгоритм blastn) на сайте NCBI. Характеристики полученного выравнивания приведены в таблице 1.

Выравнивание

Таблица 1. Характеристики выравнивания геномов

e-value 0.0
identity 97%
query cover 87%
max score 1.638e+05
total score 1.374e+06

Рис.1 Карта локального сходства

Рассмотрим по данной карте крупные эволюционные события произошедшие с геномами на пути от общего предка.

Анализ карты

Изображение

Описание

Красным выделены инверсии.

Синим выделены участоки, на котором можно наблюдать индель. (А) Произошла вставка в геноме T.maritima или делеция в геноме T.neapolitana (В) Аналогично.

Произошла транслокация: участки А и В поменялись местами в геноме T.maritima и в геноме T.neapolitana. Также произошла инверсия участка В.

Участки С и D также поменялись местами в двух геномах. Причем на участке D, видимо произошла вставка или делеция.

Т.е. эти участки могли бы располагаться примерно так.

И, наверное, на участке D не индель, а снова транслокация. Или участок Е -- это и есть вставка

У рассматриваемых бактерий кольцевые хромосомы. Из-за того, что по-разному установлены координаты, возникает участок, выделенный рамкой.