EMBOSS

Несколько файлов в формате fasta собрать в единый файл
seqret NC\*.fasta all.fasta

входные файлы
NC_010103.1.fasta
NC_010740.1.fasta
NC_010167.1.fasta
NC_012442.1.fasta

Выдача программы
seqs4.fasta
Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
seqretsplit seqs4.fasta seq.fasta
Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле
Использовали файл sequence.gb, координаты трех кодирующих последовательностей записали в файл list.txt
seqret @list.txt seqs.fasta
Последовательности записаны в файл seqs.fasta
Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
transeq human_mito_cds.fasta trans.fasta -table 2
Транслировать данную нуклеотидную последовательность в шести рамках.
transeq seq.fasta trans.fasta -frame 6
Перевести выравнивание и из fasta формате в формат .msf
seqret D_AgeI.fasta msf::align.msf
Выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и число)
infoalign aln.msf inf.txt -refseq 2 -only -name -idcount
inf.txt
Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
featcopy NC_009894.gbk try.gff
Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product)
extractfeat NC_009894.gbk info.fasta -type CDS -describe product
Перемешать буквы в данной нуклеотидной последовательности;
shuffle -o shuf.fasta NC_009894.gbk
Найдите частоты кодонов в данных кодирующих последовательностях
cusp human_mito_cds.fasta table.txt
table.txt
Найдите частоты динуклеотидов в данной нуклеотидной последовательности и сравните их с ожидаемыми
compseq human_mito_cds.fasta -word 2 info.txt -calcfreq в файле info.txt есть таблица в которой в 3 колонке найденная частота в 4ой колонке ожидаемая частота, в 5ой колонкe отношение вычисленной частоты к ожидаемой частоте
Выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов
tranalign cdss_D-ddeI.fasta proteins_D-DdeI.fasta align.fasta

Карта локального сходства геномов.

Мы построили карту локального сходства геномов бактерий Thermotoga maritima MSB8 NC_023151.1 и Thermotoga neapolitana DSM 4359 NC_011978.1

Для построения карты локального сходства использовался blast2seq (алгоритм blastn) на сайте NCBI. Характеристики полученного выравнивания приведены в таблице 1.

Выравнивание

Таблица 1. Характеристики выравнивания геномов

e-value	0.0
identity	97%
query cover	87%
max score	1.638e+05
total score	1.374e+06

Рис.1 Карта локального сходства

Рассмотрим по данной карте крупные эволюционные события произошедшие с геномами на пути от общего предка.

Анализ карты
Изображение	Описание
	Красным выделены инверсии.
	Синим выделены участоки, на котором можно наблюдать индель. (А) Произошла вставка в геноме T.maritima или делеция в геноме T.neapolitana (В) Аналогично.
	Произошла транслокация: участки А и В поменялись местами в геноме T.maritima и в геноме T.neapolitana. Также произошла инверсия участка В.
	Участки С и D также поменялись местами в двух геномах. Причем на участке D, видимо произошла вставка или делеция.
	Т.е. эти участки могли бы располагаться примерно так.
	И, наверное, на участке D не индель, а снова транслокация. Или участок Е -- это и есть вставка
	У рассматриваемых бактерий кольцевые хромосомы. Из-за того, что по-разному установлены координаты, возникает участок, выделенный рамкой.

Учебный сайт Анастасии Тепловой

Семестры

EMBOSS

Карта локального сходства геномов.

Таблица 1. Характеристики выравнивания геномов

Рис.1 Карта локального сходства

Анализ карты

Изображение

Описание