EMBOSS

EMBOSS


infoseq – команда биоинформатического пакета EMBOSS (European Molecular Biology Open Software Suite). Она выводит основную информацию о последовательностях нуклеиновых кислот и белков: USA (Uniform Sequence Address – единый адрес последовательности), имя, код доступа (AC - accession number), тип (нуклеиновая кислота или белок), длина, процент G+C, краткое описание.

Синтаксис команды разберем на примере:

infoseq sw:pdxk_bacsu -qualifier,

где

sw - сокращенное название базы данных SwissProt;

pdxk_bacsu – идентификатор последовательности в этой базе данных;

qualifier – название параметра (примеры квалификаторов можно найти в таблице), с помощью которого мы задаем, какую информацию о последовательности нужно получить.

Ниже приведены основные параметры команды:

Параметр команды Действие Пример применения команды
-help Выводит основную информацию о команде infoseq. infoseq -help
-outfile Команда выводит информацию о последовательности в файл (file.txt) infoseq -outfile outfile.txt sw:pdxk_bacsu
-html Создает html файл с данными о последовательности infoseq -html sw:pdxk_bacsu > info.html
-[no]columns Автоматически задан параметр –columns, благодаря которому информация выводится в виде выровненных колонок. Если задать параметр –nocolumns, то записи будут разделены символом, который можно задать с помощью параметра –delimiter. Если использует –columns, то параметр –delimiter использовать нельзя infoseq -nocolumns sw:pdxk_bacsu >nocolumns.txt
-delimiter Служит для разграничения информации в выходном файле. Символ может быть пробелом, символом табуляции или пайпом. infoseq -delimiter LA sw:pdxk_bacsu > delimiter.txt
-only Используется, если нужно вывести только определенные данные, например, только имя последовательности(–name) и только код доступа (-accession) infoseq -only -name –accession > na.txt
-[no]heading (Не) выводит названия колонок с информацией. По умолчанию стоит –heading infoseq -noheading sw:pdxk_bacsu > noheading.txt
-usa Выводит единый адрес последовательности. Применяется с –only infoseq -only -usa sw:pdxk_bacsu > usa.txt
-database Выводит название базы данных. Применяется с -only infoseq -only -database sw:pdxk_bacsu > database.txt
-name Выводит имя последовательности. Применяется с -only infoseq -only -name sw:pdxk_bacsu > name.txt
-accession Выводит код доступа. Применяется с –only infoseq -only -accession sw:pdxk_bacsu > accession.txt
-gi Выводит GI – номер, который присваивается последовательностям из баз данных NCBI infoseq -only -gi sw:pdxk_bacsu > gi.txt
База данных SwissProt не относится к NCBI, поэтому в колонке GI стоит прочерк.
-seqversion Показывает версию последовательности. Применяется с -only infoseq -only -seqversion embl:BN000065 > seqversion.txt
-type Выводит тип последовательности (нуклеиновая кислота или белок). Применяется с -only infoseq -only -type sw:pdxk_bacsu > type.txt
-length Выводит длину последовательности. Применяется с -only infoseq -only -length sw:pdxk_bacsu > length.txt
-pgc Показывает процентное содержание G и C. Применяется с -only infoseq -only -pgc embl:BN000065 >pgc.txt
-organism Выводит название организма, которому принадлежит последовательность. Применяется с -only infoseq -only -organism sw:pdxk_bacsu >organism.txt
-description Выводит краткое описание последовательности. Применяется с -only infoseq -only -description sw:pdxk_bacsu >description.txt
tfm Выводит описание параметров с примерами tfm