EMBOSS
infoseq – команда биоинформатического пакета EMBOSS (European Molecular Biology Open Software Suite). Она выводит основную информацию о последовательностях нуклеиновых кислот и белков: USA (Uniform Sequence Address – единый адрес последовательности), имя, код доступа (AC - accession number), тип (нуклеиновая кислота или белок), длина, процент G+C, краткое описание.
Синтаксис команды разберем на примере:
infoseq sw:pdxk_bacsu -qualifier,
где
sw - сокращенное название базы данных SwissProt;
pdxk_bacsu – идентификатор последовательности в этой базе данных;
qualifier – название параметра (примеры квалификаторов можно найти в таблице), с помощью которого мы задаем, какую информацию о последовательности нужно получить.
Ниже приведены основные параметры команды:
Параметр команды | Действие | Пример применения команды |
-help | Выводит основную информацию о команде infoseq. | infoseq -help |
-outfile | Команда выводит информацию о последовательности в файл (file.txt) | infoseq -outfile outfile.txt sw:pdxk_bacsu |
-html | Создает html файл с данными о последовательности | infoseq -html sw:pdxk_bacsu > info.html |
-[no]columns | Автоматически задан параметр –columns, благодаря которому информация выводится в виде выровненных колонок. Если задать параметр –nocolumns, то записи будут разделены символом, который можно задать с помощью параметра –delimiter. Если использует –columns, то параметр –delimiter использовать нельзя | infoseq -nocolumns sw:pdxk_bacsu >nocolumns.txt |
-delimiter | Служит для разграничения информации в выходном файле. Символ может быть пробелом, символом табуляции или пайпом. | infoseq -delimiter LA sw:pdxk_bacsu > delimiter.txt |
-only | Используется, если нужно вывести только определенные данные, например, только имя последовательности(–name) и только код доступа (-accession) | infoseq -only -name –accession > na.txt |
-[no]heading | (Не) выводит названия колонок с информацией. По умолчанию стоит –heading | infoseq -noheading sw:pdxk_bacsu > noheading.txt |
-usa | Выводит единый адрес последовательности. Применяется с –only | infoseq -only -usa sw:pdxk_bacsu > usa.txt |
-database | Выводит название базы данных. Применяется с -only | infoseq -only -database sw:pdxk_bacsu > database.txt |
-name | Выводит имя последовательности. Применяется с -only | infoseq -only -name sw:pdxk_bacsu > name.txt |
-accession | Выводит код доступа. Применяется с –only | infoseq -only -accession sw:pdxk_bacsu > accession.txt |
-gi | Выводит GI – номер, который присваивается последовательностям из баз данных NCBI | infoseq -only -gi sw:pdxk_bacsu > gi.txt База данных SwissProt не относится к NCBI, поэтому в колонке GI стоит прочерк. |
-seqversion | Показывает версию последовательности. Применяется с -only | infoseq -only -seqversion embl:BN000065 > seqversion.txt |
-type | Выводит тип последовательности (нуклеиновая кислота или белок). Применяется с -only | infoseq -only -type sw:pdxk_bacsu > type.txt |
-length | Выводит длину последовательности. Применяется с -only | infoseq -only -length sw:pdxk_bacsu > length.txt |
-pgc | Показывает процентное содержание G и C. Применяется с -only | infoseq -only -pgc embl:BN000065 >pgc.txt |
-organism | Выводит название организма, которому принадлежит последовательность. Применяется с -only | infoseq -only -organism sw:pdxk_bacsu >organism.txt |
-description | Выводит краткое описание последовательности. Применяется с -only | infoseq -only -description sw:pdxk_bacsu >description.txt |
tfm | Выводит описание параметров с примерами | tfm |