Раздел EMBOSS

Можно обращаться к отдельной странице, посвященной не только командам пакета EMBOSS, но и к описанию некоторых особенностей командной оболочки Bash.

Infoseq

– команда биоинформатического пакета EMBOSS (European Molecular Biology Open Software Suite).

Команда

infoseq -help -verbose

выводит в консольное окно информацию о возможностях infoseq. Результат указанной команды – англоязычное описание различных параметров (или квалификаторов) для infoseq.

В файле infoseq_help.txt находится это описание. Отметим, что, т. к. информация о командах с –help выводится в стандартном потоке ошибок, получить ее можно с помощью команды

infoseq -help &> infoseq_help.txt,

которая выводит информацию и stdout, и stderr.

Различные параметры команды infoseq будут рассмотрены далее.

I. Стандартные (или обязательные) параметры.

В данном случае это параметр “-sequence”. Вывод информации с этим параметром аналогичен выводу информации без него. То есть равносильны команды

infoseq -sequence sw:pdxs_bacsu > seq.txt и infoseq sw:pdxs_bacsu > seq.txt,

и их результат есть информация SwissPtrot о белке PDXS_BACSU в файле seq.txt.

II. Продвинутые параметры.

1. “-columns” – параметр, представляющий информацию в виде таблицы с колонками, как в файле seq.txt.

2. “-no” – параметр пишется слитно c другим. На экран выводится отрицание последнего. Так команда

infoseq –nocolumns sw:pdxs_bacsu > nocolumns_seq.txt

дает результат из файла nocolumns_seq.txt.

3. “delimiter” – параметр, с помощью которого данные разделяются заданным символом (символ задается после параметра в двойных кавычках). Например, результатом команды

infoseq –nocolumns –delimiter “_” sw:pdxs_bacsu > delimiter_seq.txt

будет файл delimiter_seq.txt

4. “(no)heding” – параметр с (no), с использованием которого информация о последовательности выводится в виде таблицы без заголовков. Например, с помощью команды

infoseq -noheading sw:pdxs_bacsu > noheading_seq.txt

можно получить результат из файла noheading_seq.txt.

5. “-only” – параметр, с помощью которого можно выбрать для вывода на экран определенные данные о последовательностях белка.

Используется со следующими параметрами:

“-database” – название базы данных, из которой берется информация;

“-name” – имя объекта (белка);

“-accession” или “AC” – код доступа;

“-gi” – особый номер, который присваивается последовательностям из баз данных NCBI (National Center for Biotechnology Information);

“-type” – тип белка;

“-length” – количество аминокислотных остатков;

“-pgc” (percent G-C content) – процент G-C пар оснований;

“-organism” – организм, которому принадлежит белок;

“-description” – описание.

Например, если необходимо получить информацию только о названии белка и его коде доступа (accession number), то можно воспользоваться командой

infoseq -only -name -AC sw:pdxs_bacsu > only_seq.txt,

результат в файле only_seq.txt

III. Опциональные (или дополнительные) параметры.

1. “-outfile” – записывает информацию о последовательностях в заданный файл.

Пример: команда “infoseq -outfile pdxs.txt sw:pdxs_bacsu”, файл pdxs.txt.

2. “-html” - выводит html-код, при записи которого на web-сайт получается следующая таблица:

USADatabaseNameAccessionTypeLengthOrganismDescription
sw-id:PDXS_BACSUswPDXS_BACSUP37527P294Bacillus subtilis (strain 168)Pyridoxal biosynthesis lyase PdxS (4.-.-.-) (Superoxide-inducible protein 7) (SOI7)

IV. Общие параметры.

1. “-help” – выводит на экран некоторые параметры для командной строки;

2. “-verbose” – выводит на экран подробную информацию о параметрах для командной строки (больше, чем “-help”).

Использование этих команд приведено выше.

С помощью команды infoseq можно получать информацию сразу о многих последовательностях.

Пример. При желании узнать описание (в которое включены функции) белка PDXS у всех известных видов бактерий рода Bacillus, можно воспользоваться командой

infoseq -only -name -organism -description sw:pdxs_bac* > decr_pdxs.txt,

результат – таблица в файле decr_pdxs.txt. Правда, описание белка везде одинаковое, что не удивительно.

То же можно использовать при поиске информации о всех белках, имеющихся в базе данных, одной бактерии и т.п.



Entret

– команда биоинформатического пакета EMBOSS.

Аналогичный для infoseq синтаксис имеет команда entret. Entret прежде всего используется для быстрого получения информации о последовательностях из различных баз данных. Так, например, с помощью команды

entret sw:pdxs_bacsu

можно получить информацию о белке PDXS_BACSU из базы данных Swiss-Prot. Команда по умолчанию запрашивает у пользователя полное имя файла, в который необходимо поместить информацию. В консольном окне это будет выглядеть следующим образом:

Putty - entret

В квадратных скобках при этом указывается имя в файла, в которой будет загружена информация, если пользователь не укажет другое название. Так в данном случае описание белка PDXS_BACSU можно увидеть в файле pdxs_bacsu.entret

Последнее изменение: 10-02-2013 (pankevich-ev)