Описание программ

EMBOSS

Немного о программе infoseq

Программма infoseq позволяет получить информацию о последовательностях, которые находятся в доступных программе базах данных. Для того, чтобы узнать какие базы данных доступны EMBOSS, существует команда showdb. Эта команда выводит на экран сокращенное название (например, embl, sw или trembl), тип (зависит от типа хранящейся в базе даннных информации, например последовательности белков или же нуклеиновых кислот) доступных баз данных и различную дополнительную информацию о них. Программма infoseq позволяет узнать единый адрес последовательности, её имя, тип (НК или полипептид), длину, процентное содержание G+C (для НК), описание и некоторую другую информацию.

Описание параметров команды infoseq

Название параметра Описание действия параметра Пример
-outfile Если указать название файла, то программа предоставит информацию о последовательности в этом файле infoseq -outfile outfile.txt sw:yoaj_bacsu
outfile.txt
-html Программа создает HTML таблицу, которую затем можно перенаправить в файл infoseq -html sw:yoaj_bacsu > outfile.html
outfile.html
-[no]columns По умолчанию установлен параметр -columns, он предусматривает вывод информации в виде выровнянных колонок. Если установить параметр -nocolumns, то информация о поледовательности будет представлена в виде столбцов разграниченных символом, который можно задать с помощью параметра -delimiter, по умолчанию установлен символ "|". infoseq -nocolumns sw:yoaj_bacsu > nocolumns.txt
nocolumns.txt
-delimiter Служит для разграничения информации в выходном файле. Символом разграничителем может быть любой символ или набор символов, в том числе пробел или табуляция. infoseq -nocolumns -delimiter ! sw:yoaj_bacsu > delimiter.txt
delimiter.txt
-only Позволяет укоротить командную строку. Например, чтобы узнать только название последовательности, вместо -nolength -noac -nodatabase -nousa -noorganism -notype -nodescription достаточно ввести лишь -only -name infoseq -nolength -noac -nodatabase -nousa -noorganism -notype -nodescription sw:yoaj_bacsu > only1.txt
only1.txt
infoseq -only -name sw:yoaj_bacsu> only2.txt
only2.txt
-[no]heading Показывает или убирает названия колонок с информацией. По умолчнию установлен параметр -heading, то есть столбцы озаглавлены. infoseq -noheading sw:yoaj_bacsu > noheading.txt
noheading.txt
-usa Показывает Единый Адрес Последовательности (Uniform Sequence Address). Применяется с -only. infoseq -only -usa sw:yoaj_bacsu > usa.txt
usa.txt
-database Показывает название базы данных, к которой хранится данная последовательность. Применяется с -only. infoseq -only -database sw:yoaj_bacsu > database.txt
database.txt
-name Показывает название последовательности. Применяется с -only. infoseq -only -name sw:yoaj_bacsu > name.txt
name.txt
-ac Показывает индивидуальный номер последовательности (accession number). Применяется с -only. infoseq -ac -name sw:yoaj_bacsu > ac.txt
ac.txt
-description Показывает краткое описание последовательности. Применяется с -only. infoseq -only -description sw:yoaj_bacsu > description.txt
description.txt
-organism Показывает название организма, которому принадлежит последовательность. Применяется с -only. infoseq -only -organism sw:yoaj_bacsu >organism.txt
organism.txt
-length Показывает длину последовательности (количество аминокислот для полипептида или пар нуклеотидов для НК). Применяется с -only. infoseq -only -length sw:yoaj_bacsu >length.txt
length.txt
-type Показывает тип последовательности (полипептид или НК). Применяется с -only. infoseq -only -type sw:yoaj_bacsu > type.txt
type.txt
-seqversion Показывает версию последовательности. Применяется с -only. infoseq -only -seqversion embl:x13776 > seqversion.txt
seqversion.txt
-gi Показывает GI номер. Этот номер присваивается последовательностям из баз данных, относящихся к NCBI (национальному центру биотехнологической информации США). Применяется с -only. infoseq -only -gi embl:x13776 > gi.txt
gi.txt
База данных EMBL не относится к NCBI, поэтому в колонке GI стоит прочерк.
-pgc Показывает процентное содержание пар GC. Применяется с -only. infoseq -only -pgc embl:x13776 > pgc.txt
pgc.txt
-help Показывает информацию о параматрах программы infoseq. infoseq -help
help.txt

Bash

Потоки

stdin 0. Стандартный поток ввода. По умолчанию это то, что пользователь набирает на клавиатуре во время работы программы.
stdout 1. Стандартный поток вывода. Выводит результат работы программы.
stderr 2. Стандартный поток ошибок. Используется для сообщений об ошибках.

stdout и stderr по умолчанию выводятся в консольное окно вместе, поэтому просто так различить их нельзя. Однако один из них можно перенаправить в stdin другой программы или в файл, тогда второй поток останется в консольном окне.

Операторы перенаправления потоков

Сочетание символов Описание действия Пример
> или 1> Перенаправление stdout команды в файл. Команда infoseq -only -name sw:yoaj_bacsu > name.txt запишет в файл name.txt название последовательности sw:yoaj_bacsu. Если такого файла нет, то программа создаст его. Предполагается, что файл name.txt находится той же директории, в которой в данный момент находится пользователь.
>> Перенаправление stdout команды в конец файла. Команда infoseq -only -length sw:yoaj_bacsu > name.txt запишет в конец софайла name.txt длину последовательности sw:yoaj_bacsu.
2> Перенаправление stderr команды в файл. Команда infoseq -only -pgc embl:123 2> err.txt запишет в файл err.txt сообщение об ошибке, так как последовательности с названием embl:123 не существует.
err.txt
&> Перенаправление stderr и stdout команды в файл. Команда infoseq -only -pgc embl:123 &> both.txt запишет в файл both.txt stderr (сообщение об ошибке, так как последовательности с названием embl:123 не существует) и stdout (ничего, так как для несуществующей последовательности нельзя указать процент GC). Таким образом, мы получим файл both.txt такой же как и err.txt
both.txt
| Конвейер. Перенаправление stdout одной комадны в stdin другой. Команда infoseq -only -noheading -organism embl:a13776 | wc -w > pipe.txt запишет в файл pipe.txt количество слов, составляющих название организма, которому принадлежит последовательность с названием a13776 в базе данных EMBL.
pipe.txt

Спецсимволы bash

Символ Описание
Пробел и табуляция Разделяют различные параметры команды
~ Обозначает домашнюю директорию пользователя. Например, команда cd ~ обозначает переход в домашнюю директорию.
; Разделяет команды в командной строке. Например, запись в командной строке mkdir example; ls создаст в текущей директории поддиректорию example и покажет содержимое текущей директории.
' ' Одинарные кавычки. Все, что находится в них воспринимается буквально (конечно, исключая сами кавычки).
" " Двойные кавычки. Все, что находится в них воспринимается буквально, кроме $ и `(обратных кавычек).
\ Сочетание \ с любым символом воспринимается буквально.

"Маски" имен файлов

Символ Описание
? Обозначает один произвольный символ.
* Обозначает любое количество произвольных символов.
[ ] Обозначает любой из симолов, указанных в скобках. Если в скобках указаны два символа, разделенные знаком -, то это обзначает любой из символов из интервала между ними. ! и ^ обозначают отрицание, то есть программа будет искать файлы в которых нет символов, указанных после ! и ^.

© Анисимова Александра, 2013