EMBOSS
Немного о программе infoseq
Программма infoseq позволяет получить информацию о последовательностях, которые находятся в доступных программе базах данных. Для того, чтобы узнать какие базы данных доступны EMBOSS, существует команда showdb. Эта команда выводит на экран сокращенное название (например, embl, sw или trembl), тип (зависит от типа хранящейся в базе даннных информации, например последовательности белков или же нуклеиновых кислот) доступных баз данных и различную дополнительную информацию о них. Программма infoseq позволяет узнать единый адрес последовательности, её имя, тип (НК или полипептид), длину, процентное содержание G+C (для НК), описание и некоторую другую информацию.
Описание параметров команды infoseq
Название параметра | Описание действия параметра | Пример |
-outfile | Если указать название файла, то программа предоставит информацию о последовательности в этом файле | infoseq -outfile outfile.txt sw:yoaj_bacsu outfile.txt |
-html | Программа создает HTML таблицу, которую затем можно перенаправить в файл | infoseq -html sw:yoaj_bacsu > outfile.html outfile.html |
-[no]columns | По умолчанию установлен параметр -columns, он предусматривает вывод информации в виде выровнянных колонок. Если установить параметр -nocolumns, то информация о поледовательности будет представлена в виде столбцов разграниченных символом, который можно задать с помощью параметра -delimiter, по умолчанию установлен символ "|". | infoseq -nocolumns sw:yoaj_bacsu > nocolumns.txt nocolumns.txt |
-delimiter | Служит для разграничения информации в выходном файле. Символом разграничителем может быть любой символ или набор символов, в том числе пробел или табуляция. | infoseq -nocolumns -delimiter ! sw:yoaj_bacsu > delimiter.txt delimiter.txt |
-only | Позволяет укоротить командную строку. Например, чтобы узнать только название последовательности, вместо -nolength -noac -nodatabase -nousa -noorganism -notype -nodescription достаточно ввести лишь -only -name | infoseq -nolength -noac -nodatabase -nousa -noorganism -notype -nodescription sw:yoaj_bacsu > only1.txt only1.txt infoseq -only -name sw:yoaj_bacsu> only2.txt only2.txt |
-[no]heading | Показывает или убирает названия колонок с информацией. По умолчнию установлен параметр -heading, то есть столбцы озаглавлены. | infoseq -noheading sw:yoaj_bacsu > noheading.txt noheading.txt |
-usa | Показывает Единый Адрес Последовательности (Uniform Sequence Address). Применяется с -only. | infoseq -only -usa sw:yoaj_bacsu > usa.txt usa.txt |
-database | Показывает название базы данных, к которой хранится данная последовательность. Применяется с -only. | infoseq -only -database sw:yoaj_bacsu > database.txt database.txt |
-name | Показывает название последовательности. Применяется с -only. | infoseq -only -name sw:yoaj_bacsu > name.txt name.txt |
-ac | Показывает индивидуальный номер последовательности (accession number). Применяется с -only. | infoseq -ac -name sw:yoaj_bacsu > ac.txt ac.txt |
-description | Показывает краткое описание последовательности. Применяется с -only. | infoseq -only -description sw:yoaj_bacsu > description.txt description.txt |
-organism | Показывает название организма, которому принадлежит последовательность. Применяется с -only. | infoseq -only -organism sw:yoaj_bacsu >organism.txt organism.txt |
-length | Показывает длину последовательности (количество аминокислот для полипептида или пар нуклеотидов для НК). Применяется с -only. | infoseq -only -length sw:yoaj_bacsu >length.txt length.txt |
-type | Показывает тип последовательности (полипептид или НК). Применяется с -only. | infoseq -only -type sw:yoaj_bacsu > type.txt type.txt |
-seqversion | Показывает версию последовательности. Применяется с -only. | infoseq -only -seqversion embl:x13776 > seqversion.txt seqversion.txt |
-gi | Показывает GI номер. Этот номер присваивается последовательностям из баз данных, относящихся к NCBI (национальному центру биотехнологической информации США). Применяется с -only. | infoseq -only -gi embl:x13776 > gi.txt gi.txt База данных EMBL не относится к NCBI, поэтому в колонке GI стоит прочерк. |
-pgc | Показывает процентное содержание пар GC. Применяется с -only. | infoseq -only -pgc embl:x13776 > pgc.txt pgc.txt |
-help | Показывает информацию о параматрах программы infoseq. | infoseq -help help.txt |
Bash
Потоки
stdin | 0. Стандартный поток ввода. По умолчанию это то, что пользователь набирает на клавиатуре во время работы программы. |
stdout | 1. Стандартный поток вывода. Выводит результат работы программы. |
stderr | 2. Стандартный поток ошибок. Используется для сообщений об ошибках. |
stdout и stderr по умолчанию выводятся в консольное окно вместе, поэтому просто так различить их нельзя. Однако один из них можно перенаправить в stdin другой программы или в файл, тогда второй поток останется в консольном окне.
Операторы перенаправления потоков
Сочетание символов | Описание действия | Пример |
> или 1> | Перенаправление stdout команды в файл. | Команда infoseq -only -name sw:yoaj_bacsu > name.txt запишет в файл name.txt название последовательности sw:yoaj_bacsu. Если такого файла нет, то программа создаст его. Предполагается, что файл name.txt находится той же директории, в которой в данный момент находится пользователь. |
>> | Перенаправление stdout команды в конец файла. | Команда infoseq -only -length sw:yoaj_bacsu > name.txt запишет в конец софайла name.txt длину последовательности sw:yoaj_bacsu. |
2> | Перенаправление stderr команды в файл. | Команда infoseq -only -pgc embl:123 2> err.txt запишет в файл err.txt сообщение об ошибке, так как последовательности с названием embl:123 не существует. err.txt |
&> | Перенаправление stderr и stdout команды в файл. | Команда infoseq -only -pgc embl:123 &> both.txt запишет в файл both.txt stderr (сообщение об ошибке, так как последовательности с названием embl:123 не существует) и stdout (ничего, так как для несуществующей последовательности нельзя указать процент GC). Таким образом, мы получим файл both.txt такой же как и err.txt both.txt |
| | Конвейер. Перенаправление stdout одной комадны в stdin другой. | Команда infoseq -only -noheading -organism embl:a13776 | wc -w > pipe.txt запишет в файл pipe.txt количество слов, составляющих название организма, которому принадлежит последовательность с названием a13776 в базе данных EMBL. pipe.txt |
Спецсимволы bash
Символ | Описание |
Пробел и табуляция | Разделяют различные параметры команды |
~ | Обозначает домашнюю директорию пользователя. Например, команда cd ~ обозначает переход в домашнюю директорию. |
; | Разделяет команды в командной строке. Например, запись в командной строке mkdir example; ls создаст в текущей директории поддиректорию example и покажет содержимое текущей директории. |
' ' | Одинарные кавычки. Все, что находится в них воспринимается буквально (конечно, исключая сами кавычки). |
" " | Двойные кавычки. Все, что находится в них воспринимается буквально, кроме $ и `(обратных кавычек). |
\ | Сочетание \ с любым символом воспринимается буквально. |
"Маски" имен файлов
Символ | Описание |
? | Обозначает один произвольный символ. |
* | Обозначает любое количество произвольных символов. |
[ ] | Обозначает любой из симолов, указанных в скобках. Если в скобках указаны два символа, разделенные знаком -, то это обзначает любой из символов из интервала между ними. ! и ^ обозначают отрицание, то есть программа будет искать файлы в которых нет символов, указанных после ! и ^. |