ОПИСАНИЕ КОММАНД UNIX

Назад к
проектам

EMBOSS

European Molecular Biology Open Software Suite — набор программ, созданных для нужд молекулярной биологии и биоинформатики. Первой в рамках этого проекта была создана EMBnet, соединившая центры биоинформатики по всему миру. В ОС UNIX cуществуют комманды, EMBOSS, облегчающие работу с данными молекулярной биологии. По этой ссылке вы найдёте полный список команд EMBOSS для UNIX.

infoseq

Команда infoseq (Display basic information about sequences) позволяет быстро находить информацию о каком-либо белке в специализированных бызах данных. Например, для проведения поиска в БД Swiss-Prot необходимо ввести идентификатор белка следующим образом:

infoseq sw:yokd_bacsu

И вы получите следующий результат:

USA               Database  Name        Accession   Type Length  Organism                       Description
sw-id:YOKD_BACSU  sw        YOKD_BACSU  O32003      P    272     Bacillus subtilis (strain 168) SPBc2 prophage...

Команда не чувствительна к регистру. Если показанная информация вам кажется излишней, то вы можете при введении запроса уточнить, какие именно колонки вы бы хотели увидеть. Это можно сделать двумя способами: с помощью флага -only и последующего перечисления нужных вам колонок или при помощи флагов -no%_insert_column_title_here_%, убирающих указанные колонки.
Также при помощи этой команды можно искать данные сразу по множеству белков, применяя "*" при введении идентификатора белка.
Например, следующие две команды

infoseq -only -usa -length -description sw:yok*_bacsu

infoseq -noname -noaccession -noorganism -nodatabase -notype sw:yok*_bacsu

дают одинаковый результат:

Display basic information about sequences
USA                   Length Description
sw-id:YOKJ_BACSU      165    SPBc2 prophage-derived uncharacterized protein YokJ
sw-id:YOKL_BACSU      177    SPBc2 prophage-derived uncharacterized N-acetyltransferase YokL (2.3.1.-)
sw-id:YOKI_BACSU      571    SPBc2 prophage-derived UPF0720 protein YokI
sw-id:YOKH_BACSU      185    SPBc2 prophage-derived uncharacterized protein YokH
sw-id:YOKD_BACSU      272    SPBc2 prophage-derived aminoglycoside N(3')-acetyltransferase-like protein...
sw-id:YOKE_BACSU      160    SPBc2 prophage-derived uncharacterized protein YokE
sw-id:YOKG_BACSU      357    SPBc2 prophage-derived pesticidal crystal protein-like YokG
sw-id:YOKF_BACSU      296    SPBc2 prophage-derived endonuclease YokF (3.1.-.-) (Precursor)
sw-id:YOKA_BACSU      545    Resolvase homolog YokA
sw-id:YOKC_BACSU      171    SPBc2 prophage-derived uncharacterized protein YokC
sw-id:YOKB_BACSU      236    SPBc2 prophage-derived uncharacterized lipoprotein YokB (Precursor)
sw-id:YOKU_BACSU      92     Uncharacterized protein YokU
sw-id:YOKK_BACSU      192    SPBc2 prophage-derived uncharacterized protein YokK

entret

Эта команда позволяет получить информацию о нужном вам белке белке из какой-либо базы данных. Для этого вам необходимо ввести команду в следующем формате:

entret [код БД]:[идентификатор белка]

Если вы не ошиблись при вводе и белок (или белки) был найден в БД, то команда попросит вас указать файл в рабочей директории, куда стоит сохранить результат. Вот пример использования команды:

fedor.g@kodomo:~$ entret sw:yokd*
Retrieves sequence entries from flatfile databases and files
Full text output file [yokd_bacsu.entret]: yokd_bacsu

Информация о белке в БД SwissProt и TrEMBL структурирована, и для ориентирования в ней советую посетить эту страницу

showdb

Это довольно полезная команда-справка, выводящая на экран список принятых в EMBOSS сокращённых названий БД и краткую справку о них. Вот вывод этой команды на 21 февраля 2013:

Displays information on configured databases
# Name         Type       ID  Qry All Comment
# ============ ========== ==  === === =======
ref100         Protein    OK  OK  OK
ref50          Protein    OK  OK  OK
ref90          Protein    OK  OK  OK
sw             Protein    OK  OK  OK  UniProtKB/Swiss-Prot Release 2013_01 of 09-Jan-2013
trembl         Protein    OK  OK  OK  UniProtKB/TrEMBL Release 2013_01 of 09-Jan-2013
embl           Nucleotide OK  OK  -   EMBL from EBI SRS server
genbank        Nucleotide OK  OK  OK  BROKEN! Please, use dkfz;genbank;... instead!
taxon          Taxonomy   OK  OK  OK
drcat          Resource   OK  OK  OK
eco            Obo        OK  OK  OK
edam           Obo        OK  OK  OK
go             Obo        OK  OK  OK
pw             Obo        OK  OK  OK
ro             Obo        OK  OK  OK
so             Obo        OK  OK  OK

bash

bash - командная оболочка UNIX, позволяет работать с вводным и выводным потоками данных.
В bash предусмотрено несколько каналов вывода информации: stdout и stderr. Они также обозначаются цифрами 1 и 2 соответственно. Канал ввода всего один и обозначается stdin или цифрой "0".
stdout предназначен для обычного вывода программы, когда stderr — для вывода ошибок. Вывод программ можно перенаправлять в файл при помощи операторов > и >> cледубщим образом:

комманда > файл (заменяет всё содержимое файла выводом stdout)
комманда >> файл (добавляет в конец файла вывод stdout)
комманда 2> файл (-//- stderr)
комманда 2>> файл (-//- stderr)
комманда &> файл (перенаправляет stdout и stderr в файл)
2>&1 (перенаправляет stderr в stdout)

В UNIX имеется возможность применять маски файлов:

* - заменяет неограниченное количество любых символов
? - заменяет один любой символ
[0-9] - заменяет одну цифру от 0 до 9
[A-Z] - заменяет одну букву от A до Z

© Галкин Федор