EMBOSS (European Molecular Biology Open Software Suite)
EMBOSS - пакет открытого програмного обеспечения. Позволяет обрабатывать молекулярно-биологические данные и получать информацию соответствующего толка, в том числе обращаясь к крупным базам данных на удалённых серверах.Команда infoseq
infoseq позволяет получить информацию о последовательности белка или ДНК (из какой-либо базы данных).Синтаксис: infoseq [код одной из подключенных* баз данных]:[идентификатор последовательности в этой БД]
Параметры:
- -outfile Задаёт выходной файл, в который выводится информация. В случае отсутвия этого параметра информация выводится на экран
- -html Информация выводится в виде таблицы в файле формата .html
- -[no]columns Вывод информации в виде колонок или с разделителем
- -delimeter Задаёт вид разделителя
- -[no]heading Включает/выключает вывод названий колонок
- -help Справка по команде infoseq. В частности, с помощью этой опции была получена приведённая здесь информация об infoseq
- -no[имя колонки] Не выводит какую либо из колонок
- -only Выводит информацию только из выбранных колонок. Употребляется вместе с приведёнными ниже параметрами
- -usa Выводит Uniform Sequence Address - универсальный код последовательности
- -database Выводит название базы данных
- -name Выводит название белка или гена
- -type Выводит тип последовательности - нуклеотидная или белок
- -accession Выводит код доступа в той базе данных, где производится поиск
- -gi Выводит GI - число-идентификатор записи в одной из баз данных NCBI
- -seqversion Выводит версию записи (в виде [Accesion].[версия записи])
- -length Выводит длину последовательности
- -description Выводит описание
- -organism Выводит название организма
- -pgc Выводит процент содержания G-C пар (для нуклеотидных последовательностей)
Примеры использования:
Запрос 1: infoseq sw:oxdc_bacsu -html -outfile oxdc_bacsu.html -only -usa -name -organism -descriptionРезультат:
Запрос 2: infoseq trembl:q65ew1_bacld -nocolumns -delimiter :: -nogi -nodatabase -notype -noseqversion
Результат:
USA::Name::Accession::Length::Organism::Description
trembl-id:Q65EW1_BACLD::Q65EW1_BACLD::Q65EW1::384::Bacillus licheniformis (strain DSM 13 / ATCC 14580)::(Oxalate decarboxylase) (Oxalate decarboxylase OxdC) (4.1.1.2)
BASH
bash (Bourne again shell) — усовершенствованная вариация командной оболочки Bourne shell. Одна из наиболее популярных современных разновидностей командной оболочки UNIX и наиболее используемая в операционных системах типа Linux. Поддерживает работу со скриптами.
Существует три основных потока:
- 0 - stdin - стандарный входной поток, то, что набирает пользователь в консоли
- 1 - stdout - стандарный выходной поток, содержит результаты работы программы
- 2 - stderr - выходной поток ошибок, содержит сообщения об ошибках
Операторы перенаправления потоков:
- >[имя файла], 1>[имя файла] перенаправляют результат работы команды (stdout) в файл. Если такого файла нет, он создаётся, если он уже существует, то целиком перезаписывается.
- >>[имя файла] перенаправляет результат работы команды (stdout) в файл. Если файла нет, он создаётся, если есть - информация дописывается в конец файла.
- <[имя файла] направляет данные из файла во входной поток stdin
- [программа1]|[программа2]. Такой оператор перенаправляет stdout [программы1] в stdin [программы2]
- 2>[имя файла] перенаправляет в файл выходной поток ошибок stderr
- >&[имя файла] перенаправляет в файл оба выходных потока
Спецсимволы и их комбинации
Часть символов не вопринимается интерпретатором командной строки bash буквально. Некоторые из них приведены ниже:- '...' - символы в кавычках воспринимаются буквально
- \ - символ после обратной косой черты воспринимается буквально
- / - корень файловой системы. Символ служит также для разделения имён директорий при наборе пути
- ~/ - домашняя директория пользователя
- ./ - текущая директория
- ../ - родительская директория
- ? - один любой символ
- * - любое число любых символов
- [...] - любой символ из числа указанных в скобках или интервала, указанного в скобках
- [^...] или [!...] - любой символ, кроме указанных в скобках
- {...} - любая комбинация символов из числа указанных (варианты разделяется запятой). Так, {xx,yy,zz} воспринимается как xx или yy или zz
grep kitten list.txt > ../dir/kittens.txt найти в файле list.txt слово kitten и сохранить результаты в файл kittens.txt сестринской директории dir
ls -l *.{jpg,jpeg,png} | wc -l посчитать, сколько в текущей директории изображений