Команда infoseq пакета EMBOSS. Примеры её использования
№1 Терминал LinuxИтак, первое задание комментировать даже не стоит, скажу лишь только, что я открыл терминал linux через Putty.
№2 Создаём директорию Pr1
Используя команду mkdir я создал директории Term2, потом Block1, Practices, а потом уже Pr1. Результат выполнения
этих команд я проверял, используя команду ls, показывающую список моих файлов и катологов в данной директории.
Ну и ещё проверял с помощью Far, на всякий случай.
N3 Получаем информацию о нашем белке
Сначала я ввёл такую команду:infoseq sw:GLSA1_BACSU, и посмотрел, что она показывает. Затем, я ввёл следующее
< infoseq sw:GLSA1_BACSU > 1MKI.info. Я проверил свой файл, и там имеется всё то же самое. Я привожу ссылку на
него, чтобы вы могли увидеть, как он выглядит на самом деле. "1MKI.info"
USA | Database | Name | Accession | Type | Length | Organism | Description |
sw-id:GLSA1_BACSU | sw | GLSA1_BACSU | O31465 | P | 327 | Bacillus subtilis | Glutaminase 1 (3.5.1.2) |
№4 Информация о программе infoseq
Я ввёл команду infoseq -help и посмотрел на описание команды. Затем я ввёл следующее: infoseq -help > infoseq.info.
Файл был создан, но он оказался пуст. Стандартный вывод здесь, оказывается, место не имеет. Потому что, когда
я ввёл команду infoseq -help 2> infoseq.info, то вся информация сразу появилась в файле.
Просто ведь 2 - это индентификатор потока, соответствующий ошибке (stderr). Вот мой файл, чтобы вы могли убедиться "infoseq.info"
№5 Поиск таких же белков в других видах рода Bacillus
Мой белок называется GLSA1_BACSU, родовое название здесь это BAC.Чтобы найти такие же белки у других бактерий из этого же рода, я сделал следующий запрос infoseq sw:"GLSA1_BAC*". * - это маска, которая позволяет найти остальные белки с тем же самым родовым, но уже с другим видовым названием. В итоге у меня получилось найти ещё 3 белка, то есть вместе с моим их всего 4. Чтобы вы могли увидеть, какой я получил результат, я выложил этот файл. Он несёт информацию о найденных мною белках: "Otherpr.info"
USA | Database | Name | Accession | Type | Length | Organism | Description |
sw-id:GLSA1_BACSU | sw | GLSA1_BACSU | O31465 | P | 327 | Bacillus subtilis | Glutaminase 1 (3.5.1.2) |
sw-id:GLSA1_BACAN | sw | GLSA1_BACAN | Q81YY0 | P | 309 | Bacillus anthracis | Glutaminase 1 (3.5.1.2) |
sw-id:GLSA1_BACCR | sw | GLSA1_BACCR | Q81IB3 | P | 309 | Bacillus cereus | Glutaminase 1 (3.5.1.2) |
sw-id:GLSA1_BACHD | sw | GLSA1_BACHD | Q9K9L8 | P | 308 | Bacillus halodurans | Glutaminase 1 (3.5.1.2) |
№6 Разные выводы данных.
№7 Команда infoseq.
Команда | Что выполняет | Пример |
-outfile | If you enter the name of a file here then this program will write the sequence details into that file. | infoseq sw:"GLSA1_BAC*" -outfile bacteria.info |
-html | Format output as an HTML table | infoseq sw:"GLSA1_BAC*" -html >> bacteria.info |
-delimiter | This string, which is usually a single character only, is used to delimit individual records in the text output file.It could be a space character, a tab character, a pipe character or any other character or string. (Any string) | infoseq sw:"GLSA1_BAC*" -nocolumns -delimiter "><" >> bacteria.info |
-only | This is a way of shortening the command line if you only want a few things to be displayed. | infoseq -only -name sw:"GLSA1_BAC*" >> bacteria.info |
-gi | Display 'GI' column | infoseq -gi sw:"GLSA1_BAC*" >> bacteria.info |
-heading | Display column headings | infoseq -gi sw:"GLSA1_BAC*" >> bacteria.info |
-length | Display 'length' column | infoseq -only -length sw:"GLSA1_BAC*" >> bacteria.info |
№8 Команда entret.
№9 Команда showdb.
DB | Type |
ref100 | Protein |
ref50 | Protein |
ref90 | Protein |
sw | Protein |
trembl | Protein |
embl | Nucleotide |
genbank | Nucleotide |
№10 Команда needle
№11 Команда water
№12 Команда matcher
№13 Команда stretcher
№14 Команда seqret
pwd | сообщает полное имя текущей директории |
ls | показывает содержимое текущей директории |
cp <имя файла 1> <имя файла 2> | копирует файл 1 в файл 2 |
mv <имя файла 1> <имя файла 2> | переименовывает файл |
mv <имя файла> <имя поддиректории> | перемещает файл в поддиректорию |
rm <имя файла> | уничтожает файл |
mkdir <имя поддиректории> | создает поддиректорию |
cd <имя поддиректории> | переход в поддиректорию |
cd .. | выход из поддиректории (переход в родительскую директорию) |
more <имя файла> | просмотр содержимого файла (клавишами "пробел" и "Enter") |
man <команда> | выдает подробную информацию о команде |
Bash имеет такую особенность. В нём есть спецсимволы, которые он читает, как отдельные операции или команды. Например, маски * и ? используются при поисках файлов. Вот, например, как мы искали похожие белки у других бактерий
infoseq sw:"GLSA1_BAC*". Вместо * может стоять любой другой символ, а вот вместо ? - только один. Кавычки тоже играют большую роль, например, двойные кавычки сохраняют для * роль маски. Также хочу отметить, что сочетание \ с любым символом превращается в этот символ.
КОМАНДА WC - команда, выдающая количество строк (-l), слов (-w), байтов (-c), длину самой длинной строки (-L), символов (-m). Бывает очень полезна, например, с её помощью мы считали количество студентов. Ей же мы могли посчитать число запросов.
Вот как может выглядеть подобная команда:infoseq -only -description sw:"glsa*_*" | grep "Glutaminase 1" | wc -l