Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2022

Указания к практикуму 10 (BLAST)

Задания 1–3 делаются на сайте NCBI: https://blast.ncbi.nlm.nih.gov/, там пройдите по ссылке Protein BLAST.

В окошко "Enter query sequence" можно вставлять как последовательность в fasta-формате, так и коды доступа (AC) Swiss-Prot или Refseq Protein (к сожалению, AC из TrEMBL не распознаются). Можно вместо ввода последовательности в окошко подгрузить файл с последовательностью.

Результата иногда приходится ждать довольно долго (в рабочее на территории США время, то есть примерно с трёх-четырёх дня до двух ночи по Москве, сервер NCBI бывает перегружен).

Чтобы сохранить текстовую выдачу программы, найдите на странице с результатом меню Download и там выберите Text.

Когда будете использовать фильтр по организмам, набирайте латинское название таксона не торопясь, в какой-то момент покажутся подсказки с полными названиями таксонов с данным началом, нужно будет выбрать нужную строку.

E-value иногда бывает равным 0.0, что означает "машинный ноль" (число, меньшее, чем самое маленькое из тех, что может хранить программа). Это, естественно, свидетельствует о запредельной достоверности находки. Но для упражнения 3 такая находка не годится, выберите что-нибудь похуже.

Если находок ровно 100, стоит увеличить максимальное число выдаваемых находок, для этого "раскрыть" (щелчком по знаку +) "Algorithm parameters" внизу головной страницы. Там же можно изменить порог на E-value. Попасть на уже заполненную головную страницу со страницы с результатами можно по гиперссылке "Edit search" (вверху слева в синей рамочке).

Чтобы вырезать в отдельный файл участок последовательности, можно использовать программу seqret. Например, нужно вырезать из белка, имеющего в Swiss-Prot идентификатор ENO_BACSU, участок с 11 по 30 аминокислотные остатки, и поместить последовательность этого участка в файл segment.fasta, в fasta-формате. Один из вариантов — такая командная строка (на kodomo):

seqret 'sw:eno_bacsu[11:30]' segment.fasta

Последовательность в выходном файле "унаследует" название и описание исходной последовательности, поэтому чтоб дать ей более адекватное название, нужно либо "руками" отредактировать её (nano, vim, mcedit, ...), либо использовать вместо seqret программу descseq (читайте её help).

Работа с историей запросов BLAST

BLAST очень востребованная программа, поэтому сервер NCBI часто бывает перегружен запросами. Иногда результатов своего поиска можно ждать десятки минут, или еще дольше. К счастью, BLAST хранит результаты всех запросов 36 часов и каждому запросу присваивает специальный идентификатор, по которому можно получить результаты поиска в течение этого времени.

Идентификатор называется Request ID (RID) и отображается в первой строке окошка ожидания результатов запроса. По этому идентификатору можно получить результаты поиска на страничке Recent results (на нее есть ссылка в верхнем правом углу на большинстве страниц BLAST). Если Вы закроете страницу ожидания результатов поиска, то запрос от этого не отменяется. Поэтому можно скопировать Request ID запроса, закрыть страницу и получить результаты по идентификатору через какое-то время.

Внимание: результаты поиска удаляются через 36 часов, поэтому нет смысла указывать в своих отчетах идентификаторы запросов или ссылки на страницы с результатами, во время проверки они уже не будут работать! Обязательно сохраняйте текстовую выдачу для отчета.

2022/2/pr10/hints (последним исправлял пользователь sas 2023-04-10 11:52:45)