Kodomo

Пользователь

Общие сведения

Пакет BLAST+ доступен онлайн и локально (standalone), в виде пакета утилит для командной строки. На kodomo он уже установлен. Чтобы работать с ним на своём компьютере, скачайте и установите его согласно руководству.

Создание базы

Программа makeblastdb принимает файл с последовательностями в fasta-формате (параметр "-in") и создаёт локальную базу данных. Параметр "-dbtype" указывает на тип последовательности – в случае нуклеотидной последовательности нужно указать "-dbtype nucl".

makeblastdb -in db.fasta -dbtype nucl

Получим базу в виде файлов "db.fasta.nhr", "db.fasta.nin" и "db.fasta.nsq", по которой можно искать программами blastn и tblastn. При поиске обращайтесь к этой базе по имени "db.fasta". Если имя входного файла слишком длинное, можно дать базе удобное короткое имя с помощью параметра "-out".

Поиск: семейство BLASTN

Поиск гомологов нуклеотидной последовательности в нуклеотидной базе данных проводит программа blastn. Обязательные параметры:

Запустим поиск:

blastn -task blastn -query query.fasta -db db.fasta

По умолчанию найденные выравнивания подаются на stdout.

Дополнительные параметры:

Пример:

blastn -task blastn -query query.fasta -db test.fasta -out blast.out -evalue 0.001 -word_size 7 -outfmt 7

Полный список опций можно получить, набрав:

blastn -help

Могут понадобиться, в частности, параметры -penalty, -reward, -gapopen, -gapextend.

Программа blastn, как и другие программы поиска (blastp, blastx, tblastn) может принимать в качестве входа (query) файл, содержащий не одну, а много последовательностей. Выходной файл в этом случае будет содержать результаты поиска для каждой входной последовательности. Особенности алгоритма BLAST таковы, что получение результата в этом случае занимает меньше времени, чем сумма времён поисков по отдельным последовательностям. Если входных последовательностей много, то часто удобно в качестве выходного формата выбрать "-outfmt 6" – таблицу без комментариев.

TBLASTN

Для поиска гомолога белка в формальной трансляции нуклеотидного банка программой tblastn нужна база данных в той же форме (те же индексные файлы), что и для программы blastn. Опция -task у данной программы отсутствует; нужны опции -query и -db. Другие полезные параметры: -out, -evalue, -outfmt. Опция -word_size также существует, но менее важна, чем для blastn; по умолчанию её значение равно 3 (имеется в виду длина слова в аминокислотных остатках) и менять её особого смысла обычно нет. Список всех опций можно получить, набрав

tblastn -help

Как и для blastn, значительная часть опций носит чисто технический характер и при обычном использовании не нужна.

BLASTP и BLASTX

Программы blastp и blastx ищут в белковой базе данных. Локальную белковую базу делает та же программа makeblastdb, но, во-первых, из аминокислотных последовательностей, а во-вторых, без опции "-dbtype nucl" (по умолчанию эта опция имеет значение "prot"). В качестве query программа blastp принимает файл с белковыми последовательностями, а программа blastx – с нуклеотидными (которые перед поиском транслируются в шести рамках). Поскольку по сути три программы blastp, blastx и tblastn делают одно и то же (сравнение аминокислотной последовательности с аминокислотной же базой), набор опций у них почти одинаковый.

Удаленный бласт

Локальный бласт (все поисковые программы: blastn, blastp, blastх, tblastn) может обращаться не только к локальным, но и "удалённым" (remote) базам, то есть доступным по сети на сайте NCBI. Для этого укажите флаг "-remote" и как значение параметра "-db" – базу на сайте NCBI (выберите из списка баз онлайн-бласта), например:

blastn -task blastn -query query.fasta -db refseq_rna -out blast.out -evalue 0.001 -word_size 7 -outfmt 7 -remote

Чтобы при удалённом поиске ограничить поиск каким-либо организмом, например, "Arabidopsis", нужно добавить опцию:

-entrez_query 'arabidopsis[orgn]'

BLAST двух последовательностей

Все четыре программы blastn, blastp, blastх, tblastn могут использоваться не только для быстрого поиска, но и для локального выравнивания двух последовательностей. Для этого нужно положить последовательности в fasta-формате в два файла, например seq1.fasta и seq2.fasta и выполнить команду, например:

blastn -task blastn -query seq1.fasta -subject seq2.fasta

Main/blast (последним исправлял пользователь udavdasha 2022-10-22 12:04:19)