Учебная страница курса биоинформатики,
год поступления 2011
Материалы к практикуму 6
Краткая характеристика некоторых программ пакета BLAST
Программа |
Пробная посл-ть |
Где ищет (тип данных банка) |
Для чего служит |
Примечание |
BLASTN |
НК |
НК |
Поиск последовательности в банке; предсказание транскрибируемых участков (проба — участок генома; банк — транскрипты) |
Последние версии позволяют достаточно эффективно искать гомологи при надлежащем выборе параметров |
BLASTP |
Белок |
Белки |
Поиск гомологов |
|
BLASTX |
НК |
Белки |
Эта программа часто используется на первом этапе анализа новых нуклеотидных последовательностей для предсказания кодирующих участков |
Проба транслируется в 6 рамках |
TBLASTN |
Белок |
НК |
Поиск гомологов белка в неаннотированных нуклеотидных последовательностях |
Банк транслируется в 6 рамках |
TBLASTX |
НК |
НК |
Поиск гомологов к кодирующим участкам. Полезна, если в пробной последовательности много ошибок. |
6×6=36. Работает долго. Применяется редко. |
Про программы пакета BLAST и их установку на своем компьютере читайте здесь.
Внимание! Для выполнения заданий Вам понадобится не менее 5Mb дискового пространства. Рекомендуется проверить, не превысили ли Вы квоту, и если да, то почистить свой диск.
Как создать индексные файлы для программ пакета BLAST
Зайдите на kodomo, перейдите в свою рабочую директорию и вызовите подсказку к программе makeblastdb, набрав
makeblastdb -help
(если подсказка не умещается в окне, организуйте конвейер к программе more, внутри программы more пользуйтесь клавишами "пробел" и "Enter". Другой вариант — перенаправить выдачу в файл, пользуясь спецсимволом ">").
Вам понадобятся параметры -in, -out и -dbtype, остальные не нужны. Изучите их смысл и придайте им правильные значения. Программа makeblastdb создает в текущей директории три файла с расширениями (для нуклеотидной базы) nhr, nin и nsq; первая часть имен этих трех файлов одинаковая, это и есть "Name of BLAST database". Рекомендуется сделать это имя коротким (например, "lm" для генома Listeria monocytogenes).
Для запуска программы командная строка должна содержать для каждого из задаваемых параметров его название, а затем после пробела – его значение. Это стандартный способ указывать значения параметров в консольных приложениях UNIX. Выглядит это так:
program -param1 value1 -param2 -value2
(параметров может быть сколько угодно; их порядок, как правило, неважен).
Как запустить выбранную программу из пакета BLAST
Чтобы запустить одну из программ поиска пакета BLAST, нужно иметь в своей директории файл с пробной последовательностью в fasta-формате и индексные файлы "банка последовательностей". Названия программ (blastp и д.т.) набираются строчными буквами. Чтобы получить подсказку, запустите выбранную программу с опцией -help.
Вам понадобятся следующие параметры: -query, -db (первая часть имён файлов, созданных makeblastdb), -out, -evalue. Для программы blastn при поиске гомологов необходимо также указать -task blastn (иначе будет запущен megablast, для поиска гомологов не пригодный уже по замыслу).
Как запустить поиск программой BLASTN на сайте EBI и воспользоваться результатом
На головной странице EBI (http://www.ebi.ac.uk/) в меню Tools выберите "Similarity&Homology" → "NCBI BLAST", затем пройдите по гиперссылке "Nucleotide Databases".
Поскольку вам известно, что последовательность – из бактерии и описана в одной из стандартных записей, снимите галочку против "EMBL Release"; после чего щёлкните сначала по треугольнику возле "EMBL Release", затем по треугольнику возле "EMBL Prokaryote" и поставьте галочку против "EMBL Standard Prokaryote".
Последующие действия по запуску BLASTN понятны. Получив результат (это может занять несколько минут), нажмите "Show alignments", чтобы увидеть не только ID записей, но и кооординаты находок в них.
Запишите координаты одной из находок, в которой в выравнивание попала вся пробная последовательность, а совпадение – 100%. Если концу пробной последовательности соответствует большее число, чем началу, значит, направление последовательности совпадает с направлением записи; если наоборот – значит для записи выбрано противоположное направление (комплементарная последовательность).
Посмотрите саму запись (это можно сделать непосредственно со странички с результатами, пройдя сначала по гиперссылке с ID записи, затем по гиперссылке "Text"). Найдите в поле FT, описан ли как-либо участок записи EMBL, с которой совпала заданная последовательность.