Материалы к практикуму 8

Краткая характеристика некоторых программ пакета BLAST

Программа Пробная
посл-ть
Где ищет (тип данных банка) Для чего служит Примечание
BLASTN НК НК
  1. Поиск последовательности в банке
  2. Предсказание транскрибируемых участков (проба — участок генома; банк — транскрипты)
Непригодна для поиска сколько-нибудь удаленных гомологов
BLASTP Белок Белки Поиск гомологов  
BLASTX НК Белки Эта программа часто используется на первом этапе анализа новых нуклеотидных последовательностей для предсказания кодирующих участков Проба транслируется в 6 рамках
TBLASTN Белок НК Поиск гомологов белка в неаннотированных нуклеотидных последовательностях Банк транслируется в 6 рамках
TBLASTX НК НК Поиск гомологов к кодирующим участкам. Полезна, если в пробной последовательности много ошибок. 6×6=36. Работает долго. Применяется редко.

Про программы пакета BLAST и их установку на своем компьютере читайте здесь.


Внимание!

Для выполнения заданий Вам понадобится не менее 5Mb дискового пространства. Рекомендуется проверить, не превысили ли Вы квоту, и если да, то почистить свой диск.

  1. Как создать индексные файлы для программ пакета BLAST
  2. Зайдите на kodomo-count, перейдите в свою рабочую директорию и вызовите подсказку к программе formatdb, набрав

     formatdb -
    (если подсказка не умещается в окне, организуйте конвейер к программе more, внутри программы more пользуйтесь клавишами "пробел" и "Enter". Другой вариант — перенаправить выдачу в файл, пользуясь спецсимволом ">").

    Вам понадобятся опции -i, -p и -n, остальные не нужны. Изучите их смысл и придайте им правильные значения. Программа formatdb создает в текущей директории три файла с расширениями nhr, nin и nsq; первая часть имен этих трех файлов одинаковая, это и есть "Base name for BLAST files". Рекомендуется сделать это "базовое имя" коротким (например, "st" для генома S.typhimurium).

    Для запуска программы командная строка должна содержать для каждого из задаваемых параметров его название, а затем после пробела — его значение. Это стандартный способ указывать значения параметров в консольных приложениях UNIX. Выглядит это так:

     program -param1 value1 -param2 -value2
    
    (параметров может быть сколько угодно; их порядок, как правило, неважен).
     

  3. Как запустить выбранную программу из пакета BLAST
  4. Чтобы запустить одну из программ поиска гомологов пакета BLAST, нужно иметь в своей директории файл с последовательностью в fasta-формате и индексные файлы "банка последовательностей". Все 5 программ BLASTP, BLASTN, BLASTX, TBLASTN, TBLASTX реализованы как опции единой прогаммы blastall.

    Запустите blastall без параметров, чтобы получить подсказку — список параметров программы. Вам понадобятся следующие параметры: -p (его возможные значения — blastp, blastn и т.д., строчными буквами!), -d (базовое имя индексных файлов), -i (входной файл), -o (выходной файл), и, возможно, -e (см. также BLAST help).
     

  5. Как получить последовательность, соответствующую находке, в отдельном файле
  6. Пусть нужная последовательность является частью последовательности с именем name из файла file.fasta, начинающейся с буквы 3456 и заканчивающейся на букве 7890. Тогда команда:
     seqret "file.fasta:name[3456:7890]" newfile.fasta
    создаст файл с нужной последовательностью.
     

  7. Как запустить поиск программой BLASTN на сайте EBI и воспользоваться результатом
  8. На страничке "Bioinformatic tools" пойдите по гиперссылке "BLAST" и выберите "NCBI-BLAST2 Nucleotide" (или "WU-BLAST2 Nucleotide" — это другая реализация той же программы).

    Нужные параметры стоят на странице сервиса по умолчанию. Выберите нужный банк в меню "Database". Последовательность можно скопировать из файла в окошко, но можно и не делать этого, а взамен воспользоваться функцией "Upload a file".

    На странице с результатом поставьте галочку в checkbox против первой находки (убедитесь, что Identity=100%) и нажмите кнопку "Show alignments". Запомните или запишите AC записи EMBL и координаты находки в этой записи.

    Откройте полную запись EMBL (это можно сделать с помощью SRS, MRS или создав на kodomo-count файл с записью командой

     entret embl:XX000000 -auto
    где вместо XX000000 надо подставить AC записи) и найдите строчки FT, соответствующие нужному участку.