Учебная страница курса биоинформатики,
год поступления 2012
Standalone BLAST
Как работать со standalone blast.
1. Поиск в геноме участков, кодирующих белки, похожие на заданный
На kodomo в директории /P/y12/term3/block3/genomes лежат 4 файла:
bl_genome.fasta включает последовательности из EMBL, составляющие полный геном термофильной бактерии Bacillus licheniformis;
lm_genome.fasta – полный геном возбудителя листериоза Listeria monocytogenes;
gt_genome.fasta – полный геном бактерии Geobacillus thermodenitrificans;
sa_genome.fasta – полный геном бактерии Streptococcus agalactiae.
Вы знаете аминокислотную последовательность вашего белка из Bacillus subtilis. Ваша задача — определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома.
Создайте в своей рабочей директории индексные файлы пакета BLAST+ для поиска по заданному геному.
Выберите подходящую для решения данной задачи программу из пакета BLAST+ (cм. материалы) и проведите с ее помощью поиск с порогом на E-value 0,001.
По результатам поиска заполните таблицу.
Поиск гомологов белка <такого-то> в геноме <такой-то бактерии>
Число находок с E-value < 0,001 |
|
E-value лучшей находки |
|
Название последовательности с лучшей находкой |
|
Координаты лучшей находки (от-до) |
|
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой |
|
2. Поиск гомологов некодирующих последовательностей программой BLASTN
В файле /P/y12/term3/block3/tRNA/trna_bacsu.fasta лежат последовательности всех тРНК, проаннотированных в полном геноме Bacillus subtilis BSn5. Ваша задача – определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии.
Результатом этого и следующего упражнений должен стать Excel-файл trna.xls, лежащий в директории H:\term3\block3\BLAST. На сайте выложите ссылку на этот файл и все использованные команды и скрипты.
Этапы работы.
запустите программу blastn, указав в качестве последовательностей для поиска файл trna_bacsu.fasta, в качестве банка – геном бактерии, отформатированный в предыдущем задании.
Установите табличный формат выдачи (опция "-outfmt 6" или "-outfmt 7"). Порог на E-value установите равным 0,01. Не забудьте параметр -task blastn .
- Просмотрите выходной файл.
Придумайте, как (для данной последовательности из trna_bacsu.fasta) запустить grep так, чтобы на выходе получилось число – количество находок именно для данной последовательности. Проверьте, выполнив соответствующую команду.
- Создайте колонку из названий входных последовательностей командой
grep ">" trna_bacsu.fasta
Импортируйте её в Excel.
Создайте скрипт из команд, выдающих число находок для каждой последовательности (про то, как писать простейшие скрипты, см. здесь).
Результат работы скрипта импортируйте в Excel.
В отчётном Excel-файле (trna.xls) в результате должны остаться две колонки:
"Names" с названиями последовательноcтей и "BLASTN default" с числами находок.
3. Поиск гомологов при изменённых параметрах программы BLASTN
Повторите предыдущее задание ещё два раза с изменёнными параметрами программы, каждый раз сохраняя результаты в новый файл.
В первый раз измените весовую матрицу, то есть параметры -reward и -penalty. Установите -reward 5 и -penalty -4. При этом программа откажется работать, пока вы не поменяете также параметры -gapopen и -gapextend, и предложит возможные варианты. Выберите один из вариантов и придайте этим параметрам соответствующие значения.
Во второй раз, оставив те же (изменённые по сравнению со значениями по умолчанию) значения параметров -reward, -penalty, -gapopen и -gapextend, поменяйте также значение параметра -word_size на минимально возможное (посмотрите в "help").
Результатом этого задания должны стать два дополнительных столбца в отчётном Excel-файле и абзац в отчете, с обязательным указанием командных строк, использованных для запуска blastn.
(*)Как дополнительное задание можно сделать ещё один столбец с результатами поиска при, наоборот, минимальном значении word_size и взятыми по умолчанию параметрами вычисления веса выравнивания.
4. Анализ результатов
Опишите в отчете, как меняется число найденных гомологов при изменении параметров расчёта веса выравнивания и изменении длины слова.
В одном из полученных при выполнении заданий 2 и 3 выходных файлов BLASTN выберите какую-нибудь пару: tRNA B.subtilis и гомологичный участок, найденный в геноме другой бактерии. Желательно выбрать такую находку, которая находится программой BLASTN при одном наборе параметров и не находится при другом, и постараться объяснить причину этого.
Вырежьте гомологичный участок в отдельный файл командой seqret -sask (будьте внимательны, следите за направлением найденной последовательности относительно записи EMBL – оно может быть прямым либо обратным, и это можно узнать, глядя на выдачу BLAST!).
Выделите исходную последовательность также в отдельный файл. Выровняйте две последовательности программой needle. В отчёте приведите характеристики выравнивания. Желателен биологически осмысленный вывод.
Укажите в отчёте, как проаннотирован гомологичный участок в поле FT записи EMBL, описывающей геном бактерии (это действительно тРНК или нет?).
5*. Время работы программы BLAST
Проследите за изменением времени работы программы при изменении параметров. Для этого при запуске на kodomo (или другой Linux-машине) в командной строке перед всей командой надо написать слово time. В отчете опишите, как зависит время работы программы от заданных параметров.