Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2012

Standalone BLAST

Как работать со standalone blast.

1. Поиск в геноме участков, кодирующих белки, похожие на заданный

На kodomo в директории /P/y12/term3/block3/genomes лежат 4 файла:

Вы знаете аминокислотную последовательность вашего белка из Bacillus subtilis. Ваша задача — определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома.

Создайте в своей рабочей директории индексные файлы пакета BLAST+ для поиска по заданному геному.

Выберите подходящую для решения данной задачи программу из пакета BLAST+ (cм. материалы) и проведите с ее помощью поиск с порогом на E-value 0,001.

По результатам поиска заполните таблицу.

Поиск гомологов белка <такого-то> в геноме <такой-то бактерии>

Число находок с E-value < 0,001

E-value лучшей находки

Название последовательности с лучшей находкой

Координаты лучшей находки (от-до)

Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой

2. Поиск гомологов некодирующих последовательностей программой BLASTN

В файле /P/y12/term3/block3/tRNA/trna_bacsu.fasta лежат последовательности всех тРНК, проаннотированных в полном геноме Bacillus subtilis BSn5. Ваша задача – определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии.

Результатом этого и следующего упражнений должен стать Excel-файл trna.xls, лежащий в директории H:\term3\block3\BLAST. На сайте выложите ссылку на этот файл и все использованные команды и скрипты.

Этапы работы.

Установите табличный формат выдачи (опция "-outfmt 6" или "-outfmt 7"). Порог на E-value установите равным 0,01. Не забудьте параметр -task blastn .

Придумайте, как (для данной последовательности из trna_bacsu.fasta) запустить grep так, чтобы на выходе получилось число – количество находок именно для данной последовательности. Проверьте, выполнив соответствующую команду.

grep ">" trna_bacsu.fasta

Импортируйте её в Excel.

Результат работы скрипта импортируйте в Excel.

"Names" с названиями последовательноcтей и "BLASTN default" с числами находок.

3. Поиск гомологов при изменённых параметрах программы BLASTN

Повторите предыдущее задание ещё два раза с изменёнными параметрами программы, каждый раз сохраняя результаты в новый файл.

В первый раз измените весовую матрицу, то есть параметры -reward и -penalty. Установите -reward 5 и -penalty -4. При этом программа откажется работать, пока вы не поменяете также параметры -gapopen и -gapextend, и предложит возможные варианты. Выберите один из вариантов и придайте этим параметрам соответствующие значения.

Во второй раз, оставив те же (изменённые по сравнению со значениями по умолчанию) значения параметров -reward, -penalty, -gapopen и -gapextend, поменяйте также значение параметра -word_size на минимально возможное (посмотрите в "help").

Результатом этого задания должны стать два дополнительных столбца в отчётном Excel-файле и абзац в отчете, с обязательным указанием командных строк, использованных для запуска blastn.

(*)Как дополнительное задание можно сделать ещё один столбец с результатами поиска при, наоборот, минимальном значении word_size и взятыми по умолчанию параметрами вычисления веса выравнивания.

4. Анализ результатов

Опишите в отчете, как меняется число найденных гомологов при изменении параметров расчёта веса выравнивания и изменении длины слова.

В одном из полученных при выполнении заданий 2 и 3 выходных файлов BLASTN выберите какую-нибудь пару: tRNA B.subtilis и гомологичный участок, найденный в геноме другой бактерии. Желательно выбрать такую находку, которая находится программой BLASTN при одном наборе параметров и не находится при другом, и постараться объяснить причину этого.

Вырежьте гомологичный участок в отдельный файл командой seqret -sask (будьте внимательны, следите за направлением найденной последовательности относительно записи EMBL – оно может быть прямым либо обратным, и это можно узнать, глядя на выдачу BLAST!).

Выделите исходную последовательность также в отдельный файл. Выровняйте две последовательности программой needle. В отчёте приведите характеристики выравнивания. Желателен биологически осмысленный вывод.

Укажите в отчёте, как проаннотирован гомологичный участок в поле FT записи EMBL, описывающей геном бактерии (это действительно тРНК или нет?).

5*. Время работы программы BLAST

Проследите за изменением времени работы программы при изменении параметров. Для этого при запуске на kodomo (или другой Linux-машине) в командной строке перед всей командой надо написать слово time. В отчете опишите, как зависит время работы программы от заданных параметров.