Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2011

Занятие 7. Программа getorf. Поиск гомологов некодирующих последовательностей.

1. Работа с программой getorf пакета EMBOSS

Создайте в своей директории файл с записью D89965 банка EMBL (нужно воспользоваться командой entret или же системой SRS).

Выполните команду tfm getorf и разберитесь, как запустить программу getorf так, чтобы получить набор трансляций всех открытых рамок данной последовательности:

Командную строку приведите в отчёте.

Запустите getorf с указанными параметрами на последовательности из записи D89965. Определите, какая из найденных открытых рамок соответствует (полностью или частично) приведённой в поле FT кодирующей последовательности (CDS).

Создайте файл с последовательностью записи Swiss-Prot, на которую ссылается данная запись EMBL. Выясните, какой из полученных открытых рамок соответствует эта последовательность. Указание. Если трудно найти нужную рамку "глазами", запустите blastp по выдаче getorf (для этого не обязательно запускать makeblastdb, см. BLAST-2-Sequences options в help'е программы blastp). Изложите в отчёте выводы и возможные причины имеющейся ситуации.

2. Поиск гомологов некодирующих последовательностей программой BLASTN

В файле /P/y11/Term_3/Block_2/trna_bacsu.fasta лежат последовательности всех тРНК, проаннотированных в полном геноме Bacillus subtilis BSn5. Ваша задача – определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии (см. предыдущее занятие).

Результатом этого и следующего упражнений должен стать Excel-файл trna.xls, лежащий в вашей рабочей директории (H:\Term3\Block2\BLAST).

Этапы работы.

Установите табличный формат выдачи (опция "-outfmt 6" или "-outfmt 7"). Порог на E-value установите равным 0,01. Не забудьте параметр -task blastn .

Придумайте, как (для данной последовательности из trna_bacsu.fasta) запустить grep так, чтобы на выходе получилось число – количество находок именно для данной последовательности. Проверьте, выполнив соответствующую команду.

grep ">" trna_bacsu.fasta

Импортируйте её в Excel.

Результат работы скрипта импортируйте в Excel.

"Names" с названиями последовательнотей и "BLASTN default" с числами находок.

3. Поиск гомологов при изменённых параметрах программы BLASTN

Повторите предыдущее задание ещё два раза с изменёнными параметрами программы, каждый раз сохраняя результаты в новый файл.

В первый раз измените весовую матрицу, то есть параметры -reward и -penalty. Установите -reward 5 и -penalty -4. При этом программа откажется работать, пока вы не поменяете также параметры -gapopen и -gapextend, и предложит возможные варианты. Выберите один из вариантов и придайте этим параметрам соответствующие значения.

Во второй раз, оставив те же (изменённые по сравнению со значениями по умолчанию) значения параметров -reward, -penalty, -gapopen и -gapextend, поменяйте также значение параметра -word_size на минимально возможное (посмотрите в "help").

Результатом этого задания должны стать два дополнительных столбца в отчётном Excel-файле и абзац в отчете, с обязательным указанием командных строк, использованных для запуска blastn.

(*) Как дополнительное задание можно сделать ещё один столбец с результатами поиска при, наоборот, минимальном значении word_size и взятыми по умолчанию параметрами вычисления веса выравнивания.

(**) Можно также (если вас интересуют такие вещи) проследить за изменением времени работы программы при изменении параметров. Для этого при запуске на kodomo (или другой Linux-машине) в командной строке перед всей командой надо написать слово time.

4. Анализ результатов

Обрисуйте в отчёте общее впечатление: как меняется число найденных гомологов при изменении параметров расчёта веса выравнивания и изменении длины слова.

В одном из полученных при выполнении заданий 2 и 3 выходных файлов BLASTN выберите какую-нибудь пару из tRNA B.subtilis и найденного в геноме другой бактерии гомологичного участка. Желательно выбрать такую находку, которая находится программой BLASTN при одном наборе параметров и не находится при другом, и постараться объяснить причину этого.

Вырежьте гомологичный участок в отдельный файл командой seqret -sask (будьте внимательны, следите за направлением найденной последовательности относительно записи EMBL – оно может быть прямым либо обратным, и это можно узнать, глядя на выдачу BLAST!).

Выделите исходную последовательность также в отдельный файл. Выровняйте две последовательности программой needle. В отчёте приведите характеристики выравнивания. Желателен биологически осмысленный вывод.

Укажите в отчёте, как проаннотирован гомологичный участок в поле FT записи EMBL, описывающей геном бактерии (это действительно тРНК или нет?).