Учебная страница курса биоинформатики,
год поступления 2011
Занятие 7. Программа getorf. Поиск гомологов некодирующих последовательностей.
1. Работа с программой getorf пакета EMBOSS
Создайте в своей директории файл с записью D89965 банка EMBL (нужно воспользоваться командой entret или же системой SRS).
Выполните команду tfm getorf и разберитесь, как запустить программу getorf так, чтобы получить набор трансляций всех открытых рамок данной последовательности:
- длиной более 30 нуклеотидов,
- считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном,
- при использовании стандартного кода.
Командную строку приведите в отчёте.
Запустите getorf с указанными параметрами на последовательности из записи D89965. Определите, какая из найденных открытых рамок соответствует (полностью или частично) приведённой в поле FT кодирующей последовательности (CDS).
Создайте файл с последовательностью записи Swiss-Prot, на которую ссылается данная запись EMBL. Выясните, какой из полученных открытых рамок соответствует эта последовательность. Указание. Если трудно найти нужную рамку "глазами", запустите blastp по выдаче getorf (для этого не обязательно запускать makeblastdb, см. BLAST-2-Sequences options в help'е программы blastp). Изложите в отчёте выводы и возможные причины имеющейся ситуации.
2. Поиск гомологов некодирующих последовательностей программой BLASTN
В файле /P/y11/Term_3/Block_2/trna_bacsu.fasta лежат последовательности всех тРНК, проаннотированных в полном геноме Bacillus subtilis BSn5. Ваша задача – определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии (см. предыдущее занятие).
Результатом этого и следующего упражнений должен стать Excel-файл trna.xls, лежащий в вашей рабочей директории (H:\Term3\Block2\BLAST).
Этапы работы.
запустите программу blastn, указав в качестве последовательностей для поиска файл trna_bacsu.fasta, в качестве банка – отформатированный при выполнении задания 6 геном бактерии.
Установите табличный формат выдачи (опция "-outfmt 6" или "-outfmt 7"). Порог на E-value установите равным 0,01. Не забудьте параметр -task blastn .
- Просмотрите выходной файл.
Придумайте, как (для данной последовательности из trna_bacsu.fasta) запустить grep так, чтобы на выходе получилось число – количество находок именно для данной последовательности. Проверьте, выполнив соответствующую команду.
- Создайте колонку из названий входных последовательностей командой
grep ">" trna_bacsu.fasta
Импортируйте её в Excel.
Создайте скрипт из команд, выдающих число находок для каждой последовательности (про то, как писать простейшие скрипты, см. здесь).
Результат работы скрипта импортируйте в Excel.
В отчётном Excel-файле (trna.xls) в результате должны остаться две колонки:
"Names" с названиями последовательнотей и "BLASTN default" с числами находок.
3. Поиск гомологов при изменённых параметрах программы BLASTN
Повторите предыдущее задание ещё два раза с изменёнными параметрами программы, каждый раз сохраняя результаты в новый файл.
В первый раз измените весовую матрицу, то есть параметры -reward и -penalty. Установите -reward 5 и -penalty -4. При этом программа откажется работать, пока вы не поменяете также параметры -gapopen и -gapextend, и предложит возможные варианты. Выберите один из вариантов и придайте этим параметрам соответствующие значения.
Во второй раз, оставив те же (изменённые по сравнению со значениями по умолчанию) значения параметров -reward, -penalty, -gapopen и -gapextend, поменяйте также значение параметра -word_size на минимально возможное (посмотрите в "help").
Результатом этого задания должны стать два дополнительных столбца в отчётном Excel-файле и абзац в отчете, с обязательным указанием командных строк, использованных для запуска blastn.
(*) Как дополнительное задание можно сделать ещё один столбец с результатами поиска при, наоборот, минимальном значении word_size и взятыми по умолчанию параметрами вычисления веса выравнивания.
(**) Можно также (если вас интересуют такие вещи) проследить за изменением времени работы программы при изменении параметров. Для этого при запуске на kodomo (или другой Linux-машине) в командной строке перед всей командой надо написать слово time.
4. Анализ результатов
Обрисуйте в отчёте общее впечатление: как меняется число найденных гомологов при изменении параметров расчёта веса выравнивания и изменении длины слова.
В одном из полученных при выполнении заданий 2 и 3 выходных файлов BLASTN выберите какую-нибудь пару из tRNA B.subtilis и найденного в геноме другой бактерии гомологичного участка. Желательно выбрать такую находку, которая находится программой BLASTN при одном наборе параметров и не находится при другом, и постараться объяснить причину этого.
Вырежьте гомологичный участок в отдельный файл командой seqret -sask (будьте внимательны, следите за направлением найденной последовательности относительно записи EMBL – оно может быть прямым либо обратным, и это можно узнать, глядя на выдачу BLAST!).
Выделите исходную последовательность также в отдельный файл. Выровняйте две последовательности программой needle. В отчёте приведите характеристики выравнивания. Желателен биологически осмысленный вывод.
Укажите в отчёте, как проаннотирован гомологичный участок в поле FT записи EMBL, описывающей геном бактерии (это действительно тРНК или нет?).