Учебная страница курса биоинформатики,
год поступления 2011
Занятие 6. Программы пакета BLAST для работы с нуклеотидными последовательностями
Создайте директорию BLAST для работы на этом и следующем занятиях. Выходные файлы программ пакета BLAST должны находиться в этой директории. Отчёт должен появиться на вашем веб-сайте к вечеру дня следующего занятия.
1. Поиск в геноме участков, кодирующих белки, похожие на заданный
На kodomo в директории /P/y11/Term_3/Block_2 лежат 4 файла:
bl_genome.fasta включает последовательности из EMBL, составляющие полный геном термофильной бактерии Bacillus licheniformis;
lm_genome.fasta – полный геном возбудителя листериоза Listeria monocytogenes;
gt_genome.fasta – полный геном бактерии Geobacillus thermodenitrificans;
sa_genome.fasta – полный геном бактерии Streptococcus agalactiae.
Вы знаете аминокислотную последовательность Вашего белка из Bacillus subtilis. Ваша задача — определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома.
Создайте в своей рабочей директории индексные файлы пакета BLAST+ для поиска по заданному геному.
Выберите подходящую для решения данной задачи программу из пакета BLAST+ (cм. материалы) и проведите с ее помощью поиск с порогом на E-value 0,001.
По результатам поиска заполните таблицу.
Поиск гомологов белка <такого-то> в геноме <такой-то бактерии>
Число находок с E-value < 0,001 |
|
E-value лучшей находки |
|
Название последовательности с лучшей находкой |
|
Координаты лучшей находки (от-до) |
|
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой |
|
2. Нахождение записи EMBL по последовательности программой BLASTN
В директории /P/y11/Term_3/Block_2/Sequences находятся файлы с нуклеотидными последовательностями различных бактерий.
Для последовательности, названной вашей фамилией, найдите, пользуясь интерфейсом к программе BLASTN на сайте EBI, и опишите в отчёте:
а) в какой записи EMBL (класс данных Standard, раздел Prokaryotes) присутствует эта последовательность;
б) каковы координаты заданной последовательности в записи; соответствует ли она направлению записи или комплементарна ей.
в) описан ли в поле FT какой-либо участок, включающий данную последовательность или хотя бы пересекающийся с ней; если да, то что это за участок и как соотносится его направление (прямое или обратное относительно записи) с направлением заданной последовательности.
3. Поиск гомологов гена программой BLASTN
Создайте в своей рабочей директории fasta-файл с нуклеотидной последовательностью, кодирующей ваш белок (для этого надо взять одну из записей EMBL, на которую ссылается ваша запись Swiss-Prot, найти в ней координаты соответствующей CDS и вырезать последнюю программой seqret в отдельный файл).
Поищите гомологи этого гена в том же геноме, что в упражнении 1, но программой BLASTN. Опишите результаты в отчёте: укажите E-value лучшей находки, приведите название геномной последовательности в файле и координаты находки в этой последовательности. Сравните результаты (количество находок, E-value и длины соответствующих друг другу находок и т.п.) с результатами поиска по последовательности белка. Ваши наблюдения изложите в отчёте.
См. подсказки.