Учебная страница курса биоинформатики,
год поступления 2014
Занятие 11. BLAST
Дедлайн – 5 мая.
Дано: Последовательность "вашего" белка.
Задача: Найти его гомологов в базах данных последовательностей.
Результат: Протокол на сайте с описанием работы. Протокол должен содержать ссылки на условия всех проведенных через web-интерфейс запусков BLAST (Saved strategies).
Подсказка: Как показать преподавателям условия поиска.
a. Войдите в личный кабинет на сайте NCBI (My NCBI -> Sign in). Если еще не зарегистрировались - регистрируйтесь.
b. На странице с результатами поиска нажмите Save Search Stratages. Скопируйте ссылку view.
c. В дальнейшем вы всегда можете получить доступ к этим условиям по ссылке Saved Stratages на начальной странице BLAST.
1. Найдите сходные последовательности в базе данных Refseq_protein. Запустите BLASTP на сайте NCBI. Не забудьте указать базу данных. Обратите внимание на дополнительные параметры.
Внесите в протокол число находок. Сколько среди находок последовательностей из геномов различных таксономических групп (например, прокариот, эукариот и архей)?
Для трех находок (лучшей, худшей и любой из середины списка) внесите в протокол - длину выравнивания, bit score, % идентичных и сходных остатков, E-value, выравнивание (которое построил blast). Обратите внимание, что если E-value для наихудшей находки сильно меньше порога 0.01, значит, скорее всего, вы неправильно задали параметры поиска.
Сколько из полученных находок можно считать гомологами исходной последовательности? Можно использовать такой условный критерий - найден гомолог всей вашей последовательности, если E-value < 1e-3 и не менее 70% запроса вошло в полученное выравнивание (Query cover). Сохраните графическое представление результатов поиска, содержащее ВСЕ находки, которые достоверно можно считать гомологами (обратите внимание на параметры в Formatting options).
* Учтите, что приведенный выше критерий - не есть истина в последней инстанции. Есть ли среди находок те, которые вы все-таки считаете гомологами исходной последовательности, хотя они и не удовлетворяют такому критерию. Обоснуйте ваше мнение.
2. Найдите сходные последовательности среди белков из какой-нибудь таксономической группы. Например, человека или бактерий. Для одной из находок, которая также находилась в п.1 (вопрос: как установить, что это та же самая находка?), сравните - одинаковое ли получилось выравнивание? Совпадает ли score? Не изменилось ли E-value? Объясните ваши наблюдения.
* Сравните результаты с результатами поиска последовательности белка против нуклеотидной БД Refseq по числу находок (tblastn). Прокомментируйте отличия.
3. Для одной из найденных последовательностей сохраните карту локального сходства. Для этого надо выполнить выравнивание двух последовательностей (Align two sequences на странице, где вы запускаете поиск по базе данных). Какие заметные элементы соответствуют находке BLAST?
4. Используйте BLAST для поиска в своей базе данных. Например, можно использовать выравнивание из задания 8. Выполняйте это задание на сервере kodomo. Сохраните его в формате fasta и проиндексируйте базу командой makeblastdb (параметр -dbtype установите "prot"). Затем осуществите поиск в этой базе случайно выбранной последовательности (например, последовательности вашего белка) командой blastp.
Как запускать эти программы - можно посмотреть при помощи параметра -h. Или на сайте http://www.ncbi.nlm.nih.gov/books/NBK279690/ (cсылка Quick start). Надо использовать параметры типа
makeblastdb -dbtype prot -in my_align.fasta -out my_align blastp -db my_align -query my_sequence.fasta
Внесите в протокол выравнивание, % идентичных и сходных остатков, bit score и E-value для лучшей находки. Сравните параметры выравнивания, с параметрами выравниваний, которые вы исследовали в двух предыдущих заданиях. Свидетельствуют ли эти данные о гомологии? Ответ надо обосновать. Обсудите значение E-value.
При проверке обращать внимание на порог на число последовательностей.