Учебная страница курса биоинформатики,
год поступления 2018
Практикум 12. BLAST
Результаты приведите на сайте в свободной (но понятной при чтении) форме
Задание 1. Найдите гомологов вашего белка в БД Swissprot
Опишите параметры, включая Algorithm parameters, которые Вы использовали при запуске сервиса BLAST. (См. [указания])
Сохраните полную таблицу находок (см. [указания]). Файл XXXXXXX_hits.xlsx в block3/credits и ссылка на сайте
Постройте множественное выравнивание выборки из 5 — 10 последоватедьностей из начала, середины и конца списка Description
Отредактируйте выравнивание, оставив в нем только гомологичные, по вашему мнению, белки. Файл XXXXXXX_hittable.fasta или jvp. На сайте обоснуйте гомологичность (см. [указания])
Задание 2. Объясните карту сходства двух белков
Заменил белки. 1 Мая, 23:30, ААл
Выберите по идентификатору записи Uniprot из двух РАЗНЫХ групп из [файла] (всего групп 3).
- Постройте карту локального сходства последовательностей этих белков
- Поместите карту на сайт
- Объясните крупные различия между последовательностями (в терминах делеция - укажите в какой последовательности, вставка, транслокация, дупликация)
Задание 3. Игры с BLAST
[параметры, с которыми можно играть]
Надоело писать указания типа "Нажми эту кнопку. ... Со страницы с результатом скопируй такое число. ... Сделай вывод. Тогда получишь зачёт <BR> ААл
- Поиск по "случайной" последовательности в `Swiss-Prot
- Возьмите последовательность, которая точно не кодирует белок. Я взял такую: "I KEEP six honest serving-men"
- Поиск последовательности своего белка в Swiss-Prot.
- Повторите задание 1, изменяя параметры BLAST.
- Опишите, что вы поняли про параметры из игры в BLAST. Приведите подтверждениями результатами запусков.
Дополнительные задания
Пока нет.
Соберите выборку гомологов вашего белка при помощи программы BLASTP из базы Refseq. Запустите BLASTP на сайте NCBI. Не забудьте указать базу данных. Обратите внимание на дополнительные параметры. Если находится слишком много гомологов (больше 1000) или BLAST работает слишком медленно, ограничьте поиск каким-то таксоном (например, бактериями или эукариотами). Сохраните параметры поиска и приведите ссылку в протоколе (см. подсказку сверху).
Внесите в протокол число находок. Есть ли находки, гомологичные вашему белку по всей длине (query cover > 80%)?
Для трех находок (лучшей, худшей и любой из середины списка) внесите в протокол - длину выравнивания, bit score, % идентичных и сходных остатков, E-value, выравнивание (которое построил blast). Обратите внимание, что если E-value для наихудшей находки сильно меньше порога 0.01, значит, скорее всего, вы неправильно задали параметры поиска.
Сколько из полученных находок можно считать гомологами целой исходной последовательности? Можно использовать такой условный критерий - найден гомолог всей вашей последовательности, если E-value < 1e-3 и не менее 70% запроса вошло в полученное выравнивание (Query cover).
* Учтите, что приведенный выше критерий - не есть истина в последней инстанции. Есть ли среди находок те, которые вы все-таки считаете гомологами исходной последовательности, хотя они и не удовлетворяют такому критерию. Обоснуйте ваше мнение.
Сохраните выборку 20-30 полных последовательностей гомологов вашего белка в формате fasta. (Прим. При сохранении только aligned sequences вы скачаете только найденные бластом фрагменты, а не целые последовательности.) Надо создать репрезентативную выборку - там не должно быть слишком сходных последовательностей.
Можно использовать, например, консольную программу muscle на kodomo.
- сколько всего находок;
- сколько находок с E-value менее одной тысячной;
- каково максимальное E-value находки, выданное программой;
- чем оказался лимитирован список находок: порогом на E-value или максимальным числом находок?
- если список лимитирован максимальным числом находок, повторите поиск, увеличив максимальное число; постарайтесь добиться того, чтобы находок было меньше заданного максимума; в отчёте опишите, что делали и что получили (в частности, каково теперь максимальное E-value)
- а) Постройте карту локального сходства полипротеина вируса полиомиелита и полипротеина вируса ящура. В отчёт вставьте изображение карты, характеристики двух лучших выравниваний: проценты идентичных и сходных (Positives) остатков, длину участков в обоих белках, число гэпов, вес (Score): обычный (приведён в скобках) и в битах.
- б) Для двух лучших (с максимальным весом) локальных выравниваний определите названия зрелых белков, к которым относятся соответствующие участки полипротеинов.
Отметьте в выравнивании блоки. Присутствуют ли на N- и/или C-конце длинные невыровненные участки, которые различны у разных находок?
Укажите в отчёте:
2. Изменение длины слова
Измените длину слова с 6 на 2 и повторите поиск. Опишите отличия результата (если они есть), по тем же пунктам: общее число находок, число находок с E-value<0.001, максимальное E-value.
Для следующего задания: возьмите одну из находок данного поиска с достаточно хорошим (<0.001), но ненулевым E-value. Зайдите в соответствующую запись Swiss-Prot и спишите таксономию организма, из которого взят белок. Выберите один из достаточно "высоких" таксонов (но не самый высокий; лучше всего второй сверху). Запишите также E-value выравнивания с этой находкой.
3. Изменение объёма поиска
Повторите предыдущий поиск, ограничив его выбранным таксоном (банк тот же, длину слова оставьте равной 2). Найдите выбранную находку и сравните её E-value при этом поиске с E-value, полученном при предыдущем поиске. Сделайте вывод о количестве последовательностей белков из данного таксона в банке.
Может ли из-за изменения объёма поиска измениться Score (обычный или битовый)?
4. (* — дополнительно). Другие веб-интерфейсы BLASTP
Протестируйте два других популярных веб-интерфейса: на сайте Uniprot (с основной страницы Uniprot гиперссылка BLAST в левом верхнем углу) и/или на сайте Европейского биоинформатического института: https://www.ebi.ac.uk/Tools/sss/ncbiblast/ . Обратите внимание на возможности выбора параметров, в том числе доступные банки, а также на форму подачи результатов поиска. Опишите различия между интерфейсами и свои рекомендации, в каких ситуациях какой интерфейс может оказаться удобнее.
5. (* — дополнительно). Плохая матрица
Проверьте утверждение: если вместо BLOSUM62 использовать устаревшую матрицу аминокислотных замен PAM250, то E-value большинства хороших находок ухудшится, а самих находок станет меньше.
Карта локального сходства
1. Карта локального сходства двух полипротеинов
См. указания.
2. Сравнение веса выравнивания со случайным
Для двух пар белков: предположительно гомологичных (например, из упр. 1 практикума 9) и предположительно неродственных (например, из упр. 3 того же практикума) сравните вес оптимального локального выравнивания с весами оптимальных локальных выравниваний первого белка со 100 случайно перемешанными последовательностями второго. Оптимальное выравнивание ищите программой water при параметрах по умолчанию. В отчёте для каждой пары белков приведите: их идентификаторы, вес выравнивания, медиану и верхний квартиль весов "случайных" выравниваний, результат пересчёта веса в биты, вероятность получить такое же или лучшее выравнивание по случайным причинам.
Замечание: вероятность желательно приводить не в степенях двойки, а в более привычном виде, например 3∙10–9 или хотя бы 3e–9.2а. (* — не обязательно) Эффект смены параметров
Изучите, что произойдёт с результатами предыдущего упражнения при смене параметров программы water. Например, можно увеличить штраф за удлинение инделя ("Gap extension penalty") до 4 или заменить матрицу на BLOSUM90 или BLOSUM30 (в EMBOSS к названиям матриц прибавляется спереди E, например "EBLOSUM90").
2b. (* — не обязательно) Проверка формулы для перевода в биты
Сделайте не 100 перемешиваний, а 1000 и проверьте, действительно ли формула для пересчёта веса в биты даст для уровня верхней 1/8 весов случайных выравниваний значение в 3 бита (хотя бы приближённо).
3. BLAST: поиск гомологов в банке
Возьмите последовательность своего белка. Программой BLAST найдите в банке Swiss-Prot два белка с последовательностями, наиболее сходными с вашей. Для каждой из двух лучших находок приведите: её ID и AC в Swiss-Prot, организм, из которого взят белок, характеристики выравнивания — те же, что в упражнении 1а, плюс обязательно: "Expect" и процент покрытия вашего (исходного) белка выравниванием.
Если (такое изредка бывает) BLAST найдёт не одно, а больше выравниваний с одним и тем же белком, отметьте это и приведите характеристики обоих выравниваний.
Если для вашего белка ничего не находится, возьмите белок из резерва, упомянув это в отчёте.
См. указания.