Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2015

Практикум 10: Построение парных выравниваний. Поиск по сходству

Дано: последовательность вашего белка.

Требуется: собрать выборку гомологов, построить выравнивания.


Протокол должен содержать:


Как показать преподавателям условия поиска.

  1. Войдите в личный кабинет на сайте NCBI (My NCBI -> Sign in). Если еще не зарегистрировались - регистрируйтесь.

  2. На странице с результатами поиска нажмите Save Search Stratagy. Скачайте файл по ссылке download и дайте ссылку на него в протоколе.
  3. В дальнейшем вы всегда можете получить доступ к этим условиям по ссылке Saved Stratages на начальной странице BLAST.


1. Соберите выборку гомологов вашего белка при помощи программы BLASTP из базы Refseq. Запустите BLASTP на сайте NCBI. Не забудьте указать базу данных. Обратите внимание на дополнительные параметры. Если находится слишком много гомологов (больше 1000) или BLAST работает слишком медленно, ограничьте поиск каким-то таксоном (например, бактериями или эукариотами). Сохраните параметры поиска и приведите ссылку в протоколе (см. подсказку сверху).

Внесите в протокол число находок. Есть ли находки, гомологичные вашему белку по всей длине (query cover > 80%)?

Для трех находок (лучшей, худшей и любой из середины списка) внесите в протокол - длину выравнивания, bit score, % идентичных и сходных остатков, E-value, выравнивание (которое построил blast). Обратите внимание, что если E-value для наихудшей находки сильно меньше порога 0.01, значит, скорее всего, вы неправильно задали параметры поиска.

Сколько из полученных находок можно считать гомологами целой исходной последовательности? Можно использовать такой условный критерий - найден гомолог всей вашей последовательности, если E-value < 1e-3 и не менее 70% запроса вошло в полученное выравнивание (Query cover).

* Учтите, что приведенный выше критерий - не есть истина в последней инстанции. Есть ли среди находок те, которые вы все-таки считаете гомологами исходной последовательности, хотя они и не удовлетворяют такому критерию. Обоснуйте ваше мнение.

Сохраните выборку 20-30 полных последовательностей гомологов вашего белка в формате fasta. (Прим. При сохранении только aligned sequences вы скачаете только найденные бластом фрагменты, а не целые последовательности.) Надо создать репрезентативную выборку - там не должно быть слишком сходных последовательностей.

2. Постройте множественное выравнивание последовательностей из полученной выборки. Можно использовать, например, консольную программу muscle на kodomo.

Отметьте в выравнивании блоки. Присутствуют ли на N- и/или C-конце длинные невыровненные участки, которые различны у разных находок?

3. Постройте глобальное и локальное парные выравнивания вашего белка и худшей находки из выборки. Используйте консольные программы needle и water на kodomo. (Параметр --help покажет, как получить выравнивания в формате fasta.)

Также получите их парное выравнивание из построенного множественного (удалите из множественного все остальные последовательности).

Четыре полученных выравнивания:

поместите в одно окно в JalView и создайте 4 соответствующие группы.

4. Выровняйте полученные выравнивания между собой. Для этого смещайте в JalView обе последовательности из соответствующего выравнивания. Колонки, которые одинаковы в разных выравниваниях должны оказаться друг под другом.

Совпадает ли участок, найденный программами BLAST и water?

Есть ли участки, на которых выравнивания различаются? Сохраните в протоколе изображение одного участка (5-10 аминокислот), где хотя бы два выравнивания различны.

ВНИМАНИЕ! ТИПИЧНАЯ ОШИБКА! Для того, чтобы сравнить два выравнивания, нам надо установить, какие колонки присутствуют в обоих выравниваниях (например, Lys125 расположен в одной колонке с Arg345 как в первом, так и во втором выравнивании), а какие колонки присутствуют только в одном из выравниваний. Как это сделать? Надо выровнять два выравнивания друг относительно друга. Вероятно, придется вставлять гэпы в одно из выравниваний (не нарушая его). Пусть нам дано два выравнивания (двух одинаковых последовательностей)

AANTR
AACTT

и

AAN-TR
AA-CTT

У них есть 4 общие колонки. Чтобы это продемонстрировать надо вставить гэпы в обе последовательности первого выравнивания:

AA-NTR
AA-CTT
AAN-TR
AA-CTT
**  **

Символом "*" обозначены колонки, которые присутствуют в обоих выравниваниях. Заметьте, что это не обязательно консервативные позиции! Это то, что ожидается в качестве резельтата задания. Большинство пытаются найти участок совпадения просто перемещая одно выравнивание относительно другого, не добавляя гэпов. Обычно это означает, что многие колонки, которые есть в обоих выравниваниях, отмечаются, как участки различий между ними.

5. Постройте парные выравнивания последовательностей двух заведомо негомологичных белков. Например, вашего белка и того, с которым работает любой другой студент. Используйте программы needle и water.

Поместите полученные выравнивания в окно JalView и сравните их, как в предыдущем задании.