Учебная страница курса биоинформатики,
год поступления 2014
Занятие 12. PSI-BLAST. Множественное выравнивание (проект)
Дедлайн – 12 мая.
Дано: Последовательность "вашего" белка.
Задача: Построить множественное выравнивание последовательностей гомологов.
Результат: Протокол на сайте с описанием работы + проект JalView со всеми построенными выравниваниями.
Примечание. Задания, помеченные "*", являются дополнительными, не обязательными для зачета. ААл.
1. Для последовательности вашего белка составьте семейство гомологов, пользуясь PSI-BLAST. Ищите по банку SwissProt. Если хороших находок в SwissProt нет, то можно использовать банк RefSeq или nr.
На каждой итерации PSI-BLAST выдает список находок, среди которых отмечает те находки, которых не было на предыдущей итерации. По умолчанию для следующей итерации используются находки с E-value < 0.005 (этот порог можно при необходимости изменить). Внесите в протокол для каждой итерации количество находок лучше порога, появились ли новые находки на данной итерации, ID, score и E-value лучше и худшей находки (выше порога).
- Желательный результат: стабилизация результата очередной итерации, т.е. список находок выше порога совпадает со списком последовательностей, поданных на вход. Если не удалось стабилизировать результат, то выполните не менее 5-и итераций
- Качество результата также определяется ступенькой E-value между худшей "правильной" находкой и "лучшей" неправильной: чем больше эта ступенька, тем вероятнее, что находки составляют семейство гомологичных белков
- При необходимости, можно изменить порог E-value отсечения хороших находок (E=0.005 по умолчанию)
- Сохраните последовательности найденных белков. В разделе Descriptions
выдитить все находки выше порога (ссылка All), затем Download -> complete sequences. Стоит отметить, что Download -> aligned sequences позволяет скачать не выравнивание, как можно было бы подумать, а найденные участки последовательностей в формате FASTA.
2. * Зависит ли список находок от того, с какой из последовательностей данного семейства вы начинали поиск? Возьмите другую последовательность из числа найденных, желательно наименее похожую на исходную. Повторите поиск как в п.1. Скачайте результаты поиска (Ссылка Download в самом верху страницы с результатами.) Для сравнения двух списков последовательностей можно использовать Excel (функция VLOOKUP или ВПР) или любой удобный для вас инструмент.
3. Постройте множественное выравнивание отобранных последовательностей при помощи программы muscle на сервере kodomo. При вызове без параметров программа отображает справочную информацию. Внесите в протокол команду, которой вы воспользовались для построения выравнивания.
4. Постройте множественное выравнивание типичных представителей данного семейства. Во многих семействах белков есть много почти одинаковых последовательностей. Работать с такими толстыми выравниваниями обычно неудобно. Полезно иметь выравнивание небольшого набора последовательностей - seed. Отберите 10-20 последовательностей среди своих находок. Выбирайте белки, гомологичные почти по всей длине (coverage = 70-90%). При этом в выборке не должно быть "почти идентичных" белков - выбирайте на глаз такие белки, чтобы все ID были на уровне ID = 50-60%. При этом гомологии должны быть достоверными (E-value < 1e-3 в результатах поиска).
Примечание. Эту задачу умеет решать JalView=> Edit => Remove redundancy и указываете процент сходных аминокислотных остатков такой, что в прореженном выравнивании не останеся последовательностей с таким и более высоким сходством. ААл.
5. Постройте множественное выравнивание тех же последовательностей при помощи программы mafft на сервере kodomo. Команда такая:
mafft infile.fasta > outfile.fasta
Допустимо второе выравнивание построить любой другой программой или сервисом (T-coffee, ProbCons, ClastalO). Укажите использованную команду или сервис в протоколе.
6. Сравните выравнивания, полученные в п.п.4 и 5. Два варианта действий:
Cоздайте окно в JalView, куда загрузите оба выравнивания и раскрасьте по группам. Отредактируйте эту пару выравниваний так, чтобы одни и те же блоки оказались друг под другом. (Как это делали с парными выравниваниями в задании 10.)
- Используйте программу muscle для построения выравнивания двух выравниваний. Команда такая:
muscle -profile -in1 one.afa -in2 two.afa -out both.afa
Затем откройте в JalView и покрасьте по группам.
Задача сравнения выравниваний сложна. Ожидаем, что в выравнивании двух выравниваний одних и тех же последовательностей вы отметите участки совпадения - т.е. те, на которых остатки в колонках первого выравнивания точно те же, что в колонках второго. И напишете комментарии в протоколе.
6.(*)Проверьте, изменяет ли выравнивание, полученное программой ClustalW, алгоритм оптимизации (refimnent), реализованный в muscle. ClustalW реализован в программе emma пакета EMBOSS. Также доступен из JalView как веб-сервис. Команда оптимизации уже построенного выравнивания такая:
muscle -in msa.afa -out refined_msa.afa -refine