Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2014

Занятие 12. PSI-BLAST. Множественное выравнивание (проект)

Дедлайн – 12 мая.


Дано: Последовательность "вашего" белка.

Задача: Построить множественное выравнивание последовательностей гомологов.

Результат: Протокол на сайте с описанием работы + проект JalView со всеми построенными выравниваниями.


Примечание. Задания, помеченные "*", являются дополнительными, не обязательными для зачета. ААл.


1. Для последовательности вашего белка составьте семейство гомологов, пользуясь PSI-BLAST. Ищите по банку SwissProt. Если хороших находок в SwissProt нет, то можно использовать банк RefSeq или nr.

На каждой итерации PSI-BLAST выдает список находок, среди которых отмечает те находки, которых не было на предыдущей итерации. По умолчанию для следующей итерации используются находки с E-value < 0.005 (этот порог можно при необходимости изменить). Внесите в протокол для каждой итерации количество находок лучше порога, появились ли новые находки на данной итерации, ID, score и E-value лучше и худшей находки (выше порога).

2. * Зависит ли список находок от того, с какой из последовательностей данного семейства вы начинали поиск? Возьмите другую последовательность из числа найденных, желательно наименее похожую на исходную. Повторите поиск как в п.1. Скачайте результаты поиска (Ссылка Download в самом верху страницы с результатами.) Для сравнения двух списков последовательностей можно использовать Excel (функция VLOOKUP или ВПР) или любой удобный для вас инструмент.

3. Постройте множественное выравнивание отобранных последовательностей при помощи программы muscle на сервере kodomo. При вызове без параметров программа отображает справочную информацию. Внесите в протокол команду, которой вы воспользовались для построения выравнивания.

4. Постройте множественное выравнивание типичных представителей данного семейства. Во многих семействах белков есть много почти одинаковых последовательностей. Работать с такими толстыми выравниваниями обычно неудобно. Полезно иметь выравнивание небольшого набора последовательностей - seed. Отберите 10-20 последовательностей среди своих находок. Выбирайте белки, гомологичные почти по всей длине (coverage = 70-90%). При этом в выборке не должно быть "почти идентичных" белков - выбирайте на глаз такие белки, чтобы все ID были на уровне ID = 50-60%. При этом гомологии должны быть достоверными (E-value < 1e-3 в результатах поиска).

Примечание. Эту задачу умеет решать JalView=> Edit => Remove redundancy и указываете процент сходных аминокислотных остатков такой, что в прореженном выравнивании не останеся последовательностей с таким и более высоким сходством. ААл.

5. Постройте множественное выравнивание тех же последовательностей при помощи программы mafft на сервере kodomo. Команда такая:

mafft infile.fasta > outfile.fasta

Допустимо второе выравнивание построить любой другой программой или сервисом (T-coffee, ProbCons, ClastalO). Укажите использованную команду или сервис в протоколе.

6. Сравните выравнивания, полученные в п.п.4 и 5. Два варианта действий:

muscle -profile -in1 one.afa -in2 two.afa -out both.afa

Затем откройте в JalView и покрасьте по группам.

Задача сравнения выравниваний сложна. Ожидаем, что в выравнивании двух выравниваний одних и тех же последовательностей вы отметите участки совпадения - т.е. те, на которых остатки в колонках первого выравнивания точно те же, что в колонках второго. И напишете комментарии в протоколе.

6.(*)Проверьте, изменяет ли выравнивание, полученное программой ClustalW, алгоритм оптимизации (refimnent), реализованный в muscle. ClustalW реализован в программе emma пакета EMBOSS. Также доступен из JalView как веб-сервис. Команда оптимизации уже построенного выравнивания такая:

muscle -in msa.afa -out refined_msa.afa -refine