Учебная страница курса биоинформатики,
год поступления 2012
8. Множественное выравнивание
Задания для этого практикума специально сформулированы кратко, зато в подсказках вас ждут полотна текста, объясняющие как и почему можно выполнять задания. Этот практикум, как вы убедитесь, достаточно объемный и сильно нагруженный биологической информацией, поэтому я призываю вас НЕ ОТКЛАДЫВАЯ В ДОЛГИЙ ЯЩИК приступить к его выполнению и активно спрашивать преподавателей, если что-то не получается или возникают другие вопросы.
Форма отчета по практикуму
Результаты вашей работы должны быть оформлены в виде web-страницы.
1. Составление репрезентативной выборки гомологов вашего белка с помощью BLAST
Для составления репрезентативной, но не очень объемной выборки гомологов вы будете делать выборку по различным таксонам прокариот и проверять, встречается ли ваш белок у эукариот. Пункты подсказок 1 и 2 объясняют, как следует это сделать. Результатом этой деятельности должно быть следующее:
FASTA-файл, содержащий последовательности 20-30 гомологов вашего белка из разных таксонов прокариот. Обратите внимание, что этот файл НЕ МОЖЕТ содержать первые 20-30 хитов BLAST для вашего белка, исключая тот практически невероятный сейчас случай, что у вашего белка есть ровно 20-30 хитов. Не забудьте добавить к этой выборке также последовательность своего белка, по которому проводился поиск.
- Таблица, описывающая финальные параметры BLAST, использованные для поиска (см. пример в Таблице 1).
Таблица 1. |
Образец таблицы с параметрами BLAST |
Поиск |
Алгоритм BLAST |
Название базы данных |
Ограничения по таксонам |
Порог e-value |
Максимальное количество хитов |
По прокариотам |
|
|
|
|
|
По эукариотам |
|
|
|
|
|
2. Редакция названий последовательностей выборки, анализ ее состава
Создайте копию FASTA-файла с выборкой и поменяйте любым известным образом названия последовательностей. Мне известно два способа - с помощью написания специального скрипта на любом языке программирования и вручную, но может быть есть специальные программы, например, на kodomo, позволяющие сделать это еще умнее. Так или иначе, названия последовательностей следует сократить, чтобы в название включался только идентификатор в базе данных и название организма, и убрать из него все пробелы, заменив их на "_". Заодно составьте таблицу, описывающую сделанную выборку (образец приведен в Таблице 2): ее нужно будет представить в отчете. Количество строк таблицы - это количество организмов, которые вы отобрали из разных филумов. Названия филумов (латинские) в целях единообразия следует отсортировать по алфавиту внутри каждого из доменов отдельно (как это сделано в таблице с таксономией прокариот, см. подсказки). Выделите любым удобным образом строку таблицы, отвечающую организму, содержащую ваш белок.
Обратите внимание: для своего белка используйте в качестве имени его идентификатор Uniprot, что-то вроде "XXXXX_BACSU".
Таблица 2. |
Образец таблицы встречаемости белков в различных таксонах |
Домен |
Филум/Царство |
Название организма |
Количество белков |
Archaea |
|
|
|
Bacteria |
|
|
|
Eukaryotes |
|
|
|
3. Построение множественного выравнивания последовательностей
Постройте множественное выравнивание последовательностей выборки с измененными именами с помощью любой программы, которую предлагает использовать сервис Европейского Биоинформатического Института EBI. Лично мне нравится программа Muscle, но я абсолютно не настаиваю на ее использовании. Сохраните файл с выравниванием в формате FASTA, так как он универсален и с ним обычно не бывает никаких проблем.
Запомните, какой программой было построено множественное выравнивание. Если при его построении вы меняли какие-то параметры по умолчанию, укажите в отчете, что это были за параметры и почему вы решили их поменять.
4. Анализ множественного выравнивания с помощью JalView
Загрузите полученное множественное выравнивание в браузер JalView. Цель этого задания состоит в том, чтобы добавить 3 новых строки аннотации (Annotation):
- Новую строку аннотации выравнивания, которая будет содержать информацию о известной трехмерной структуре белка;
- Еще одну строку аннотации, которая будет показывать функционально важные остатки белка;
- Строку, в которой вы пометите те участки выравнивания, которые вы могли бы назвать "блоками" (см. примеры в презентации про матрицу BLOSUM, например).
Подробности о том, как сделать это, приведены в подсказках.
5 (*, необязательное для зачета). Редакция выравнивания
Рассмотрите участки множественного выравнивания, соответствующие элементам вторичной структуры белка. Если в них имеются колонки, почти полностью состоящие из гэпов, выясните, нельзя ли их удалить путем сдвигания какого-то одного или пары белков, причем сдвигания, которое не повлечет нарушения выравнивания в хорошо выровненных сайтах.
Рассмотрите участки выравнивания, где явно есть консервативность по всей толщине выравнивания (блоки). Есть ли последовательности, которые не содержат наборов консервативных остатков (сайтов) в этих блоках? Если есть, то может быть, эти последовательности просто ошибочно сдвинуты программой на пару остатков, в результате чего какой-то "вес" увеличился, но реальное соответствие оказалось утеряно? Попробуйте исправить эти ошибки.
Для отчета добавьте в отдельное окно проекта JalView исходный результат программы множественного выравнивания, сохраните его в виде картинки и на ней любым образом отмечайте участки, которые вы правите).
Что должно появиться на вашей страничке-отчете по этому заданию:
Раздел, озаглавленный "Создание репрезентативной выборки гомологов белка XXXXX_BACSU", где XXXXX_BACSU, соответственно, идентификатор Вашего белка.
В этом разделе опишите (в виде связного текста) какие действия и почему вы совершили, чтобы получить выборку гомологов белка. Заполненные (и корректно введенные в текст, а не ВНЕЗАПНО появившиеся) таблицы 1 и 2 (см. образцы выше) должны быть представлены в этом же разделе.
Раздел, озаглавленный "Множественное выравнивание гомологов белка XXXXX_BACSU"
В этом разделе приведите полную картину выравнивания (в виде ссылки на нее или в виде маленького изображения, которое при клике должно разворачиваться в ЧИТАБЕЛЬНОЕ большое). Если выравнивание было улучшено, об этом должно быть (а) явно написано в тексте, и (б) нужно привести также картинку неулучшенного выравнивания с пометками, где было внесено исправление. Сделайте подробную подпись к картинке, которая должна обязательно описывать то, какими цветами покрашены какие остатки, какой % консервативности использовался как cut-off для цвета, что означают строки аннотации и т.п.
Раздел, озаглавленный "Результаты анализа множественного выравнивания гомологов белка XXXXX_BACSU"
Ответьте на вопросы: (1) как бы вы оценили консервативность выравнивания в целом? (2) как соотносятся участки консервативности в вашем белке и элементы вторичной структуры? почему? (3) в каких участках белка выравнивание самое плохое (то есть отсутствующее, по сути)? почему?
Оцените качественно, больше или меньше "колонок-гэпов" (то есть колонок, в которых стоит знак гэпа у всех последовательностей кроме пары-тройки) приходится на элементы вторичной структуры по сравнению с другими участками белка. Насколько соответствуют участкам вторичной структуры выделенные вами "блоки"? Опишите, по каким критериям вы выбирали их.
Проиллюстрируйте изменчивость или консервативность остатков, которые связывают лиганд(ы) в вашем белке, на его трехмерной структуре (в подсказках есть советы, как подготовить нужный рисунок). Опишите, какие из этих остатков полностью консервативны в сделанной выборке, какие слабо консервативны, какие вообще не консервативны. На какие другие остатки заменяются обычно слабо консервативные связывающие лиганд остатки? Можно ли на основании данного множественного выравнивания сказать, что какие-то из гомологов вашего белка способны связывать этот лиганд, а какие-то - нет (то есть провести для этих неисследованных белков функциональное предсказание)?
DEADLINE для оформления web-страницы:
- Для группы 2 (лекция 3 апреля) = 10 апреля (?)
- Для группы 1 (лекция 10 марта) = 12 апреля (?)