Занятие 12. Множественные выравнивания

Построение множественное выравниваний - одна из основных задач биоинформатики.
Такие выравнивания нужны для предсказания функционально важных мотивов, для филогенетической реконструкции...
В процедуре построения множественных выравниваний можно выделить следующие этапы:
1) подготовка выборки полных аминокислотных последовательностей или последовательностей доменов;
2) построение выравнивания, выбор "разумного" варианта;
3) анализ полученного выравнивания.

 

Этап 1. Подготовка выборки гомологичных аминокислотных последовательностей

Упр.1 Дана одна аминокислотная последовательность, составить выборку последовательностей потенциальных гомологов с помощью BLASTP (поиск по SWISS-Prot)
Полные последовательности можно получить сразу в одном файле:
на страничке с результатами выберите нужные последовательности (здесь правильно выбирать с ID 40-60%), нажмите кнопку <Get selected sequence>. На открывшейся страничке выберите форму просмотра FASTA и пошлите последовательности в файл.
Это упраженение (поиск гомологов Вашего белка) уже было в третьем блоке, возможно, что Вы сочтете полезным его повторить.

Упр.2 Даны АС или ID UniProt нескольких белков, с помощью одного запроса в SRS получить один файл со всеми нужными полными последовательностями в формате FASTA.
Попробуйте выполнить это упражнение с гомологами Вашего белка, найденными ранее.

Упр.3 Даны идентификаторы полных последовательностей, получить выборку последовательностей доменов заданного типа.

Сначала надо выбрать тип домена и определить его положение в последовательности:
C помощью одного запроса в SRS получите краткое описание записей UniProt, затем выберите в меню Display Options опцию "SW_InterProMatches". На появившейся картинке можно выбрать какой-либо домен, общий для всех белков и узнать его границы в последовательности, подведя курсор к картинке.
Запишите в отдельный файл ID белка, тип домена и его границы.
Как вырезать домены?
Самый простой вариант - воспользоваться встроенным в SRS инструментом SeqretP.
Второй вариант (если все полученные записи - записи SWISS-Prot) - воспользоваться локальным вариантом SWISS-Prot и программой seqret из пакета EMBOSS, установленными на сервере kodomo-count:
seqret -sequence sw:myprotein_id outfile_name -sbegin 2 -send1 12
Третий вариант (если есть отдельные файлы с полными последовательностями в формате FASTA):
seqret infile outfile -sbegin 23 -send1 45

**Дополнительно:
Если подумать, то в и во втором, и в третьем случае можно написать скрипт, т.е. текстовый файл, который операционная система понимает как последовательно выполняемые команды. Каждая команда в скрипте приводится в виде отдельной строки. Используйте команды cat, чтобы все сразу записать в один файл. Для того, чтобы сделать ваш скрипт исполняемым, надо изменить тип файла с помощью команды chmod:
chmod +x my.script
./my.script
Попробуйте выполнить это упражнение с гомологами Вашего белка, найденными ранее.

Этап 2. Построение множественного выравнивания

Упр.4 Построить множественное выравнивание полных последовательностей, а также вырезанных доменов с помощью двух программ на kodomo-count:
а) с помощью emma (реализация алгоритма ClustalW в пакете EMBOSS);
в) с помощью muscle (алгоритм MUSCLE), синтаксис: мuscle -in infile_name -out resultfile_name
Все параметры пока по умолчанию.

Упр.5 Построить множественное выравнивание с помощью ClustalW, встроенного в SRS
Все параметры пока по умолчанию.

Упр.6 Получить готовое множественное выравнивание доменов из Pfam

Откройте главную страничку PFAM. На страничке с описанием конкретного домена можно получить выравнивание прототипных доменов (seed alignment), а также всех обнаруженных доменов данного типа (full) в разных форматах. Получив полное выравнивание в msf-формате, можно открыть его с помощью GeneDoc, отсортировать последовательности по именам и удалить ненужные. Часто бывает нужно сравнить домены белков из организмов разных таксонов. Как выбрать нужные? Откройте таксономическое дерево (кнопка <View Species Tree>, выберите нужные таксоны и получите выравнивание доменов из этих таксонов. К сожалению, оно будет не в стандартном формате, но названия нужных последовательностей Вы узнаете. Кроме того, можно обмануть GeneDoc: сохраните страничку с выравниванием PFAM как текст, откройте полученный файл с помощью редактора FAR, удалите ненужное с помощью контекстной замены, а вверху добавьте 3 строчки, первая - "CLUSTAL X ", вторая и третья -пустые.
Попробуйте выполнить это упражнение с N-концевым доменом Вашего белка, в качестве нужных таксонов возьмите пару из группы Bacillus и пару - из Pseudomonadales.

Упр.7 Полученные выравнивания импортировать в Genedoc, красным цветом отметить позиции консервативные на 100%, зеленым - на 80% и более, желтым - на более, чем 50%.
Номер аминокислотного остатка в последовательности и его позиция в выравнивании - это не одно и то же!
Genedoc показывает на нижней панели номер в последовательности для аминокислотного остатка, к которому подведен курсор.

Упр.8 Сравнить выравнивания с помощью программы infoalign EMBOSS.
Программа infoalign получает на вход одно выравнивание и выдает количественные характеристики сравнения каждой из выровненных последовательностей с заданной последовательностью. По умолчанию заданной является консенсусная последовательность, но можно задать любую из данного выравнивания. Полученные с помощью этой программы количественные характеристики, а также визуальные наблюдения в Genedoc - информация для размышления и выбора выравнивания...