Занятие 13. Типичные задачи для самоподготовки

Построение множественного выравнивания и его исследование — одна из основных задач биоинформатики.
Это понадобится и для предсказания активных центров, и для филогенетической реконструкции...

В процедуре построения множественных выравниваний можно выделить следующие этапы:
первый этап – подготовка выборки полных аминокислотных последовательностей или последовательностей доменов;
второй этап – построение выравнивания;
третий этап – анализ и верификация полученного выравнивания.

При поиске функционально важных мотивов в изучаемой а.к. последовательности важно уметь следующее:

определить, какие мотивы можно найти в данной последовательности;
*оценить точность совпадения с мотивом;
описать доменную структуру заданного белка, найти другие белки с той же архитектурой;
создать простейшие распознающие правила (паттерн или PSSM), провести поиск последовательностей, удовлетворяющих этому правилу, оценить результат поиска.

Подготовка выборки гомологичных аминокислотных последовательностей

Упр.1. Дана одна аминокислотная последовательность, составить выборку последовательностей потенциальных гомологов с помощью BLASTP (поиск по SWISS-Prot)
Полные последовательности можно получить сразу в одном файле:
на страничке с результатами выберите нужные последовательности (здесь правильно выбирать с ID 40-60%), нажмите кнопку <Get selected sequence>. На открывшейся страничке выберите форму просмотра FASTA и пошлите последовательности в файл.
Это упраженение (поиск гомологов Вашего белка) уже было в третьем блоке, возможно, что Вы сочтете полезным его повторить.

Упр.2. Даны АС или ID UniProt нескольких белков, с помощью одного запроса в SRS получить один файл со всеми нужными полными последовательностями в формате FASTA.
Попробуйте выполнить это упражнение с гомологами Вашего белка, найденными ранее.

Упр.3. Даны идентификаторы полных последовательностей, получить выборку последовательностей доменов заданного типа.
Сначала надо выбрать тип домена и определить его положение в последовательности:
C помощью одного запроса в SRS получите краткое описание записей UniProt, затем выберите в меню Display Options опцию "SW_InterProMatches". На появившейся картинке можно выбрать какой-либо домен, общий для всех белков и узнать его границы в последовательности, подведя курсор к картинке. Запишите в отдельный файл ID белка, тип домена и его границы.
Как вырезать домены?
Самый простой вариант - воспользоваться встроенным в SRS инструментом SeqretP.
Второй вариант (если все полученные записи - записи SWISS-Prot) - воспользоваться локальным вариантом SWISS-Prot и программой seqret из пакета EMBOSS, установленными на сервере kodomo-count:

seqret -sequence sw:myprotein_id outfile_name -sbegin 2 -send1 12

Третий вариант (если есть отдельные файлы с полными последовательностями в формате FASTA):

seqret infile outfile -sbegin 23 -send1 45

**Дополнительно:
Если подумать, то в и во втором, и в третьем случае можно написать скрипт, т.е. текстовый файл, который операционная система понимает как последовательно выполняемые команды. Каждая команда в скрипте приводится в виде отдельной строки. Используйте команды cat, чтобы все сразу записать в один файл. Для того, чтобы сделать ваш скрипт исполняемым, надо изменить тип файла с помощью команды chmod:

chmod +x my.script
./my.script

Попробуйте выполнить это упражнение с гомологами Вашего белка, найденными ранее.

Построение и описание множественного выравнивания

Упр.4 Построить множественное выравнивание полных последовательностей, а также вырезанных доменов с помощью двух программ на kodomo-count:
а) с помощью emma (реализация алгоритма ClustalW в пакете EMBOSS);
в) с помощью muscle (алгоритм MUSCLE), синтаксис: мuscle -in infile_name -out resultfile_name
Все параметры пока по умолчанию.

Упр.5 Построить множественное выравнивание с помощью ClustalW, встроенного в SRS
Все параметры пока по умолчанию.

Упр.6 Получить готовое множественное выравнивание доменов из Pfam

Откройте главную страничку PFAM и найдите нужный домен.
Используйте кнопку "Alignment" в левом фрейме для получения выравнивания прототипных доменов (seed alignment), а также всех обнаруженных доменов данного типа (full). Получив полное выравнивание в msf-формате, можно открыть его с помощью GeneDoc, отсортировать последовательности по именам и удалить ненужные. Часто бывает нужно сравнить домены белков из организмов разных таксонов. Как выбрать нужные? Откройте таксономическое дерево (кнопка <Species>), выберите нужные таксоны и получите выравнивание доменов из этих таксонов.
Попробуйте выполнить это упражнение с N-концевым доменом Вашего белка, в качестве нужных таксонов возьмите пару из группы Bacillus и пару - из Pseudomonadales.

Упр.7 Полученные выравнивания импортировать в Genedoc, красным цветом отметить позиции консервативные на 100%, зеленым - на 80% и более, желтым - на более, чем 50%.
Номер аминокислотного остатка в последовательности и его позиция в выравнивании - это не одно и то же!
Genedoc показывает на нижней панели номер в последовательности для аминокислотного остатка, к которому подведен курсор.

Упр.8 Сравнить выравнивания с помощью программы infoalign EMBOSS.
Программа infoalign получает на вход одно выравнивание и выдает количественные характеристики сравнения каждой из выровненных последовательностей с заданной последовательностью. По умолчанию заданной является консенсусная последовательность, но можно задать любую из данного выравнивания. Полученные с помощью этой программы количественные характеристики, а также визуальные наблюдения в Genedoc - информация для размышления и выбора выравнивания...

Поиск мотивов и создание простейших распознающих правил

Упр.9. Описать все известные мотивы в заданной последовательности с помощью ресурсов InterPro

Упр.10. По данному множественному выравниванию построить паттерн.
Упр.11. Провести поиск в БД SwissProt последовательностей, удовлетворяющих данному паттерну с разной точностью.