Занятие 13. Типичные задачи для самоподготовкиПостроение множественного выравнивания и его исследование одна из основных задач биоинформатики.Это понадобится и для предсказания активных центров, и для филогенетической реконструкции...
В процедуре построения множественных выравниваний можно выделить следующие этапы:
Подготовка выборки гомологичных аминокислотных последовательностейУпр.1. Дана одна аминокислотная последовательность, составить выборку последовательностей потенциальных гомологов с помощью BLASTP (поиск по SWISS-Prot)Полные последовательности можно получить сразу в одном файле: на страничке с результатами выберите нужные последовательности (здесь правильно выбирать с ID 40-60%), нажмите кнопку <Get selected sequence>. На открывшейся страничке выберите форму просмотра FASTA и пошлите последовательности в файл. Это упраженение (поиск гомологов Вашего белка) уже было в третьем блоке, возможно, что Вы сочтете полезным его повторить. Упр.2. Даны АС или ID UniProt нескольких белков, с помощью одного запроса в SRS получить один файл со всеми нужными полными последовательностями в формате FASTA. Попробуйте выполнить это упражнение с гомологами Вашего белка, найденными ранее. Упр.3. Даны идентификаторы полных последовательностей, получить выборку последовательностей доменов заданного типа. Сначала надо выбрать тип домена и определить его положение в последовательности: C помощью одного запроса в SRS получите краткое описание записей UniProt, затем выберите в меню Display Options опцию "SW_InterProMatches". На появившейся картинке можно выбрать какой-либо домен, общий для всех белков и узнать его границы в последовательности, подведя курсор к картинке. Запишите в отдельный файл ID белка, тип домена и его границы. Как вырезать домены? Самый простой вариант - воспользоваться встроенным в SRS инструментом SeqretP. Второй вариант (если все полученные записи - записи SWISS-Prot) - воспользоваться локальным вариантом SWISS-Prot и программой seqret из пакета EMBOSS, установленными на сервере kodomo-count: seqret -sequence sw:myprotein_id outfile_name -sbegin 2 -send1 12 Третий вариант (если есть отдельные файлы с полными последовательностями в формате FASTA):seqret infile outfile -sbegin 23 -send1 45 **Дополнительно:Если подумать, то в и во втором, и в третьем случае можно написать скрипт, т.е. текстовый файл, который операционная система понимает как последовательно выполняемые команды. Каждая команда в скрипте приводится в виде отдельной строки. Используйте команды cat, чтобы все сразу записать в один файл. Для того, чтобы сделать ваш скрипт исполняемым, надо изменить тип файла с помощью команды chmod: chmod +x my.script ./my.scriptПопробуйте выполнить это упражнение с гомологами Вашего белка, найденными ранее. Построение и описание множественного выравниванияУпр.4 Построить множественное выравнивание полных последовательностей, а также вырезанных доменов с помощью двух программ на kodomo-count:а) с помощью emma (реализация алгоритма ClustalW в пакете EMBOSS); в) с помощью muscle (алгоритм MUSCLE), синтаксис: мuscle -in infile_name -out resultfile_name Все параметры пока по умолчанию. Упр.5 Построить множественное выравнивание с помощью ClustalW, встроенного в SRS Все параметры пока по умолчанию. Упр.6 Получить готовое множественное выравнивание доменов из Pfam Откройте главную страничку PFAM и найдите нужный домен. Используйте кнопку "Alignment" в левом фрейме для получения выравнивания прототипных доменов (seed alignment), а также всех обнаруженных доменов данного типа (full). Получив полное выравнивание в msf-формате, можно открыть его с помощью GeneDoc, отсортировать последовательности по именам и удалить ненужные. Часто бывает нужно сравнить домены белков из организмов разных таксонов. Как выбрать нужные? Откройте таксономическое дерево (кнопка <Species>), выберите нужные таксоны и получите выравнивание доменов из этих таксонов. Попробуйте выполнить это упражнение с N-концевым доменом Вашего белка, в качестве нужных таксонов возьмите пару из группы Bacillus и пару - из Pseudomonadales. Упр.7 Полученные выравнивания импортировать в Genedoc, красным цветом отметить позиции консервативные на 100%, зеленым - на 80% и более, желтым - на более, чем 50%. Номер аминокислотного остатка в последовательности и его позиция в выравнивании - это не одно и то же! Genedoc показывает на нижней панели номер в последовательности для аминокислотного остатка, к которому подведен курсор. Упр.8 Сравнить выравнивания с помощью программы infoalign EMBOSS. Программа infoalign получает на вход одно выравнивание и выдает количественные характеристики сравнения каждой из выровненных последовательностей с заданной последовательностью. По умолчанию заданной является консенсусная последовательность, но можно задать любую из данного выравнивания. Полученные с помощью этой программы количественные характеристики, а также визуальные наблюдения в Genedoc - информация для размышления и выбора выравнивания... Поиск мотивов и создание простейших распознающих правилУпр.9. Описать все известные мотивы в заданной последовательности с помощью ресурсов InterProУпр.10. По данному множественному выравниванию построить паттерн. Упр.11. Провести поиск в БД SwissProt последовательностей, удовлетворяющих данному паттерну с разной точностью. |