Этап 1. Подготовка выборки гомологичных аминокислотных последовательностей |
||
Упр.1 Дана одна аминокислотная последовательность, составить выборку последовательностей потенциальных
гомологов с помощью BLASTP (поиск по SWISS-Prot) Полные последовательности можно получить сразу в одном файле: на страничке с результатами выберите нужные последовательности (здесь правильно выбирать с ID 40-60%), нажмите кнопку <Get selected sequence>. На открывшейся страничке выберите форму просмотра FASTA и пошлите последовательности в файл. Это упраженение (поиск гомологов Вашего белка) уже было в третьем блоке, возможно, что Вы сочтете полезным его повторить. |
||
Упр.2 Даны АС или ID UniProt нескольких белков, с помощью одного запроса в SRS получить один файл со всеми нужными полными последовательностями в формате FASTA. Попробуйте выполнить это упражнение с гомологами Вашего белка, найденными ранее. |
||
Упр.3
Даны идентификаторы полных последовательностей, получить выборку последовательностей доменов заданного типа. Сначала надо выбрать тип домена и определить его положение в последовательности: C помощью одного запроса в SRS получите краткое описание записей UniProt, затем выберите в меню Display Options опцию "SW_InterProMatches". На появившейся картинке можно выбрать какой-либо домен, общий для всех белков и узнать его границы в последовательности, подведя курсор к картинке. Запишите в отдельный файл ID белка, тип домена и его границы. Как вырезать домены? Самый простой вариант - воспользоваться встроенным в SRS инструментом SeqretP. Второй вариант (если все полученные записи - записи SWISS-Prot) - воспользоваться локальным вариантом SWISS-Prot и программой seqret из пакета EMBOSS, установленными на сервере kodomo-count: seqret -sequence sw:myprotein_id outfile_name -sbegin 2 -send1 12 Третий вариант (если есть отдельные файлы с полными последовательностями в формате FASTA): seqret infile outfile -sbegin 23 -send1 45 **Дополнительно: Если подумать, то в и во втором, и в третьем случае можно написать скрипт, т.е. текстовый файл, который операционная система понимает как последовательно выполняемые команды. Каждая команда в скрипте приводится в виде отдельной строки. Используйте команды cat, чтобы все сразу записать в один файл. Для того, чтобы сделать ваш скрипт исполняемым, надо изменить тип файла с помощью команды chmod: chmod +x my.script ./my.scriptПопробуйте выполнить это упражнение с гомологами Вашего белка, найденными ранее. |
||
Этап 2. Построение множественного выравнивания |
||
Упр.4 Построить множественное выравнивание полных последовательностей,
а также вырезанных доменов с помощью двух программ на kodomo-count: а) с помощью emma (реализация алгоритма ClustalW в пакете EMBOSS); в) с помощью muscle (алгоритм MUSCLE), синтаксис: мuscle -in infile_name -out resultfile_name Все параметры пока по умолчанию. |
||
Упр.5 Построить множественное выравнивание с помощью ClustalW, встроенного в SRS Все параметры пока по умолчанию. |
||
Упр.6 Получить готовое множественное выравнивание доменов из Pfam Откройте главную страничку PFAM. На страничке с описанием конкретного домена можно получить выравнивание прототипных доменов (seed alignment), а также всех обнаруженных доменов данного типа (full) в разных форматах. Получив полное выравнивание в msf-формате, можно открыть его с помощью GeneDoc, отсортировать последовательности по именам и удалить ненужные. Часто бывает нужно сравнить домены белков из организмов разных таксонов. Как выбрать нужные? Откройте таксономическое дерево (кнопка <View Species Tree>, выберите нужные таксоны и получите выравнивание доменов из этих таксонов. К сожалению, оно будет не в стандартном формате, но названия нужных последовательностей Вы узнаете. Кроме того, можно обмануть GeneDoc: сохраните страничку с выравниванием PFAM как текст, откройте полученный файл с помощью редактора FAR, удалите ненужное с помощью контекстной замены, а вверху добавьте 3 строчки, первая - "CLUSTAL X ", вторая и третья -пустые. Попробуйте выполнить это упражнение с N-концевым доменом Вашего белка, в качестве нужных таксонов возьмите пару из группы Bacillus и пару - из Pseudomonadales. |
||
Упр.7 Полученные выравнивания импортировать в Genedoc,
красным цветом отметить позиции консервативные на 100%, зеленым - на 80% и более, желтым - на более, чем 50%.
Номер аминокислотного остатка в последовательности и его позиция в выравнивании - это не одно и то же! Genedoc показывает на нижней панели номер в последовательности для аминокислотного остатка, к которому подведен курсор. |
||
Упр.8 Сравнить выравнивания с помощью программы infoalign EMBOSS. Программа infoalign получает на вход одно выравнивание и выдает количественные характеристики сравнения каждой из выровненных последовательностей с заданной последовательностью. По умолчанию заданной является консенсусная последовательность, но можно задать любую из данного выравнивания. Полученные с помощью этой программы количественные характеристики, а также визуальные наблюдения в Genedoc - информация для размышления и выбора выравнивания... |