Учебная страница курса биоинформатики,
год поступления 2013
Занятие 9. Понятие о выравнивании
Дедлайн – 15 апреля. Критерии оценки – такие же, как в задании про PubMed.
Выполненные задания также надо записывать в очередь на проверку. Состояние очереди можно посмотреть тут.
Задания выполняется с помощью редактора выравниваний Jalview (инструкция).
- Сохраняйте результат как ПРОЕКТ в формате jar. Сохраняются одновременно все окна, раскраски и др.
Используйте раскраску ClustalX или BLOSUM62, консервативность "Above identity threshold", процент >70%.
Дано: множественное выравнивание; одно из этих, на ваш выбор
ВНИМАНИЕ: Во многих заданиях (в этом и следующих практикумах) требуется привести в качестве результаты некое выравнивание или последовательность. Есть разные способы это сделать. Очень хорошо поместить в отчет картинку с выравниванием, которое еще и раскрашено должным образом (например, ClustalX или BLOSUM62,консервативность Above identity threshold - процент зависит от задания). Это позволяет читателю оценить, что вы построили, непосредственно в процессе чтения отчета. НО ЭТОГО АБСОЛЮТНО НЕДОСТАТОЧНО! У читателя любого вашего текста может возникнуть необходимость самому работать с построенным вами объектом (например, с выравниванием). Поэтому в любой работе необходимо приводить не только изображение выравнивания (последовательности), но и само выравнивание (последовательность) в одном из распространенных форматов: проект в формате jar (из Jalveiw), FASTA.
1. Найдите в выравнивании участки, на которых можно ожидать гомологию аминокислотных остатков из разных последовательностей:
два участка, на которых для каждой колонки можно ожидать гомологию между остатками из ВСЕХ последовательностей (вертикальный блок) б. участок, на котором остатки двух или более последовательностей, предположительно, гомологичны, а остатки остальных - скорее не гомологичны им (точнее, нет данных за их гомологичность); участок может пересекаться с блоками п.a, но может и не пересекаться.
Откройте выравнивание программой JalView. Раскраска ClistalX или BLOSUM62, консервативность >70%. Найдите нужные блоки. Сохраните каждый в отдельном окне JalView: выделить блок мышкой; правая кнопка: selection -> out to text box; -> Fasta -> new window. Импортируйте картинки для html страницы. Сохраните проект. Опишите результат в протоколе, чтобы потом перенести комментарии на сайт.
2. Посчитайте число и процент абсолютно консервативных позиций; абсолютно функционально консервативных (соответственно раскраске ClustalX); консервативных и функционально консервативных на 70% Это задание надо выполнять для одного из блоков, найденных в задании 1a.
3. Выберите участок выравнивания, содержащий близко расположенные вертикальные блоки. Посчитайте число и процент позиций с гепами. "Близко расположенные" - оценивайте на глаз; конечно, меньше чем 100 позиций между; лучше - в пределах 10.
4. Добавьте в выравнивание последовательность и выровняйте её вручную относительно блока из 1а. Для выравнивания alnXXX.fasta используйте последовательность seqdumpXXX.fasta.
Воспользуйтесь меню File->Add sequence. Используйте Select -> Find для поиска в последовательности консервативных мотивов (небольших участков), которые встречаются в выравнивании блока. Как перемещать часть последовательности см. в инструкции по JalView. Сохраните получившийся результат в отдельном окошке и поместите на сайт.
5.Сохраните консенсусную последовательность и LOGO выбранного блока.
Воспользуйтесь программой cons на сервере http://emboss.bioinformatics.nl/ или скопируйте консенсус из JalView (кликнуть правой кнопкой на слове Consensus).
Воспользуйтесь сервисом http://weblogo.berkeley.edu/logo.cgi
6. Постройте множественное "выравнивание" заведомо негомологичных (не родственных) белков. Найдите два самых лучших "блока", включающих не менее половины последовательностей, приведите их на html странице (и ссылку на "выравнивание" не забудьте!).
Выберете 5 - 7 любых последовательностей из список белков, с которыми работают другие студенты вашего курса. Откройте JalView, импортируйте их: File -> Fetch sequences, укажите базу данных и AC последовательностей. Постройте выравнивание: web services -> Alignment -> muscle with default. Далее - как в задании 1. Выводы внесите в протокол и на сайт.
a. Для того, чтобы скачать последовательность удобно пользоваться командой seqret на сервере kodomo. Ее синтаксис можно узнать командой tfm seqret. Другой способ – вкладка Retrieve на сайте http://www.uniprot.org/ .
b. Постройте множественное выравнивание при помощи программы muscle.
Создайте список последовательностей в формате FASTA. Далее есть два способа: 1. Импортируйте эти последовательности в JalView (File->Input Alignment->…->New Window) и запустите Muscle на удаленном веб-сервисе (WebService->Alignment). 2. Воспользуйтесь программой muscle на сервере kodomo.
Сохраните полученное “выравнивание”.
c. Каков процент консервативных колонок в получившемся “выравнивании”?
b. Найдите в исходном выравнивании пару последовательностей, для которых характерно значительное сходство на участке, на котором сходство между другими последовательностями отсутствует. Это должен быть участок длины около 15-20 аминокислот, из которых совпадает примерно 10. Удобно использовать сортировку по сходству (Calculate->Sort).
Найдите в выравнивании консервативные и неконсервативные колонки, консервативные и неконсервативные участки и индели.
a. Для одного из выделенных блоков укажите наиболее и наименее консервативную колонку. (Условимся искать эти колонки среди тех, где в большинстве последовательностей стоит буква, а не гэп.)
b. Найдите наиболее консервативный участок длиной 5-6 колонок. Придется придумать свой критерий консервативности (какой участок более консервативен – 5 колонок, из которых четыре абсолютно консервативны, а пятая – вообще неконсервативна, или 5 колонок, каждая из которых содержит какую-то одну букву в 90% последовательностей?). Этот критерий должен быть описан в отчете.
c. Найдите участок в выравнивании блока, соответствующий инделям.
В отчете по пп. А-В укажите номера колонок в выравнивании, которое вы построили в п.1.
Подсказка: в выравнивании есть два блока длиной более 30 аминокислот, которые включают в себя почти все последовательности.
d. Выдвиньте и обоснуйте предположение о предковой последовательности, соответствующей участкам, найденным в пп. a-c. (“У предковой последовательности в данной позиции была аминокислота такая-то/вставка была/вставки не было/невозможно установить предковую последовательность”). Для простоты можно считать, что если подавляющее большинство последовательностей устроено каким-то одним образом, то также была устроена и предковая последовательность. Строго говоря, это не совсем верно (почему?), но об этом вы подробно узнаете на втором курсе.