Учебная страница курса биоинформатики,
год поступления 2014
Занятие 8. Понятие о выравнивании
- Дедлайн – 15 апреля.
Задания выполняется с помощью редактора выравниваний Jalview (инструкция).
Результат выполнения практикума - файл в формате JAR (JavView project) + отчет на странице с заданием. В этом проекте должны быть представлены окна с результатами выполнения всех заданий. Лишних окон быть не должно! Каждое окно должно быть подписано именем типа "task_01". См. раздел "Дать название окну" в подсказках по JalView.
- Убедительная просьба - при записи в очередь не добавлять разные практикумы одной записью. Например, если в одной строчке меня просят проверить практикумы 1, 2 и 3, - то что я должен на писать в качестве результата?
Дано: множественное выравнивание; одно из этих, на ваш выбор.
ВНИМАНИЕ: Во многих заданиях (в этом и следующих практикумах) требуется привести в качестве результаты некое выравнивание или последовательность. Есть разные способы это сделать. Очень хорошо поместить в отчет картинку с выравниванием, которое еще и раскрашено должным образом (например, ClustalX или BLOSUM62,консервативность Above identity threshold - процент зависит от задания). Это позволяет читателю оценить, что вы построили, непосредственно в процессе чтения отчета. НО ЭТОГО АБСОЛЮТНО НЕДОСТАТОЧНО! У читателя любого вашего текста может возникнуть необходимость самому работать с построенным вами объектом (например, с выравниванием). Поэтому в любой работе необходимо приводить не только изображение выравнивания (последовательности), но и само выравнивание (последовательность) в одном из распространенных форматов: проект в формате jar (из Jalveiw), FASTA.
1. Откройте выравнивание в JalView. Создайте изображения с раскраской BLOSUM62 с порогом консервативноcти 30 и ClustalX.
Последовательности в выравнивании должны быть отсортированы по сходству. Для этого выделите все последовательности и постройте дерево (меню Calculate) любым доступным в JalView методом. Затем Calculate -> Sort -> и отсортируйте по дереву.
2. Найдите в выравнивании участки, на которых можно ожидать гомологию аминокислотных остатков из разных последовательностей:
Вертикальные блоки, то есть участки, на которых для каждой колонки можно ожидать гомологию между остатками из ВСЕХ последовательностей вертикальный блок. См. определение блока в [словаре терминов]. Используйте следующие функциональные группы аминокислот (для выявления функционально консервативных позиций) - все гидрофобные, все гидрофильные, все ароматические, все положительно заряженные, все отрицательно заряженные, сходные по структуре доноры или акцепторы водородных связей (например, серин+треонин+цистеин).
b. Можно ли объединить блоки в кластеры? См. определение кластера в [словаре терминов].
В проекте JalView добавьте строку разметки (см. "Как разметить выравнивание" в подсказках). Вертикальные блоки отмечайте символом B, участки между блоками, объединяемыми в один кластер - символом С.
- c. Самый длинный участок, не входящий в состав блоков и кластеров.
Отметьте его символом X.
- d. участок, на котором остатки двух или более последовательностей, предположительно, гомологичны, а остатки остальных - скорее негомологичны им (точнее, нет данных за их гомологичность). Требуется найти те колонки, в которых есть пары остатков, предположительно гомологичные между собой, а также остатки, о гомологии которых с первыми нет достаточных сведений.
В проекте JalView создайте отдельное окно, в котором объедините найденные последовательности в одну группу и отметьте найденный участок символом H.
Опишите свои аргументы в пользу гомологии отдельных остатков в данных последовательностях. Возможные аргументы:
- Высокое сходство этих последовательностей между собой при отсутствии сходства с другими последовательностями
- Эти последовательности входят в состав "кластера", который состоит не из всех последовательностей в выравнивании. Например, если во всех последовательностях выравнивания, кроме какой-то одной, длина участка между кластерами одинакова. Или если последовательности делятся на две группы, так что в каждой из групп этот участок имеет свою точно определенную длину. Надо проявлять осторожность при выделении таких "невертикальных кластеров". Например, если в выравнивании встречаются последовательности с длиной такого участка составляет 3, 4, 5, 8 и 9 а.к., то это означает, что в этом месте происходит много инделей и установить гомологию между отдельными аминокислотами нельзя.
3. Посчитайте число и процент абсолютно консервативных позиций; абсолютно функционально консервативных (соответственно раскраске ClustalX); консервативных и функционально консервативных на 70% Это задание надо выполнять для одного из блоков или кластера.
Для самого длинного участка выравнивания, не входящего в состав блоков и кластеров (задание 2c) посчитайте число и процент позиций с гепами.
4. Добавьте в выравнивание последовательность и впишите её вручную в исходное выравнивание Для выравнивания align_XX.fasta используйте последовательность sequence_XX.fasta.
Воспользуйтесь меню File->Add sequence. Как перемещать часть последовательности см. в инструкции по JalView. Сохраните получившийся результат в отдельном окне.
5. Попытайтесь добавить в выравнивание заведомо негомологичную последовательность.
Возьмите, например, последовательность своего белка. Если она сильно длиннее вашего выравнивания, - возьмите любое ее участок соответствующей длины. Если сильно короче - повторите ее нужное число раз.
Разрешается добавлять гэпы в тех участках выравнивания, где они есть в выровненных последовательностях. Ваша задача - "найти" максимальное число совпадений вашей последовательностями с консервативными позициями в блоках из вашего выравнивания. Какой процент таких позиций удалось "найти"?
6. Постройте множественное "выравнивание" заведомо негомологичных (не родственных) белков. Найдите два самых лучших "блока", включающих не менее половины последовательностей, приведите их на html странице (и ссылку на "выравнивание" не забудьте!).
Выберете 5 - 7 любых последовательностей из списка белков, с которыми работают другие студенты вашего курса. Откройте JalView, импортируйте их: File -> Fetch sequences, укажите базу данных и AC последовательностей. Постройте выравнивание: web services -> Alignment -> muscle with default. Далее - как в задании 2. Выводы внесите в протокол и на сайт.
На будущее
1. В презенташку добавить четкое описание того, что такое гомология. Между последовательностями, участками и остатками.
2. Какие-нибудь слайды про то, как идет эволюция. Я все равно постоянно опернирую понятиями предковой последоватеьности, дерева и пр, что правильно. На примере показать, что вот тут так буквы менялись, а тут эдак, вот это мы имеем ввиду, когда говорим, что они гомологи.
3. В определении кластера - не все понимают, что если между блоками вообще нет гэпов, то это тоже кластер. Там "все гэпы имеют длину такую-то" - формально правильно, но сбивает с толка, люди начинают думать, что гэпы там обязательны.
4. Ввести (вообще во всем блоке) формальные требования к оформлению. И жестко снижать баллы за неисполнение. Это важно - не только сделать работу, но и удобно ее представить. Все выравнивания в проекте должны быть подписаны и удобно расположены в проекте, чтобы не приходилось искать нужное окно. Никакого лишнего мусора там быть не должно, а то лди вываливают черновики. Протокол - в public_html в виде веб-страницы, а не в ворде, и не где попало.
5. Помимо презентации положить текст с четким описанием того, как устанавливать гомологию между буквами. И почему из таких технических определений следует факт гомологии. Эта логика должна быть прописана: а) если блок - то буквы в колонке гомологи. потому что случайное появление маловерроятно. значит, у предка был такой мотив, и в эволюции были только замены. значит, эти буквы произошли путем какого-то количества замен от предковой. б) если между блоками нет гэпов, то значит тут никогда не было инделей. так устроены эти белки, что у них тут у всех одинаковое число букв. следовательно, - как в п.а в) если все гэпы одинаковой длины - на всю длину промежутка между блоками. можно рассмотреть отдельно - вставку одной ак в одной последовательности, длинную вставку в одной последовательности, делецию в одной последовательности, и когда последовательности в половине случаев имеют длинную вставку одной длины, а в половине - нет. + пример, когда участки разной длины.
Жестко объяснить, что гомология не устанавливается по физико-химическим свойствам или по BLOSUM.
Жестко требовать понимания этой логики. Без понимания зачет не ставить.
6. объяснить, что для толстых выравниваний технические критерии блоков могут быть другими. Можно на последнем занятии - где Pfam.
7. Тут и везде - важную часть оценки должны составлять баллы за качество протокола.
8. Подумать о штрафах за попытки. Несправедливо, что человек, который сдал с третьей попытки, получает такой же балл, как и с первом, если в конце концов выполнено правильно.
9. Ну и проверять вовремя.