Учебная страница курса биоинформатики,
год поступления 2014
Занятие 9. Предсказание парных выравниваний
Дедлайн – 21 апреля 28 апреля.
Дано: Множественное выравнивание с прошлого занятия.
Задача: Построить семь парных выравниваний последовательностей, сравнить их и написать комментарии.
Результат:
- Протокол на сайте с описанием работы, включающий идентификаторы двух выбранных (наименее сходных) последовательностей из множественного выравнивания.
Проект JalView с окошками:
- с исходным множественным выравниванием
- с выравниванием, полученным удалением лишних последовательностей из данного множественного;
- с парным выравниванием выбранных последовательностей, построенным программой needle;
- то же, но с использованием программы water;
- то же, но с измененными параметрами программы needle;
- то же, но с измененными параметрами программы water;
- с глобальным парным выравниванием последовательностей заведомо не гомологичных белков;
- с локальным парным выравниванием заведомо не гомологичных белков.
Выберите две наименее схожих последовательности.
Один из способов такой – выбрать в меню Calculate -> Principal component analysis. Будет показано трехмерное координатное пространство, точки в нем соответствуют последовательностям, причем, чем более сходны последовательности, тем они ближе расположены. Если кликнуть на две удаленные друг от друга точки, то в выравнивании будут выделяться соответствующие последовательности. См. пояснение про метод главных компонент.
- Можно и на глаз - с обоснованием в протоколе
Оставьте в выравнивании только выровненные последовательности
- откройте множественное выравнивание еще раз
- удалите все последовательности, кроме выбранных
- удалите все пустые колонки
сохраните парное выравнивание в проекте JalView с двумя окнами: исходное множественное выравнивание; парное выравнивание.
Сохраните две выбранные последовательности в файлах seq1.fasta и seq2.fasta в формате fasta.
- выделите обе последовательности
сделайте окно с копией выравнивания двух последовательностей: правая кнопка мыши => selection => output to text block, fasta => new window
- удалите все символы гэпа из обеих последовательностей: меню Edit
- выделяйте по одной и сохраняйте в text box и копируйте в файл
Выровняйте последовательности четыре раза (п.п. iii - vi)и сохраните выравнивание в формате fasta в файлах needle.fasta, water.fasta, needle_1.fasta, water_1.fasta
- Программы needle и water входят в пакет EMBOSS, установленный на kodomo. Для запуска войдите на kodomo, используя putty.
- needle строит глобальное парное выравнивание. Подсказки по команде можно получить, используя команды “needle -help -verbose” или “tfm needle” (так же - для всех остальных программ пакета EMBOSS)
- пример использования команды:
needle -asequence seq1.fasta -bsequence seq2.fasta -outfile neede.fasta -aformat3 fasta
- опции -asequence, -bsequence, -outfile можно не писать, если имена файлов идут в правильном порядке:
needle seq1.fasta seq2.fasta neede.fasta -aformat3 fasta
опции можно сокращать, если по сокращениям программа может догадаться о чем речь); например, -af fasta; опции (кроме имен файлов без прямых указаний -outfile ... и т.п.) можно указывать в произвольном порядке до и после имен файлов; замечания относятся ко всем командам пакета EMBOSS.
- water строит локальное парное выравнивание; все так же, как для needle
- основные дополнительные параметры программ needle и water такие:
- матрица весов замен [по умолчанию BLOSUM62],
- gap open [= 10], extension [= 0.5]
- измените их при повторном запуске и посмотрите что получится; с помощью опций -help -verbose найдите, как задавать изменения параметров
- например, для глобального выравнивания уменьшите штраф за открытие гэпа, а для локального – штраф за его продолжение или матрицу. Выбор, какие параметры в каком случае изменять – ваш, опишите его в протоколе.
Постройте парное выравнивания последовательностей двух заведомо негомологичных белков.
- Например, “вашего” белка и того, с которым работает любой другой студент. Используйте программы needle и water.
- Те же действия, что раньше. Файлы с последовательностями назовите, например, так: my.fasta и friend.fasta. Выравнивания - nonhomologous_needle.fasta
Откройте все построенные выравнивания в разных окнах JalView и сохраните проект.
Сравните парные выравнивания: (1) построенное из множественного: (2) построенное программой. Опишите различия
- как МИНИМУМ, сравнение С ОДНИМ, построенным программой; выбирайте не совпадающие полностью выравнивания!
- как максимум - со всеми (чем больше, тем выше оценка, конечно)
- в окно с выравниванием, построенным программой, добавьте парное выравнивание, полученное из множественного:
- сохраните второе в text box;
в окне с первым File => add sequences => from textbox и скопируйте в него из др окна text box; => add
- теперь в окне два парных выравнивания ожних и тех же последовательностей; выровняйте вручную эти два выравнивания друг относительно друга так, чтобы ОДИНАКОВЫЕ колонки стояли друг под другом
- колонки двух выравниваний одинаковы если в них стоят аминокислотные остатки с теми же номерами (конечно, из этого следует, что и буквы одни и те же)
- для ручного выравнивания двигайте обе последовательности одновременно - не нарушая их выравнивания. Для этого надо выделить обе последовательности и двигать мышкой удерживая Ctrl.
сохраните проект JalView
- в протоколе укажите координаты одного участка различия, число различающихся колонок в каждом из выравниваний, и рисунок, включающий по пять совпадающих колонок двух выравниваний с каждого из концов от участка с различиями сравниваемых выравниваний
ВНИМАНИЕ! ТИПИЧНАЯ ОШИБКА! Для того, чтобы сравнить два выравнивания, нам надо установить, какие колонки присутствуют в обоих выравниваниях (например, Lys125 расположен в одной колонке с Arg345 как в первом, так и во втором выравнивании), а какие колонки присутствуют только в одном из выравниваний. Как это сделать? Надо выровнять два выравнивания друг относительно друга. Вероятно, придется вставлять гэпы в одно из выравниваний (не нарушая его). Пусть нам дано два выравнивания (двух одинаковых последовательностей)
AANTR AACTT
и
AAN-TR AA-CTT
У них есть 4 общие колонки. Чтобы это продемонстрировать надо вставить гэпы в обе последовательности первого выравнивания:
AA-NTR AA-CTT AAN-TR AA-CTT ** **
Символом "*" обозначены колонки, которые присутствуют в обоих выравниваниях. Заметьте, что это не обязательно консервативные позиции! Это то, что ожидается в качестве резельтата задания. Большинство пытаются найти участок совпадения просто перемещая одно выравнивание относительно другого, не добавляя гэпов. Обычно это означает, что многие колонки, которые есть в обоих выравниваниях, отмечаются, как участки различий между ними.
- Напишите свои комментарии о
- проценте идентичных колонок, колонок со сходными остатками, числе гэпов в "хороших" выравниваниях и "плохих" (Плохое - выравнивание не гомологичных последовательностей)
- различиях в выравнивании тех же последовательностей при разных способах его построения
- сравнении локального и глобального выравнивания (какое лучше?)
- сравнении парного со множественным (какое лучше?)
Для получения численных значений процента кконсервативных колонок в выравнивании (Identiy), колонок со сходными остатками (Similarity), числе гэпов используйте программу infoalign (EMBOSS). Сохраните исследуемое парное выравнивание в формате fasta и запустите infoalign с параметрами "-refseq 1". В этом случае вы получите таблицу, в которой указан процент отличий и совпадений между первой и второй последовательностями.
По поводу выдачи infoalign. AlignLen - это длина выравнивания минус длина концевых гэпов, вставленных в ЭТУ последовательность. При этом AlignLen = SeqLen (число а.к. в последовательности) + GapLen (количество гэповых символов, кроме концевых гэпов).
Чтобы посчитать "честную" длину выравнивания можно добавить по одному символу в начало и конец каждой последовательности. Только из результатов тогда надо будет вычесть 2, а также пересчитать %ID, %positives, etc.
- Удобно свести эти данные в таблицу.
На будущее
1. Principal component убрать. Результаты он выдает глупые, часть получается найти вообще две самые близкие последовательности, когда надо наоборот.