Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2014

Занятие 9. Предсказание парных выравниваний

Дедлайн – 21 апреля 28 апреля.


Дано: Множественное выравнивание с прошлого занятия.

Задача: Построить семь парных выравниваний последовательностей, сравнить их и написать комментарии.

Результат:

  1. Протокол на сайте с описанием работы, включающий идентификаторы двух выбранных (наименее сходных) последовательностей из множественного выравнивания.
  2. Проект JalView с окошками:

    1. с исходным множественным выравниванием
    2. с выравниванием, полученным удалением лишних последовательностей из данного множественного;
    3. с парным выравниванием выбранных последовательностей, построенным программой needle;
    4. то же, но с использованием программы water;
    5. то же, но с измененными параметрами программы needle;
    6. то же, но с измененными параметрами программы water;
    7. с глобальным парным выравниванием последовательностей заведомо не гомологичных белков;
    8. с локальным парным выравниванием заведомо не гомологичных белков.


  1. Выберите две наименее схожих последовательности.

    • Один из способов такой – выбрать в меню Calculate -> Principal component analysis. Будет показано трехмерное координатное пространство, точки в нем соответствуют последовательностям, причем, чем более сходны последовательности, тем они ближе расположены. Если кликнуть на две удаленные друг от друга точки, то в выравнивании будут выделяться соответствующие последовательности. См. пояснение про метод главных компонент.

    • Можно и на глаз - с обоснованием в протоколе
  2. Оставьте в выравнивании только выровненные последовательности

    • откройте множественное выравнивание еще раз
    • удалите все последовательности, кроме выбранных
    • удалите все пустые колонки
    • сохраните парное выравнивание в проекте JalView с двумя окнами: исходное множественное выравнивание; парное выравнивание.

  3. Сохраните две выбранные последовательности в файлах seq1.fasta и seq2.fasta в формате fasta.

    • выделите обе последовательности
    • сделайте окно с копией выравнивания двух последовательностей: правая кнопка мыши => selection => output to text block, fasta => new window

    • удалите все символы гэпа из обеих последовательностей: меню Edit
    • выделяйте по одной и сохраняйте в text box и копируйте в файл
  4. Выровняйте последовательности четыре раза (п.п. iii - vi)и сохраните выравнивание в формате fasta в файлах needle.fasta, water.fasta, needle_1.fasta, water_1.fasta

    • Программы needle и water входят в пакет EMBOSS, установленный на kodomo. Для запуска войдите на kodomo, используя putty.
    • needle строит глобальное парное выравнивание. Подсказки по команде можно получить, используя команды “needle -help -verbose” или “tfm needle” (так же - для всех остальных программ пакета EMBOSS)
    • пример использования команды:

   needle  -asequence seq1.fasta -bsequence seq2.fasta -outfile neede.fasta -aformat3 fasta

   needle  seq1.fasta  seq2.fasta neede.fasta -aformat3 fasta

опции можно сокращать, если по сокращениям программа может догадаться о чем речь); например, -af fasta; опции (кроме имен файлов без прямых указаний -outfile ... и т.п.) можно указывать в произвольном порядке до и после имен файлов; замечания относятся ко всем командам пакета EMBOSS.

  1. Постройте парное выравнивания последовательностей двух заведомо негомологичных белков.

    • Например, “вашего” белка и того, с которым работает любой другой студент. Используйте программы needle и water.
    • Те же действия, что раньше. Файлы с последовательностями назовите, например, так: my.fasta и friend.fasta. Выравнивания - nonhomologous_needle.fasta
  2. Откройте все построенные выравнивания в разных окнах JalView и сохраните проект.

  3. Сравните парные выравнивания: (1) построенное из множественного: (2) построенное программой. Опишите различия

    • как МИНИМУМ, сравнение С ОДНИМ, построенным программой; выбирайте не совпадающие полностью выравнивания!
    • как максимум - со всеми (чем больше, тем выше оценка, конечно)
    • в окно с выравниванием, построенным программой, добавьте парное выравнивание, полученное из множественного:
      • сохраните второе в text box;
      • в окне с первым File => add sequences => from textbox и скопируйте в него из др окна text box; => add

    • теперь в окне два парных выравнивания ожних и тех же последовательностей; выровняйте вручную эти два выравнивания друг относительно друга так, чтобы ОДИНАКОВЫЕ колонки стояли друг под другом
    • колонки двух выравниваний одинаковы если в них стоят аминокислотные остатки с теми же номерами (конечно, из этого следует, что и буквы одни и те же)
    • для ручного выравнивания двигайте обе последовательности одновременно - не нарушая их выравнивания. Для этого надо выделить обе последовательности и двигать мышкой удерживая Ctrl.
    • сохраните проект JalView

    • в протоколе укажите координаты одного участка различия, число различающихся колонок в каждом из выравниваний, и рисунок, включающий по пять совпадающих колонок двух выравниваний с каждого из концов от участка с различиями сравниваемых выравниваний

ВНИМАНИЕ! ТИПИЧНАЯ ОШИБКА! Для того, чтобы сравнить два выравнивания, нам надо установить, какие колонки присутствуют в обоих выравниваниях (например, Lys125 расположен в одной колонке с Arg345 как в первом, так и во втором выравнивании), а какие колонки присутствуют только в одном из выравниваний. Как это сделать? Надо выровнять два выравнивания друг относительно друга. Вероятно, придется вставлять гэпы в одно из выравниваний (не нарушая его). Пусть нам дано два выравнивания (двух одинаковых последовательностей)

AANTR
AACTT

и

AAN-TR
AA-CTT

У них есть 4 общие колонки. Чтобы это продемонстрировать надо вставить гэпы в обе последовательности первого выравнивания:

AA-NTR
AA-CTT
AAN-TR
AA-CTT
**  **

Символом "*" обозначены колонки, которые присутствуют в обоих выравниваниях. Заметьте, что это не обязательно консервативные позиции! Это то, что ожидается в качестве резельтата задания. Большинство пытаются найти участок совпадения просто перемещая одно выравнивание относительно другого, не добавляя гэпов. Обычно это означает, что многие колонки, которые есть в обоих выравниваниях, отмечаются, как участки различий между ними.

  1. Напишите свои комментарии о
    • проценте идентичных колонок, колонок со сходными остатками, числе гэпов в "хороших" выравниваниях и "плохих" (Плохое - выравнивание не гомологичных последовательностей)
    • различиях в выравнивании тех же последовательностей при разных способах его построения
    • сравнении локального и глобального выравнивания (какое лучше?)
    • сравнении парного со множественным (какое лучше?)


По поводу выдачи infoalign. AlignLen - это длина выравнивания минус длина концевых гэпов, вставленных в ЭТУ последовательность. При этом AlignLen = SeqLen (число а.к. в последовательности) + GapLen (количество гэповых символов, кроме концевых гэпов).

Чтобы посчитать "честную" длину выравнивания можно добавить по одному символу в начало и конец каждой последовательности. Только из результатов тогда надо будет вычесть 2, а также пересчитать %ID, %positives, etc.