Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2013

Занятие 10. Предсказание парных выравниваний

Дедлайн – 25 апреля. Критерии оценки – такие же, как в задании про PubMed.


Дано: Множественное выравнивание и пространственное совмещение двух белков, последоватлеьности которых записаны в двух последних срочках.

Выравнивания и совмещения.

Задача: Построить правильное парное выравнивание последовательностей и проверить его на соответствие пространственному совмещению.

Правильное выравнивание - то, в котором (i) гомологичные остатки стоят в одной колонке, и эта колонка входит в отмеченный участок правильного выравнивания; (ii) вне участков правильного выравнивания гомологичных остатков нет. Проверить выравнивание можно совмещением структур, если они есть. При отсутствии структур приходится ориентироваться на сходство последовательностей, что и делают программы. Программы могут делать ошибки, заметные человеку.

Результат: 1. Проект JalView с окошками: (1) с исходным множественным выравниванием; (2) с парным выравниванием и выравниванием needle - всего 4е последовательности в двух группах + разметка (задания 6-7); (3) с парным выравниванием заведомо негомологичных белков (задание 4); (4*) с вашим правильным выравниванием с разметкой (задание 7) и разметкой по структуре (задание 8); 2. Протокол с описанием работы.

1. Получите парное выравнивание последних двух последовательностей из множественного. Для этого удалите из множественного выравнивания (afqk aln_xx.fasta) все остальные последовательности и все пустые колонки. Сохраните парное выравнивание в проекте JalView с двумя окнами: исходное множественное выравнивание; парное выравнивание.

2. Постройте глобальное выравнивание последних двух последовательностей в формате fasta. Программа needle на kodomo. Описание параметров – “needle -help” или “tfm needle”; опции -asequence, -bsequence, -outfile можно не писать, если имена файлов идут в правильном порядке; в формате выходного файла по умолчанию выдаются параметры выравнивания; для сохранения в формате fasta используйте опцию -aformat3 fasta; название опции можно сокращать: -aform fasta и даже -af тоже сработает - если у команды нет других опций, начинающихся с -af; опции можно указывать в произвольном порядке до и после имен файлов; замечания относятся ко всем командам пакета EMBOSS. Результат - выравнивание в формате по умолчанию и в fasta формате.

3. Постройте наилучшее локальное выравнивание последних двух последовательностей в формате fasta при помощи программы water на kodomo (описание параметров – “water --help” или “tfm water”).

4. Постройте парное выравнивания последовательностей двух заведомо негомологичных белков, например, “вашего” белка и того, с которым работает любой другой студент. Используйте программы needle и water. Сохраните в форматах по умолчанию и в fasta.

5. Внесите в протокол таблицу параметров выравниваний 1-4: длина выравнивания, т.е. число колонок; число и процент совпадений; число и процент сходных остатков (Similarity); число и процент гэпов (символов "-" или "." или "~"); число открытий гэпов. Для выравнивания п.2 можно использовать программу infoalign (EMBOSS) с параметрами (здесь будет уточнение). Объясните различия.

6. Опишите один участок различия выравниваний, полученных в пп. 1-2. К парному выравниванию п.1 в JalView добавьте выравнивание п.2 (File => add sequences). Двигайте обе новые последовательности одновременно - не нарушая их выравнивания - так, чтобы добиться совпадения с выравниванием тех же последовательностей в исходном множественном выравнивании. Для этого надо выделить обе последовательности и двигать мышкой удерживая Ctrl. Сохраните проект JalView. В протоколе укажите координаты участка различия, число различающихся колонок в каждом из выравниваний, и рисунок, включающий по пять совпадающих колонок двух выравниваний с каждого из концов от участка с различиями сравниваемых выравниваний. Напишите комментарий.

ВНИМАНИЕ! ТИПИЧНАЯ ОШИБКА! Для того, чтобы сравнить два выравнивания, нам надо установить, какие колонки присутствуют в обоих выравниваниях (например, Lys125 расположен в одной колонке с Arg345 как в первом, так и во втором выравнивании), а какие колонки присутствуют только в одном из выравниваний. Как это сделать? Надо выровнять два выравнивания друг относительно друга. Вероятно, придется вставлять гэпы в одно из выравниваний (не нарушая его). Пусть нам дано два выравнивания (двух одинаковых последовательностей)

AANTR
AACTT

и

AAN-TR
AA-CTT

У них есть 4 общие колонки. Чтобы это продемонстрировать надо вставить гэпы в обе последовательности первого выравнивания:

AA-NTR
AA-CTT
AAN-TR
AA-CTT
**  **

Символом "*" обозначены колонки, которые присутствуют в обоих выравниваниях. Заметьте, что это не обязательно консервативные позиции! Это то, что ожидается в качестве резельтата 6-го задания. Большинство пытаются найти участок совпадения просто перемещая одно выравнивание относительно другого, не добавляя гэпой. Обычно это означает, что многие колонки, которые есть в обоих выравниваниях, отмечаются, как участки различий между ними.

7. Проверьте правильность выравниваний, полученных в пп.1-2. Используйте окно в JalView, полученной в п. 6 (4 строчки, содержащие два выравнивания). Добавьте для каждого из двух выравниваний две строки с аннотациями.

В первой строке отмечайте знаком + те колонки, в которых данное выравнивание можно считать (с вашей точки зрения) достоверным (есть значительное сходство последовательностей на протяженном участке или данный участок в достоверный участок (класер) в множественном выравнивании). Для этого кликните мышкой на поле слева снизу, где Conservation => правая кнопка => Add row, Correct alignment; затем выделяете столбцы участка, мышка на красной полосе, правая кнопка => label, вносите "+".

Во второй строке отметьте знаком S колонки, которые соотвествуют совмещению пространственных структур. Используйте программу SupCheck. Для этого скачайте все файлы из папки aln_xx. Сохраните проверяемое выравнивание в файл aln_xx.fasta. Названия последовательностей в *.fasta-файле должны совпадать (case-sensitive) с названиями, приведенными в файле sup_check.ini в квадратных скобках. Запустите программу sup_check.exe. Затем откройте файл aln_xx.pdb в RasMol (не в Jmol) и запустите скрипт alb_xx.scr. Этот скрипт последовательно показывает вам аминокислоты, расположенные в первой, второй, третьей и так далее колонках выравнивания. Переход к следующей колонке - клавиша пробел. Узнать, какие аминокислоты выделены в конкретный момент, можно, кликнув на них мышкой.

Сравните эти два выравнивания (из пп.1 и 2): сколько ошибок 1го и 2го рода обнаружено? Одна ошибка 1го рода: C_alpha атомы пары остатков в колонке выравнивания, отмеченной "+", в структуре, очевидно, не совмещаются. Сомнения трактуйте в свою пользу. Одна ошибка 2го рода: C_alpha атомы двух остатков, очевидно, хорошо совмещаются, но соответствующие буквы либо не находятся в одной колонке, либо в одной колонке, но колонка не отмечена "+".

ВНИМАНИЕ! ТИПИЧНАЯ ОШИБКА! Обратите внимание, что знаком + надо отмечать те колонки, в которых данное выравнивание можно считать (с вашей точки зрения) достоверным (есть значительное сходство последовательностей на протяженном участке или данный участок в достоверный участок (класер) в множественном выравнивании). Многие отмечают этим знаком все совпадающие аминокислоты. Такие разметки не тождественны!!! Одиночные совпавшие аминокислоты вне достаточно длинного участка с такими совпадениями не свидетельствуют о гомологии остатков (достоверности выравнивания). Чтобы убедиться в этом, вы выполняли задание по выравниванию негомологичных белков. Несовпадающие аминокислоты внутри участка, где есть много совпадений и нет гэпов, следует считать гомологичными.

Пример правильной разметки

ACT----RTGHPKLTSWQTLK
RCDGHDEATGHYKLTAWNTHK
        +++++++++++++

Пример неправильной разметки

ACT----RTGHPKLTSWQTLK
RCDGHDEATGHYKLTAWNTHK
 +      +++ +++ + + +

Если такая разметка выполнена неправильно, то и описание ошибок 1-го и 2-го рода получается ошибочным.

8*. Постройте "правильное" парное выравнивание. Правильность определяете вы исходя из сходства двух последовательностей и множественного выравнивания, включающего эти два последовательности. Правильное выравнивание может полностью совпадать с выравниванием полученным в п.1 или 2, либо (скорее всего) содержать участки из этих двух выравниваний.

Результатом должно быть (i) парное выравнивание как проект JalView с разметкой участков правильного, на ваш взгляд, выравнивания (мышкой на поле слева снизу, где Conservation => правая кнопка => Add row, Correct alignment; затем выделяете столбцы участка, мышка на красной полосе, правая кнопка => label, вносите "+"); (ii) то же выравнивание в формате fasta.

Проверьте правильность "правильного" парного выравнивания по пространственным структурам.