Учебный сайт Алены Корягиной

Предсказание парных выравниваний

Парное выравнивание — выравнивание двух последовательностей белков. Построить правильно парное выравнивание, в котором гомологичные остатки стоят в одной колонке, и эта колонка входит в отмеченный участок правильного выравнивания, а вне этих участков гомологичных остатков нет, задача не из легких. Существует несколько способов построить парное выравнивание.

Один из способов построения парного выравнивания — получить его из множественного выравнивания гомологичных последовательностей. Было взято это множественное выравнивание и из него выделено последние две последовательности (см. рис.1).

Для построения глобального выравнивания, выравнивания по всей длине последовательностей, можно использовать программу needle пакета EMBOSS на сервере kodomo. Результатом работы этой программы для выбранных двух последовательнстей стали два файла с выравниванием: в формате .needle и в формате .fasta. В файле формата .needle помимо самого выравнивания сохраняются различные параметры выравнивания (см. табл.1).

Также с помощью программы water пакета EMBOSS на сервере kodomo возможно получить локальное выравнивание (выравнивание какого-либо участка последовательностей). Аналогично программе needle, результатом работы water стали два файла с выравниванием: в формате .water и в формате .fasta.

Для анализа результатов и наглядного сравнения параметров парных выравниваний гомологичных и негомологичных последовательностей с помощью вышеуказанных программ были построены глобальное (файлы форматов .needle и .fasta) и локальное (файлы форматов .water и .fasta) выравнивания для двух заведомо негомологичных последовательностей. Параметры каждого выравнивания внесены в таблицу 1. Значения параметров были взяты из файлов формата .neddle и .water.

Таблица 1.Параметры парных выравниваний.

Вид последовательности Тип выравнивания Длина выравнивания Число совпадений Процент совпадений Число сходных остатков Процент сходных остатков Число гэпов Процент гэпов Число открытий гэпов Вес выравнивания
Гомологичные последовательности глобальное 166 39 23.5% 56 33.7% 54 32.5% 8 103.5
локальное 96 33 34.4% 47 49.0% 11 11.5% 4 117.5
Негомологичные последовательности глобальное 213 14 6.6% 21 9.9% 170 79.8% 5 11.5
локальное 45 8 17.8% 16 35.6% 2 4.4% 1 25.5

Из таблицы видно, что выравнивания негомологичных последовательностей имеют плохие показатели:малое количество совпадающих и сходных аминокислотных остатков, огромное количество гэпов (для глобального выравнивания), малый вес выравнивания и маленькая длина участка локального выравнивания. Что касаемо гомологичных последовательностей, то их глобальное выравнивание также не очень хороши: малое количество совпадающих и сходных аминокислотных остатков, большое число гэпов. Зато локальное выравнивание имеет хорошие показатели. Если обратиться к самому глобальному выравниванию (см. рис 1), то станет понятно, что последовательности не гомологичны по всей длине, а имеют длинный гомологичный участок, отсюда большое количество гэпов на концах последовательностей в глобальном выравнивании и, следовательно, плохие параметры.

Далее было сравнено выравнивание, полученное из множественного, с выравниванием, полученным с помощью needle (рис.1). Для их совмещения были добавлены гэпы в первое выравнивание в позиции 1-10, 50-53 и во второе в позиции 17, 143-152, 155. Было обнаружено 3 участка, на которых выравнивания различаются. На участке, расположенном с 43 по 53 позицию программа needle предпочла совпадения аминокислот пролина и гистидина, одному открытию на четыре гэпа. По всей видимости, за счет этого повысился вес выравнивания. Проект в формате jar вы можете скачать здесь.

Рис.1. Сравнение двух выравниваний. Первое выравнивание получено из множественного выравнивания, второе - с помощью программы needle. Красными рамочками выделены участки, на которых выравнивания различны. Ниже выравнивания расположены аннотации. Рисунок получен с помощью Jalview.

Для каждого из двух выравниваний было добавлено по две строки аннотации. В каждой первой аннотации (Correct alignment 1, correct alignment 2) знаком + отмечены те колонки, в которых, на мой взгляд, выравнивания являются достоверными. Во второй строке аннотации (Correct structure 1, correct structure 2) знаком s обозначены колонки, которые соответствуют совмещению пространственных структур. Таким образом, для первого выравнивания было допущено 9 ошибок первого рода и 14 ошибок второго рода, а для второго - 3 и 8 соответственно.

© Alyona Koryagina aakor@fbb.msu.ru

Дата последнего изменения: 30.05.2014