Оптимальное парное выравнивание. Алгоритмы.


1. Выравнивание двух гомологичных последовательностей

По умолчанию программы используют для белков матрицу EBLOSUM62. Задается атрибутом -datafile
Штраф за открытие инделя - 10.0. В needle задается атрибутом -endopen, в water -gapopen
Штраф за удлинение инделя - 0.5. В needle задается атрибутом -endextend, в water -gapextend
Штраф за последний гэп по умолчанию отсутствует. В needle задается атрибутом -endweight

В отличие от программы needle, ориентированной на выравнивание последовательностей от первого до последнего знака, water выравнивает отдельные наиболее похожие участки последовательностей, вследствие чего могут быть потеряны некоторые буквы. В результате получившиеся выравнивания различаются между собой.


Сравнение основных параметров консервативности выравниваний, построенных в программах needle и water:

программа длина выравнивания консервативные функционально консервативные позиции с гэпами число инделей
число процент число процент
needle 677 327 48.30% 414 61,15% 37 31
water 671 324 48.29% 414 61,70%  31 28


Water:



Needle:


Задание 2. Сравните параметры локального выравнивания пары гомологичных белков и пяти пар не гомологичных белков

При выравниваниии негомологичных последовательностей обнаружилось значительно меньшее количество консервативных позиций.

Характеристики выравниваний негомологичных последовательностей:

идентификатор белка длина выравнивания консервативные функционально консервативные позиции с гэпами
число процент число процент
A0A0X8D5E1 177 34 19,21% 49 27,68% 6
E8YVR4 169 22 13,02% 39 23,08% 3
A0A109QDP9 220 35 15,91% 57 25,91% 6
A0A1B0VIM1 224 23 10,27% 40 17,86% 5
A0A0B5QAX8 228 32 14,04% 48 21,05% 7

Заметно большее количество консервативных позиций в последнем выравнивании(гомологичных последовательностей):



Сравнение выравниваний, построенных разными программами

Первые две последовательности вырезаны из множественного выравнивания. Третья и четвертая выравнены с помощью программы needle, пятая и шестая - water.

Выравнивания water и needle с параметрами по умолчанию различаются только тем, что water удалил 10 концевых позиций из первой последовательности.
Парное выравнивание, полученное из множественного, совпадает с needle и water до 77 позиции, после в первой последовательности второго и третьего выравнивания стоит длинный индель. В результате серин с позиции 77 смещен на позицию 86 и выровнен с серином из второй последовательности. То же самое происходит со стоящей сразу за серином аспорагиновой кислотой.
В первом выравнивании между триптофаном(поз.79) иаспарагиновой кислотой(78) нет гэпа, и триптофан находится над фенилаланином второй последовательности. В needle и water между триптофаном(поз. 92) и аспарагиновой кислотой(поз. 87) стоит индель, и аспарагиновая кислота находится над аспарагиновой кислотой второй последовательности.
В первом выравнивании в первой последовательности аспарагиновая кислота и стоящий за ней глицин смещены на 111 и 112 позиции соответственно, и стоят над глутаминовой кислотой и серином второй последовательности. В выравниях water и needle они стоят на 98 и 99 позициях над идентичными аминокислотами второй последовательности.

Наиболее правдоподобным мне кажется первое выравнивание, так как оно построено с учетом положения соответсвующих аминокислот в других последовательностях. Чем больше последовательностей соответствуют выравниванию, тем больше вероятность правдоподобия гомологии аминокислот.