Сравнение локального и глобального выравниваний

Для выполнения данной работы были выбраны две последовательности гомологичных белков из семейства HSP70: одна из домена Archaea - DNAK_HALSA, одна из домена Eukaryota - BIP2_MAIZE. Используя программу needle из пакета EMBOSS, было выполнено глобальное выравнивание этих последовательностей. В глобальное выравнивание включаются обе входные последовательности целиком. А программой water из пакета EMBOSS осуществлялось локальное выравнивание - выбор участка в каждой из последовательностей и выравнивание между этими участками. Для получения парного выравнивания используются разновидности метода динамического программирования: для глобального выравнивания - алгоритм Нидлмана-Вунша, для локального - алгоритм Смита-Ватермана. [1]. В Таблице 1 представлена информация об использованных программах, так как каждая из них характеризуется матрицей весов, штрафами за открытие инделя и концевые гэпы, а также штраф за удлинение инделя, используемыми по умолчанию.

Таблица 1. Характеристика программ из пакета EMBOSS.
Программа Тип выравнивания Матрица весов Штраф за открытия инделя и концевые гэпы Штраф за удлинение инделя
needle Глобальное EBLOSUM62 10.0 0.5
water Локальное EBLOSUM62 10.0 0.5

В Таблице 2 представлена информация об этих выравниваниях: длины выравниваний, число и процент абсолютно и функционально консервативных позиций, число и процент гэпов и число инделей.

Таблица 2. Параметры консервативности.
Название последовательности Длина последовательности в выравнивании Абсолютно консервативные позиции % Функционально консервативные позиции % Gaps % Число инделей
Глобальное выравнивание
BIP2_MAIZE 695 305 43.88 420 60.43 32 4.60 6
DNAK_HALSA 675 305 45.19 420 60.43 46 6.81 11
Парное выравнивание 698 305 43.7 420 60.2 104 14.9 17
Локальное выравнивание
BIP2_MAIZE 651 300 46.08 411 63.1 26 3.99 4
DNAK_HALSA 651 300 46.08 411 63.1 40 6.14 10
Парное выравнивание 651 300 46.1 411 63.1 66 10.1 14

С помощью программы JalView было визуализированы эти выравнивания и выделены цветом абсолютно и функционально консервативные позиции. Результат этой работы представлен на Рисунках 1 и 2, так как наиболее отличающимися участками в выравнивании являются начальные и конечные, то именно они и представлены в этой работе.

Рис 1. Глобальное выравнивание. Начало - конец.

Рис 2. Локальное выравнивание. Начало - конец.

Вывод
Как видно из приведенных выше рисунков, сильнее всего локальное и глобальное выравнивания отличаются в начале и в конце. Так, локальное выравнивание начинается с 35 остатка в последовательности BIP2_MAIZE и с 6 остатка в DNAK_HALSA, а также в этой последовательности пропущены два инделя, а изображение начинается с 35 позиции относительно глобального выравнивания.
Если же сравнивать последние участки последовательностей, то можно заметить, что локальном выравнивании опять же отсутствуют два инделя, однако в данном случае один из них занимает следующие позиции в глобальном выравнивании - 685:689, а другой - 697:699. Таким образом, в локальном выравнивании отсутствует часть глобального выравнивания с 685 по 699 позиции и с 1 по 35. Следовательно, локальное выравнивание короче, чем глобальное за счёт удаления концевых гэпов и инделей, хотя при этом могут исключаться консервативные позиции, но само локальное выравнивание выигрывает. Помимо этого, в локальном выравнивании, как можно видеть из Таблицы 2, процентное соотношение консервативных позиций выше, чем в глобальном, а число гэпов и инделей, наоборот, ниже.

Сравнение параметров локального выравнивания гомологичных и негомологичных белков

В данной работе анализировались локальные выравнивания белков. Были взяты вышеуказанные гомологичные последовательности и следующие негомологичные последовательности (в скобках указан идентификатор CDS, а по ссылке можно узнать больше информации о соответствующем белке):

  1. ADP-ribose pyrophosphatase (ALV47582.1)

  2. Chitin-binding protein (ALU92050.1)

  3. DNA alkylation repair protein (ANE87960.1)

  4. Triosephosphate isomerase (AKC28878.1)

  5. Diguanylate cyclase (AMD46139.1)

А затем с помощью программы water из пакета EMBOSS были осуществлены локальные выравнивания каждой из вышеуказанных последовательностей с последовательностью белка α-L-фукозидазы(ALV47246.1). В Таблице 3 приведена информация о парных выравниваниях гомологичных и негомологичных белков.

Таблица 3. Параметры консервативности.
Парное выравнивание Длина последовательностей Длина выравнивания Абсолютно консервативные позиции % Функционально консервативные позиции % Gaps % Число инделей
Гомологичные последовательности
DNAK_HALSA - BIP2_MAIZE 629 - 663 651 300 46.1 411 63.1 66 10.1 14
Негомологичные последовательности
ALV47246.1 - ALV47582.1 444 - 242 32 9 28.1 14 43.8 12 37.5 2
ALV47246.1 - ALU92050.1 444 - 171 24 7 29.2 10 41.7 1 4.2 1
ALV47246.1 - ANE87960.1 444 - 237 77 19 24.7 29 37.7 16 20.8 5
ALV47246.1 - AKC28878.1 444 - 250 39 12 30.8 20 51.3 3 7.7 1
ALV47246.1 - AMD46139.1 444 - 452 41 10 24.4 21 51.2 4 9.8 1

Вывод
В Таблице 3 также приведены значения длин последовательностей белков, участвующих в выравнивании. Как видно из приведенных выше данных, длины выравнивания гомологичных и негомологичных белков сильно разняться: локальные выравнивания гомологичных белков имеют большую длину и, как следствие, больший процент абсолютно и функционально консервативных позиций. Однако процент гэпов в локальном выравнивании негомологичных белков выше, чем гомологичных, скорее всего, это обусловлено тем, что длина выравнивания негомологичных белков меньше при значительном числе гэпов. При этом все гэпы в большинстве случаев образуют 1-5 инделей против 14 инделей в локальном выравнивании гомологичных последовательностей.

На Рисунках 3 - 7 представлены результаты локальных выравниваний последовательностей негомологичных белков, визуализированные с помощью программы JalView. Локальное выравнивание последовательностей гомологичных белков представлено на Рисунке 2.

Рис 3. ALV47246.1 - ALV47582.1

Рис 4. ALV47246.1 - ALU92050.1

Рис 5. ALV47246.1 - ANE87960.1

Рис 6. ALV47246.1 - AKC28878.1

Рис 7. ALV47246.1 - AMD46139.1

Сравнение выравниваний

В данной работе с помощью разных программ было выполнено совместное выравнивание последовательностей гомологичных белков из семейства HSP70: одна из домена Archaea - DNAK_METBU, одна из домена Bacteria - DNAK_LACC3, информация о локальном и глобальном выравниваниях этих последовательностей представлена в Таблице 4.

Таблица 4. Локальное и глобальное выравнивания DNAK_HALSA и DNAK_LACC3
Тип выравнивания Длина выравнивания Абсолютно консервативные позиции % Функционально консервативные позиции % Gaps %
Глобальное 628 382 60.8 479 76.3 12 1.9
Локальное 627 382 60.9 479 76.4 11 1.8

Затем это выравнивание было визуализировано в JalView, где первые две последовательности были получены из множественного выравнивания, выполненного ранее, путем удаления не участвующих в анализе последовательностей; вторые получены с помощью программы needle из пакета EMBOSS для глобального выравнивания; третьи - с помощью программы water из пакета EMBOSS для локального выравнивания. На Рисунках 8 и 9 представлены начальные и конечные участки таких выравниваний, каждое из которых объединено в группу.

Рис 8. Объединенные множественное, глобальное и локальное выравнивания.

Комментарии к выравниванию

Большая часть выравниваний, выполненных разными программами, совпадает, и различия мы можем проследить лишь в последних позициях приведенного выше выравнивания.

  1. В выравнивании, полученном путём удаления последовательностей из множественного выравнивания, в позициях 584-588 программа вставила индель (размером 5 гэпов), в то время как программы needle и water добавили индель в позиции 587-592 (размером 6 гэпов).

  2. Во втором и третьем выравниваниях в позиции 595 программа вставила гэп, эволюционно, возможно, соответствующий вставке глутамата в последовательности DNAK_METBU или же делеции его в последовательности DNAK_LACC3.

  3. Единственное отличие локального и глобального выравниваний можно обнаружить в 628 позиции, в которой в глобальном выравнивании в последовательности DNAK_METBU стоит лизин, а в DNAK_LACC3 - гэп. Также в этой позиции в первом выравнивании рсполагается колонка из гэпов.

  4. В позиции 627 первое выравнивание отличается от третьего наличием гэпа в позиции DNAK_LACC3.

Вывод

Таким образом, данный анализ показал нам, что больших различий между глобальным, локальным и множественным выравниями, примененными к довольно сильно сходным последовательностям, нет. В данном случае с небольшим выигрышем можно сказать, что правдоподобным является локальное выравнивание, выполненное программой water из пакета EMBOSS, так как оно имеет меньшую длину, а следовательно, больший процент консервативных позиций и меньший процент гэпов соответственно.

Источники:

[1] Выравнивания - wikipedia.org