Парные выравнивания белков. Применение алгоритмов парных выравниваний к белку CRH_BACSU




Сравнение матриц аминокислотных замен

Данный раздел посвящен матрицам весов аминокислотных замен в выравниваниях.

В настоящее время существует несколько широкоиспользуемых и общепринятых матриц.
Наиболее известная из них, - матрица весов BLOSUM62, была разработана супругами Хейникофф в 1992 году (Steven Henikoff & Jorja Henikoff, PNAS, 1992) Цифра 62 в названии обозначает порог кластеризации - т.е. такой процент идентичности последовательностей, выше которого последовательности признают идентичными и считают за одну. Эта матрица построена по данным базы BLOCKS, охватывающей преимущественно цитоплазматические белки. База данных BLOCKS содержит эталонные множественные выравнивания фрагментов белков.
Мембранные белки имеют свою сецифику и часто их некорректно анализировать с использованием BLOSUM. Специально для них была разработана аналогичная матрица, получившая название PHAT.

Целью данной работы было построение собственной матрицы весов по данным из BLOCKS и сравнение ее с каноническими матрицами. Исходными данными являются количества пар тех или иных аминокислотных остатков, расположеных друг над другом во множественных выравниваниях. Исходную матрицу можно посмотреть здесь.
В целом, полученая матрица имеет больше сходства с матрицей BLOSUM, так как построена по схожим исходным данным.
Для краткости, были проанализированы только веса замен гистидина на любые другие аминокислоты. Результаты приведены в таблице 1.

Arg> Arg>
    H (BLOSUM62) H (PHAT_T75_B73) H (Sutormin)
Gly G -2 -4 -2
Pro P -2 -6 -2
Cys C -3 -7 -2
Ser S -1 -2 -1
Thr T -2 -4 -2
Asn N 1 4 1
Gln Q 0 2 1
Asp D -1 -1 -1
Glu E 0 -1 -1
His H 8 11 8
Arg R 0 -4 0
Lys K -1 -5 -1
Ala A -2 -3 -2
Met M -2 -4 -2
Ile I -3 -5 -3
Leu L -3 -4 -3
Val V -3 -5 -3
Phe F -1 -2 -1
Trp W -2 -3 -1
Tyr Y 2 3 1
Таблица 1. Сравнение весов замен аминокислот из матриц BLOSUM, PHAT и из построенной вручную.

Некоторые комментарии к таблице:

Замена гистидина на самого себя: значения из матрицы BLOSUM и из собственноручно построенной матрицы не отличаются (по 8), т.к. эти матрицы построены примерно по одним и тем же данным. Значение из PHAT выше - 11. Это означает, что для мембранных белков (кои и описываются матрицей PHAT) замены гистидина на его самого происходят в 3 раза чаще (точнее - 2,82), что, возможно, связано с большей консервативностью их структуры, по сравению с цитоплазматическими белками.

Данные матрицы BLOSUM62 и построенной вручную отличаются слабо, - максимум на единицу; по крайней мере, знак совпадает всегда (где минус, там минус, где плюс, там плюс). Сходство можно обьяснить тем, что матрицы построены примерно по одним и тем же данным для цитоплазматических белков. Отличия же, возможно, связаны все же с некоторыми различиями в исходных данных, либо с тем, что для моей матрицы не было получено данных для гэпов (а также для X, B и Z), в связи с чем могли немного "поползти" все частоты.

Отличия значений в PHAT от других матриц сдвинуты в сторону большей консервативности: веса допустимых замен выше (положительные значения выше), а веса "плохих" замен, наоборот, ниже (т.е. более отрицательные)- на пример для гидрофобных аминокислот. Возможно это связано с общей повышенной консервативностью мембранных белков: они часто контактируют сразу с двумя растворителями - водой и липидами (мембраной), а также выполняют схожие функции (каналы, рецепторы), что накладывает на их устройство ограничения.

Отличия в весах замен гистидина на положительно заряженные аминокислоты (аргинин (R)) лизин (К)) вызывает особый интерес: по сравнению с другими матрицами, значения ниже на 4 пункта (-4 против 0 для аргинина и -5 против -1 для лизина). Это странно, так как все 3 эти аминокислоты могут быть отнесены к положительно заряженным по своим свойствам. Однако, рК радикала гистидина значительно ниже, чем у лизина и аргинина, что говорит о том, что с гистидина легче снять протон. Данный факт может прояснить отличия в значениях, так как для мембранных белков, возможно, предпочтительнее незаряженные аминокислоты (из-за гидрофобного окружения мембраны). Эту гипотезу подтверждают различия между весами для глутамина (Q) и аспарагина (N), которые выше для матрицы PHAT на 1 и 3 единицы соответственно. Дело в том, что эти аминокислоты полярны и незаряжены, как и депротонированная форма гистидина. Хотелось бы отметить и аминокислоту тирозин (Y) вес для которой во всех случаях положительный и для PHAT выше на 1-2 единицы. Эта аминокислота с одной стороны, как и гистидин имеет ароматическую систему, а с другой, у нее имеется полярная гидроксильная группа, которая, как и гистидин, может образовывать, на пример, водородные связи.

Сравнение выравниваний, полученных для коротких мутантов вручную и построенных классическими алгоритмами Нидлмана-Вунша и Смита-Ватермана

Для парного выравнивания белковых последовательностей пользуются различными алгоритмами.
Один из них - алгоритм Нидлмана-Вунша позволяет создавать глобальные выравнивания двух последовательностей, т.е. этот алгоритм пытается выровнять полноразмерные последовательности. Данный алгоритм использует в своей работе программа needle из пакета EMBOSS.
Другой алгоритм - Смита-Ватермана позволяет создавать локальные выравнивания, т.е. он ищет наиболее близкие участки (куски) последовательностей. Данный алгоритм использует в своей работе программа water из пакета EMBOSS.
Каждый алгоритм использует для поиска оптимального выравнивания общий вес выравнивания, найденный по матрице весов замен аминокислот (см. раздел 1); по умолчанию, они пользуются BLOSUM62.
Кроме того, для алгоритма можно задать размер штрафа за вставку гэпа (от 1 до 100) и штраф за каждуй последующий гэп, если они идут непрерывно (от 0 до 10).
По умолчанию, алгоритмом используются значения 10 и 0,5 соответственно.

В данной работе, выравниванию подвергались последовательности белка CRH_BACSU и его искусственно полученные при помощи скрипта evolve_protein.pl мутанты.
Из последовательности каждого мутанта вырезался кусок в 20 аминокислотных остатков, который и использовался для выравнивания.
Скрипт позволяет задавать скорость мутагенеза. Для ручного выравнивания использовалась программа Jalview 2.8

Результаты

Мутант 1

Параметры для скрипта
Вероятность изменения позиции - 0,6
Вероятность изменения позиции, если она уже была изменена - 0,6

Ручное выравнивание

Выравнивание при помощи программы needle (алгоритм Нидлмана-Вунша)

CRH_BACSU     1 MVQQKVEVRLKTGLQA-RPAALFVQEANRFTSDVFLEKDGKKVNAKSIMGLMSLAVSTGTEVTLIAQGEDEQEALEKLAAYVQEEV 85     
                       |.....|.| ..|.|||:.|                                                              
mut1(0,6,0,6) 1 -------VFKAVYLHAIEWATLFVKLA----------------------------------------------------------- 20     

Выравнивание при помощи программы water (алгоритм Смита-Ватермана)

CRH_BACSU     19 AALFVQEA 26
                 |.|||:.|
mut1(0,6,0,6) 13 ATLFVKLA 20

Мутант 2

Параметры скрипта

Вероятность изменения позиции - 0,6
Вероятность изменения позиции, если она уже была изменена - 0,8

Ручное выравнивание

Выравнивание при помощи программы needle (алгоритм Нидлмана-Вунша)

CRH_BACSU     1 ------------MVQQKVEVRLKTGLQARPAALFVQEANRFTSDVFLEKDGKKVNAKSIMGLMSLAVSTGTEVTLIAQGEDEQEALEKLAAYVQEEV 85
                            ...:||.:                                                                                
mut2(0,6,0,8) 1 SAIQACQFFHDNWAVEKVNL----------------------------------------------------------------------------- 20

Выравнивание при помощи программы water (алгоритм Смита-Ватермана)

CRH_BACSU     40 KKVN 43
                 :|||
mut2(0,6,0,8) 16 EKVN 19

Мутант 3

Параметры скрипта

Вероятность изменения позиции - 0,4
Вероятность изменения позиции, если она уже была изменена - 0,8

Ручное выравнивание

Выравнивание при помощи программы needle (алгоритм Нидлмана-Вунша)

CRH_BACSU     1 MVQQKVEVRLKTGLQARPAALFVQEANRFTSDVFLEKDGKKVNAKSIMGLMSLAVSTGTEVTLIAQGEDEQEALEKLAAYVQEEV 85
                                                                    ||.:||.||| :.|||..|||               
mut3(0,4,0,8) 0 ----------------------------------------------------LAEATGYEVT-VKQGESSQEA------------ 20

Выравнивание при помощи программы water (алгоритм Смита-Ватермана)

CRH_BACSU     53 LAVSTGTEVTLIAQGEDEQEA 73
                 ||.:||.||| :.|||..|||
mut3(0,4,0,8)  1 LAEATGYEVT-VKQGESSQEA 20

Обсуждения

Предсказания программы water относительно места расположения мутантного фрагмента полностью совпали с вручную выровненными последовательностями, поэтому, можно считать, что сайты были определены правильно. Меры сходства полученные вручную и программой needle также в большинстве случаев близки, сходно и расположение выровненных фрагментов (см. выравнивания в Результатах)

  Общие проценты % по участку выравнивания
  Выравнивание вручную needle Выравнивание вручную needle
  id sim id sim id sim id sim
mut1 9,2 11,5 9,3 10,5 38,1 47,6 38,1 42,9
mut2 9,3 13,6 2,1 4,1 32,0 48,0 10 20
mut3 15,3 16,5 15,3 17,6 61,9 66,7 61,9 71,4

Как видно из представленной таблицы, 1ое и 3е выравнивания (mut1 и mut3) были выровняны вручную примерно (или точно) так, как это сделала программа needle. Отличия в similarity (sim) связаны с неоднозначнастью трактовки понятия "схожие по свойствам аминокислоты": в нашем случае, я ориентировался на здравый смысл, а программа имела в виду матрицу BLOSUM62.
Результаты второго выравнивания сильно отличаются между ручным и машинным. Процент идентичности и схожести выше в случае ручного выравнивания, однако вес машинного выравнивания выше (9 против 4). И все же, трудно предположить, чтобы скрипт сделал так много вставок (инсерций) в самое начало последовательности и, скорее всего, это как-раз тот случай, когда правильное выравнивание является с точки зрения программы не самым оптимальным. Возможно, если задавать другие параметры для гэпов, то "правильное" выравнивание все-таки будет найдено.
Правильность ручных выравниваний подтверждаются программой water, которая определила участки выравнивания, совпадающие или перекрывающиеся с найденными вручную. Так для второго выравнивания, найднный фрагмент является частью не машинного, а "ручного" выравнивания, что делает ручное выравнивание более предпочтительным.

Список литературы:

  1. Amino acid substitution matrices from protein blocks.
    Steven Henikoff & Jorja Henikoff, PNAS, 1992


© 2012; Sutormin Dmitry