Парные выравнивания белков. Применение алгоритмов парного выравнивания к белку TENA_BACSU

Сравнение матриц аминокислотных замен

В настоящее время существует несколько широкоиспользуемых и общепринятых матриц. Наиболее известная из них, - матрица весов BLOSUM62, была разработана 1992 году.

Цифра 62 в названии матрицы обозначает порог кластеризации - т.е, такой процент идентичности последовательностей, выше которого все последовательности множественного выравнивания базы Blocks объединяются в кластеры. Для кластеров устанавливается определённый штрафной коэффициент при подсчёте пар соответсвий аминокислотных остатков. Эта процедура предотвращает искажение результатов при наличии большого количества очень похожих белков в базе Blocks. Мембранные белки имеют свою специфику, часто их некорректно анализировать с использованием BLOSUM62. Специально для них была разработана аналогичная матрица, получившая название PHAT.

Целью данной работы было построение собственной матрицы весов по данным из BLOCKS и сравнение ее с каноническими матрицами. Полученая матрица практически идентична матрице BLOSUM62, так как построена по схожим исходным данным.

Следует понимать, что сравнивать матрицу BLOSUM и PHAT не совсем корректно, так как:

Сравнение величин в полученной матрице, матрице BLOSUM62 и PHAT_T75_B73 для аминокислоты глутамата представлено в таблице 1

Таблица 1 Сравнение матриц аминокислотных замен для глутамата
однобуквенное обозначение G P C S T N Q D E H R K A M I L V F W Y
трехбуквенное обозначение Gly Pro Cys Ser Thr Asn Gln Asp Clu His Arg Lys Ala Met Ile Leu Val Phe Trp Tyr
Полученная мною матрица -2 -1 -4 -1 -1 -1 2 2 6 -1 0 1 -1 -2 -3 -3 -2 -3 -3 -2
BLOSUM62 -2 -1 -4 0 -1 0 2 2 5 0 0 1 -1 -2 -3 -3 -2 -3 -3 -2
PHAT_T75_B73 -3 -5 -7 -3 -5 0 1 6 12 -1 -6 -4 -5 -5 -5 -5 -5 -5 -7 -2

Сравнение выравниваний, полученных для коротких мутантов вручную и построенных классическими алгоритмами Нидлмана-Вунша и Смита-Ватермана

Для парного выравнивания белковых последовательностей используют различные алгоритмы.

Один из них - это алгоритм Нидлмана-Вунша позволяет создать глобальное выравнивание двух последовательностей, т.е. этот алгоритм выравнивает полноразмерные последовательности. Данный алгоритм использует в своей работе программа needle из пакета EMBOSS.

Другой алгоритм - Смита-Ватермана позволяет создать локальные выравнивания, т.е. он ищет наиболее близкие участки последовательностей. Данный алгоритм использует в своей работе программа water из пакета EMBOSS.

Обе программы, как needle, так и water, используют одинаковые обязательные параметры:

В данной работе, выравниванию подвергались последовательности белка TENA_BACSU и его искусственно полученные при помощи скрипта evolve_protein.pl мутанты.

Из последовательности каждого мутанта вырезался кусок в 20 аминокислотных остатков, который и использовался для выравнивания.

Результаты проделанной работы

Мутант 1

Параметры для скрипта
Вероятность изменения позиции - 0,6
Вероятность изменения позиции, если она уже была изменена - 0,6

Ручное выравнивание

Выравнивание при помощи программы needle (алгоритм Нидлмана-Вунша)

							TENA_BACSU         1 MKFSEECRSAAAEWWEGSFVHPFVQGIGDGTLPIDRFKYYVLQDSYYLTH     50
                                            							    |..|.|.|.|.|||..:|..       
							generations=1      1 -----------------------VSTIEDETHPADRFARWVSL-------     20

Выравнивание при помощи программы water (алгоритм Смита-Ватермана)

									TENA_BACSU        24 VQGIGDGTLPIDRFKYYV     41
                     									     |..|.|.|.|.|||..:|
									generations=1      1 VSTIEDETHPADRFARWV     18

Мутант 2

Параметры скрипта

Вероятность изменения позиции - 0,6
Вероятность изменения позиции, если она уже была изменена - 0,8

Ручное выравнивание

Выравнивание при помощи программы needle (алгоритм Нидлмана-Вунша)

							TENA_BACSU       151 PGHPIYQKWIGTYGGDWFRQQVEEQINRFDELAENSTEEVRAKMKENFVI    200
                                           							        |..|.|.||:...:..|:||   
							generations=1      1 ---------------------------RNKEFAHNSSAVQKNVMREN---     20

Выравнивание при помощи программы water (алгоритм Смита-Ватермана)


									TENA_BACSU       178 RFDELAENSTEEVRAKMKEN    197
                     									     |..|.|.||:...:..|:||
									generations=1      1 RNKEFAHNSSAVQKNVMREN     20

Мутант 3

Параметры скрипта

Вероятность изменения позиции - 0,4
Вероятность изменения позиции, если она уже была изменена - 0,8

Ручное выравнивание

Выравнивание при помощи программы needle (алгоритм Нидлмана-Вунша)

          						TENA_BACSU        51 FAKVQSFGAAYAKDLYTTGRMASHAQGTYEAEMALHR-EFAELLEISEEE     99
                                                           						 |||.||.|| |..|:|.:.|  
          						generations=1      1 ----------------------------YEAIMAAHREEIEEMLHVGE--     20

Выравнивание при помощи программы water (алгоритм Смита-Ватермана)

								TENA_BACSU        79 YEAEMALHR-EFAELLEISE     97
                     								     |||.||.|| |..|:|.:.|
								generations=1      1 YEAIMAAHREEIEEMLHVGE     20

Выводы

Значения identity и similarity полученные с помощью needle не совпадают с ручным подсчетом и подсчетом по water, т. к. needle выравнивает глобально и считает процент идетичности и сходства относительно всей длины белка

Значения identity и similarity полученные с помощью water и ручного выравнивания в целом близки, т. к. и там и там локальное выравнивание, но в некоторых случаях не совпадают, это связано с тем, что water выбирает лишь самые похожие участки, т.е длина последовательности становится меньше 20 (мутант 1).

© Nosikova Kate, 2012