Сравнение матриц аминокислотных замен
Данный раздел посвящен матрицам весов аминокислотных замен в выравниваниях.
Они используются чтобы оценить насколько хорошо то или иное выравнивание.
Наиболее известная из них, - матрица весов BLOSUM62,построенная по данным базы BLOCKS и содержащая эталонные выравнивания
для определения веса выравнивания цитоплазматических белков.
Цифра 62 в названии обозначает процент идентичности последовательностей-порог кластеризации, выше которого
последовательности признают идентичными и считают одинаковыми.
Матрица весов PHAT была разработана для мембранных белков, учитывая их специфику.
Мной была построена матрица
BLOSUM62* по таблице встречаемости пар аминокислот, рассчитанной из последней версии базы данных BLOCKS.
Проведем сравнение моей матрицы с матрицами BLOSUM62 и PHAT_T75_B73.Для этого возьмем аминокислоту- метионин.Результаты приведены в таблице1.
|
|
Таблица1.Сравнение весов замен аминокислот для метионина. |
Комментария к таблице:
Замена метионина на самого себя:
Величины замены аминокислоты Met на саму себя для матриц BLOSUM62 - 5, а для матрицы PHAT - 6.Эти значения
отличаются, т.к матрица PHAT применяется для трансмембранных участков, а BLOSSUM62-для цитоплазматических белков.
Мембранные белки консервативны расположением гидрофобных аминокислот и в выравниваниях встречаются друг против друга чаще.
Поэтому вес их замен на самих себя в матрице PHAT больше.
Замена метионина на аминокислоты, близкие по химическим свойствам:
Метионин, так же как изолейцин, лейцин, валин, аланин- гидрофобная алифатическая аминокислота.
Судя по таблице, вес в матрице BLOSUM62 всегда меньше либо равен весу в матрице PHAT( объяснение такое же, как с заменой метионина
на самого себя) и схож с BLOSSUM62*(my table)(исключением является валин.возможно это связано с использованием новой версии BLOCKS).
Замена метионина на аминокислоты из других функциональных групп:
Для таких замен характерны отрицательные значения во всех матрицах, в основном к ним относятся положительно и отрицательно заряженные аминокислоты.
Это связано с малочисленностью заряженных аминокислот в мембранных белках (для PHAT) и различиями свойств в цитоплазматических(для BLOSUM62)
Сравнение выравниваний мутантов, полученных вручную и с помощью программ needle и water.
Программа needle представляет собой часть пакета EMBOSS и использует алгоритм Нидлмана-Вунша для глобального выравнивания, а программа
water- алгоритм Смита-Ватермана для локального выравнивания последовательностей.
При локальном оптимальном выравнивании любое удлинение
или укорочение фрагментов приводит только к уменьшению веса и главным отличием от алгоритма глобального выравнивания является штраф за открытие
начального пропуска.
Данные программы использует для проведения выравнивания следующие параметры:
-gapopen штраф за открытие пропуска (по умолчанию равен 10)
-gapextendштраф за удлинение пропуска на одну позицию (по умолчанию равен 0.5)
-endopen штраф за открытие конечного пропуска (по умолчанию 10)
-endextendштраф за удлинение конечного пропуска на одну позицию (по умолчанию равен 0.5)
-datafileматрица, которая используется (по умолчанию EDNAFULL для нуклеотидных и BLOSUM62 для белковых)
Мутант 1
Способ выравнивания |
Вручную |
needle |
water |
% идентичности |
13/21 = 62% ( или 13/88=14.7 в целом |
13/89 ( 14.6%) |
13/20 (65.0%) |
% сходства |
14/21 = 67%(или 14/88=15.9% в целом) |
13/89 = 14.6% |
13/20 (65.0%) |
вес по матрице BLOSUM62 |
51.0 |
39.0 |
41.0 |
Needle
Length: 89
PTHP_BACSU 1 MAQKTFKVTADSGIHARPATVLVQTASKYDADVNLEYN-GKTVNLKSIMG 49
.|..||.|||.| |.||| ||
generations=1 1 --------------------KLQYTAVKYDND-NGEYNVGK--------- 20
PTHP_BACSU 50 VMSLGIAKGAEITISASGADENDALNALEETMKSEGLGE 88
generations=1 20 --------------------------------------- 20
Water
Length: 20
PTHP_BACSU 22 LVQTASKYDADVNLEYN-GK 40
|..||.|||.| |.||| ||
generations=1 2 LQYTAVKYDND-NGEYNVGK 20
Мутант 2
Способ выравнивания |
Вручную |
needle |
water |
% идентичности |
10/72 = 13.9% ( или 10/88=11.4 в целом |
9/89 ( 10.1%) |
5/5 (100.0%) |
% сходства |
17/72 = 23.6%(или 17/88=19.3% в целом) |
9/89 = (10.1%) |
5/5 (100.0%) |
вес по матрице BLOSUM62 |
-169.0 |
18.0 |
22.0 |
Needle
Length: 89
PTHP_BACSU 1 MAQKTFKVTADSGIHARPATVLVQTASKYDADVNLEYNGKTVNLKSIMGV 50
generations=1 0 -------------------------------------------------- 0
PTHP_BACSU 51 MSLGIAKGAEITISAS-GADENDALNALEETMKSEGLGE 88
....|||. |.....|||||
generations=1 1 --------KRFDISAKPGTWIMTALNAL----------- 20
Water
Length: 5
PTHP_BACSU 73 ALNAL 77
|||||
generations=1 16 ALNAL 20
Мутант 3
Способ выравнивания |
Вручную |
needle |
water |
% идентичности |
5/24 = 20.8% ( или 5/88=5.7% в целом |
6/99 ( 6.1%) |
4/7 (57.1%) |
% сходства |
9/24 = 37.5%(или 9/88=10.2% в целом) |
7/99 = (7.1%) |
5/7 (71.4%) |
вес по матрице BLOSUM62 |
-5.0 |
18.0 |
15.0 |
Needle
Length: 99
PTHP_BACSU 1 MAQKTFKVTADSGIHARPATVLVQTASKYDADVNLEYNGKTVNLKSIMGV 50
generations=1 0 -------------------------------------------------- 0
PTHP_BACSU 51 MSLGIAKGAEITISASGADENDALNALEETMKSEGLGE----------- 88
.|| ||| :|.
generations=1 1 -------------------CND---------KSE-VGNKWQFHQITPCT 20
Water
Length: 7
PTHP_BACSU 43 NLKSIMG 49
|.||.:|
generations=1 2 NDKSEVG 8
Описание полученных различными методами выравниваний:
- Необходимо отметить, что разными методами была получена различная длина выравниваний. Вручную и с помощью программы needle весь участок из 20-ти аминокислот был выровнен с изначальным белком, в то время как программа water во всех случаях, выполняя задачу локального выравнивания, просто удалила плохо выравниваемый участок последовательности из выравнивания. Этого можно избежать, понижая штраф за внесение и продолжение пропусков.
- Также при проведении глобального выравнивания большого белка и короткого фрагмента такие показатели как identity и similarity считаются исходя не из длины выровненной части, а из длины большей последовательности. Поэтому мы видим результаты, которые не могут характеризовать сам выровненный участок.
- Сравнение параметров, характеризующих качество выравнивания, показывает похожесть identity и similarity между выравниваниями вручную и с использованием water. Оценочный балл, рассчитанный исходя из матрицы для различных выравниваний сильно расходится, что связано с использованием различных баллов за открытие и продолжение пропуска в различных случаях.
© Boskhomdzhieva Baina, 2012