Лого сайта
Сравнение матриц аминокислотных замен


Что такое матрицы аминокислотных замен?
Что бы понимать ответ на этот вопрос, нужно понимать смысл применения матриц.

Данные матрицы применяются чуть ли не в каждом алгоритме биоинформатики (а также других отделов вычислительной биологии, например структурной геномики ), хоть как-то связанном со сравнением белковых последовательностей. Именно с помощью этих матриц и происходит основная работа алгоритмов выравнивания, т.к. именно значения, взятые из матриц замен, определяют как будет идти выравнивание.

А именно: матрицы указывают алгоритму какова возможность замены того или иного элемента в последовательности на какой-либо другой с учетом биолого-химических особенностей: от маловероятной до вполне обыденной.

В основе самих матриц замен лежат эмпирические данные, отобранные на основе общих соображений о гомологии белковых последовательностей, т.е. по сути в основе лежат эталонные данные.
Так матрица типа PAM (Point Accepted Mutation, процент допустимых мутаций) основана на данных вероятностей мутаций, приводящих к расхождению в 1 %, после чего полученные данные экстраполируются на больший процент расхождений, путем возведения матрицы в степень n, где n характеризуется требуемым уровнем расхождения последовательностей. [1]
Этот тип матриц разработан Margaret Dayhoff в 1970-х годах.
Матрицы типа BLOSUM основаны на базе данных (матрица замен BLOCKS) эталонных выравниваний белков, заведомо обладающих гомологией.


Матрицы типа PHAT подобны матрицам BLOSUM, но в отличие от них, нормированы, путем выборки исходных последоваетельностей, на которых строится матрица исключително среди мембранных белков, с учетом их биологических и химических особенностей.


Цифры в названиях матриц замен
Для матрицы PAM цифра в названии означает уровень дивергенции исходных последовательностей, т.е. уровень предположительного расхождения последовательностей для которых будет применена матрица.
Для матрицы BLOSUM и PHAT цифра в названии означает процент, при котором (или больше которого) последовательности, на которых строится матрица замен, кластеризуются. Тут уже наоборот: Чем выше чило, тем на данных о более консервативных последовательностях построена матрица замен.


Примерное соответствие между матрицами PAM и BLOSUM [1]
BLOSUM nPAMn
45250
62160
80120

Реконструкция матрицы BLOSUM
Для реконструкции матрицы BLOSUM использовалась последняя база данных BLOCKS.
На основе этой базы данных была построена матрица вероятностей, после чего была нормирована по отношению к статистической вероятности и переводом собственно вероятности замены в вес, применяемый в алгоритмах.


Таблица сопоставления веса замен аминокислоты тирозин на различные аминокислоты в разных матрицах замен
Замена аминокислоты тирозин (Tyr, Y) Gly Pro Cys Ser Thr Asn Gln Asp Glu His Arg Lys Ala Met Ile Leu Val Phe Trp Tyr
G P C S T N Q D E H R K A M I L V F W Y
BLOSUM62 -3 -3 -2 -2 -2 -2 -1 -3 -2 2 -2 -2 -2 -1 -1 -1 -1 3 2 7
PHAT -3 -5 -1 -2 -3 2 0 -4 -2 3 -6 -4 -3 -2 -3 -2 -3 4 1 11
построенная мной матрица -3 -3 -2 -2 -2 -1 -2 -3 -2 1 -2 -2 -2 -1 -1 -1 -2 3 2 7

Как видно из данной таблицы, наблюдается довольно сильная корреляция между матрицами замен. Это явно обусловлено биологичекими и химическими свойствами аминокислот.
Однако в матрице PHAT наблюдается небольшое отличие по абсолютным значениям, что обусловленно ориентацией этой матрицы на мембранные белки.
Более наглядно:

замена на саму себя: велика, т.к. тирозин весьма специфичая и редкая аминокислота, чье сохраниеие на своем месте очень важно

замена на более-менее близкий по хим свойствам фенилаланин(Phe): явная колелляция между моей матрицей и матрицей BLOSUM62, значение матрицы PHAT отличается, но незначительно.

замена на аргинин (Arg),аминокислоту с другой функциональной группой: из таблицы явно видно, что такая замена не характерна ни для одной матрицы, что обусловлено сильным различием в химических свойствах заменяемых аминокислот.



1 .Хаубольд Б., Вие Т. Введение в вычислительную биологию. Эволюционный подход, глава 2.4