Что такое матрицы аминокислотных замен?
Что бы понимать ответ на этот вопрос, нужно понимать смысл применения матриц.
Данные матрицы применяются чуть ли не в каждом алгоритме биоинформатики (а также других отделов вычислительной биологии, например структурной геномики ), хоть как-то связанном со сравнением белковых последовательностей. Именно с помощью этих матриц и происходит основная работа алгоритмов выравнивания, т.к. именно значения, взятые из матриц замен, определяют как будет идти выравнивание.
А именно: матрицы указывают алгоритму какова возможность замены того или иного элемента в последовательности на какой-либо другой с учетом биолого-химических особенностей: от маловероятной до вполне обыденной.В основе самих матриц замен лежат эмпирические данные, отобранные
на основе общих соображений о гомологии белковых последовательностей, т.е. по сути в основе лежат эталонные данные.
Так матрица типа PAM (Point Accepted Mutation, процент допустимых мутаций) основана на данных вероятностей
мутаций, приводящих к расхождению в 1 %, после чего полученные данные экстраполируются
на больший процент расхождений, путем возведения матрицы в степень n, где n характеризуется требуемым уровнем расхождения последовательностей. [1]
Этот тип матриц разработан Margaret Dayhoff в 1970-х годах.
Матрицы типа BLOSUM основаны на базе данных (матрица замен BLOCKS)
эталонных выравниваний белков, заведомо обладающих гомологией.
Матрицы типа PHAT подобны матрицам BLOSUM, но в отличие от них, нормированы, путем выборки исходных последоваетельностей, на которых строится матрица исключително среди мембранных белков, с учетом их биологических и химических особенностей.
Цифры в названиях матриц замен
Для матрицы PAM цифра в названии означает уровень дивергенции исходных последовательностей, т.е. уровень предположительного расхождения последовательностей для которых будет применена матрица.
Для матрицы BLOSUM и PHAT цифра в названии означает процент,
при котором (или больше которого) последовательности, на которых строится матрица замен, кластеризуются.
Тут уже наоборот: Чем выше чило, тем на данных о более консервативных последовательностях построена матрица замен.
Примерное соответствие между матрицами PAM и BLOSUM [1]
BLOSUM n | PAMn |
45 | 250 |
62 | 160 |
80 | 120 |
Реконструкция матрицы BLOSUM
Для реконструкции матрицы BLOSUM использовалась последняя база данных BLOCKS.
На основе этой базы данных была построена матрица вероятностей, после чего была нормирована по отношению к статистической вероятности и переводом собственно вероятности замены в вес, применяемый в алгоритмах.
Таблица сопоставления веса замен аминокислоты тирозин на различные аминокислоты в разных матрицах замен
Замена аминокислоты тирозин (Tyr, Y) | Gly | Pro | Cys | Ser | Thr | Asn | Gln | Asp | Glu | His | Arg | Lys | Ala | Met | Ile | Leu | Val | Phe | Trp | Tyr |
G | P | C | S | T | N | Q | D | E | H | R | K | A | M | I | L | V | F | W | Y | |
BLOSUM62 | -3 | -3 | -2 | -2 | -2 | -2 | -1 | -3 | -2 | 2 | -2 | -2 | -2 | -1 | -1 | -1 | -1 | 3 | 2 | 7 |
PHAT | -3 | -5 | -1 | -2 | -3 | 2 | 0 | -4 | -2 | 3 | -6 | -4 | -3 | -2 | -3 | -2 | -3 | 4 | 1 | 11 |
построенная мной матрица | -3 | -3 | -2 | -2 | -2 | -1 | -2 | -3 | -2 | 1 | -2 | -2 | -2 | -1 | -1 | -1 | -2 | 3 | 2 | 7 |
Как видно из данной таблицы, наблюдается довольно сильная корреляция между матрицами замен. Это явно обусловлено биологичекими и химическими свойствами аминокислот.
Однако в матрице PHAT наблюдается небольшое отличие по абсолютным значениям, что обусловленно ориентацией этой матрицы на мембранные белки.
Более наглядно:
замена на саму себя: велика, т.к. тирозин весьма специфичая и редкая аминокислота, чье сохраниеие на своем месте очень важно
замена на более-менее близкий по хим свойствам фенилаланин(Phe): явная колелляция между моей матрицей и матрицей BLOSUM62, значение матрицы PHAT отличается, но незначительно.
замена на аргинин (Arg),аминокислоту с другой функциональной группой: из таблицы явно видно, что такая замена не характерна ни для одной матрицы, что обусловлено сильным различием в химических свойствах заменяемых аминокислот.