|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Предыдущее занятие BLOSUM62 – матрица замен аминокислотных остатков, активно применяющаяся для выравнивания последовательностей белков. При сопоставлении двух последовательностей необходим критерий качества того или иного выравнивания – парного сопоставления первичной структуры белков, при котором каждому аминокислотному остатку (далее АО или аминокислоты) в одном белке сопоставляется остаток из другого либо пропуск(гэп). Данная матрица показывает, насколько вероятна замена в ходе мутаций одной аминокислоты на другую. При расчёте вероятности учитывается как статиcтически ожидаемая частота сопоставлений одних АО другим, которая рассчитывается на основе информации о содержании АО во всех белках, так и их реальная частота. Матрица отражает соотношение реальной частоты и статистической. Положительное число напротив того или иного сопоставления говорит, что оно встречается чаще, чем того бы стоило ожидать, если бы последовательности белков выстраивались по математическим, вероятностным законам. Отрицательная, наоборот, показывает, что данное сопоставление маловероятно, даже менее вероятно, чем в том случае, если бы аминокислотные последовательности белков образовывались случайно. Большое положительное число говорит об очень хорошей взаимной заменимости аминокислот, сильно отрицательное же показывает, что эти аминокислоты в ходе эволюции крайне неохотно заменяются друг на друга из-за физико-химических различий. Эта расcчитанная величина называется весом В рассматриваемой матрице учитываются цитоплазматические белки, которые заметно отличаются от мембранных, в основном за счёт разных долей гидрофобных и гидрофильных аминокислот. Мембраны состоят из липидов, а значит, белки, в них встроенные, будут включать больший процент гидрофобных АО, чем цитоплазматические. Поэтому для них составляют свои матрицы, учитывающие эту особенность. "62" означает, что эта матрица применяется для белков, у которых идентичность АО составляет не более 62%. Для других процентов есть свои матрицы, что логично, поскольку при разной идентичности белков меняются ожидаемые частоты сопоставлений. По этой ссылке вы можете посмотреть математические операции, выполняемые над данными о количестве сопоставлений АО в белках при составлении BLOSUM62, а также сравнение весов замены метионина на другие АО в старой матрице, новой составленной и матрице для мембранных белков. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Сравнение матриц аминокислотных замен |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Алгоритмы механическое выравнивание |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
На предыдущем занятии я применил метод выравнивая последовательностей вручную к мутантным отрывкам белка YokD_BacSu.
Теперь я применю два алгоритма: Needle (для глобального выравнивания) и Water (для локального), – с той же целью и сравню результат. Для удобства я обрезал исходную последовательность. Подробные сведения о выравниваниях вы можете получить, прочитав этот файл, здесь же я предоставлю лишь результаты в виде сводной таблицы (cм.табл.) и некоторую дополнительную информацию. Для использования этих алгоритмов можно пользоваться как командной строкой UNIX-систем, так и клиентами с интерфейсом, как например, здесь. В обоих алгоритмах по умолчанию установлен штраф за открытие гэпа (-10) к весу и (-0.5) за каждый из последующих гэпов, идущих подряд за открывающим. В рассмотренных случаях программа Needle выдаёт такие же выравнивания, как и при обработке вручную, для мутантов 0408 и 0606, а для 0608 – выравнивание с большим весом. Water выдаёт такие же результаты, но в 0608 он отсекает первые 6 АО, поскольку нацелен на поиск оптимальных выравниваний вне зависимости от того, локальны они или глобальны. Небольшие разницы в цифрах можно объяснить разными критериями сходства АО. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Кратко об алгоритмах |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Алгоритм Needleman-Wunsch был разработан в 1970 году и применяется для поиска одного глобального парного выравнивания с наибольшим весом. Needle --
первый случай применения динамического программирования для решения проблем биоинформатики. Сам алгоритм можно поделить на две части: определение максимального веса вместе с последним элементом выравнивания и собственно выстраивание этого выравнивания. Для этих целей выстраивается матрица, во главе строк и столбцов которых стоят последовательности. На конкретном примере это будет, наверно, понятней. Пусть мы имеем две последовательности нуклеотидов AATCG и ACGTCG. Cоставим нужные матрицы и обозначим некоторые условия: |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Соответственно, перемещения по вертикали или по горизонтали приравниваются к гэпу и расцениваются как
(-1). И несмотря на то, что второй элемент первой строки тоже А, мы не суммируем его с первой двойкой, поскольку считаем, что А из
последовательности, которую мы записали в заголовки строк, уже израсходован на первую клетку. Т.о., во всей первой строке значения
клеток будут уменьшаться на единицу с каждым шагом. После заполненной первой строки заполняем вторую. Вторая клетка второй строки
расположена диагонально относительно первой, а значит, там гэп не действует, но в первой матрице на её месте стоит (0), то есть
мы записываем в неё ту же двойку, потому что, если в неё переносить значения клетки сверху или слева, то с учётом штрафа за гэп в ней
должен стоять ноль, что, естественно, меньше чем 2. Сдвигаемся на одну клетку вправо (?). При переносе значения сверху, мы должны
записать (-1), а при переносе по диагонали или слева – (1). В данном случае нам не важно, откуда мы переносим, потому что пока мы
ищем только максимальный вес и клетку, после которой мы не сможем двигаться без потери веса. В алгоритме Needle это всегда нижняя
левая |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Несложно заметить, что если теперь вычеркнуть последнюю строку и последний столбец, то (5) станет самым большим числом. Задача сведена к
предыдущей. Так мы поднимаемся до верхней левой клетки. Алгоритм завершён. В данном случае оптимальное выравнивание оказалось: |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AA-TCG |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Алгоритм Smith-Waterman принципиально ничем не отличается, но служит для поиска локальных выравниваний. Это накладывает некоторые осложнения на
ситуацию, потому что мы не будем начинать в верхней левой и заканчивать в нижней левой клетках, если в конце или начале нет совпадений с положительным
весом, а также ищется не одно оптимальное, однозначно определяемое выравнивание, а сразу несколько, которые, подобно дереву, могут начинаться от
одного ствола и разветвляться на множество ветвей, количество которых ограниченно только длиной исходных последовательностей. Эти проблемы имеют
свои решения, которые, однако, я не буду описывать. Стоит отметить, что в использованном для предыдущего задания мутанте 0608 программа Water отсекла первые 6 АО, так как в данном случае глобальное выравнивание не являлось оптимальным, как в двух остальных случаях. К менее принципиальным отличиям можно отнести то, что Needle справляется со своей задачей и без применения штрафа за гэп, когда для Water это обязательное условие; зато Needle не оперирует отрицательными значениями веса сопоставлений, в отличие от Water. Разницу между этими двумя алгоритмами и их альтернативное описание можно прочитать здесь. А вот на этом видео вы можете просмотреть полноценную лекцию о динамическом программировании в биоинформатике. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Следующее занятие |