Оптимальное парное выравнивание. Алгоритмы

Вернуться на страницу семестра

Сравнение параметров глобального и локального выравниваний пары гомологичных белков семейства HSP70

В данной работе мы сравниваем работу 2 алгоритмов выравнивания: в EMBOSS алгоритм глобального парного выравнивания Нидлмана — Вунша с аффинными штрафами за гэпы реализован в программе needle, локальное выравнивание по алгоритму Смита — Ватермана — в water. Были использованы белки археи Picrophilus torridus и эукариота C. elegans, уже рассматриваемые в предыдущей работе

Предлагаю рассмотреть выравнивания, которые выдают оба алгоритма, сравнить эти выводы и заметить, как изменятся выводы алгоритмов при изменении штрафов за удлинение инделя при переходе от афинных штрафов к линейным. О том, как правильно понимать рисунки ниже: на каждой картинке приведён совмещенный вариант выравниваний по двум алгоритмам. 2 верхние последовательности получены алгоритмом Нидлмана — Вунша. 2 нижние (выделены красным пунктиром) алгоритмом Смита — Ватермана. Параметр консервативности в данных выравниваниях — 50% — для наглядности совпадения результатов разных алгоритмов. Для получения результата в формате fasta следует использовать запрос: needle(water) seqA.fasta seqB.fasta -auto -aformat fasta align.fasta

Рис.1. Глобальное(needle) и локальное(water) выравнивание 1 при автоматических настройках (штраф за удлинение инделя = 0.5)

Рис. 2. Глобальное и локальное выравнивание 2 (штраф = 5)

Рис. 3. Глобальное и локальное выравнивание (штраф = 10)

Можно заметить, что при штрафах 0.5 и 5 выравнивания совпадают везде, кроме коцевого участка, начинающегося с 635 позиции; при штрафе, равном 10, выравнивание менее полное и некоторые блоки, что выражены в первых двух случаях, отсутствуют. Это наглядное доказательство преимущества алгоритмов с афинными штрафами перед линейными в случае гомологичных последовательностей. Однако судить, какое из выравниваний (1 или 2) более правдоподобно, сложно.
Таблицу с параметрами составим для выравнивания 1 с автоматическими настройками.

Таблица 1. Параметры выравнивания 1 для разных алгоритмов

Глобальное выравниваниеЛокальное выравнивание
Длина выравнивания 671632
Консервативные позиции320320
Консервативные позиции, %47,750,6
Функционально консервативные позиции428428
Функционально консерватичные позиции, %63,867,7
Число колонок с гэпами7238
Гэпов, %10,76,0
Число инделей64

Таблица 2. Настройки выравнивания 1 (по умолчанию)

АлгоритмНидлмана — ВуншаСмита — Ватермана
Программаneedlewater
Тип выравниванияГлобальноеЛокальное
Матрица весовEBLOSUM62 EBLOSUM62
Штраф за открытие инделя10.010.0
Штраф за удлинение инделя0.50.5
Штраф за открытие концевого инделя10.010.0
Штраф за удлинение концевого инделя0.50.5

Алгоритм Смита — Ватермана предназначен для получения локального выравнивания последовательностей, то есть для выявления сходных участков двух нуклеотидных или белковых последовательностей. В отличие от алгоритма Нидлмана — Вунша, который осуществляет выравнивание последовательностей по всей длине, алгоритм Смита — Ватермана сравнивает отрезки всех возможных длин и оптимизирует меру сходства по всем отрезкам и всем выравниваниям этих отрезков [1]. Очевидно, что поэтому длина локального выравнивания меньше, а так как в первом, автоматическом, выравнивании (но не в остальных) количество абсолютно и функционально консервативных позиций осталось неизменным, то и процент этих позиций вырос, процент же гэпов уменьшился. Главным отличием двух типов выравнивания можно назвать отбрасывание концевых участков глобального выравнивания в локальном.

Команды для изменения параметров
-gapopen [10.0 for any sequence] Можно варьировать от 10 до 100
-gapextend [0.5 for any sequence] Можно варьировать от 0 до 10
-endopen [10.0 for any sequence]
-endextend [0.5 for any sequence]
-datafile [EBLOSUM62 for protein, EDNAFULL for DNA]

Сравнение параметров локального выравнивания пары негомологичных белков

Таблица 3. Выбранные негомологичные белки

БелокИдентификаторОрганизмКлассДлина
ДигуанилатциклазаAMD46139.1Bordetella holmesii H558Лиазы452
Металло-бета-лактамазаAMA59514.1Bradyrhizobium sp. CCGE-LA001Гидролазы294
Триозофосфат-изомераза AKC28878.1Flavobacterium psychrophilumИзомеразы250
ПероксиредоксиныALV11282.1Mycobacterium bovisОксидоредуктазы153
ФормилтетрагидрофолатсинтазаALX07041.1Ruminiclostridium thermocellum AD2Лигазы 556
Полирибонуклеотид нуклеотидилтрансферазаALV20907.1Carnobacterium sp. CP1Трансферазы702

Таблица 4. Локальное выравнивание гомологичных (1 столбец) и негомологичных (2 - 6 стоблец) белков

Гомологичная параПара 1-2Пара 1-3Пара 1-4Пара 1-5Пара 1-6
Длина выравнивания6321908144390302
Консервативные позиции3204119128557
Консервативные позиции, %50,621,623,527,321,818,9
Функционально консервативные позиции42861341814999
Функционально консерватичные позиции, %67,732,14240,938,232,8
Число колонок с гэпами385171193114
Гэпов, %6,026,88,62523,837,7
Число инделей48232316

Комментарий к таблице: в локальном выравнивании гомологичных последовательностей процент абсолютно консервативных позиций вдвое больше, чем у негомологичных, функционально консервативных - много больше половины (почти 70%), процент гэпов наименьший, очень мало инделей с учётом длины выравнивания - 632.

Рис. 4. Локальное(water) выравнивание гомологов

Рис. 5. Локальное(water) выравнивание 1-2

Рис. 6. Локальное(water) выравнивание 1-3

Рис. 7. Локальное(water) выравнивание 1-4

Рис. 8. Локальное(water) выравнивание 1-5

Рис. 9. Локальное(water) выравнивание 1-6

Отличия выравниваний, построенных разными программами

Рис. 10. Выравнивания, построенные разными способами

Пояснения к рисунку и комментарии: в выравнивании совмещены выравнивания, полученные 3 способами. Первые 2 строки - парное выравнивание, полученное из множественного путем удаления всех последовательностей, кроме двух; следующие 2 строки - глобальное выравнивание программой needle (EMBOSS), параметры по умолчанию. Последние 2 строки - локальное выравнивание программой water (EMBOSS).
Как уже отмечалось ранее, локальное и глобальное выравнивания не отличаются ничем, кроме концевых участков, но выравнивание, полученное из множественного имеет некоторые отличия: тимины в 64-65 позициях вместо гэпов, в 111 позиции лизин переместился в 123, индель в 135-138, из-за чего последующее выравнивание смещено и др.
Я думаю, что самым правдопообным считается локальное выравнивание, ведь "очки", которые получает выравнивание довольно условны, а в итоге для биоинформатика оказываются полезны именно блоки с большим количеством консервативных позиций, чтобы выявить гомологию. Именно к этому и стремится локальное выравнивание, в то время как глобальное может внести ошибки.

Ориентированный граф для построения глобального выравнивания с аффинными штрафами за индели

Рис. 11. Граф глобального выравнивания с афинными штрафами. Собственная иллюстрация (участок выравнивания 2х2) и готовая [2].

К известному графу для глобального выравнивания с линейным штрафом ("Манхэттен и Бродвеи") добавим 2 этажа: выше и ниже. Проведу аналогию с гипотетическими раем и адом для лучшего понимания: верхний этаж - рай, средний - бытие на земле, нижний - ад, штраф получают за состояние вне жизни. Попасть в рай из бытия или низвергнуться в ад можно только за большой штраф g (смерть). Перемещаться по этим этажам (розовые линии) можно с низким штрафом h (h<<'g). Возвращение к жизни - реинкарнация - не наказывается штрафом. На втором этаже происходит только диагональное перемещение - мирские хлопоты, за которые мы пытаемся набрать наибольшее количество "очков" и получить наилучшее выравнивание (проход по красному контуру запрещён, он нужен для лучшего представления структуры объёмного графа). Проход по диагонали и получение бонусных баллов за удачное выравнивание осуществляется согласно начальной матрице весов.

Ориентированный граф для построения локального выравнивания с линейными штрафами за гэпы

Рис. 12. Граф локального выравнивания с линейными штрафами. Собственная иллюстрация (участок графа 4х4) и готовая [2].

Для локального выравнивания нужно придать графу такие свойства, чтобы он позволил начать (закончить) выравнивание не с начала (в конце), а с любой вершины. Поэтому добавим стрелки с нулевой стоимостью от каждой вершины к концу и от начала до каждой вершины. То есть веса синих стрелок - 0, лиловых перпендикулярных переходов - линейный штраф за гэп g, вес прохода по диагонали (тёмно-фиолетовые рёбра графа) определяется матрицей весов.

Матрица "весов дружелюбности" зрителей на концерте

Начальные данные: трибуна актового зала МГУ на концерте классической музыки 21 апреля 2017 года. Расчёты и схема трибуны представлена на рисунке 13.

Рис. 13. Рассадка людей на трибуне и расчёты

Табл. 5. Матрица весов дружелюбности

ЖМСумма
Ж3-4-1
М-4-4-8
Сумма-1-8

Скрипт для задания 2: локальное выравнивание фиксированного белка относительно других





© Миронова Екатерина 2017 год