Семестры
Сайт ФББ МГУ
Kodomo Wiki
NCBI

RanHummer personal web-site


Предсказание парных выравниваний


Для выполнения заданий данного практикума было взято множественное выравнивание последовательностей из файла align_03.fasta, затем оно было выровнено в соответствии с эволюционным родством последовательностей (с помощью построения дерева эволюционных взаимосвязей по способу Neighbour Joining Using BLOSUM62) и раскрашено по способу BLOSUM62 с порогом консервативности 30 (Рис. 1).

Все изображения выравниваний были получены с помощью программы Jalview. С проектом в формате .jvp можно ознакомиться здесь.

Рис. 1. Изображение исходного множественного выравнивания последовательностей из файла align_03.fasta. Раскраска BLOSUM62.

Задание 1.

Была произведена попытка решить задачу - выбор двух наименее схожих последовательностей - смешением двух способов: сначала с помощью метода главных компонент (Рис. 2a) (Calculate -> Principal component analysis) найти наиболее удаленные последовательности, а затем проверить и уточнить догадку на эволюционном дереве (Рис. 2b).

Рис. 2a. Результат работы метода главных компонент с множественным выравниванием из файла align_03.fasta

Рис. 2b. Дерево родства последовательностей из файла align_03.fasta

Как наглядно видно на Рис. 2a, наиболее удалены друг от друга 2 пары последовательностей: BUTPB с CELLD и BREBN. На древе эти пары предсказуемо занимают самые удаленные друг от друга позиции. Однако BUTPB на 0.25 у.е. дальше от BREBN, чем CELLD, поэтому итог - BUTPB и BREBN

Задание 2.

На Рис.2с представлено парное выравнивание выбранных последовательностей - BUTPB и BREBN.

Рис. 2с. Изображение полученного парного выравнивания последовательностей BUTPB и BREBN. Раскраска ClustalX.

Задание 3.

Последовательности также доступны в fasta-формате: BUTPB и BREBN

Задание 4.

В данном задании были построены парные выравнивания: глобальные по алгоритму Нидлмана-Вунша (команда needle) и локальные по алгоритму Смита-Ватермана (команда water). При построении данных парных выравниваний используются характеристики: матрица замен весов (по умолчанию BLOSUM62), gap opening penalty - штраф за открытие гэпа (по умолчанию 10.0) и gap extension penalty - штраф за длину гэпа (по умолчанию 0.5). Интересно, что штраф за открытие по умолчанию больше, чем штраф за длину гэпа, так как в большинстве выравниваний более вероятно меньшее количество длинных гэпов, чем большое количество коротких гэпов.

На Рис. 3а и Рис. 3b соответственно изображены глобальное и локальное выравнивание последовательностей BUTPB и BREBN, все параметры стоят по умолчанию (матрица замен весов BLOSUM62, gap opening penalty 10.0, gap extension penalty 0.5).

С выравниваниями можно ознакомиться в fasta-формате: needle.fasta, water.fasta.

Рис. 3a. Изображение глобального парного выравнивания последовательностей BUTPB и BREBN со стандартными характеристиками. Раскраска ClustalX.

Рис. 3b. Изображение локального парного выравнивания последовательностей BUTPB и BREBN со стандартными характеристиками. Раскраска ClustalX.

Затем я изменил параметры характеристик gap opening penalty и gap extension penalty.

Для глобального выравнивания я пытался уменьшить штраф за открытие гэпа, но снижение значения вплоть до 1.0 не давали никаких изменений в выравнивании, попытки увеличить штраф также ни к чему не привели (последовательности почти совпадают по длине и имеют очень много консервативных позиций, нет необходимости в гэпах)

На Рис. 4а изображено глобальное парное выравнивание с gap opening penalty = 1 (needle2.fasta).

Рис. 4a. Изображение глобального парного выравнивания последовательностей BUTPB и BREBN с gap opening penalty = 1. Раскраска ClustalX.

Для локального выравнивания я попробовал изменить (и уменьшать, и увеличивать) штраф за продолжение гэпа, но это не дало результатов из-за того, что выравнивание "хорошее" и без гэпов, поэтому любое снижение штрафов не приводит к их появлению. Поэтому для получения изменений я выставил gap opening penalty значение 0. Для компенсации gap extension penalty = 5

На Рис. 4b представлено локальное парное выравнивание с gap opening penalty = 0 и gap extension penalty = 5 (water2.fasta).

Рис. 4b. Изображение локального парного выравнивания последовательностей BUTPB и BREBN с gap opening penalty = 0. Раскраска ClustalX.

Задание 5.

Для выполнения данного задания были взяты последовательности моего белка - Mutator MutT из Mesorhizobium opportunistum WSM2075, и белка другого студента - dUTP pyrophosphatase из Amycolatopsis orientalis

На Рис. 5а и Рис. 5b соответственно изображены глобальное и локальное выравнивание этих последовательностей со стандартными значениями штрафов за открытие и продолжение гэпов.

Рис. 5a. Изображение глобального парного выравнивания последовательностей белков с идентификаторами в базе данных RefSeq YP_004610222 и YP_008011580 со стандартными параметрами. Раскраска ClustalX.

Рис. 5b. Изображение локального парного выравнивания последовательностей белков с идентификаторами в базе данных RefSeq YP_004610222 и YP_008011580 со стандартными параметрами. Раскраска ClustalX.

Задание 7.

В данном задании было необходимо сравнить парные выравнивания, построенные программами needle и water, с выравниванием, полученным из множественного. Для этого я добавил парное выравнивание, полученное из множественного, к каждому из четырех выравниваний, ранее полученных с помощью программ. Затем я выровнял одно выравнивание относительно другого, добавляя гэпы там, где это было нужно.

Рис. 6a. Изображение глобального парного выравнивания со стандартными параметрами и парного выравнивания, полученного из множественного. Раскраска ClustalX.

Рис. 6b. Изображение локального парного выравнивания со стандартными параметрами и парного выравнивания, полученного из множественного. Раскраска ClustalX.

Рис. 6c. Изображение глобального парного выравнивания с измененными параметрами и парного выравнивания, полученного из множественного. Раскраска ClustalX.

Рис. 6d. Изображение локального парного выравнивания с измененными параметрами и парного выравнивания, полученного из множественного. Раскраска ClustalX.

Глобальное выравнивание со стандартными параметрами совпало с исходным парным выравниванием за исключением 2-х сдвигов гэпов в позициях 54-57 и 140-144 (всего 6 различающихся колонок), локальное со стандартными параметрами - то же самое. Глобальное выравнивание с измененными параметрами потребовало вставки нескольких гэпов (61 разл. колонка), тогда как локальное с измененными параметрами - много не всегда очевидных гэпов (97 разл. колонок).

На Рис. 7 показаны два участка с различиями (14-16, 19-22) и 5 совпадающими колонками справа и слева от различных колонок (координаты участка: 9-27).

Рис. 7. Участок с различиями выравнивания из Рис. 6с. Раскраска ClustalX.

Задание 8.

В данном задании была произведена попытка проанализировать качество парных выравниваний последовательностей BUTPB и BREBN, полученных с помощью программ needle и water, и выравнивание, полученное из множественного выравнивания, а также выравниваний заведомо негомологичных белков. Для получения численных характеристик (а именно: количество и длина гэпов, процент консервативных позиций и сходных позиций) в качестве почвы для сравнения способов построения выравниваний я воспользовался программой infoalign с опцией -refseq 1.

Результаты работы данной программы с вышеперечисленными выравниваниями можно наблюдать в Таблице 1.

Таблица 1.
Таблица 1. Сравнение выравниваний гомологичных (BUTPB и BREBN) и заведомо негомологичных последовательностей, построенных разными способами, по их численным характеристикам.
Способ выравнивания Последовательности Длина выравнивания Gap opening penalty Gap extension penalty Число консервативных колонок (Ident) Процент консервативных колонок, % Число сходных колонок (Similar) Процент сходных колонок, % Процент консервативных и сходных колонок, % Число гэпов Длина гэпов
Парное, полученное из множественного BUTPB и BREBN 152 - - 74 48,7% 20 13% 62% 6 13
Глобальное (стандартные параметры) BUTPB и BREBN 152 10,0 0,5 73 48% 21 13,8% 61,8% 3 4
Локальное (стандартные параметры) BUTPB и BREBN 152 10,0 0,5 73 48% 21 13,8% 61,8% 3 4
Глобальное (измененные параметры) BUTPB и BREBN 171 1,0 0,5 103 60% 19 11% 71% 30 42
Локальное (измененные параметры) BUTPB и BREBN 189 0,0 5,0 122 64,5% 17 9% 73,5% 54 78
Глобальное (стандартные параметры) YP_004610222 и YP_008011580 268 10,0 0,5 12 5,2% 12 4,5% 9,7% 3 10
Локальное (стандартные параметры) YP_004610222 и YP_008011580 14 10,0 0,5 5 35,7% 2 14,3% 50% 0 0

Проанализировав данные таблицы, я пришел к следующим выводам:

  • Процент консервативных колонок в "хороших" выравниваниях (выравнивания гомологичных последовательностей BUTPB и BREBN) высоко (около 50% - процент, в том числе, и позволяет судить о гомологичности последовательностей), а в "плохих" (выравнивание негомологичных последовательностей) - колеблется от 5% до 35%. Однако более наглядной характеристикой можно считать общий процент сходных и консервативных последовательностей, так как он подтверждает негомологичность последовательностей белков YP_004610222 и YP_008011580 (10% - даже ниже 15%, типичного процента сходства негомологичных последовательностей), а также сделать вывод о том, какой способ выравнивания лучше.
  • Можно сказать, что локальное выравнивание в целом лучше, чем глобальное. Особенно сильно это видно при выравнивании негомологичных последовательностей: при глобальном выравнивании процент сходных и консервативных колонок равен 10%, а при локальном - около 50%. Это вполне закономерный результат, так как при выравнивании негомологичных последовательностей мы получаем чередование абсолютно различных участков и участков с определенным процентом сходства, поэтому с большей вероятностью можно найти участок выравнивания с наиболее высоким процентом сходства, чем получить высокий процент при выравнивании последовательностей целиком. Другое дело, что локальное и глобальное выравнивание служат разным целям: например, локальное полезно для поиска каких-либо сходных функциональных паттернов, но без глобального выравнивания невозможно судить о гомологичности в целом.
  • Выравнивания гомологичных последовательностей в этом вопросе не так показательны, потому что они обладают очень высоким сходством на всем протяжении глобального выравнивания.
  • По поводу гэпов: обнуление штрафа за открытие гэпа значительно увеличило их число и длину. Совершенно другая ситуация с выравниванием негомологичных последовательностей: присутствует также 3 гэпа, но они длиннее (10 колонок). Здесь интересно то, что в локальном выравнивании этих последовательностей гэпов вообще нет.
  • Изменение штрафов за открытие и продолжение гэпов привело к изменениям в количестве консервативных и сходных позиций - наблюдается явный скачок на более чем 10%. Это говорит о том, что крайне важно правильно подобрать коэффициенты матрицы замен весов - отклонения в противном случае могут быть очень большими.
  • По поводу того, что лучше: выравнивание, построенное из множественного или созданное программой: множественное выравнивание эффективнее находит абсолютно консервативные колонки, а парное, отталкиваясь только от этих двух последовательностей, стремиться лишь увеличить Score, что приводит к росту процента схожих колонок и падению процента консервативных.

© Поляков Игорь aka RanHummer