Учебный сайт Николаевой Дарьи

Главная Первый семестр Второй семестр Ссылки Обо мне Заметки

Предсказание парных выравниваний


Для выполнения заданий данного практикума было взято множественное выравнивание последовательностей из файла align_07.fasta, затем оно было выровнено в соответствии с эволюционным родством последовательностей (с помощью построения дерева эволюционных взаимосвязей по способу Neighbour Joining Using BLOSUM62) и раскрашено по способу BLOSUM62 с порогом консервативности 30 (Рис. 1).

Все изображения выравниваний были получены с помощью программы Jalview. С проектом можно ознакомиться здесь.

Изображение не загрузилось
Рис. 1. Изображение исходного множественного выравнивания последовательностей из файла align_07.fasta. Раскраска BLOSUM62.


Задание 1.
Была произведена попытка решить задачу - выбор двух наименее схожих последовательностей - двумя способами: сначала с использованием собственного аналитического аппарата, а затем с помощью метода главных компонент (Calculate -> Principal component analysis).
Часть первая. Выбор "на глаз".
При выборе двух наименее схожих последовательностей трудно удержаться от соблазна начать построение своей гипотезы с взгляда на эволюционное дерево имеющихся последовательностей (Рис. 2а).

Изображение не загрузилось
Рис. 2а. Дерево родства последовательностей из файла align_07.fasta.


На данном дереве наглядно видно, что изначально все последовательности подразделяются на две группы, одна из которых состоит из последовательностей ROSHA и EUBR3, а другая, в свою очередь, также делится на две группы. Таким образом, первая мысль, которая приходит в голову - взять одну последовательность ROSHA или EUBR3 и какую-то из остальных. Если попробовать подсчитать все расстояния между последовательностями на дереве, то выяснится, что найбольшее различие наблюдается между ROSHA или EUBR3 и последовательностью DESOD. А если судить только по расположению на дереве, то дальше всего от выбранной пары находится последовательность BACST.
Теперь взглянем на сами последовательности (Рис. 1). Нетрудно убедиться, что последовательности ROSHA и EUBR3 действительно имеют много общего между собой и сильно отличаются от остальных (наличие своих консервативных позиций, гэпы расположены либо только в них, либо только за их пределами). У последовательностей ROSHA и EUBR3 примерно одинаковое количество отличий от всех остальных последовательностей, поэтому, на мой взгляд, можно взять любую из них.
Возьмем, к примеру, последовательность ROSHA. При взгляде на остальные последовательности нельзя не заметить, что последовательности BACST и LACLK в некоторых позициях имеют больше сходства с ROSHA, чем все остальные - "отметаем" эти последовательности. А вот последовательности MOOTA и THETN содержат некоторое количество позиций, которые отличаются и от ROSHA, и от остальных и иногда совпадают между ними самими (например, 1, 12, 38, 61, 70, 76, 103, 109, 114, 132, 133). Но выбор между ними все так же трудно сделать, хотя я бы, на первый взгляд, отдала предпочтение THETN.

Часть вторая. Метод главных компонент.
Несмотря на кажущееся сходство, последовательности ROSHA и EUBR3, как оказалось, являются наименее схожими (Рис. 2b).


Изображение не загрузилось
Рис. 2b. Результат работы метода главных компонент с множественным выравниванием из файла align_07.fasta.


Задание 2.
На Рис.2с представлено парное выравнивание выбранных последовательностей - ROSHA и EUBR3.
Изображение не загрузилось
Рис. 2с. Изображение полученного парного выравнивания последовательностей ROSHA и EUBR3. Раскраска ClustalX.


Задание 3.
Последовательности также доступны в fasta-формате: EUBR3 и ROSHA.
Задание 4.
В данном задании были построены парные выравнивания: глобальные по алгоритму Нидлмана-Вунша (команда needle) и локальные по алгоритму Смита-Ватермана (команда water). При построении данных парных выравниваний используются характеристики: матрица замен весов (по умолчанию BLOSUM62), gap opening penalty - штраф за открытие гэпа (по умолчанию 10.0) и gap extension penalty - штраф за длину гэпа (по умолчанию 0.5). Интересно, что штраф за открытие по умолчанию больше, чем штраф за длину гэпа, так как в большинстве выравниваний более вероятно меньшее количество длинных гэпов, чем большое количество коротких гэпов.
На Рис. 3а и Рис. 3b соответственно изображены глобальное и локальное выравнивание последовательностей ROSHA и EUBR3, все параметры стоят по умолчанию (матрица замен весов BLOSUM62, gap opening penalty 10.0, gap extension penalty 0.5).
С выравниваниями можно ознакомиться в fasta-формате: needle.fasta, water.fasta.
Изображение не загрузилось
Рис. 3a. Изображение глобального парного выравнивания последовательностей ROSHA и EUBR3 со стандартными характеристиками. Раскраска ClustalX.


Изображение не загрузилось
Рис. 3b. Изображение локального парного выравнивания последовательностей ROSHA и EUBR3 со стандартными характеристиками. Раскраска ClustalX.


Затем я изменила параметры характеристик gap opening penalty и gap extension penalty.
Для глобального выравнивания я пыталась уменьшить штраф за открытие гэпа, но снижение значения даже вплоть до 1.0 не давали никаких изменений в выравнивании, попытки увеличить штраф также ни к чему не привели (последовательности совпадают по длине и имеют очень много консервативных позиций, нет необходимости в гэпах), поэтому для получения изменений я выставила gap opening penalty значение 0. Однако различия все равно наблюдаются редко и лишь в функционально консервативных позициях, именно поэтому все парные выравнивания раскрашены по способу ClustalX (при раскраске BLOSUM62 различия не обнаружить).
На Рис. 4а изображено глобальное парное выравнивание с нулевым штрафом за открытие гэпа (fasta-формат: needle_1.fasta).
Изображение не загрузилось
Рис. 4a. Изображение глобального парного выравнивания последовательностей ROSHA и EUBR3 с gap opening penalty = 0. Раскраска ClustalX.


Для локального выравнивания я попробовала изменить (и уменьшать, и увеличивать) штраф за продолжение гэпа, но это снова не дало результатов из-за того, что выравнивание "хорошее" и без гэпов, поэтому любое снижение штрафов не приводит к их появлению. Тогда я снова обнулила штраф за открытие гэпа и попыталась изменять штраф за продолжение, но вновь не обнаружила изменений, так как все гэпы одиночные, и нет причин сделать их длиннее.
На Рис. 4b представлено локальное парное выравнивание с нулевым штрафом за открытие гэпа и со штрафом за продолжение гэпа, равным 0.1 (fasta-формат: water_1.fasta).
Изображение не загрузилось
Рис. 4b. Изображение локального парного выравнивания последовательностей ROSHA и EUBR3 с gap opening penalty = 0 и gap extension penalty = 0.1. Раскраска ClustalX.


Задание 5.
Для выполнения данного задания были взяты последовательности моего белка - аспартатаминотрансферазы Aquifex aeolicus VF5 (fasta-формат: my.fasta) и белка другого студента - дУТФ (дезоксиуридин-трифосфат) пирофосфатазы из организма Amycolatopsis orientalis (fasta-формат: friend.fasta).
На Рис. 5а и Рис. 5b соответственно изображены глобальное и локальное выравнивание этих последовательностей со стандартными значениями штрафов за открытие и продолжение гэпов.
Глобальное выравнивание в fasta-формате: nonhomologous_needle.fasta.
Локальное выравнивание в fasta-формате: nonhomologous_water.fasta.
Изображение не загрузилось
Рис. 5a. Изображение глобального парного выравнивания последовательностей белков с идентификаторами в базе данных RefSeq NP_214350 и YP_008011580 со стандартными параметрами. Раскраска ClustalX.



Изображение не загрузилось
Рис. 5b. Изображение локального парного выравнивания последовательностей белков с идентификаторами в базе данных RefSeq NP_214350 и YP_008011580 со стандартными параметрами. Раскраска ClustalX.


Задание 7.
В данном задании было необходимо сравнить парные выравнивания, построенные программами needle и water, с выравниванием, полученным из множественного. Для этого я добавила парное выравнивание, полученное из множественного, к каждому из четырех выравниваний, ранее полученных с помощью программ. Затем я выровняла одно выравнивание относительно другого, добавляя гэпы там, где это было нужно.
Глобальное выравнивание со стандартными параметрами полностью совпало с исходным парным выравниванием, локальное со стандартными параметрами потребовало лишь добавления гэпа в первую позицию (локальное на один остаток короче глобального), поэтому для обзора различий можно взять только глобальное выравнивание с измененными параметрами (gap opening penalty 0, gap extension penalty 0.5) (локальное выравнивание с измененными параметрами опять же отличается только отсутствием первой колонки. Под различиями подразумеваются различные колонки, то есть колонки, не совпадающие в обоих выравниваниях.
На Рис. 6a - Рис. 6d изображены вышеупомянутые выравнивания (на каждом рисунке верхнее - получено соответствующей программой с определенными параметрами, нижнее - получено из множественного).

Изображение не загрузилось
Рис. 6a. Изображение глобального парного выравнивания со стандартными параметрами и парного выравнивания, полученного из множественного. Раскраска ClustalX.


Изображение не загрузилось
Рис. 6b. Изображение локального парного выравнивания со стандартными параметрами и парного выравнивания, полученного из множественного. Раскраска ClustalX.


Изображение не загрузилось
Рис. 6c. Изображение глобального парного выравнивания с измененными параметрами и парного выравнивания, полученного из множественного. Раскраска ClustalX.


Изображение не загрузилось
Рис. 6d. Изображение локального парного выравнивания с измененными параметрами и парного выравнивания, полученного из множественного. Раскраска ClustalX.


На Рис. 6с можно обнаружить несколько участков с различиями (появляются гэпы длиной в одну колонку в глобальном выравнивании с измененными параметрами). Эти участки: 28-29, 53-54, 59-60, 62-63, 73-74, 107-108 (общее число различных колонок - 12). На Рис. 7 показан один из участков с различиями (73-74) и 5 совпадающими колонками справа и слева от различных колонок (координаты участка: 68-81).

Изображение не загрузилось
Рис. 7. Участок с различиями выравнивания из Рис. 6с.


Задание 8.
В данном задании была произведена попытка проанализировать качество парных выравниваний последовательностей ROSHA и EUBR3, полученных с помощью программ needle и water, и выравнивание, полученное из множественного выравнивания, а также выравниваний заведомо негомологичных белков. Для получения численных характеристик (а именно: количество и длина гэпов, процент консервативных позиций и сходных позиций) в качестве почвы для сравнения способов построения выравниваний я воспользовалась программой infoalign с опцией -refseq 1.
Результаты работы данной программы с вышеперечисленными выравниваниями можно наблюдать в Таблице 1.

Таблица 1. Сравнение выравниваний гомологичных (ROSHA и EUBR3) и заведомо негомологичных последовательностей, построенных разными способами, по их численным характеристикам.
Способ выравнивания Последовательности Длина выравнивания Gap opening penalty Gap extension penalty Число консервативных колонок (Ident) Процент консервативных колонок, % Число сходных колонок (Similar) Процент сходных колонок, % Процент консервативных и сходных колонок, % Число гэпов Длина гэпов
Парное, полученное из множественного ROSHA и EUBR3 153 - - 124 81,05 16 10,46 91,50 0 0
Глобальное (стандартные параметры) ROSHA и EUBR3 153 10,0 0,5 124 81,05 16 10,46 91,50 0 0
Локальное (стандартные параметры) ROSHA и EUBR3 152 10,0 0,5 124 81,58 16 10,53 92,11 0 0
Глобальное (измененные параметры) ROSHA и EUBR3 159 0 0,5 124 81,05 16 10,46 91,50 6 6
Локальное (измененные параметры) ROSHA и EUBR3 158 0 0,1 124 81,58 16 10,53 92,11 6 6
Глобальное (стандартные параметры) NP_214350 и YP_008011580 443 10,0 0,5 37 9,39 30 7,61 17,01 7/6 49/260
Локальное (стандартные параметры) NP_214350 и YP_008011580 125 10,0 0,5 26 24,53 20 18,87 43,40 5/3 19/21


Проанализировав данные таблицы, я пришла к следующим выводам:
  • Процент консервативных колонок в "хороших" выравниваниях (выравнивания гомологичных последовательностей ROSHA и EUBR3) приближается к 100% (около 80% - процент, в том числе, и позволяет судить о гомологичности последовательностей), а в "плохих" (выравнивание негомологичных последовательностей) - колеблется от 10% до 25%. Однако более наглядной характеристикой можно считать общий процент сходных и консервативных последовательностей, так как он подтверждает негомологичность последовательностей белков NP_214350 и YP_008011580 (процент равен 17% - в районе 15% типичный процент сходства негомологичных последовательностей), а также сделать вывод о том, какой способ выравнивания лучше.
  • Можно сказать, что локальное выравнивание в целом лучше, чем глобальное. Особенно сильно это видно при выравнивании негомологичных последовательностей: при глобальном выравнивании процент сходных и консервативных колонок равен 17%, а при локальном - около 45%. Это вполне закономерный результат, так как при выравнивании негомологичных последовательностей мы получаем чередование абсолютно различных участков и участков с определенным процентом сходства, поэтому с большей вероятностью можно найти участок выравнивания с наиболее высоким процентом сходства, чем получить высокий процент при выравнивании последовательностей целиком. Другое дело, что локальное и глобальное выравнивание служат разным целям: например, локальное полезно для поиска каких-либо сходных функциональных паттернов, но без глобального выравнивания невозможно судить о гомологичности в целом.
  • Выравнивания гомологичных последовательностей в этом вопросе не так показательны, потому что они обладают очень высоким сходством на всем протяжении глобального выравнивания. Так, локальное выравнивание всего на 1 аминокислотный остаток короче глобального, поэтому увеличение процента сходства несущественное.
  • По поводу гэпов хочется повторить уже сказанное ранее: последовательности ROSHA и EUBR3 имеют такое высокое сходство, что гэпы в выравниваниях появляются только при обнулении штрафа за открытие гэпа (появляется 6 гэпов длиной в 1 колонку). Изменение штрафа за продолжение гэпа вообще не привело ни к каким различиям, что опять же подтверждает высокое сходство последовательностей. Совершенно другая ситуация с выравниванием негомологичных последовательностей: присутствует также около 6 гэпов, но они значительно длиннее (до 30 колонок). Здесь интересно то, что в локальном выравнивании этих последовательностей гэпов немногим меньше, но суммарная их длина в обеих последовательностях больше.
  • Изменение штрафов за открытие и продолжение гэпов также не привело к изменениям в количестве консервативных и сходных позиций - эти данные одинаковы для всех 5 выравниваний последовательностей ROSHA и EUBR3. Поэтому на данном примере трудно судить об эффективности изменения параметров выравнивания.
  • Выводов по поводу того, что лучше: выравнивание, построенное из множественного или созданное программой, по имеющемуся примеру также сделать нельзя, так как они абсолютно идентичны.

© 2014 Дарья Николаева