Предсказание парных выравниваний

Из множественного выравнивания последовательностей белков, с которым я работала в предыдущем практикуме, я выбрала две наименее схожие последовательности с помощью метода главных компонент (Principal component analysis). Эти последовательности - DESOD и ROSHA (при нажатии на ссылку показывается fasta-файл). Парное выравнивание этих последовательностей, полученное из множественного вырвавнивания align_06.fasta, представлено на рисунке 1.
Все выравнивания, представленные на рисунках, можно открыть в JalView, скачав проект по ссылке.

Парное выравнивание

Рисунок 1. Парное выравнивание последовательностей DESOD и ROSHA, полученное из множественного выравнивания align_06.fasta. Раскраска ClustalX.

Далее с помощью программ needle и water, которые используют алгоритм Нидлмана - Вунша и алгоритм Смита - Ватермана соответственно, были построены парные выравнивания этих последовательностей. Needle строит глобальное парное выравнивание, water - локальное. На рисунках 2 и 3 представлены парные выравнивания, построенные со стандартнымы параметрами (матрица BLOSUM62, gap open = 10.0, gap extension = 0.5). Gap open задает штраф за первый гэп, то есть за открытие, а gap extension - штраф за каждый последующий гэп, то есть за продолжение.
Полученные выравнивания можно скачать в формате fasta: needle, water.

Парное выравнивание needle

Рисунок 2. Парное глобальное выравнивание последовательностей DESOD и ROSHA, полученное с помощью программы needle с параметрами gap open = 10.0, gap extension = 0.5, раскраска ClustalX.

Парное выравнивание water

Рисунок 3. Парное локальное выравнивание последовательностей DESOD и ROSHA, полученное с помощью программы water с параметрами gap open = 10.0, gap extension = 0.5, раскраска ClustalX.

Затем я изменила параметры gap open и gap extension. Для глобального выравнивания (needle) я уменьшила штраф за открытие гэпа (gap open = 1.0). Полученное выравнивание можно увидеть на рисунке 4, а также скачать fasta-файл.

Парное выравнивание needle с измененными параметрами

Рисунок 4. Парное глобальное выравнивание последовательностей DESOD и ROSHA, полученное с помощью программы needle с параметрами gap open = 1.0, gap extension = 0.5, раскраска ClustalX.

Для локального выравнивания (water) я изменила параметр gap extension, однако получившееся выравнивание ничем не отличалось от представленного на рисунке 3. Поэтому я также уменьшила и штраф за открытие гэпа. Полученное выравнивание, построеное с помощью программы water с параметрами gap open = 5.0, gap extension = 0.1, представлено на рисунке 5, fasta-файл можно скачать по ссылке.

Парное выравнивание water с измененными параметрами

Рисунок 5. Парное локальное выравнивание последовательностей DESOD и ROSHA, полученное с помощью программы water с параметрами gap open = 5.0, gap extension = 0.1, раскраска ClustalX.

Далее я построила парные выравнивания последовательностей двух заведомо негомологичных белков (рисунки 6 и 7). Идентификаторы выбранных белков в базе данных UniProt: K9R0L9 и I0I273 (при нажатии на ссылку показывается fasta-файл). Выравнивания построены с помощью программ needle и water со стандартными параметрами, fasta-файлы можно скачать по ссылкам: needle и water.

Парное выравнивание needle негомологичных последовательностей

Рисунок 6. Парное глобальное выравнивание последовательностей K9R0L9 и I0I273, полученное с помощью программы needle с параметрами gap open = 10.0, gap extension = 0.5, раскраска ClustalX.

Парное выравнивание water негомологичных последовательностей

Рисунок 7. Парное локальное выравнивание последовательностей K9R0L9 и I0I273, полученное с помощью программы water с параметрами gap open = 10.0, gap extension = 0.5, раскраска ClustalX.

Для сравнения построенных выравниваний последовательностей DESOD и ROSHA с исходным, полученным из множественного выравнивания (рисунок 1), я объединяла сравниваемые выравнивания в одно окно Jalview и выравнивала их друг относительно друга. Колонки, которые присутствуют одновременно в обоих выравниваниях, считаются совпадающими, а те, которые присутствуют только в одном из выравниваний, - различными. Так как выравнивания, полученные с помощью программ needle и water со стандартными параметрами (рисунки 2 и 3), ничем не отличаются от исходного (в локальном выравнивании просто не учитываются первая и три последних позиции), я сравнивала выравнивания с измененными параметрами.
Сравнение исходного выравнивания с выравниванием, построенным программой needle с параметрами gap open = 1.0 и gap extension = 0.5 (рисунок 4), представлено на рисунке 8. Различающиеся участки, например, 22-25, 46-48 и начиная с 83, потому что с этого момента в выравниваниях появляется большое количество гэпов в разных последовательностях, поэтому колонки начинают отличаться. Участок 46-48, окруженный с обеих сторон совпадающими колонками обоих выравниваний, представлен на рисунке 9. Всего различающихся позиций 51.

Сравнение с needle_1

Рисунок 8. Сравнение парных выравнивание последовательностей DESOD и ROSHA: сверху полученное из множественного выравнивания, снизу - с помощью программы needle с параметрами gap open = 1.0, gap extension = 0.5, раскраска ClustalX.

Участок различия выравниваний

Рисунок 9. Участок с различиями сравниваемых выравниваний с 40 по 54 позиции. Раскраска ClustalX.

На рисунке 10 представлено сравнение исходного выравнивания с выравниванием, построенным программой water с параметрами gap open = 5.0 и gap extension = 0.1 (рисунок 5). Колонки в позициях со 2 по 82 полностью совпадают, далее в отдельных последовательностях были добавлены участки с гэпами, поэтому выровнять их друг относительно друга сложно, а совпадающих колонок нет. Всего различающихся колонок 27.

Сравнение с water_1

Рисунок 10. Сравнение парных выравнивание последовательностей DESOD и ROSHA: сверху полученное из множественного выравнивания, снизу - с помощью программы water с параметрами gap open = 5.0, gap extension = 0.1, раскраска ClustalX.

В таблице 1 представлены данные о числе и проценте консервативных колонок, колонок со сходными аминокислотными остатками, о количестве гэпов в построенных глобальных и локальных выравниваниях гомологичных и немогологичных последовательностей, а также в выравнивании, полученном из множественного.

Таблица 1. Численные параметры (число и процент консервативных колонок и колонок со сходными остатками, количество гэпов) для различных выравниваний последовательностей DESOD и ROSHA и негомологичных последовательностей K9R0L9 и I0I273.
Выравнивание Длина выравнивания Число и процент консервативных колонок Число и процент колонок со сходными остатками Число гэпов
Полученное из множественного 104 40 (38,46%) 23 (22,12%) 0
Глобальное для DESOD и ROSHA 104 40 (38,46%) 23 (22,12%) 0
Локальное для DESOD и ROSHA 100 40 (40%) 23 (23%) 0
Глобальное, с измененными параметрами 121 50 (41,32%) 15 (12,4%) 22 (32)*
Локальное, с измененными параметрами 107 44 (41,12%) 18 (16,82%) 3 (17)
Глобальное для негомологичных последовательностей 677 72 (10,64%) 40 (5,91%) 20 (98)
Локальное для негомологичных последовательностей 183 36 (19,67%) 31 (16,94%) 8 (44)

* - в скобках представлено количество гэпов в том случае, если гэпом считается каждый отдельный символ черточки ("-")

По данным таблицы и по выравниваниям, представленным на рисунках, можно сравнить способы построения парных выравниваний. Во-первых, можно считать, что локальное выравнивание в целом лучше, чем глобальное. Наиболее значительные отличия возникают при выравнивании негомологичных последовательностей. Это вызвано тем, что при построении локального выравнивания те участки, которые плохо выравниваются, вообще не учитываются, гомологичные участки ищутся не во всей последовательности, а только в ее части. Однако локальное выравнивание может подходить не для всех задач.
Во-вторых, в выравниваниях негомологичных последовательностей гэпов гораздо больше, а консервативных и сходных позиций гораздо меньше, что вполне очевидно. Для таких последовательностей лучше подходит именно локальное выравнивание, так как найти случайные совпадения всей последовательности гораздо сложнее, чем совпадение небольшого участка.
В-третьих, выравнивания, полученные с помощью программ needle и water со стандартными параметрами и из множественного выравнивания, практически не отличаются друг от друга. Возможно, это вызвано достаточно сильным сходством последовательностей. При изменении параметров немного увеличивается количество консервативных позиций, однако уменьшается число колонок со сходными остатками и появляется много гэпов. Поэтому в целом нельзя сказать, что изменение параметров в данном случае привело к улучшению качества выравнивания. Также по полученным данным сложно сравнить качество выравниваний, полученных из множественного или построенных программой.
Наконец, данные таблицы 1 иллюстрируют влияние параметров gap open и gap extension на полученное выравнивание. Уменьшение штрафа за открытие гэпа в глобальном выравнивании привело к увеличению числа гэпов, однако эти гэпы относительно короткие (всего 22 гэпа, которые занимают 32 позиции), потому что штраф за продолжение гэпа еще достаточно большой. Изменение параметров локального выравнивания привело к появлению небольшого количества длинных гэпов (на 3 гэпа приходится 17 позиций), которое вызвано уменьшением штрафа за продолжение гэпа.

© Наталия Кашко, 2015