Парные выравнивания

в Jalview

Семестры • Второй семестр • Парные выравнивания

Этот практикум я выполнял, работая с множественным выравниванием из файла aln_09.fasta.

Парное выравнивание из множественного

Для заданий практикума требовалось выравнивание только двух последних последовательностей. Из множественного выравнивания aln_09 были убраны все лишние последовательности и колонки гэпов. Выравнивание двух последовательностей 1IXX_A и 2ZIB_A в формате fasta можно скачать. Множественное и парное выравнивания также содержатся в проекте.

Глобальное и локальное выравнивания

Скачать проект

Существует подразделение выравниваний на локальные и глобальные. Алгоритм для построения глобальных выравниваний "считает", что последовательности изначально гомологичны и так или иначе предполагает сходство на протяжении всего выравнивания. Напротив, алгоритм для построения локального выравнивания ищет сходные участки и выравнивает последовательности относительно их, соответственно, для одной пары последовательностей может быть несколько локальных выравниваний. Один из наиболее известных алгоритмов для построения глобального выравнивания — алгоритм Нидлмана — Вунша. На его основе работает программа needle, которую я и использовал. Полученное выравнивание в формате needle и fasta можно скачать, кликнув по названию формата.

Локальные выравнивания строятся с помощью алгоритма Смита — Ватермана. Его использует программа water, строящая наилучшее локальное выравнивание, которое можно скачать в форматах water и fasta.

В задании также было необходимо построить локальные и глобальные выравнивания для двух заведомо негомологичных белков. Я взял Bontoxilysin A — белок, с которым работаю сам — и углевод-связывающий белок 6 рода из протеома бактерии Flavobacterium johnsoniae, с которым работает Константин Соколов. Кликнув на название формата, можно скачать глобальное выравнивание в форматах needle и fasta и локальное в форматах water и fasta.

В проекте содержатся окна со всеми четырьмя выравниваниями.

В таблице 1 эти выравнивания сравниваются. Информация получена из аннотаций в файлах water и needle, а также с помощью программы infoalign.

Таблица 1. Сравнение выравниваний двух последовательностей из исходного файла и двух негомологичных последовательностей.
Нумерация выравниваний:
1. Парное выравнивание, полученное из исходного множественного.
2. Глобальное выравнивание двух последних последовательностей из множественного выравнивания.
3. Локальное выравнивание двух последних последовательностей из множественного выравнивания.
4. Глобальное выравнивание двух негомологичных белков.
5. Локальное выравнивание двух негомологичных белков.

№	Длина	Число совпадающих остатков	Процент совпадающих остатков	Число сходных остатков	Процент сходных остатков	Число гэпов	Процент гэпов	Число открытий гэпов
1	144	46	31,9	64	44,4	15	10,1	4
2	148	35	23,6	56	37,8	34	23	6
3	134	35	26,1	56	41,8	23	17,2	6
4	1561	198	12,7	335	21,5	869	55.7	59
5	1019	191	18,7	326	32	349	34,1	58

Глобальное выравнивание (полученное с помощью needle), и локальное (water) для двух последних последовательностей из исходного выравнивания идентичны по числу совпадающих и сходных остатков, числу открытий гэпов. Однако в локальном выравнивании последовательности в полтора раза меньше разбавлялись гэпами, в отличие от глобального, где это делалось для достижения "гомологичности" на протяжении всего выравнивания. Выравнивания же совершенно негомологичных последовательностей различаются по числу гэпов еще сильнее — примерно в 2,5 раза, так как алгоритму для глобального выравнивания пришлось подгонять совершенно непохожие последовательности под "гомологичные". Опять же по причине "насильственного" приведения последовательностей к "гомологичным" процент гэпов заметно выше, чем таковой у родственных последовательностей.

Процент совпадающих и идентичных остатков предсказуемо выше в локальном выравнивании, т.к. оно нацелено именно на сопоставление отдельных похожих участков.

Что интересно, выравнивание, полученное из исходного множественного, "качественнее" по всем параметрам, видимо, потому, что оно было составлено вручную или с применением более комплексных подходов.

Различие выравниваний

Скачать проект

Мне необходимо оценить различия между парным выравниванием, полученным из множественного, и с помощью программы needle. Для этого я поместил эти выравнивания одно под другим (двигать одно относительно другого не пришлось, т.к. они совместились с самого начала) и смотрел на совпадения (в том числе и случаи, когда идентичными были остатки в 1 и 3 и во 2 и 4 последовательностях). Полное такое выравнивание, состоящее из двух, представлено на рис.1.

Рисунок 1. Совмещенные выравнивания целиком.

В начале оба выравнивания идентичны, затем на 40 и 42 позиции (см. рис.2) наблюдается расхождение.

Рисунок 2. Первый несовпадающий участок. Показан участок с 35 по 47 остатки, по 5 совпадающих колонок с обеих сторон от участка с расхождением (40-42).

Второй участок несоответствия длиннее — с 78 по 93 остаток. На рис.3 показан этот участок.

Рисунок 3. Второй несовпадающий участок. Показан участок с 73 по 98 остаток, по 5 совпадающих колонок с обеих сторон от участка с расхождением.

В файле проекта содержатся окна, соответствующие всем 3 рисункам.

Проверка правильности выравниваний

Скачать проект

С выравниваниями из прошлого пункта была проделана следующая работа: создав новую строку аннотаций, я отмечал знаком "+" те позиции, выравнивание которых считал достоверным. Далее для каждого выравнвания в отдельности я создал Rasmol-скрипт с помощью программы SupCheck. Этот скрипт последовательно выделяет аминокислотные остатки в каждой колонке выравнивания, окрашивая красным их C_α-атом в визуализации файла pdb с совмещенными структурами в программе Rasmol. Колонки выравнивания, остатки в которых совмещались пространственно (в качестве порога я выбрал отклонение в расположении в 1,5Å), я помечал знаком "S" в новой строке аннотаций.

Для каждого выравнивания я сосчитал число ошибок. Каждая позиция, в которой стоял "+", но остатки в которой не совмещались пространственно, увеличивала количество ошибок первого рода на один. За ошибку второго рода принималась ситуация, когда в колонке с очевидно совмещающимися остатками не стоял "+", или же эти остатки вовсе не были в одной колонке выравнивания (к слову, в моих выравниваниях последней ситуации не встретилось). Для первого выравнивания (полученного из множественного) количество ошибок составило: 19 первого рода, 19 второго. Для выравнивания, полученного с помощью needle, — 20 и 20 соответственно. Выравнивания с аннотациями можно скачать: первое, второе. Оба выравнивания есть в файле проекта.

На основании этих двух выравниваний и пространственной структуры я сделал, как мне кажется, наиболее правильное выравнивание (отличия от двух предыдущих минимальны, т.к. они, в принципе, практически идентичны на участках, где структуры совмещены). По ссылкам далее можно скачать это выравнивание в формате fasta и проект jalview с ним. Хотя прямая связь совмещения структур в данной паре остатков и их расположения в одной колонке выравнивания не кажется мне абсолютно очевидной, в этом есть смысл: выравнивание может показать, насколько последовательности гомологичны, из гомологичности может следовать схожесть выполняемых функций, которая, в свою очередь, тесно связана с пространственной организацией белка.