GRAND FBB

LEVSHIN VADIM

SEASON: 2025/26 LAPS: 2 STATUS: ACTIVE

Сравнение множественных и структурных выравниваний

Сравнение трёх MSA одних и тех же последовательностей, а также сопоставление структурного выравнивания и MSA для семейства PF02341, RbcX protein.

Сравнение выравниваний последовательностей и структур
Автор: Левшин Вадим Игоревич
Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова
Контактные данные: Dima.Tumanovs@yandex.ru
MSA Jalview Python PF02341 RbcX protein

1. Сравнение выравниваний одних и тех же последовательностей

Файлы

Выравнивание A было получено программой: muscle.

Выравнивание B было получено программой: mafft.

Выравнивание C было получено программой: tcoffee.

Методы

Для сравнения использовались три множественных выравнивания одних и тех же последовательностей, полученные разными программами: A, B и C. Сравнивались две пары выравниваний: A с B и A с C.

Сравнение выполнялось с помощью программы на Python, написанной моим одногруппником Егором Быковым, мною немного модифицированной. В каждом выравнивании для каждой последовательности все негэповые символы были заменены на их порядковые номера в исходной последовательности, а гэпы были обозначены символом -. После этого каждая колонка выравнивания представлялась как набор номеров остатков во всех последовательностях.

Две колонки из разных выравниваний считались одинаково выровненными, если соответствующие наборы номеров остатков полностью совпадали. После нахождения одинаково выровненных колонок они группировались в блоки. Блоком считалась последовательность совпадающих колонок длиной не менее двух, идущих подряд в обоих выравниваниях.

Результаты сравнения A с B

Показатель Значение
Длина выравнивания A2548 колонок
Длина выравнивания B2602 колонки
Количество одинаково выровненных колонок2301
Процент одинаково выровненных колонок от длины A90.31%
Процент одинаково выровненных колонок от длины B88.43%

Блоки одинаково выровненных колонок

Колонки в A Колонки в B Длина
1–1541–154154
158–475158–475318
480–515480–51536
525–1664526–16651140
1854–18551908–19092
1860–18621914–19163
1866–18671920–19212
1871–18731925–19273
1878–18841932–19387
1895–18971949–19513
1899–19051953–19597
1920–19221974–19763
1927–25481981–2602622

Одинаково выровненные колонки, не входящие в блоки: 1907=1961.

Результаты сравнения A с C

Показатель Значение
Длина выравнивания A2548 колонок
Длина выравнивания C2610 колонок
Количество одинаково выровненных колонок2317
Процент одинаково выровненных колонок от длины A90.93%
Процент одинаково выровненных колонок от длины C88.77%

Блоки одинаково выровненных колонок

Колонки в A Колонки в C Длина
4–1554–155152
158–475158–475318
479–514479–51436
524–1040525–1041517
1043–13321044–1333290
1335–16661336–1667332
1849–18571909–19179
1864–18721925–19339
1874–18861935–194713
1892–18931953–19542
1899–19051961–19677
1907–19101969–19724
1916–19181978–19803
1920–19221982–19843
1927–25481989–2610622

Одинаково выровненные колонки, не входящие в блоки: для пары A–C не найдено.

Сравнение результатов

Пара выравниваний Длина первого выравнивания Длина второго выравнивания Количество одинаково выровненных колонок Процент от длины A Процент от второго выравнивания
A–B25482602230190.31%88.43%
A–C25482610231790.93%88.77%

При сравнении A с B было найдено 2301 одинаково выровненных колонок. При сравнении A с C было найдено 2317 одинаково выровненных колонок. Таким образом, в паре A–C совпадающих колонок на 16 больше, чем в паре A–B.

Процент совпадающих колонок от длины выравнивания A также выше для пары A–C: 90.93% против 90.31% для пары A–B.

Обсуждение

Оба выравнивания, B и C, оказались очень похожи на выравнивание A. В обоих случаях совпадает около 90% колонок относительно длины выравнивания A. Это означает, что большая часть последовательностей была выровнена сходным образом всеми тремя программами.

Для пары A–B было найдено несколько длинных блоков совпадающих колонок. Самый длинный блок имеет координаты (525,1664)=(526,1665) и длину 1140 колонок. Также крупным является конечный блок (1927,2548)=(1981,2602) длиной 622 колонки. Это показывает, что в значительной части выравнивания программы A и B дали почти одинаковое расположение остатков.

Для пары A–C также были найдены длинные блоки совпадения. Наиболее крупные из них: (524,1040)=(525,1041) длиной 517 колонок, (1335,1666)=(1336,1667) длиной 332 колонки и (1927,2548)=(1989,2610) длиной 622 колонки. В отличие от пары A–B, в сравнении A–C не было найдено одиночных совпадающих колонок вне блоков.

Основные различия между выравниваниями наблюдаются в промежутках между блоками совпадения. Такие участки, вероятно, соответствуют областям, где разные программы по-разному располагают гэпы. Особенно заметная область различий находится примерно между колонками 1665–1853 в сравнении A–B и между колонками 1667–1848 в сравнении A–C.

По формальным показателям выравнивание C немного больше похоже на A, чем выравнивание B. В сравнении A–C найдено 2317 одинаково выровненных колонок, а в сравнении A–B — 2301. Разница составляет 16 колонок. Процент совпадения от длины A также немного выше для A–C: 90.93% против 90.31%.

Однако различие между B и C небольшое. Поэтому можно сделать вывод, что оба выравнивания близки к A, но C немного ближе по числу одинаково выровненных колонок и проценту совпадения.

2. Сравнение структурного выравнивания и MSA для семейства PF02341, RbcX protein

Для анализа было выбрано семейство белковых доменов PF02341, RbcX protein. Были использованы три структуры RbcX из разных PDB-записей:

  • 2PEM_A
  • 2PY8_A
  • 3Q20_A

Для этих же трёх последовательностей были построены два множественных выравнивания:

  1. выравнивание, полученное из структурного совмещения;
  2. выравнивание, полученное программой MSA.

Структурное выравнивание было получено на основе совмещения трёх структур. MSA-выравнивание было построено по тем же последовательностям, чтобы сравнение выполнялось для одинакового набора белков.

Рисунок совмещения структур

Совмещение структур RbcX 2PEM_A, 2PY8_A и 3Q20_A
Рисунок 1. Совмещение структур RbcX 2PEM_A, 2PY8_A и 3Q20_A, полученное по Cα-атомам. Структуры относятся к белкам семейства PF02341; визуализация выполнена в PyMOL.

Ссылки на файлы

Результаты сравнения выравниваний RbcX

Длина структурного выравнивания составила 121 колонку. Длина MSA-выравнивания также составила 121 колонку.

Количество одинаково выровненных колонок: 117.

Процент одинаково выровненных колонок от длины структурного выравнивания: 96.69%.

Процент одинаково выровненных колонок от длины MSA-выравнивания: 96.69%.

Блоки одинаково выровненных колонок

Блок Колонки в структурном выравнивании Колонки в MSA-выравнивании Длина блока
11–1111–111111
2116–121116–1216

Одинаково выровненные колонки, не входящие в блоки, отсутствуют. Несовпадающий участок расположен в колонках 112–115.

Обсуждение результата

Структурное выравнивание и MSA-выравнивание трёх белков RbcX семейства PF02341 оказались почти полностью совпадающими. Из 121 колонки совпали 117, что составляет 96.69%. Основной совпадающий блок занимает колонки 1–111, то есть почти всю длину выравнивания. Дополнительно совпадает короткий C-концевой блок 116–121. Различие между выравниваниями наблюдается только в коротком участке 112–115.

Такое высокое совпадение объясняется тем, что выбранные белки относятся к одному семейству RbcX и имеют близкую длину и сходную пространственную организацию. Для таких небольших гомологичных белков последовательностное MSA хорошо воспроизводит структурное соответствие остатков.

Несовпадающий участок 112–115, вероятно, соответствует вариабельной области около C-конца или локальной вставке/петле, где разные алгоритмы могут по-разному расставлять гэпы. В таких областях структурное выравнивание может отличаться от MSA, потому что оно учитывает пространственное положение Cα-атомов, а MSA учитывает сходство аминокислотных последовательностей и штрафы за гэпы.

Таким образом, результат показывает, что для выбранных RbcX-гомологов последовательностное выравнивание в целом согласуется со структурным, а различия ограничены коротким локальным участком.

Краткое описание одной из программ MSA

Для построения множественного выравнивания последовательностей использовалась программа MAFFT. MAFFT — это программа для MSA, то есть множественного выравнивания аминокислотных или нуклеотидных последовательностей. Она строит выравнивание на основе попарного сходства последовательностей и использует быстрые алгоритмы с преобразованием Фурье, что позволяет эффективно выравнивать как небольшие, так и достаточно крупные наборы последовательностей. В данной работе MAFFT применялась к трём аминокислотным последовательностям RbcX, полученным из структурного выравнивания PDBeFold после удаления гэпов. Результат MAFFT затем сравнивался со структурным выравниванием.