1. Сравнение выравниваний одних и тех же последовательностей
Файлы
Выравнивание A было получено программой: muscle.
Выравнивание B было получено программой: mafft.
Выравнивание C было получено программой: tcoffee.
Методы
Для сравнения использовались три множественных выравнивания одних и тех же последовательностей, полученные разными программами: A, B и C. Сравнивались две пары выравниваний: A с B и A с C.
Сравнение выполнялось с помощью программы на Python, написанной моим одногруппником Егором Быковым, мною немного модифицированной. В каждом выравнивании для каждой последовательности все негэповые символы были заменены на их порядковые номера в исходной последовательности, а гэпы были обозначены символом -. После этого каждая колонка выравнивания представлялась как набор номеров остатков во всех последовательностях.
Две колонки из разных выравниваний считались одинаково выровненными, если соответствующие наборы номеров остатков полностью совпадали. После нахождения одинаково выровненных колонок они группировались в блоки. Блоком считалась последовательность совпадающих колонок длиной не менее двух, идущих подряд в обоих выравниваниях.
Результаты сравнения A с B
| Показатель | Значение |
|---|---|
| Длина выравнивания A | 2548 колонок |
| Длина выравнивания B | 2602 колонки |
| Количество одинаково выровненных колонок | 2301 |
| Процент одинаково выровненных колонок от длины A | 90.31% |
| Процент одинаково выровненных колонок от длины B | 88.43% |
Блоки одинаково выровненных колонок
| Колонки в A | Колонки в B | Длина |
|---|---|---|
| 1–154 | 1–154 | 154 |
| 158–475 | 158–475 | 318 |
| 480–515 | 480–515 | 36 |
| 525–1664 | 526–1665 | 1140 |
| 1854–1855 | 1908–1909 | 2 |
| 1860–1862 | 1914–1916 | 3 |
| 1866–1867 | 1920–1921 | 2 |
| 1871–1873 | 1925–1927 | 3 |
| 1878–1884 | 1932–1938 | 7 |
| 1895–1897 | 1949–1951 | 3 |
| 1899–1905 | 1953–1959 | 7 |
| 1920–1922 | 1974–1976 | 3 |
| 1927–2548 | 1981–2602 | 622 |
Одинаково выровненные колонки, не входящие в блоки: 1907=1961.
Результаты сравнения A с C
| Показатель | Значение |
|---|---|
| Длина выравнивания A | 2548 колонок |
| Длина выравнивания C | 2610 колонок |
| Количество одинаково выровненных колонок | 2317 |
| Процент одинаково выровненных колонок от длины A | 90.93% |
| Процент одинаково выровненных колонок от длины C | 88.77% |
Блоки одинаково выровненных колонок
| Колонки в A | Колонки в C | Длина |
|---|---|---|
| 4–155 | 4–155 | 152 |
| 158–475 | 158–475 | 318 |
| 479–514 | 479–514 | 36 |
| 524–1040 | 525–1041 | 517 |
| 1043–1332 | 1044–1333 | 290 |
| 1335–1666 | 1336–1667 | 332 |
| 1849–1857 | 1909–1917 | 9 |
| 1864–1872 | 1925–1933 | 9 |
| 1874–1886 | 1935–1947 | 13 |
| 1892–1893 | 1953–1954 | 2 |
| 1899–1905 | 1961–1967 | 7 |
| 1907–1910 | 1969–1972 | 4 |
| 1916–1918 | 1978–1980 | 3 |
| 1920–1922 | 1982–1984 | 3 |
| 1927–2548 | 1989–2610 | 622 |
Одинаково выровненные колонки, не входящие в блоки: для пары A–C не найдено.
Сравнение результатов
| Пара выравниваний | Длина первого выравнивания | Длина второго выравнивания | Количество одинаково выровненных колонок | Процент от длины A | Процент от второго выравнивания |
|---|---|---|---|---|---|
| A–B | 2548 | 2602 | 2301 | 90.31% | 88.43% |
| A–C | 2548 | 2610 | 2317 | 90.93% | 88.77% |
При сравнении A с B было найдено 2301 одинаково выровненных колонок. При сравнении A с C было найдено 2317 одинаково выровненных колонок. Таким образом, в паре A–C совпадающих колонок на 16 больше, чем в паре A–B.
Процент совпадающих колонок от длины выравнивания A также выше для пары A–C: 90.93% против 90.31% для пары A–B.
Обсуждение
Оба выравнивания, B и C, оказались очень похожи на выравнивание A. В обоих случаях совпадает около 90% колонок относительно длины выравнивания A. Это означает, что большая часть последовательностей была выровнена сходным образом всеми тремя программами.
Для пары A–B было найдено несколько длинных блоков совпадающих колонок. Самый длинный блок имеет координаты (525,1664)=(526,1665) и длину 1140 колонок. Также крупным является конечный блок (1927,2548)=(1981,2602) длиной 622 колонки. Это показывает, что в значительной части выравнивания программы A и B дали почти одинаковое расположение остатков.
Для пары A–C также были найдены длинные блоки совпадения. Наиболее крупные из них: (524,1040)=(525,1041) длиной 517 колонок, (1335,1666)=(1336,1667) длиной 332 колонки и (1927,2548)=(1989,2610) длиной 622 колонки. В отличие от пары A–B, в сравнении A–C не было найдено одиночных совпадающих колонок вне блоков.
Основные различия между выравниваниями наблюдаются в промежутках между блоками совпадения. Такие участки, вероятно, соответствуют областям, где разные программы по-разному располагают гэпы. Особенно заметная область различий находится примерно между колонками 1665–1853 в сравнении A–B и между колонками 1667–1848 в сравнении A–C.
По формальным показателям выравнивание C немного больше похоже на A, чем выравнивание B. В сравнении A–C найдено 2317 одинаково выровненных колонок, а в сравнении A–B — 2301. Разница составляет 16 колонок. Процент совпадения от длины A также немного выше для A–C: 90.93% против 90.31%.
Однако различие между B и C небольшое. Поэтому можно сделать вывод, что оба выравнивания близки к A, но C немного ближе по числу одинаково выровненных колонок и проценту совпадения.
2. Сравнение структурного выравнивания и MSA для семейства PF02341, RbcX protein
Для анализа было выбрано семейство белковых доменов PF02341, RbcX protein. Были использованы три структуры RbcX из разных PDB-записей:
- 2PEM_A
- 2PY8_A
- 3Q20_A
Для этих же трёх последовательностей были построены два множественных выравнивания:
- выравнивание, полученное из структурного совмещения;
- выравнивание, полученное программой MSA.
Структурное выравнивание было получено на основе совмещения трёх структур. MSA-выравнивание было построено по тем же последовательностям, чтобы сравнение выполнялось для одинакового набора белков.
Рисунок совмещения структур
Ссылки на файлы
- Структурное выравнивание в формате FASTA: rbcx_structural_alignment.fasta
- MSA-выравнивание в формате FASTA: rbcx_msa_alignment.fasta
- Проект Jalview с двумя сравниваемыми выравниваниями: rbcx_comparison.jvp
- Результат сравнения выравниваний: rbcx_comparison_result.txt
Результаты сравнения выравниваний RbcX
Длина структурного выравнивания составила 121 колонку. Длина MSA-выравнивания также составила 121 колонку.
Количество одинаково выровненных колонок: 117.
Процент одинаково выровненных колонок от длины структурного выравнивания: 96.69%.
Процент одинаково выровненных колонок от длины MSA-выравнивания: 96.69%.
Блоки одинаково выровненных колонок
| Блок | Колонки в структурном выравнивании | Колонки в MSA-выравнивании | Длина блока |
|---|---|---|---|
| 1 | 1–111 | 1–111 | 111 |
| 2 | 116–121 | 116–121 | 6 |
Одинаково выровненные колонки, не входящие в блоки, отсутствуют. Несовпадающий участок расположен в колонках 112–115.
Обсуждение результата
Структурное выравнивание и MSA-выравнивание трёх белков RbcX семейства PF02341 оказались почти полностью совпадающими. Из 121 колонки совпали 117, что составляет 96.69%. Основной совпадающий блок занимает колонки 1–111, то есть почти всю длину выравнивания. Дополнительно совпадает короткий C-концевой блок 116–121. Различие между выравниваниями наблюдается только в коротком участке 112–115.
Такое высокое совпадение объясняется тем, что выбранные белки относятся к одному семейству RbcX и имеют близкую длину и сходную пространственную организацию. Для таких небольших гомологичных белков последовательностное MSA хорошо воспроизводит структурное соответствие остатков.
Несовпадающий участок 112–115, вероятно, соответствует вариабельной области около C-конца или локальной вставке/петле, где разные алгоритмы могут по-разному расставлять гэпы. В таких областях структурное выравнивание может отличаться от MSA, потому что оно учитывает пространственное положение Cα-атомов, а MSA учитывает сходство аминокислотных последовательностей и штрафы за гэпы.
Таким образом, результат показывает, что для выбранных RbcX-гомологов последовательностное выравнивание в целом согласуется со структурным, а различия ограничены коротким локальным участком.
Краткое описание одной из программ MSA
Для построения множественного выравнивания последовательностей использовалась программа MAFFT. MAFFT — это программа для MSA, то есть множественного выравнивания аминокислотных или нуклеотидных последовательностей. Она строит выравнивание на основе попарного сходства последовательностей и использует быстрые алгоритмы с преобразованием Фурье, что позволяет эффективно выравнивать как небольшие, так и достаточно крупные наборы последовательностей. В данной работе MAFFT применялась к трём аминокислотным последовательностям RbcX, полученным из структурного выравнивания PDBeFold после удаления гэпов. Результат MAFFT затем сравнивался со структурным выравниванием.