Для сравнения выбрана доменная архитектура BAR + SH3_1 из практикума 11.
Взяты 7 белков из семейства амфифизин/эндофилин, несущих оба домена:
| UniProt AC | Название | Организм |
|---|---|---|
| P49418 | AMPH_HUMAN — Amphiphysin | H. sapiens |
| O00499 | BIN1_HUMAN — Bridging integrator 1 | H. sapiens |
| Q9UBW5 | BIN2_HUMAN — Bridging integrator 2 | H. sapiens |
| Q99961 | SH3G1_HUMAN — Endophilin-A2 | H. sapiens |
| Q99962 | SH3G2_HUMAN — Endophilin-A1 | H. sapiens |
| Q9Y371 | SHLB1_HUMAN — Endophilin-B1 | H. sapiens |
| P39743 | RV167_YEAST — RVS167 | S. cerevisiae |
Те же последовательности выравнены тремя программами:
FASTA: A (MUSCLE) · B (MAFFT) · C (T-Coffee)
VerAlign на момент подготовки отчета выдавал ошибку "Queue job has crashed", поэтому сравнение выравниваний выполнено программно, с помощью скрипта на Python: для каждой пары выравниваний построено отображение "остаток - колонка" в каждом из них; колонки считаются одинаково выравненными, если все последовательности имеют тот же остаток в той же позиции в обоих выравниваниях.
stdout работы скрипта.
Совпадающих колонок: 225 из 802 (28,1% от A; 27,3% от B).
Таблица 1. Блоки одинаково выравненных колонок, A vs B (длина ≥ 2)
| (s1, f1) = (s2, f2) | Длина | Примечание |
|---|---|---|
| (242, 282) = (254, 294) | 41 | наибольший блок |
| (660, 696) = (676, 712) | 37 | |
| (16, 50) = (16, 50) | 35 | начало выравнивания, совпадает позиционно |
| (594, 617) = (610, 633) | 24 | |
| (211, 232) = (223, 244) | 22 | |
| (494, 508) = (513, 527) | 15 | |
| (525, 536) = (544, 555) | 12 | |
| (792, 802) = (814, 824) | 11 | конец выравнивания |
| (633, 639) = (649, 655) | 7 | |
| (9, 12) = (9, 12) | 4 | |
| (469, 472) = (488, 491) | 4 | |
| (480, 483) = (499, 502) | 4 | |
| (375, 377) = (396, 398) | 3 | |
| (139, 140) = (153, 154) | 2 | |
| (643, 644) = (659, 660) | 2 |
Одиночные совпадающие колонки вне блоков: (128, 142), (433, 452).
Крупнейшие несовпадающие участки в выравнивании A:
Совпадающих колонок: 213 из 802 (26,6% от A; 24,8% от C).
Таблица 2. Блоки одинаково выравненных колонок, A vs C (длина ≥ 2)
| (s1, f1) = (s2, f2) | Длина | Примечание |
|---|---|---|
| (16, 53) = (16, 53) | 38 | наибольший блок |
| (242, 273) = (258, 289) | 32 | |
| (480, 508) = (511, 539) | 29 | |
| (211, 232) = (227, 248) | 22 | |
| (361, 372) = (382, 393) | 12 | |
| (792, 802) = (848, 858) | 11 | конец выравнивания |
| (525, 534) = (563, 572) | 10 | |
| (660, 668) = (694, 702) | 9 | |
| (671, 679) = (705, 713) | 9 | |
| (633, 639) = (667, 673) | 7 | |
| (278, 282) = (294, 298) | 5 | |
| (10, 12) = (10, 12) | 3 | |
| (375, 377) = (396, 398) | 3 | |
| (470, 472) = (501, 503) | 3 | |
| (735, 737) = (771, 773) | 3 | |
| (105, 106) = (110, 111) | 2 | |
| (139, 140) = (155, 156) | 2 | |
| (314, 315) = (330, 331) | 2 | |
| (327, 328) = (343, 344) | 2 | |
| (355, 356) = (376, 377) | 2 | |
| (358, 359) = (379, 380) | 2 | |
| (442, 443) = (469, 470) | 2 | |
| (445, 446) = (472, 473) | 2 |
Одиночные совпадающие колонки вне блоков: (127, 143).
Крупнейшие несовпадающие участки в выравнивании A:
MAFFT (B) ближе к MUSCLE (A), чем T-Coffee (C): совпадение 28,1% против 26,6%. При этом блоки в паре A–B длиннее (максимальный блок 41 против 38), а число блоков меньше (15 против 23). Это означает, что MAFFT и MUSCLE «соглашаются» в более протяжённых консервативных участках, тогда как T-Coffee дробит совпадения на большее число коротких блоков[1].
Проект Jalview (выравнивания A, B, C): prakt-D-ABC.jvp
Выбраны три структуры BAR-домена из PDB — все принадлежат семейству амфифизин/эндофилин:
| PDB | Белок | Организм | Длина |
|---|---|---|---|
| 1X03:A | Endophilin-A1 BAR domain (SH3G2) | H. sapiens | 210 а.о. |
| 1URU:A | Amphiphysin BAR domain | D. melanogaster | 217 а.о. |
| 4ATM:A | Amphiphysin BAR domain | H. sapiens | 221 а.о. |
Множественное структурное выравнивание выполнено сервисом PDBeFold (Secondary Structure Matching, режим Multiple). Суммарный RMSD = 3,42 Å, Q-score = 0,31, выравнено 182 остатка из 259 позиций выравнивания.
Статистика по структурам:
1X03:A — RMSD = 2,34 Å, Q = 0,541URU:A — RMSD = 1,41 Å, Q = 0,69 (ближайший к консенсусу)4ATM:A — RMSD = 2,06 Å, Q = 0,56Визуализация совмещения реализована в PyMOL и транслирована в PDB для отображения в Mol*.
Для отображения совмещенных структур в Mol* понадобилось дополнительно изменить идентификаторы цепей в PyMOL и сохранить в виде нового PDB.
fetch 1x03 fetch 1uru fetch 4atm super 1uru, 1x03 super 4atm, 1x03 color red, 1x03 color blue, 1uru color green, 4atm alter 1uru, chain="B" alter 4atm, chain="C" sort save prakt-D-superposed.pdb, 1x03 or 1uru or 4atm
Рисунок 1. Совмещение 1X03, 1URU, 4ATM.
1X03 (Endophilin-A1, Human)1URU (Amphiphysin, Drosophila)4ATM (Amphiphysin, Human)3D-модель 1. Совмещение 1X03, 1URU, 4ATM.
Структурное выравнивание последовательностей (259 колонок) получено из PDBeFold (см. раздел 3.2) в формате FASTA. Те же последовательности выравнены программой MUSCLE (265 колонок). Сравнение двух выравниваний выполнено программно тем же скриптом что и в задании 2.
stdout работы скрипта.
Совпадающих колонок: 8 из 259 (3,1% от структурного; 3,0% от MSA).
Таблица 3. Блоки одинаково выравненных колонок, структурное (s1) vs MUSCLE (s2)
| (s1, f1) = (s2, f2) | Длина | Примечание |
|---|---|---|
| (1, 3) = (1, 3) | 3 | начало выравнивания |
| (62, 63) = (84, 85) | 2 | |
| (172, 173) = (178, 179) | 2 |
Одиночные совпадающие колонки вне блоков: (78, 96).
Крупнейшие несовпадающие участки в структурном выравнивании:
Выравнивания в формате FASTA: структурное (PDBeFold) · MSA (MUSCLE)
Совпадение структурного и последовательностного выравниваний крайне низкое — всего 3,1%. Это закономерный результат: последовательностная идентичность между Endophilin-A1 и Amphiphysin составляет около 10%, что ниже «порога Дулитла» (~25%), при котором последовательностное выравнивание становится ненадёжным.
PDBeFold выравнивает структуры по геометрии Cα-атомов и выявляет консервативную пространственную организацию там, где MUSCLE «не видит» сходства в последовательности[2]. Все три структуры действительно образуют одинаковую серповидную форму BAR-димера (RMSD ≤ 2,34 Å), однако аминокислоты, занимающие одинаковое положение в пространстве, часто оказываются различными — именно поэтому большинство структурно выравненных пар в последовательностном выравнивании расположены в разных колонках.
Три небольших совпадающих блока (суммарно 7 колонок) соответствуют наиболее консервативным участкам ядра BAR-домена, которые сохранили как пространственную геометрию, так и частичную последовательностную сходимость. Это подтверждает, что структура консервативнее последовательности — характерная особенность отдалённо гомологичных доменов[3].
Проект Jalview (структурное + MSA): prakt-D-struct.jvp