Семестр 2. Практикум 13. Алгоритмы и программы множественного выравнивания

2. Сравнение выравниваний одних и тех же последовательностей тремя программами

2.1. Последовательности и программы

Для сравнения выбрана доменная архитектура BAR + SH3_1 из практикума 11.

Взяты 7 белков из семейства амфифизин/эндофилин, несущих оба домена:

UniProt ACНазваниеОрганизм
P49418AMPH_HUMAN — AmphiphysinH. sapiens
O00499BIN1_HUMAN — Bridging integrator 1H. sapiens
Q9UBW5BIN2_HUMAN — Bridging integrator 2H. sapiens
Q99961SH3G1_HUMAN — Endophilin-A2H. sapiens
Q99962SH3G2_HUMAN — Endophilin-A1H. sapiens
Q9Y371SHLB1_HUMAN — Endophilin-B1H. sapiens
P39743RV167_YEAST — RVS167S. cerevisiae

Те же последовательности выравнены тремя программами:

FASTA: A (MUSCLE) · B (MAFFT) · C (T-Coffee)

VerAlign на момент подготовки отчета выдавал ошибку "Queue job has crashed", поэтому сравнение выравниваний выполнено программно, с помощью скрипта на Python: для каждой пары выравниваний построено отображение "остаток - колонка" в каждом из них; колонки считаются одинаково выравненными, если все последовательности имеют тот же остаток в той же позиции в обоих выравниваниях.

stdout работы скрипта.

2.2. Сравнение A (MUSCLE) и B (MAFFT)

Совпадающих колонок: 225 из 802 (28,1% от A; 27,3% от B).

Таблица 1. Блоки одинаково выравненных колонок, A vs B (длина ≥ 2)

(s1, f1) = (s2, f2)ДлинаПримечание
(242, 282) = (254, 294)41наибольший блок
(660, 696) = (676, 712)37
(16, 50) = (16, 50)35начало выравнивания, совпадает позиционно
(594, 617) = (610, 633)24
(211, 232) = (223, 244)22
(494, 508) = (513, 527)15
(525, 536) = (544, 555)12
(792, 802) = (814, 824)11конец выравнивания
(633, 639) = (649, 655)7
(9, 12) = (9, 12)4
(469, 472) = (488, 491)4
(480, 483) = (499, 502)4
(375, 377) = (396, 398)3
(139, 140) = (153, 154)2
(643, 644) = (659, 660)2

Одиночные совпадающие колонки вне блоков: (128, 142), (433, 452).

Крупнейшие несовпадающие участки в выравнивании A:

2.3. Сравнение A (MUSCLE) и C (T-Coffee)

Совпадающих колонок: 213 из 802 (26,6% от A; 24,8% от C).

Таблица 2. Блоки одинаково выравненных колонок, A vs C (длина ≥ 2)

(s1, f1) = (s2, f2)ДлинаПримечание
(16, 53) = (16, 53)38наибольший блок
(242, 273) = (258, 289)32
(480, 508) = (511, 539)29
(211, 232) = (227, 248)22
(361, 372) = (382, 393)12
(792, 802) = (848, 858)11конец выравнивания
(525, 534) = (563, 572)10
(660, 668) = (694, 702)9
(671, 679) = (705, 713)9
(633, 639) = (667, 673)7
(278, 282) = (294, 298)5
(10, 12) = (10, 12)3
(375, 377) = (396, 398)3
(470, 472) = (501, 503)3
(735, 737) = (771, 773)3
(105, 106) = (110, 111)2
(139, 140) = (155, 156)2
(314, 315) = (330, 331)2
(327, 328) = (343, 344)2
(355, 356) = (376, 377)2
(358, 359) = (379, 380)2
(442, 443) = (469, 470)2
(445, 446) = (472, 473)2

Одиночные совпадающие колонки вне блоков: (127, 143).

Крупнейшие несовпадающие участки в выравнивании A:

2.4. Обсуждение

MAFFT (B) ближе к MUSCLE (A), чем T-Coffee (C): совпадение 28,1% против 26,6%. При этом блоки в паре A–B длиннее (максимальный блок 41 против 38), а число блоков меньше (15 против 23). Это означает, что MAFFT и MUSCLE «соглашаются» в более протяжённых консервативных участках, тогда как T-Coffee дробит совпадения на большее число коротких блоков[1].

Проект Jalview (выравнивания A, B, C): prakt-D-ABC.jvp

3. Структурное выравнивание и сравнение с выравниванием MSA

3.1. Выбор структур

Выбраны три структуры BAR-домена из PDB — все принадлежат семейству амфифизин/эндофилин:

PDBБелокОрганизмДлина
1X03:A Endophilin-A1 BAR domain (SH3G2) H. sapiens 210 а.о.
1URU:A Amphiphysin BAR domain D. melanogaster 217 а.о.
4ATM:A Amphiphysin BAR domain H. sapiens 221 а.о.

3.2. Совмещение структур

Множественное структурное выравнивание выполнено сервисом PDBeFold (Secondary Structure Matching, режим Multiple). Суммарный RMSD = 3,42 Å, Q-score = 0,31, выравнено 182 остатка из 259 позиций выравнивания.

Статистика по структурам:

Визуализация совмещения реализована в PyMOL и транслирована в PDB для отображения в Mol*.

Для отображения совмещенных структур в Mol* понадобилось дополнительно изменить идентификаторы цепей в PyMOL и сохранить в виде нового PDB.

fetch 1x03
fetch 1uru
fetch 4atm
super 1uru, 1x03
super 4atm, 1x03
color red, 1x03
color blue, 1uru
color green, 4atm

alter 1uru, chain="B"
alter 4atm, chain="C"
sort
save prakt-D-superposed.pdb, 1x03 or 1uru or 4atm
Совмещение BAR-доменов 1x03 (красный), 1uru (синий), 4atm (зелёный) в PyMOL

Рисунок 1. Совмещение 1X03, 1URU, 4ATM.

3D-модель 1. Совмещение 1X03, 1URU, 4ATM.

3.3. Сравнение структурного выравнивания с MSA

Структурное выравнивание последовательностей (259 колонок) получено из PDBeFold (см. раздел 3.2) в формате FASTA. Те же последовательности выравнены программой MUSCLE (265 колонок). Сравнение двух выравниваний выполнено программно тем же скриптом что и в задании 2.

stdout работы скрипта.

Совпадающих колонок: 8 из 259 (3,1% от структурного; 3,0% от MSA).

Таблица 3. Блоки одинаково выравненных колонок, структурное (s1) vs MUSCLE (s2)

(s1, f1) = (s2, f2)ДлинаПримечание
(1, 3) = (1, 3)3начало выравнивания
(62, 63) = (84, 85)2
(172, 173) = (178, 179)2

Одиночные совпадающие колонки вне блоков: (78, 96).

Крупнейшие несовпадающие участки в структурном выравнивании:

Выравнивания в формате FASTA: структурное (PDBeFold) · MSA (MUSCLE)

3.4. Обсуждение

Совпадение структурного и последовательностного выравниваний крайне низкое — всего 3,1%. Это закономерный результат: последовательностная идентичность между Endophilin-A1 и Amphiphysin составляет около 10%, что ниже «порога Дулитла» (~25%), при котором последовательностное выравнивание становится ненадёжным.

PDBeFold выравнивает структуры по геометрии Cα-атомов и выявляет консервативную пространственную организацию там, где MUSCLE «не видит» сходства в последовательности[2]. Все три структуры действительно образуют одинаковую серповидную форму BAR-димера (RMSD ≤ 2,34 Å), однако аминокислоты, занимающие одинаковое положение в пространстве, часто оказываются различными — именно поэтому большинство структурно выравненных пар в последовательностном выравнивании расположены в разных колонках.

Три небольших совпадающих блока (суммарно 7 колонок) соответствуют наиболее консервативным участкам ядра BAR-домена, которые сохранили как пространственную геометрию, так и частичную последовательностную сходимость. Это подтверждает, что структура консервативнее последовательности — характерная особенность отдалённо гомологичных доменов[3].

Проект Jalview (структурное + MSA): prakt-D-struct.jvp

4. Список литературы

  1. Edgar, R.C. (2004). MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research, 32(5), 1792–1797. doi: 10.1093/nar/gkh340
  2. Peter, B.J., Kent, H.M., Mills, I.G., Vallis, Y., Butler, P.J.G., Evans, P.R., McMahon, H.T. (2004). BAR domains as sensors of membrane curvature: the amphiphysin BAR structure. Science, 303(5657), 495–499. doi: 10.1126/science.1092586
  3. Chothia, C., Lesk, A.M. (1986). The relation between the divergence of sequence and structure in proteins. EMBO Journal, 5(4), 823–826. doi: 10.1002/j.1460-2075.1986.tb04288.x
← К списку работ семестра