Семестр 7, автор – Грызунов Никита (nikit00000s)

Практикум 4. Валидация.

Задание 1.

Мне была выдана запись PDB с идентификатором 1SBP. Она описывает белок, специфически связывающий сульфат и участвующий в трансмембранном транспорте сульфата у грамотрицательной бактерии Salmonella typhimurium. Он локализован в периплазматическом пространстве.

Основные параметры записи 1SBP:

Также приведем информативную картинку wwPDB Validation (рис. 1):

1SBP structure validation
wwPDB Validation. В целом, все метрики удовлетворительные, среднего качества.

Приведем интересующие нас поля "REMARK":

REMARK   3  DATA USED IN REFINEMENT.
REMARK   3   RESOLUTION RANGE HIGH (ANGSTROMS) : 1.70
REMARK   3   RESOLUTION RANGE LOW  (ANGSTROMS) : NULL
REMARK   3   DATA CUTOFF            (SIGMA(F)) : NULL
REMARK   3   COMPLETENESS FOR RANGE        (%) : NULL
REMARK   3   NUMBER OF REFLECTIONS             : NULL

REMARK   3  FIT TO DATA USED IN REFINEMENT.
REMARK   3   CROSS-VALIDATION METHOD          : NULL
REMARK   3   FREE R VALUE TEST SET SELECTION  : NULL
REMARK   3   R VALUE     (WORKING + TEST SET) : 0.178
REMARK   3   R VALUE            (WORKING SET) : NULL
REMARK   3   FREE R VALUE                     : NULL
REMARK   3   FREE R VALUE TEST SET SIZE   (%) : NULL
REMARK   3   FREE R VALUE TEST SET COUNT      : NULL
REMARK   3
REMARK   3  FIT/AGREEMENT OF MODEL WITH ALL DATA.
REMARK   3   R VALUE   (WORKING + TEST SET, NO CUTOFF) : NULL
REMARK   3   R VALUE          (WORKING SET, NO CUTOFF) : NULL
REMARK   3   FREE R VALUE                  (NO CUTOFF) : NULL
REMARK   3   FREE R VALUE TEST SET SIZE (%, NO CUTOFF) : NULL
REMARK   3   FREE R VALUE TEST SET COUNT   (NO CUTOFF) : NULL
REMARK   3   TOTAL NUMBER OF REFLECTIONS   (NO CUTOFF) : NULL

Как можно видеть, в процессе оптимизации структуры не использовали R-free.

1SBP structure
1SBP structure w/ electron density
1SBP structure w/ electron density and water
3D-структуры и электронные плотности записи 1SBP. Окраска структуры по B-фактору Структура 1SBP Структура 1SBP и ее ЭП. Видно, что много аминокислот, находящихся на поверхности структуры, имеют повышенные значения B-фактора и меньшую поддержку ЭП. Структура 1SBP и ее ЭП, молекулы воды отмечены черными сферами.

Как можно заметить из рис. 2, аминокислоты, не имеющие поддержки ЭП, в основном находятся на поверхности структуры и обладают меньшими значениями B-фактора (рис. 3). Естественно, что большинство из таких остатков являются полярными (и даже заряженными). Внутри глобулы аминокислот без поддержки ЭП обнаружено не было.

Amino acids w/o ED
Amino acids w/o ED
Amino acids w/o ED
Пример некоторых остатков 1SBP, не имеющих полной поддержки ЭП. Уровень подрезки: 2. У остатков, имеющих неполноценную поддержку ЭП, углероды окрашены в зеленый. Слева, последовательно PHE`298, ALA`299, ASP`300, GLY`301, затем LYS`295, ALA`291 и LYS`292; Слева направо: GLU`18, LYS`257, далее последовательно: ASN`201, GLU`202, LEU`203, GLY`204, LYS`205, ASP`206, LYS`207, внизу справа: GLU`182, ARG`183; LYS`269, ASP`272, ASP`273, ALA`274, PRO`276, LYS`277, LYS`279.

Проверим, есть ли альтернативные структуры для данного пептида (рис. 4).

Explore Uniprot ID
Explore Uniprot ID
Поиск альтернативных структур. На странице RCSB PDB нашей структуры 1SBP переходим в раздел Macromolecules, подраздел UniProt, кликаем на кнопку P02906 рядом с Explore (Explore P02906). Альтернативные структуры пептида. Здесь наблюдается всего две записи, первая - 1SBP (рассматривается в практикуме), а вторая - AF_AFP02906F1 - 3D-структура, предсказанная с помощью AlphaFold.

В целом, разрешение структуры под идентификатором 1SBP не такое уж и плохое, и составляет 1.70 Å. Значения метрик wwPDB Validation - средние. Альтернативных экспериментальных структур, к сожалению, не существует, только структура, предсказанная AlphaFold, поэтому предпочтительно использовать именно данную структуру 1SBP.

Задание 2.

Воспользуемся специальными инструментами и вычислениями, чтобы валидация структуры не ограничилась оценкой "на глаз". Для поиска маргинальных остатков можно использовать обширный инструмент Molprobity, однако, к моменту выполнения практикума он не работает, поэтому будут использованы несколько других инструментов, способных воспроизвести функционал оригинального инструмента. Первый инструмент - SwissModel Structure Assessment. Результат оценки структуры с помощью SwissModel состоит из многих компонент. Во-первых, это оценка торсионных углов главной цепи протеина.

SwissModel Structure Assessment

Карты Рамачандрана

Приведем небольшую литературную справку по тому, почему стоит различать остатки при рассмотрении карт Рамачандрана. Наибольшее количество разрешенных конформаций (углов φ и ψ) наблюдается у остатков глицина (рис. 6, B). Главная запрещенная область - вертикальная, сохраняющаяся вдоль всех значений ψ при значениях φ, близких к нулю, вызвана отталкиванием С'i-1 и С'i атомов, так как минимальное расстояние между ними - rmin= 3,0 Å для C...C взаимодействия. Схожий стерический запрет есть и в горизонтальной области (ψ, близкие к нулю, многие φ), но он уже вызван отталкиванием Ni-1 и Ni атомов - rmin= 2,7 Å для N...N взаимодействия, что меньше, чем в предыдущем случае [1].

Из этого всего можно заключить, что по углу φ вращаться труднее, чем по углу ψ. Но если бы дело ограничивалось только этими взаимодействиями, вращения по двум углам были бы не взаимосвязанны, и запретные области были бы ограничены только вертикальной и горизонтальной полосами вдоль осей координат (рис. 5, A). Ситуация меняется, если учесть, что при атоме C′ есть еще О- и Cα-атомы, а при атоме N есть также H- и C′-атомы. Тогда получится карта самого маленького аминокислотного остатка - глицина (боковой радикал -H, рис. 5. B)

У всех остальных аминокислотных остатков радикал куда больше, и столкновение их Cβ-атомов с C′i–1 сильно ограничивает разрешенную область по углам φ, а с Ni+1 - по углам ψ. Так как сталкивается именно Cβ атом, то ситуация у большинства остатков схожая (рис. 5, C).

Интересна ситуация с иминокислотой пролин. У него угол φ практически фиксирован кольцом при -70°, а вращение по углу ψ — такое же, как у аланина (рис. 5, D). Кроме того, кольцо пролина сужает область разрешенных конформаций остатка, лежащего перед ним в цепи (рис. 5, E).

Permitted conformations for abstract N-C-C backbone
Permitted conformations for glycine only
Permitted conformations for all amino acids except glycine, proline and preproline
Permitted conformations for proline only
Permitted conformations for preproline
Разрешенные конформации (углы φ и ψ) различных аминокислот: Гипотетическая карта Рамачандрана для молекулы, состоящей только из главной цепи протеина; Разрешенные углы φ и ψ для глицина; Разрешенные углы φ и ψ для аланина (карта схожа с картами остальных аминокислот, кроме глицина и пролина); Разрешенные углы φ и ψ для пролина; Разрешенные углы φ и ψ для аминокислот, находящихся перед пролином.

Вернемся к картам Рамачандрана, полученными с помощью SwissModel для структуры 1SBP. Они разбиты на несколько групп аминокислот из-за их особенностей, что объяснялось ранее (рис. 6).

SwissModel Ramachandran p. - general
SwissModel Ramachandran p. - glycine only
SwissModel Ramachandran p. - proline only
SwissModel Ramachandran p. - preproline
Результат SwissModel Structure Assessment - карты Рамачандрана для 1SBP: Все остатки, кроме пролина и глицина; Остатки глицина; Остатки пролина; Остатки, находящиеся перед пролином в структуре.

Если ссылаться на литературные источники, то можно заключить, что практически все остатки структуры 1SBP находятся в разрешенной области карт Рамачандрана. Кроме того, если сослаться на документацию SwissModel Structure Assessment, то можно заключить, что качество структуры 1SBP также подтверждено тем, что значения углов остатков этой структуры находятся в областях карт с высокой плотностью (там наблюдается высокое количество остатков из выборки 12,521 экспериментальных структур, то есть эти карты поддерживаются большим количеством экспериментальных структур).

Всего 98.37% всех остатков имеют удовлетворительную конформацию главной цепи, и только один остаток является маргинальным с точки зрения карт Рамачандрана - остаток GLY`204 (рис. 7).

Ramachandran plot outlier
Маргинальный остаток карт Рамачандрана для структуры 1SBP: GLY`204 (покрашен в зеленый). Можно видеть, что кислород, принадлежащий GLY`204 (главная цепь), находится на достаточном расстоянии от C' и O соседнего LYS`205. При этом глицин и два окружающих его остатка не поддерживаются ЭП полностью, а также эти остатки находятся на поверхности. Необходимо отметить, что рядом в структуре нет групп, которые образовывали бы с кислородом глицина водородную связь (аминогруппы остова достаточно удалены). Желтым пунктиром показано расстояние (не связь!) между двумя атомами кислорода.

Результаты MolProbity

Приведем результаты в таблице 1 (пояснения приведены из документации SwissModel Structure Assessment):

Результаты урезанной версии MolProbity на SwissModel Structure Assessment
Свойство (метрика) Значение Остатки Пояснение
MolProbity Score 1.87 Совокупное качество структуры, отражающее при каком разрешении эксперимента РСА ожидалась бы структура такого же качества (в нашем случае, качество структуры ниже ожидаемого для разрешения 1.7 Å)
Clash Score 6.04 (A137 TYR-A303 THR), (A297 HIS-A303 THR), (A19 GLN-A258 ASN) Под перекрытиями (clashes) подразумевается сближение отдельных атомов на 0,45 Å без образования водородной связи
Ramachandran Favoured 98.37% Процент остатков, удовлетворяющих разрешенным конформациям главной цепи
Ramachandran Outliers 0.33% A204 GLY Процент остатков, неудовлетворяющих разрешенным конформациям главной цепи. При разрешениях ниже 3,0 Å любые выбросы следует считать ошибками.
Rotamer Outliers 5.10% A65 LEU, A206 ASP, A203 LEU, A74 GLU, A164 LYS, A303 THR, A60 THR, A300 ASP, A32 THR, A4 GLN, A80 LYS, A205 LYS, A269 LYS Процент остатков, неудовлетворяющих разрешенным конформациям боковых цепей. При разрешениях ниже 3,0 Å любые выбросы следует считать ошибками.
C-Beta Deviations 10 Положение отклоняется от идеального более чем на 0,25 Å (дословный перевод документации, больше объяснений далее в тексте).
Bad Bonds 4 / 2486 A271 TYR-A272 ASP, A44 GLY, A172 GLY, A271 TYR > 4σ отклонений от идеального значения
Bad Angles 61 / 3376 A32 THR, A60 THR, A303 THR, (A271 TYR-A272 ASP), A39 ASP, A110 HIS, A2 ASP, A183 ARG, A113 ASN, A19 GLN, A4 GLN, A27 HIS, (A75 ARG-A76 GLY), A206 ASP, A152 GLN, A102 ARG, A42 HIS, A227 ASP, (A141 TRP-A142 GLY), A169 LEU, A54 ASN, A79 ASP, A240 GLU, A149 ASN, A191 ALA, A14 ARG, A163 PHE, A96 THR, A10 TYR, A250 GLU, A182 GLU, A231 GLU, A84 LYS, (A164 LYS-A165 ASN), A74 GLU, A281 PHE, A15 GLU, (A207 LYS-A208 PHE), A171 SER, A190 ILE, (A107 LYS-A108 GLN), A235 THR, A67 TYR, (A223 VAL-A224 SER), A50 THR, A174 ARG, (A246 LEU-A247 TYR), (A171 SER-A172 GLY), A247 TYR, A234 ASP, A265 ALA > 4σ отклонений от идеального значения

Отклонение Cβ атома чувствительно к несоответствиям между боковыми и главными цепями, вызванными плохо подобранными (расшифрованными) конформациями или неподходящими параметрами улучшения модели. Так как длины связей сильно ограничены в разбросе значений, отклонения вокруг Cα вызваны отклонениями в углах связей. Угол N-Cα-C', в основном, определяется главной цепью, в то время как углы N-Cα-Cβ и C'-Cα-Cβ определяются совместимостью боковых и главной цепей. Информацию об этих двух углах можно "сжать" до простой метрики отклонения Cβ атома от его идеальной позиции, которая бы удовлетворяла углам N-Cα-Cβ и C'-Cα-Cβ и длине связи Cα-Cβ [2].

Возвращаясь к выводам SwissModel, можно заметить, что один остаток появляется во многих категориях - THR`303 (Clash Score, Rotamer Outliers, Bad Angles).

Clash outlier
Clash outlier
THR`303 структуры 1SBP и его окружение. . Желтыми пунктирами показано расстояние (не связь!) между атомами (причина clash): Перекрытие (близкое расположение) -CH3 группы треонина, Nδ гистидина (~2.7Å) и -OH тирозина (~2.4Å); То же самое, с ЭП (уровень подрезки - 2). Возможно, здесь необходим разворот связи на 180° между Cα и Cβ (тогда -OH и -CH3 группы тирозина поменяются местами). Это можно оправдать тем, что электронная плотность боковой цепи треонина сконцентрирована возле -CH3 (возможно, там на самом деле кислород), и электронная плотность соседних остатков также смещена в сторону -CH3 треонина (у имидазольного кольца гистидина это особенно заметно). В таком случае Nδ гистидина будет преимущественно протонирован.

Quality Estimate

Последний вывод, полученный с помощью SwissModel, который мне хотелось бы привести - график Quality Estimate.

1SBP quality comparison
Распределение качества (Z-score QMEAN4) модели PDB (неизбыточная выборка экспериментальных структур пептидов всего банка) в зависимости от длины последовательности. Звездочкой отмечена структура 1SBP (источник).

QMEAN4 - оценочная функция, являющаяся линейной комбинацией стандартизированных оценок (Z-score) 4 knowledge-based potentials (statistical potential) - псевдопотенциалов, основанных на статистическом анализе отдельных геометрических показателей (как локальных, так и глобальных) структур всего банка (источник).

QMEAN4 отдельной модели сравнивается с тем, что можно было бы ожидать от экспериментальных структур аналогичного размера. Она показывает, на сколько стандартных отклонений от среднего для экспериментальных структур данного размера отличается оценка данной модели.

Структура 1SBP, согласно QMEAN4, является довольно достоверной экспериментальной структурой, ведь она показывает примерно такое же качество, как и остальные экспериментальные структуры такого же размера (эта структура заслуживает доверия).

NQ-Flipper

Одной из частых проблем программ, составляющих модель по электронной плотности, является переворачивание амидных групп боковых цепей глутамина и аспарагина. В структуре 1SBP программа нашла 6 значимых остатков: ASN`165, GLN`48, ASN`258, ASN`35, ASN`201, GLN`4 (в порядке значимости).

1SBP GLN/ASN flip
1SBP GLN/ASN flip
1SBP GLN/ASN flip
1SBP GLN/ASN flip
1SBP GLN/ASN flip
1SBP GLN/ASN flip
Предсказанные перевороты остатков глутамина и аспарагина в структуре 1SBP. ASN`165. Если перевернуть амидную группу, азот сможет, возможно, донировать два водорода для водородных связей. Остаток поддерживается ЭП; GLN`48. Если перевернуть амидную группу, азот сможет, возможно, донировать два водорода для водородных связей. Остаток поддерживается ЭП; ASN`258. Если перевернуть амидную группу, азот сможет, возможно, донировать два водорода для водородных связей, хотя в одном случае длина такой связи будет 2.3Å, что достаточно мало для такой связи. Остаток входит в состав одной альфа-спирали, а также он поддерживается ЭП; ASN`35. Если перевернуть амидную группу, азот сможет, возможно, донировать один водород для водородной связи. Остаток входит в состав одного бета-листа, а также он НЕ поддерживается ЭП (слабо поддерживается, находится при этом на поверхности белка); ASN`201. Если перевернуть амидную группу, азот сможет, возможно, донировать один водород для водородной связи. Остаток входит в состав одной альфа-спирали, а также он НЕ поддерживается ЭП (слабо поддерживается, находится при этом на поверхности белка); GLN`4. В данной ситуации, я не уверен, что определенная конформация боковой цепи остатка предпочтительна, они, как я думаю, равнозначны. Остаток входит в состав одного бета-листа, а также он НЕ поддерживается ЭП (слабо поддерживается, находится при этом на поверхности белка);

Ионов металлов в структуре не нашлось, поэтому инструмент Checkmymetal не пригодился.

В целом, можно сказать, что качество структуры - довольно хорошее, однако она требует некоторых исправлений.

Скорее всего, все эти неточности связаны с ошибками расшифровки РСА, а не с особенностями структуры.

Задание 3.

Все сообщество должно быть благодарным за то, что существует такой ресурс, как PDB Redo, ведь он способен предоставить структуры, в которых исправлены многие ошибки (refinement, rebuilding and validation). При поиске структуры 1SBP, в результатах можно сразу же заметить исправление остатка GLY`204, у которого была неправильная конформация главной цепи (рис. 11)

1SBP refined structure, Ramachandran plot
Карта Рамачандрана исправленной структуры 1SBP. Можно видеть, что GLY`204 теперь попадает в более "населенную" (разрешенную) область карты.

При сравнении двух структур (до и после), обнаруживаются изменения (рис. 12).

Ramachandran plot outlier
Outlier but fixed
Исправление маргинального остатка карты Рамачандрана для структуры 1SBP: GLY`204 (покрашен в зеленый). Можно видеть, что кислород главной цепи GLY`204 почти никак не изменил свое положение, однако угол φ у GLY`204 изменился значительно. Это заметно потому, что кислород главной цепи соседнего (предыдущего) лейцина теперь сильнее наклонен в сторону наблюдателя. Так как ЭП в данной области размыта, то такое исправление корректно.
Clash outlier
Outlier but fixed?
Clash outlier
Outlier but fixed?
Outlier not fixed.
Outlier not fixed.
Outlier not fixed.
Исправление маргинального остатка (clash) для структуры 1SBP: THR`303 (покрашен в зеленый). Расстояние от CH3 группы треонина до Nδ гистидина было ~2.7Å, стало ~2.9Å. Расстояние от CH3 группы треонина до -OH тирозина было ~2.4Å, стало ~2.3Å. По-моему, PDB Redo не справился с исправлением этого остатка, и мне хочется настаивать, что тут необходим разворот связи на 180° между Cα и Cβ и небольшое изменение углов остова. Желтыми пунктирами показано расстояние (не связь!) между атомами (причина clash).
1SBP GLN/ASN flip
1SBP GLN/ASN flip fixed
ASN`165. При перевороте амидной группы, азот, наконец-то, формирует две водородные связи с остовными кислородами. Остаток поддерживается ЭП;
1SBP GLN/ASN flip
1SBP GLN/ASN flip fixed
GLN`48. При перевороте амидной группы, азот, наконец-то, формирует две водородные связи с остовным кислородом и кислородом серина. Остаток поддерживается ЭП;
1SBP GLN/ASN flip
1SBP GLN/ASN flip fixed
ASN`258. При перевороте амидной группы ASN`258, а также при изменении конформации GLN`19, становится возможным формирование трех дополнительных водородных связей: двух с GLN`19 и одной с остовным кислородом ILE`254. Остаток поддерживается ЭП;
1SBP GLN/ASN flip
1SBP GLN/ASN flip fixed
ASN`35. При перевороте амидной группы ASN`35 становится возможным формирование двух дополнительных водородных связей с боковыми цепями заряженных аминокислот: LYS`29 и ASP`2. У боковой цепи остатка достаточно размытая ЭП;
1SBP GLN/ASN flip
1SBP GLN/ASN flip fixed
ASN`201. При перевороте амидной группы ASN`201 становится возможным формирование одной дополнительной водородной связи с остовным кислородом LEU`197. У боковой цепи остатка достаточно размытая ЭП;
1SBP GLN/ASN flip
1SBP GLN/ASN flip fixed
GLN`4. Как и предсказывалось, эта находка была ошибочной, и при изменении конформации боковой цепи GLN`4 ситуация сильно не изменилась. Остаток НЕ поддерживается ЭП (слабо поддерживается, находится при этом на поверхности белка);

Сервис PDB Redo подтвердил, что все практически неточности структуры 1SBP из базы PDB связаны с ошибками расшифровки РСА, а не с особенностями структуры. При этом PDB Redo, как я думаю, не справился с уточнением конформации THR`303. Но и это, скорее всего, связано лишь с несовершенством алгоритмов расшифровки РСА, а не с особенностью структуры.

Список литературы

  1. Финкельштейн А. В., Птицын О. Б (2012) Физика белка: курс лекций с цветными и стереоскопическими иллюстрациями и задачами.
    3-е изд., испр. и доп. — М.: кдУ, 2012. — 456 с., [32] c. ил.: ил;
  2. Lovell SC, Davis IW, Arendall WB 3rd, de Bakker PI, Word JM, Prisant MG, Richardson JS, Richardson DC. (2003) Structure validation by Calpha geometry: phi,psi and Cbeta deviation.
    Proteins. 15;50(3):437-50.