Валидация

Валидация РСА-модели

Задание 1.

1BKR - кристаллографическая расшифровка кальпонин-гомологичного (СН2) домена из человеческого белка β-II-спектрина. CH1-CH2-домены обеспечивают связывание с актином. Целью расшифровки трёхмерной структуры домена в соответствующем исследовании было уточнение особенностей его взаимодействия с актиновыми филаментами на молекулярном уровне. > Оригинальная публикация <

Проанализируем данные о качестве модели из отчёта о валидации с PDB:

Картиночка с PDB — **Рис. 1.** Графический отчёт wwPDB Validation.

Разрешение 1,1 Å при полноте 99,2 % (данные, предоставленные депозиторами) - можно рассчитывать на очень хорошее качество восстановленной ЭП.
R-фактор 0,141; R_free 0,187 (данные, предоставленные депозиторами) - соответствие модулей структурных факторов модели экспериментальным довольно хорошее, переоптимизацию не подозреваем. На графическом отчёте wwPDB Validation R_free ещё меньше, что ещё лучше по сравнению с другими РСА-моделями в PDB (они пересчитывали с другой тестовой выборкой).
Маргиналы по картам Рамачандрана: 3 остатка из 106 проанализированных (всего в модели 108 остатков, не проанализированы концевые) лежат в разрешенной области - это 3% маргиналов - по данному показателю модель хорошая; у всех PDB-моделей (в том числе с таким же разрешением) этот показатель хуже.
Маргиналы по ротамерам боковых радикалов остатков: проанализировано 97 из 98 остатков, у боковых цепей которых есть степени свободы на поворот ковалентных связей. Из них 6 (6%) не соответствуют своим ротамерам - по этому показателю модель плохая; всего у 18% РСА-моделей в PDB процент маргиналов по торсионным углам боковых радикалов больше (и лишь у 1% моделей с таким же разрешением). Отмечу, что 2 из 6 маргиналов по ротамерам боковых радикалов - коцевые остатки Lys-2 и Met-109, у которых могла "размазаться" ЭП из-за подвижности, и поэтому координаты атомов с большей вероятностью могли быть определены неточно, возможно, вызвав этим несоответствие ротамерам.
Маргиналы по RSRZ: у 2 из 108 проанализированных остатков (2%) z-score по RSR больше 2 - мы не видим реальных значений RSR, поэтому не можем предположить, насколько хорошо координаты атомов в модели соответствуют действительности, но по RSRZ можем сказать, что они расшифрованы лучше, чем у 66% РСА-моделей в PDB и 62% моделей со схожим разрешением, что довольно хорошо. 2 маргинальных по данному параметру остатка - Lys-108 и Met-109: их модельная ЭП сильно отличается от экспериментальной, что означает, что моё утверждение касательно маргиналов по ротамерам относится только к Lys-2.
Clashscore у данной модели = 9, что лучше, чем ~ у 30% РСА-моделей в PDB и ~ у 15% моделей с похожим разрешением (точных сравнений по этому параметру не приведено, прикинула по графическому отчёту wwPDB Validation) - по этому показателю модель довольно плохая. При этом из всех 15 приведённых в отчёте "столкновений" на 1751 атом (исключая воду и включая добавленные к остаткам водороды) только 6 приходятся на столкновения между атомами двух остатков - остальные с водой, молекулы которой более подвижны в реальности, а значит, возможно, и не мешают никому. Во всех 6 клэшах между остатками задействованы водороды, которые были программно добавлены, поэтому лично мне не кажется, что эти "столкновения" сильно снижают качество модели (но возможно дело в предвзятости мокрого биолога).

В модели есть 13 атомов (у 7 остатков), для которых нет подтверждающей их положение ЭП. Только один из таких остатков (Lys-93) находится в начале С-концевой α-спирали, предположительно обеспечивающей связывание с актином (в приведённой статье пишут такое про N-концевой домен, а мы рассматриваем С-концевой, судя по последовательности на Юнипроте). У этого лизина в ЭП не вписан концевой азот боковой цепи. Поскольку он концевой, сильно куда-то подвинуться и потянуть за собой остальных у него не получится, следовательно, данная неточность в модели вряд ли существенно навредит интерпретации функциональных свойств домена. На Юнипроте про этот (или любой другой) остаток С-концевого CH-домена ничего особенного не написано.

Задание 2.

Посмотрим на маргиналов (данные из отчёта с PDB).

Картиночка из паймола — **Рис. 2.** Слева: атомы Thr-101 в виде sticks, вписанные (или не очень) в соответствующую им ЭП (уровень подрезки 1,5; carve 1,4). Справа: клэш водорода СН₃-группы радикала Thr-101 с остовным кислородом Tyr-98.

У Thr-101 угол N-CA-CB = 88,6° при идеальном 110,3° (Z-score = -11,4 при пороге |5|) - довольно очевидно, что он попадает в маргиналы по ротамерам. Видно, что СВ не вписан в свой шарик, отображающий ЭП, а это как раз увеличило бы угол (но возможно там тогда появились бы проблемы с длинами связей). Помимо этого, водород СН₃-группы его радикала "сталкивается" с остовным кислородом Tyr-98 (водороды были добавлены и оптимизированы MolProbity в ходе валидации, на рисунке показаны добавленные мной вручную и повернутые так, чтобы расстояние от одного из них до кислорода соответствовало указанному в отчёте).

Хотя маргиналом по ротамерам Arg-32 не значится, он имеет 5 геометрических отклонений в боковой цепи: удлинённую связь NE-CZ (Z-score = 8,1), увеличенный угол NH1-CZ-NH2 (Z-score = 6,3) и 3 уменьшенных угла (CD-NE-CZ; NE-CZ-NH1; NE-CZ-NH2) c Z-score от -6,9 до -8,2. Также, его концевые азоты не вписаны в ЭП.

Asp-52 является маргиналом по ротамерам; угол CB-CG-OD2 больше идеального значения (Z-score = 6,6). ЭП, которой соответствуют концевые атомы бокового радикала, отображается очень фрагментированно уже на уровне подрезки 1,1, но это не очень удивительно для остатка, который находится в петле, смотрящей наружу от белковой глобулы.

Asn-23 является маргиналом по ротамерам. Маленькие кусочки ЭП отображаются около концевого кислорода боковой цепи только на уровне подрезки 0,7. Этот атом кислорода сталкивается с водородом атома CE1 His-25. Если присмотреться к отображению ЭП бокового радикала гистидина, то можно заметить, что перевёрнутое кольцо (CE1 ⇔ NE2; ND1 ⇔ CD2) вписалось бы лучше - азоты были бы в более "плотных" областях, и тогда исчез бы клэш и сформировалась водородная связь, наличие которой, возможно, оправдало бы несоответствие боковой цепи Asn-23 ротамерам. В отчёте с PDB предложено перевернуть кольцо гистидина.

MolProbity выдал все те же ошибки, которые были указаны в отчёте с PDB, добавив несколько углов-аутлаеров в боковых цепях (при этом несоответствий ротамерам не прибавилось, но видно, какие остатки по этому показателю лежат в разрешённой области - например, рассмотренный Arg-32).
Также я посмотрела на сводку из 12-ти клэшей с водой - из них в 10 случаях вода, возможно, является координированным ионом для полярной группы остатка, а в двух - артефактом, вызванным шумом (одно из них - с концевой амино-группой остова Lys-2, а она вообще-то заряжена, так что тут тоже координированный ион, мне кажется; второе - с боковым радикалом Arg-32 - там, пожалуй, действительно шум - на неправильно вписанный атом остатка не похоже).
При добавлении водородов был выдан список из 4х остатков гистидина, требующих инверсии, в их числе - рассмотренный His-25. Также при анализе геометрии вывелось сообщение о том, что автоматически clashscore снизили на 3.
Ещё в табличке есть средние значения В-фактора по остаткам, посмотрев на них я подтвердила своё высказывание об Asp-52, а также обратила внимание на то, что Asn-23 и His-25 тоже подвижные (они в неструктурированной области и смотрят боковыми цепями наружу от белковой глобулы), поэтому маргинальность аспарагина по ротамерам скорее всё же артефакт, а не нагрузка для водородной связи с гистидином, но инверсия гистидина всё равно мне кажется оправданной.
Помимо этого, я посмотрела на выдачу Rama-Z: для всех остатков в стабильных спиралях конформации остова отличаются от идеальных не более чем на величину одного стандартного отклонения - это очень хороший показатель, а вот в подвижных петлях отклонение доходит до 2,3, что по интерпретации MolProbity входит в категорию "подозрительно". Все три остатка, лежащие на картах Рамачандрана в разрешенной области, находятся в петлях.

Задание 3.

Судя по R-метрикам, качество ЭП хорошее. С остовом всё нормально, так что общую структуру белка модель отражает хорошо. Выводы о функциональных особенностях по данной модели делать, наверное, не стоит - маргинальных остатков по боковым цепям в модели достаточно как в предположительно связывающей актин С-концевой α-спирали, так и в остальных областях (хотя это в основном относится к неструктурированным участкам). ЭП рассмотренные маргинальные конформации скорее не поддерживает, так что вряд ли маргинальность говорит о функциональной нагруженности.

Задание 4.

На PDB-REDO в целом валидация проходит иначе (используется WHAT_CHECK, как я поняла) - показатели исходной модели отличаются от таковых в отчётах с PDB и MolProbity.

Табличка с PDB-REDO — **Рис. 6.** Сводные таблицы с PDB-REDO.

Соответствие модельной ЭП экспериментальной в redo-модели улучшилось (R-метрики); выправилось большинство аутлаеров по углам связей (остался 1 вместо 21 по результатам MolProbity), но вместо одного аутлаера по длине связи стало два.
В оценке остовных конформаций результаты WHAT_CHECK и MolProbity разнятся: в первом случае перцентиль redo-модели упал по сравнению с исходной (хотя всё ещё интерпретируется как "ОК"), а во втором значение Rama-Z из категории "подозрительно" у исходной модели перешло в категорию "хорошо" у redo-модели. Остатков в разрешённой области как было 3, так и осталось. Различия в оценке, видимо, связаны с тем, что рассчёт Z-score идёт по разным базам данных.
Остатков, несоответствующих ротамерам, в redo-модели стало меньше - 3 вместо 6-ти у исходной.
Clashscore понизился до 1 по результатам MolProbity redo-модели (оно же Bump severity на PDB-REDO), но при этом пишут, что пакинг стал хуже и уменьшилось количество водородных связей. Было инвертировано 6 боковых цепей (это могло привести к ухудшению пакинга и уменьшению количества Н-связей, но при этом уменьшить количество "столкновений"). Убрано 33 молекулы воды, что также улучшило clashscore.

Рассмотрим несколько остатков из задания 2 в redo-модели.

Thr-101 в redo-модели полностью вписан в соответствующую ЭП (на PDB-REDO указано значимое улучшение) - боковой радикал развернули на 180°; угол N-CA-CB стал гораздо ближе к идеальному (110,3°), а вместо клэша - H-связь. Правда, в таком случае гидрофобная СН₃-группа бокового радикала смотрит наружу от белковой глобулы, а полярная -ОН - внутрь, но, судя по ЭП, в кристалле это так.

Arg-32 в redo-модели полностью вписан в соответствующую ЭП (на PDB-REDO указано значимое улучшение); все 4 отклоняющихся в исходной модели значения углов в redo-модели близки к идеальным, длина связи NE-CZ нормальная. Благодаря смещению боковой цепи в redo-модели стало возможным образование водородной связи с остовным кислородом Ser-86.

Значения RSCC на PDB-REDO говорят, что соответствие координат атомов Asn-23 ЭП незначительно ухудшилось в redo-модели, а мне кажется, что стало незначительно лучше, потому что в исходной модели кислород боковой цепи не был вписан в ЭП совсем, а в redo-модели около азота боковой цепи есть хоть какой-то кусочек сетки. Боковой радикал гистидина инвертирован, и этот остаток значимо лучше вписан в плотность по данным PDB-REDO. Благодаря инверсии боковой цепи гистидина в redo-модели нет клэша, но из-за смещения радикала аспарагина водородная связь, которую я предполагала увидеть, не формируется.

Посмотрим на один остаток в redo-модели, у которого качество вписанности в ЭП сильно ухудшилось по сравнению с исходной моделью по данным PDB-REDO.

Концевые атомы боковой цепи в обоих случаях вписаны плохо, так что не очень понимаю, что здесь ухудшилось касательно ЭП. Но в redo-модели конформация бокового радикала этого остатка не соответствует ротамерам, в отличие от исходной модели, так что, по-моему, этот глутамин изменять не стоило.

В целом, по результатам видно, что сервисы REDO нацелены на улучшение соответствия позиций атомов их ЭП и предпочтительным конформациям, а также на уменьшение количества "столкновений". Страдают пакинг и Н-связи, но зато если ЭП отражает действительность, то мы, теоретически, сможем увидеть, какие остатки являются маргинальными из-за функциональной нагрузки.
По основным показателям модель улучшилась, так что по ней делать какие-то выводы об особенностях белка можно с большей уверенностью, по моему мнению.