Валидация

При получении данных о структуре молекулы белка методом рентгеновской кристаллографии важным этапом является оптимизация первичной, черновой модели. Оптимизированная модель требует валидации, чему и посвящён этот практикум.

Мне был выдан PDB ID 6Q3U. Это структура аргининсвязывающего белка экстремофильной бактерии Thermotoga maritima. Белок периплазматический, выполняет транспортную функцию, UniProt AC Q9WZ62.

Интересно, что в оригинальной публикации исследуется именно влияние наличия остатка в запрещённой конформации на карте Рамачандрана на свойства белка в целом — получается, один из маргинальных в этом смысле остатков введён в структуру искуственно, заменой G25A. Авторы узнали, что в данном случае остаток аланина принимает запрещённую конформацию с минимальным изменением третичной структуры, но возникшее локальное напряжение значительно снижает стабильность белка.

Качество структуры в целом

Изучим отчёт о валидации структуры. В нём приведены такие метрики, как $\mathrm R_{free}$, clashscore (количество необычно близких атомов на 1000), доля маргинальных остатков на карте Рамачандрана, а ещё — маргинальных остатков по конформации бокового радикала и, наконец, маргинальных остатков по $z$-статистике пространственного R-фактора. Приведём их значения в таблице 1.

Таблица 1.

Значения приведённых в отчёте метрик

Параметр Значение
$\mathrm R_{free}$ 0,200
Clashscore 3
Ramachandran outliers 0,5 %
Sidechain outliers 1,6 %
RSRZ outliers 0 %

Единственный остаток в запрещённой зоне на карте Рамачандрана (из 213), который фактически и исследуется, даёт долю маргинальных остатков в 0,5 %, что выше, чем у примерно 90 % структур со сходным разрешением (номинальное разрешение изучаемой структуры 1,64 Å). Однако у остова всех остальных остатков конформация в норме. Есть три остатка, маргинальных по конформации боковой цепи (у примерно 60 % структур сходного разрешения ситуация лучше), на них мы обратим внимание позже. Остальные параметры структуры скорее хорошие, диаграмма с перцентилями для всех структур РСА и структур похожего разрешения из валидационного отчёта приведена на рис. 1.

Рисунок 1.

Положение изучаемой структуры среди всех структур РСА и структур сходного разрешения по приведённым метрикам.

Также отчёт показывает, что в расшифровке структуры нет участков, которые бы плохо соответствовали экспериментальной электронной плотности. (The upper red bar (where present) indicates the fraction of residues that have poor fit to the electron density. — Красных черт на соответствующей диаграмме нет.)

MolProbity

Теперь для оценки качества расшифровки структуры обратимся к MolProbity. Загрузим структуру и проведём сначала анализ геометрии, не добавляя водороды. Результат приведён в таблице 2.

Таблица 2.

Сводная таблица из выдачи MolProbity по PDB ID 6Q3U (приводится без изменений).

Protein
Geometry
Poor rotamers31.60% Goal: <0.3%
Favored rotamers18196.79% Goal: >98%
Ramachandran outliers10.47% Goal: <0.05%
Ramachandran favored20597.16% Goal: >98%
Rama distribution Z-score-0.71 ± 0.52 Goal: abs(Z score) < 2
Cβ deviations >0.25Å31.48% Goal: 0
Bad bonds:7 / 17260.41% Goal: 0%
Bad angles:5 / 23360.21% Goal: <0.1%
Peptide Omegas Cis Prolines: 1 / 6 16.67% Expected: ≤1 per chain, or ≤5%
Additional validations Chiral volume outliers0/277

Так же, как и в отчёте wwPDB, присутствует 3 маргинальных ротамера, 1 аутлаер на карте Рамачандрана, но MolProbity в дополнение к этому оценивает и отклоняющиеся значения длин ковалентных связей и углов между связями. Изучим отчёт подробнее (откроем Multi-criterion chart). Интересно, что набор плохих ротамеров здесь и в отчёте wwPDB не совпал: в валидационном отчёте это были остатки S26, R64, D183, а в выдаче MolProbity D183 в допустимой области, зато проблемы с E42. Эти 4 маргинальных ротамера приведены на рис. 2.

Рисунок 2.

Ротамеры-аутлаеры по отчёту wwPDB и выдаче MolProbity.

Ser26 находится в конформации, близкой к заслонённой, Glu42 и Arg64 необычно изогнуты и прижаты к остову, у Asp183 необычно сближены кислород карбоксильной группировки и NH-группа остова.

Также MolProbity даёт примеры маргинальных остатков с точки зрения длин ковалентных связей и углов между ними — обратим внимание на такие остатки (примеры приведены на рис. 3).

Рисунок 3.

Некоторые маргинальные остатки по параметрам ковалентных связей из выдачи MolProbity. Слева показана электронная плотность на уровне подрезки 2, справа — на уровне подрезки 1.

На левой половине рисунка одна из связей с кислородом в карбоксильной группе аномально укорочена, у остатка из правой части сразу две проблемы — аномально длинная связь и угол, далёкий от тетраэдрического. При этом в электронную плотность они как-то вписаны, и удовлетворительно, если верить отчёту wwPDB. Возможно, здесь источником шума в расшифровке функции плотности были молекулы воды (на рисунке они тоже показаны).

Добавим в структуру водороды. При этом MolProbity сообщает, что один из остатков требует разворота. Посмотрим на него (см. рис. 4).

Рисунок 4.

Остаток Asn225, требующий разворота.

Видно, что остаток действительно нужно развернуть: сейчас наблюдается близкий контакт $\mathsf{NH}_2$ и $\mathsf{NH}$-групп, а после разворота будет хорошая водородная связь.

После добавления водородов проверим геометрию снова — со всеми доступными контактами. Сводная таблица представлена ниже (табл. 3).

Таблица 3.

Сводная таблица из выдачи MolProbity по PDB ID 6Q3U со всеми контактами (приводится без изменений).

All-Atom
Contacts
Clashscore, all atoms:2.62 99th percentile* (N=708, 1.64Å ± 0.25Å)
Clashscore is the number of serious steric overlaps (> 0.4 Å) per 1000 atoms.
Protein
Geometry
Poor rotamers31.60% Goal: <0.3%
Favored rotamers18196.79% Goal: >98%
Ramachandran outliers10.47% Goal: <0.05%
Ramachandran favored20597.16% Goal: >98%
Rama distribution Z-score-0.71 ± 0.52 Goal: abs(Z score) < 2
MolProbity score^1.3495th percentile* (N=7267, 1.64Å ± 0.25Å)
Cβ deviations >0.25Å31.48% Goal: 0
Bad bonds:7 / 17260.41% Goal: 0%
Bad angles:5 / 23360.21% Goal: <0.1%
Peptide Omegas Cis Prolines: 1 / 6 16.67% Expected: ≤1 per chain, or ≤5%
Additional validations Chiral volume outliers0/277
Waters with clashes15/2725.51%See UnDowser table for details

По сравнению с тем, что было раньше, здесь появились Clashscore, MolProbity score и проверка на пересечения с молекулами воды. Действительно, при поиске пересечений есть смысл учитывать наличие атомов водорода.

Выводы о качестве структуры

У изучаемой структуры довольно высокое разрешение, а все остатки в целом соответствуют экспериментальной электронной плотности. Наблюдаемый остаток в запрещённой области на карте Рамачандрана там и должен находиться, нас может смутить большое количество аномальных ротамеров. Попробуем приглядеться к ним (см. рис. 5).

Рисунок 5.

Более внимательный взгляд на остатки, маргинальные по конформации боковой цепи. На левой верхней картинке Ser26 выделен цветом, на остальных частях рисунка остатки, представляющие интерес, подписаны.

Ser26, по всей видимости, принимает заслонённую конформацию из-за близости соседней молекулы в кристалле (показано отображение surface). По-видимому, в функциональном состоянии белка этот остаток развёрнут не так. Остатки Asp183 и Glu42 образуют солевые мостики с лигандом — молекулой аргинина. Это однозначно функционально важные остатки. Остаток Arg64 образует солевой мостик с глутаматом из соседнего витка альфа-спирали, если такое взаимодействие наблюдается и в функциональном состоянии, возможно, оно дополнительно стабилизирует вторичную структуру, что особенно важно для термофильной бактерии.

Качество электронной плотности довольно хорошее, что можно ожидать при разрешении 1,64 Å и полноте 96,6 %. Только для нескольких остатков шум даёт аномалии в расшифровке, выражающиеся в нетипичных длинах ковалентных связей и углах между ними. Я бы сказал, что полученная расшифровка вполне пригодна для изучения особенностей исследуемого белка — и уж точно подходит для определения торсионных углов при $\mathrm{C}_\alpha$-атоме одного остатка.

Можно отметить, что есть электронная плотность и для лиганда, с этим всё в порядке (см. рис. 6).

Рисунок 6.

Электронная плотность для лиганда в структуре 6Q3U на уровне подрезки 2,5.

PDB Redo

Найдём наш PDB ID на сервисе PDB Redo. На странице можно оценить изменения разнообразных метрик, а ещё там показано, для каких остатков получено значимое изменение качества вписанности в электронную плотность. В нашем случае есть только одно значимое изменение — улучшение для Met74. Этот остаток показан на рис. 6.

Рисунок 6.

Остаток M74, для которого получено значительное улучшение качества вписанности в электронную плотность, в моделях из RCSB PDB (зелёным) и PDB Redo (бирюзовым).

Здесь разве что чуть-чуть сдвинулся $C_\varepsilon$-атом, изменение почти незаметно глазу.

Для сравнения с моделью из RCSB PDB проведём аналогичные анализы в MolProbity — базовый анализ геометрии и анализ с учётом всех контактов. Сводные таблицы для этих запросов приведены ниже (табл. 4–5).

Таблица 4.

Сводная таблица из выдачи MolProbity по структуре 6Q3U из PDB Redo (приводится без изменений).

Protein
Geometry
Poor rotamers21.07% Goal: <0.3%
Favored rotamers18096.26% Goal: >98%
Ramachandran outliers10.47% Goal: <0.05%
Ramachandran favored20697.63% Goal: >98%
Rama distribution Z-score-0.78 ± 0.50 Goal: abs(Z score) < 2
Cβ deviations >0.25Å00.00% Goal: 0
Bad bonds:3 / 17260.17% Goal: 0%
Bad angles:13 / 23360.56% Goal: <0.1%
Peptide Omegas Cis Prolines: 1 / 6 16.67% Expected: ≤1 per chain, or ≤5%
Additional validations Chiral volume outliers0/277

Таблица 5.

Сводная таблица из выдачи MolProbity по структуре 6Q3U из PDB Redo со всеми контактами (приводится без изменений).

All-Atom
Contacts
Clashscore, all atoms:2.91 99th percentile* (N=708, 1.64Å ± 0.25Å)
Clashscore is the number of serious steric overlaps (> 0.4 Å) per 1000 atoms.
Protein
Geometry
Poor rotamers21.07% Goal: <0.3%
Favored rotamers18096.26% Goal: >98%
Ramachandran outliers10.47% Goal: <0.05%
Ramachandran favored20697.63% Goal: >98%
Rama distribution Z-score-0.78 ± 0.50 Goal: abs(Z score) < 2
MolProbity score^1.2498th percentile* (N=7267, 1.64Å ± 0.25Å)
Cβ deviations >0.25Å00.00% Goal: 0
Bad bonds:3 / 17260.17% Goal: 0%
Bad angles:13 / 23360.56% Goal: <0.1%
Peptide Omegas Cis Prolines: 1 / 6 16.67% Expected: ≤1 per chain, or ≤5%
Additional validations Chiral volume outliers0/277
Waters with clashes7/2692.60%See UnDowser table for details

Стало меньше плохих ротамеров и связей с аномальной длиной, зато увеличилось количество аномальных углов. Стало меньше пересечений с молекулами воды, хотя весь Clashscore чуть-чуть ухудшился. Квантиль MolProbity score выросла с 95 % до 98 % (небольшое улучшение).

Из плохих ротамеров остались Ser26 и Glu42. Arg64 в модели RCSB PDB был маргиналом по конформации боковой цепи и по длине одной из связей, теперь же у него допустимый ротамер и длины, но один из ковалентных углов нетипичен. Можно ещё отметить, что при добавлении водородов к модели PDB Redo не понадобились перевороты остатков Asn/Gln/His.

Подводя итог, можно сказать, что и структура из PDB Redo годится для изучения особенностей белка: принципиальной разницы с RCSB PDB я не вижу.