"Странности в PDB файлах"

№1 Странности в PDB файлах

№1 – 7GPB

Год расшифровки: судя по всему 1991, так как статья (Structural mechanism for glycogen phosphorylase control by phosphorylation and AMP), в которой представлена данная структура, была опубликована в журнале J.Mol.Biol именно в этом году (но в самом PDB файле упоминается 1990 год).

Разрешение: 2.90 ангстрем (удовлетворительное).

Странности: Сразу напишу, что мне не понравилось в данном PDB файле. Раздел DATA USED IN REFINEMENT. Тут указано разрешение самого лучшего рефлекса (2.90 ангстрем). А дальше по нулям. Нет разрешения худшего рефлекса, нет количества рефлексов, нет полноты данных. Или в начале девяностых было непринято такие данные класть в PDB файл? R-factor равен 0.171, что неплохо, однако, нет значения R-free. Это как раз понятно, так как считать R-free стали после статьи Клевегта (Kleywegt) 1995 года. Проблема в этой структуре заключается в триптофанах. Если внимательно рассмотреть каждый из триптофанов, то можно увидеть, что с ними не так. В боковой группе кольца находятся под углом относительно друг друга! Они не лежат в одной плоскости, что странно. Привожу самые яркие примеры подобных несуразиц.

Слева изображен 67 триптофан цепи D, справа – триптофан 67 цепи A. В чем причина? Я не знаю точно. Наверное, при таком нехорошем разрешении авторам не удалось правильно вписать модель в полученную электронную плотность, или сама модель определена не очень хорошо (без R-free сложно судить). Вначале я думал, что дело в температурных факторах, потому что они сильно скачут у этих неправильных триптофанов (доходит до 50), однако, есть неправильные триптофаны, у которых температурный фактор вполне нормальный (например, триптофан 361 из цепи В). Так что, сказать точно здесь нельзя. Помимо этого, хочется обратить внимание на остаток аргинина 184 цепи А – у него есть атомы с очень высокими температурными факторами, однако, со структурой вроде все нормально. Ниже представлена структура этого самого аргинина.

Теперь я возьму на себя смелость перечислить номера всех триптофанов, с которыми, на мой взгляд, не совсем все в порядке: chain A (67, 189, 215, 491, 825), chain B (182, 361, 387, 491, 797), chain C (67, 244, 365, 387), chain D (67, 797).

№2 – 1GT0

Год расшифровки: статья - Crystal structure of a POU/HMG/DNA ternary complex suggests differential assembly of Oct4 and Sox2 on two enhancers. 2003 год. Журнал - Genes

Разрешение: 2.60 ангстрем (удовлетворительное). В структуре присутствуют молекулы воды, однако условное правило гласит, что молекулы воды в структуру вносятся только при условии, что разрешение лучше 2.50 ангстрем.

Странности: В этой структуре лучший рефлекс имеет разрешение 2.60 ангстрем, худший – 30 ангстрем. Полнота составляет 98.2%, и это является хорошим показателем. Однако, R-factor равен 23.2%, что нельзя назвать ни хорошим, ни плохим значением. Подсчитан R-free, он равен 28.5%, что тоже ни хорошо, ни плохо. Конечно же, первое, что бросается в глаза в этой структуре, это очень странное расположение одного из концевых участков ДНК (на рисунке выше выделено красным). Но главная странность – отсутствие с 78 по 96 включительно аминокислот в цепи C. На рисунке ниже это изображено. Желтая цепь – это остатки от 101 до 158 в цепи C. Синяя цепь – остатки от 1 до 74 в цепи С. Красным помечены остатки 100-97 и 75-77. Показан только остов полипептидной цепи, боковые группы удалены.

С чем это может быть связано? Это можно было бы объяснить occupancy, но остатки 75-77 и 97-100 представлены в 100 процентных ячейках, а информация про 78-96 остатки отсутствует полностью. Видимо, этот участок вообще не был включен в рассматриваемую структуру. В чем же дело? Скорее всего – дело в электронной плотности. Полученная модель, наверное, хорошо подходила для остальных аминокислот, а участок в 78-96 остаток просто вырезался из нее. Что было нехорошо. И, возможно, авторы сжульничали и просто выкинули этот кусок. Чтобы было лучшее соответствие. Но это только мое мнение. Я решил восстановить электронную плотность для цепочки C и посмотреть, как эти остатки вписываются в нее. Нет ли там возможного участка для пропущенной вставки. Однако, нет. На рисунке ниже слева вы видите электронную плотность для белкового остова, а справа – и для остова, и для боковых групп.

Так что, скорее всего, на самом деле электронной плотность для тех остатков 78-96 просто отсутствует, и видимо эти остатки выглядели как некая вставка. Поэтому, авторы их не включили в рассматриваемую модель.

Другое объяснение (и, наверное, более правдоподобное) состоит в следующем. Occupancy атомов аминокислот в соответствующем отрезке просто 0, по каким-то причинам, авторам не удалось нормально их померить. Ну а поскольку в таком случае не совсем понятно, как будет расположен этот отрезок, авторы посчитали нужным его просто выкинуть. Правда, я не уверен, насколько реальна подобная ситуация, когда occupancy атомов аминокислот из целого отрезка равны 0?

№3 – 2B5A

Год расшифровки: статья - Crystal structure of the restriction-modification system control element C.Bcll and mapping of its binding site. Год 2005. Журнал Structure.

Разрешение: 1.54 ангстрем (хорошее).

Странности: В этой структуре хорошее разрешение. Разрешение самого плохого рефлекса – 19.74 ангстрем. Полнота 99.5%. Это очень хорошо. R-value и R-free равны 0.165 и 0.201 соответственно. Пока все неплохо. Но есть и проблемы… Если посмотреть на 21 глутамин цепи C, то становится непонятно, что это…

Такое ощущение, что две боковые группы глутамина растут из одного С-alpha атома. Посмотрите следующую картинку, чтобы в этом убедиться.

Как так вышло? Давайте посмотрим на соответствующую запись PDB для этого остатка.

Как видно, тут лежат сразу две альтернативные конформации аминокислоты глутамина. Почему? Ответ дает коэффициент заселенности (он обведен красным) – для нескольких атомов он равен 50 процентов. То есть в половине ячеек глутамин в таком положении, в половине – в другом. И авторы не смогли решить, какой из них правильный, потому положили оба. А вот как выглядит соответствующая электронная плотность для данного неопределившегося остатка.

№2 Сравнение двух структур

1 структура – 3WDN (PDB ID). Определена в 2014 году. Разрешение – 0.86 ангстрем. R-factor – 0.114, а R-free – 0.139.

2 структура – 3WUB (PDB ID). Определена в 2014 году. Разрешение – 2.08 ангстрем. R-factor – 0.196, а R-free – 0.221.

Для сравнения двух структур по числу атомов с плохой заселенностью и с плохим температурным фактором мною был написан скрипт, который принимает на вход два pdb файла и выдает количество соответствующих атомов и общее число атомов в структуре.

Скрипт

Для двух структур, представленных выше, скрипт выдал следующие данные:

Number of atoms with bad occupancy (<1) in 3WDN is 399

Number of atoms with bad occupancy (<1) in 3WUB is 0

Number of atoms with bad temp factor (<30) in 3WDN is 28

Number of atoms with bad temp factor (<30) in 3WUB is 1467

Number of atoms in 3WDN is 1172

Number of atoms in 3WUB is 2442

Результат ожидаемый. В структуре с хорошим разрешением мы видим, что есть приличное количество атомов с плохим значением заселенности. В то время как у структуры с плохим разрешением число таких атомов равно 0. Дело тут в том, что при хорошем разрешении мы увидим два заметных пика, отвечающих двум возможным положениям этих атомов (эти атомы представлены в разных ячейках в разных положениях). И в файле структуры с хорошим разрешением это можно отметить, поставив соответствующее число occupancy. А температурные факторы у такой структуры в основном хорошие, всего лишь 28 атомов имеют плохой температурный фактор.

В структуре с плохим разрешением все атомы имеют occupancy 1. Авторы не видят отдельных пиков. Но если в структуре все-таки есть такие атомы, которые в разных ячейках представлены в разных положениях, то пик соответствующего атома будет просто размыт (на плохом разрешении). И авторы отмечают такие атомы высоким температурным фактором. У структуры с плохим разрешением число таких атомов достигает больше половины от всех атомов!