PDB-файл

1. Примеры атомов с коэффициентом заполнения (Occupancy), не равным 1, и altercode для них

Подсказка: ищите с помощью advanced search структуры, решенные с помощью X-ray с разрешением меньше 1 ангстрема, последних лет; можно визуализировать содержание PDB прямо на сайте и вырезать нужную строчку вместе с парочкой соседних.
Так был найден белок 6KFN - структура альгинат-лиазы из Paenibacillus sp с разрешением 0.89 А. И в нём я встретила следующие строки:

ATOM 130 N SER A 46 -8.673 -25.981 6.407 1.00 11.29 N ANISOU 130 N SER A 46 1427 1215 1648 495 -188 -206 N ATOM 131 CA ASER A 46 -9.066 -26.682 5.195 0.39 17.39 C ANISOU 131 CA ASER A 46 2480 1936 2191 668 -293 -517 C ATOM 132 CA BSER A 46 -9.067 -26.683 5.194 0.52 10.70 C ANISOU 132 CA BSER A 46 1610 962 1493 544 -184 -392 C ATOM 133 CA CSER A 46 -9.070 -26.693 5.198 0.09 12.71 C ANISOU 133 CA CSER A 46 1742 1387 1699 500 -122 -296 C

Пояснения: содержание строчки ATOM: номер записи, категория атома, название аминокислоты (ASER, BSER, CSER появились из-за не единичного коэффициента заполнения), название цепи (А), номер аминокислотного остатка (46), координаты x, y и z, определяющие положение центра атома, коэффициент Occupancy, B-фактор (температурный фактор) и название атома.
Анизотропный температурный фактор (ANISOU) характеризует смещенное (эллипсоидное) расплывание электронной плотности отдельного атома.
Коэффициент Occupancy - доля кристаллических ячеек, в которых этот атом имеет данный набор координат. Обычно он равен 1, но бывают исключения. Здесь в 39 % случаев C-альфа атом серина 46 находится в одном положении, в 52% - во втором положении, и в 9% (заметим, сумма 3 положений - 100%) в третьем. Это говорит о подвижности данного атома в белке, нескольких возможных конформациях при кристаллизации.

2. Нерасшифрованные аминокислотные остатки (Missing residues)

Подсказка: ищите структуры плохого разрешения > 3 ангстрем
Так был найден белок 6KE1 - структура TtCas1 с разрешением 3.39 А. И в нём я встретила следующие строки:

REMARK 465 MISSING RESIDUES REMARK 465 THE FOLLOWING RESIDUES WERE NOT LOCATED IN THE REMARK 465 EXPERIMENT. (M=MODEL NUMBER; RES=RESIDUE NAME; C=CHAIN REMARK 465 IDENTIFIER; SSSEQ=SEQUENCE NUMBER; I=INSERTION CODE.) REMARK 465 REMARK 465 M RES C SSSEQI REMARK 465 MET A 1 REMARK 465 PRO A 2 REMARK 465 PRO A 3 REMARK 465 VAL A 4 REMARK 465 SER A 5 REMARK 465 SER A 6 REMARK 465 ALA A 7 REMARK 465 ARG A 8 REMARK 465 ASN A 9 REMARK 465 LEU A 10 REMARK 465 LYS A 11 REMARK 465 GLU A 12 REMARK 465 LEU A 13 REMARK 465 PRO A 14 REMARK 465 LYS A 15 REMARK 465 ASN A 173 REMARK 465 TRP A 174 REMARK 465 ARG A 175 REMARK 465 ALA A 176 REMARK 465 GLY A 280 REMARK 465 LEU A 281 REMARK 465 PRO A 282 REMARK 465 GLU A 283 REMARK 465 GLU A 284 REMARK 465 GLU A 285

Пояснения: Missing residues - остатки, которые не удвалось расшифровать в РСА-эксперименте, например, из-за подвижности этих остатков. Это первые 15 остатков и 2 небольших блока в середине.

3. Пример, в котором последовательность природного белка из Uniprot и последовательность белка, который кристаллизовали, не совпадают

Подсказка: в "advanced search" можно использовать поиск Wild Type protein из раздела Sequence Features. В файле см. поле DBREF c UNP (от Uniprot); SEQADV строчки, ну и missing residues.
C PDB структурой белка связаны три последовательности: (1) последовательность природного белка из Uniprot; (2) последовательность белка, который кристаллизовали — он может отличаться наличием тэгов, или же быть частью природного белка, например, доменом; (3) та часть последовательности (2), которая соответствует "видимой" методом РСА (то есть одинаково расположенной во всех ячейках кристалла) части белка.
Так был найден белок 6IC1: Entity 1 containing Chain A - урат оксидаза под давление криптона 90 атм. И в нём я встретила следующие строки:

DBREF 6IC1 A 1 301 UNP Q00511 URIC_ASPFL 2 302 SEQADV 6IC1 ACE A 1000 UNP Q00511 EXPRESSION TAG

В поле DBREF указан идентификатор UNP(UniProt) Q00511 URIC_ASPFL этой аминокислотной последовательности. В SEQADV перечислены тэги, в данном случае ACE - acetyl group, которая была добавлена в качестве лиганда. Вообще у белка много необычных лигнадов: ACE ACETYL GROUP, MPD (4S)-2-METHYL-2,4-PENTANEDIOL, AZA 8-AZAXANTHINE, ACT ACETATE ION, KR KRYPTON, NA SODIUM ION. Также в PDB файле есть нерасшифрованные аминокислоты. Этим всем обуславливается отличие записей из 2 баз данных.

4. Наибольший и наименьший B-фактор в структуре

Подсказка: в любом PDB файле; приведите строчки с соответствующими атомами и B-факторами; можно выбрать на глаз, не страшно, если это не абсолютные минимум и максимум). С чем может быть связано такое экстремальное значение у данного остатка?
Рассматривала тот же белок, что и в прошлом пункте 6IC1: Entity 1 containing Chain A - урат оксидаза под давление криптона 90 атм.

ATOM 65 CA GLY A 9 42.038 64.385 34.727 1.00 8.87 C ATOM 66 C GLY A 9 41.971 64.167 36.217 1.00 8.49 C ATOM 180 CG AGLU A 22 12.159 76.008 50.834 0.60 68.64 C

Пояснения: B-фактор (температурный фактор) - число, характеризующее надежность определения координат атома.
Низкие значения B-фактора говорят о том, что атом жёстко зафиксирован, в записи из PDB выше я привела 2 примера остовных атомов глицина, B-фактор которых < 10. Вообще это общая тенденция для остовных атомов C, Ca, N - B-фактор в промежутке 8-20. Высокий B-фактор у глутамата говорит о высокой размазанности электронной плотности атома относительно предсказанного положения его центра. При этом occupancy не равно 1, то есть это углерод совсем нежёстко зафиксирован.

Источники

Умение извлекать информацию из аннотации PDB файла

1. Примеры атомов с коэффициентом заполнения (Occupancy), не равным 1, и altercode для них

2. Нерасшифрованные аминокислотные остатки (Missing residues)

3. Пример, в котором последовательность природного белка из Uniprot и последовательность белка, который кристаллизовали, не совпадают

4. Наибольший и наименьший B-фактор в структуре