Поиск по PDB и содержание PDB файлов
Пример атомов с коэффициентом Occupancy ≠ 1
Коэффициент Occupancy отражает долю молекул в данной конформации. Для большинства атомов он имеет значение 1, что указывает на то, что атом находится во всех молекулах в одном и том же месте кристалла. Для того, чтобы найти пример обратной ситуации, был использован расширенный поиск в PDB с параметром Methods: x-ray resolution и значением Resolution ≤ 1 Å. В результате была найдена структура 5yce миоглобина кашалота swMb, а в ней — строки, указанные ниже.
ATOM 9 CB AVAL A 1 16.040 1.805 0.261 0.50 21.68 C ANISOU 9 CB AVAL A 1 2798 2787 2653 58 144 34 C ATOM 10 CB BVAL A 1 16.919 2.283 -0.487 0.50 21.74 C ANISOU 10 CB BVAL A 1 2822 2800 2637 9 32 6 C
Расшифровать эти строки можно следующим образом. Строка ATOM содержит описание Сβ-атома, принадлежащего к а.о. val (валин) с номером 1 в полипептидной цепи А структуры. Первая тройка из пяти чисел в строке определяет соответственно x, y, z координаты атома. Предпоследнее число отражает коэффициент Occupancy и в для указанных выше строк означает, что ровно в 50% случаев атом находится в точке с координатами из строки 9, а в других 50% — в точке с координатами из строки 10. Последние 2 записи в строке (число и буква) описывают B-фактор (температурный фактор) и тип атома. Строка ANISOU описывает анизотропный температурный фактор, который характеризует смещенное (эллипсоидное) расплывание электронной плотности отдельного атома.
Пример нерасшифрованных аминокислотных остатков (Missing residues)
Строки под пометкой Missing residues обычно содержат остатки, относящиеся к подвижным участкам белка. Они зачастую не расшифровываются в эксперименте РСА, а их координаты не включаются в pdb-файл. Чтобы найти примеры таких остатков, был совершен поиск структур с плохим разрешением (Resolution ≥ 3 Å). В результате была найдена структура 5w1d мышиного протокадгерина-15 EC4-7, содержащего следующие нерасшифрованные а.о.:
REMARK 465 MISSING RESIDUES REMARK 465 THE FOLLOWING RESIDUES WERE NOT LOCATED IN THE REMARK 465 EXPERIMENT. (M=MODEL NUMBER; RES=RESIDUE NAME; C=CHAIN REMARK 465 IDENTIFIER; SSSEQ=SEQUENCE NUMBER; I=INSERTION CODE.) REMARK 465 REMARK 465 M RES C SSSEQI REMARK 465 MET A 372 REMARK 465 ALA A 373 REMARK 465 SER A 374 REMARK 465 THR A 375 REMARK 465 MET A 376 REMARK 465 ASP A 409 REMARK 465 LYS A 410 REMARK 465 ASP A 411 REMARK 465 ILE A 412 REMARK 465 GLU A 413 REMARK 465 ASP A 414 REMARK 465 THR A 415 REMARK 465 LYS A 416 REMARK 465 ASP A 417 REMARK 465 PRO A 418 REMARK 465 ASP A 792 REMARK 465 LEU A 793 REMARK 465 GLU A 794 REMARK 465 HIS A 795 REMARK 465 HIS A 796 REMARK 465 HIS A 797 REMARK 465 HIS A 798 REMARK 465 HIS A 799 REMARK 465 HIS A 800
Данный белок состоит из всего одной полипептидной цепи, и можно заметить, что количество нерасшифрованных остатков в ней невелико.
Пример несовпадения последовательности природного белка (UniProt) и последовательности закристаллизованного белка
C PDB структурой белка связаны три последовательности:
- последовательность природного белка из Uniprot;
- последовательность белка, который кристаллизовали — он может отличаться наличием тэгов, и быть частью природного белка, например, доменом;
- та часть последовательности (2), которую удалось кристаллизовать.
Встречаются структуры, у которых последовательности (1) и (2) не совпадают. Для того, чтобы обнаружить одну из них, был использован расширенный поиск в PDB среди Wild Type Protein с параметрами Include Expression Tags: Yes и Percent coverage of UniProt sequence: Any. В результате поиска была найдена структура 5yz1 человеческой археазы, а в ней — следующие строки:
DBREF 5YZ1 A 2 179 UNP A8K0B5 A8K0B5_HUMAN 2 179 DBREF 5YZ1 B 2 179 UNP A8K0B5 A8K0B5_HUMAN 2 179 SEQADV 5YZ1 MET A 0 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 ALA A 1 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 LEU A 180 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 GLU A 181 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 HIS A 182 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 HIS A 183 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 HIS A 184 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 HIS A 185 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 HIS A 186 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 HIS A 187 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 MET B 0 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 ALA B 1 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 LEU B 180 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 GLU B 181 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 HIS B 182 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 HIS B 183 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 HIS B 184 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 HIS B 185 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 HIS B 186 UNP A8K0B5 EXPRESSION TAG SEQADV 5YZ1 HIS B 187 UNP A8K0B5 EXPRESSION TAG
Строки DBREF содержат информацию об аминокислотной последовательности природного белка из базы данных UniProt. Идентификатор белка — A8K0B5 (A8K0B5_HUMAN), и он состоит из двух цепей, каждая из которых длиной 179 остатков.
Строки с пометкой SEQADV содержат информацию об отличиях последовательности из данного pdb-файла от природной. В данном случае это а.о., которые были искусственно введены в последовательность белка для удобства его выделения и, возможно, увеличения стабильности.
Пример лучшего и худшего B-фактора в структуре
B-фактор (температурный фактор) характеризует размазанность электронной плотности атома относительно предсказанного положения его центра. Значения B-фактора меньше 10 Å2 говорят о "жестком" положении атома, когда значения порядка 50 Å2 - о его высокой подвижности. Ниже представлены строки, содержащие лучший (наименьший) и худший (наибольший) B-фактор в структуре из предыдущего пункта:
ATOM 1673 N ALA B 64 1.711 -0.168 -34.131 1.00 27.46 N ATOM 2527 OE1 GLU B 168 -13.314 0.233 -33.805 1.00130.96 O