Изучение файла структурных факторов

Для работы был выбран белок SOD2 из Sacc
Ему отвечает файл с pdb индентификатором 3lsu.Его можно скачать тут

Был получен файл со структурными факторами:
(текстовый файл, таблица Excel).

Общее число рефлексов не совпадает с числом измеренных рефлексов (reflns.number и reflns.pdbx_number_obs соответственно): 67311 против 59989 соответственно. Таким образом, для 7322 рефлексов структурные факторы не известны. Таблица структурных факторов файла имеет следующие колонки:

_refln.crystal_id
_refln.wavelength_id
_refln.scale_group_code
_refln.index_h
_refln.index_k
_refln.index_l
_refln.status
_refln.F_meas_au
_refln.F_meas_sigma_au

Первые три числа обозначают идентификатор кристалла, длину волны рентгеновского излучения, использованного в эксперименте, и scale_group_code – у нас в данном файле все три параметра одинаковы для всего набора структурных факторов. Следующая тройка чисел – ”координаты” каждого рефлекса – параметры h, k, l.

Поле Status содержит описание рефлекса, то есть был ли он (не сам рефлекс, но соответствующий ему структурный фактор) использован при оптимизации структуры (o - optimisation) или нет (f - free). Если для рефлекса не удалось получить значения структурного фактора, то ставится флаг x. Таких в данном случае не было Для данной структуры, из 59989 измеренных структурных факторов, 58472 были использованы для оптимизации модели (97,5%) и 1517 (2,5%) – для контроля (free).

Колонки _refln.F_meas_au и _refln.F_meas_sigma_au означают среднее значение измерений структурного фактора и среднее квадратичное оклонение от среднего, соответственно.
Фрагмент таблицы выглядит так:

1 1 1 -32 12 5 o 36.3 15.1
1 1 1 -32 12 6 o 25.9 12.3
1 1 1 -32 12 7 o 41.8 16.1
1 1 1 -32 12 8 o 37.3 15.7
1 1 1 -32 13 3 o 56.9 14.6
1 1 1 -32 13 4 o 51.2 13.3
1 1 1 -32 13 5 o 35.4 12.5
1 1 1 -32 13 6 o 33.8 12.1
1 1 1 -32 13 7 o 22.8 10.7
1 1 1 -32 13 8 o 25.2 12.1
1 1 1 -32 14 1 o 58.7 15.4
1 1 1 -32 14 2 o 24.5 10.5
1 1 1 -32 14 3 o 24.1 11.0
1 1 1 -32 14 4 f 25.0 10.4
1 1 1 -32 14 5 o 23.3 10.0

Чтобы определить, какие структурные факторы точно пропущены (выпали из набора), нужно найти явно пропущенные тройки чисел (h,k, l). Явно пропущенные - это такие, что (1) их нет в файле; (2) хотя бы одна тройка (h',k', l') с h'>=h, k'>=k, l'>=l присутствует в файле.
Для данного файла не нашлось неизмеренных структурных факторов.


© Ходыкина Наталья,2014