Главная | Семестры | Проекты | Заметки | О себе | Полезные ссылки |
Рассмотрим структурные факторы для 1Y44 белка. Файл mmCIF (macromolecular Crystallographic Information File): 1Y44.cif и файл структурных факторов: 1Y44-sf.cif. Кроме того, файл структурных факторов в формате xlsx: structure_factors.xlsx.
В mmCIF формате поищем данные об измеренных структурных факторах. Они начинаются со строки "loop_". Вот как это выглядит в файле:
loop_ _refln.crystal_id _refln.wavelength_id _refln.scale_group_code _refln.index_h _refln.index_k _refln.index_l _refln.status _refln.F_meas_au _refln.F_meas_sigma_au 1 1 1 0 0 -86 h 108.498 108.498 1 1 1 2 0 -86 h 0 0 1 1 1 1 1 -86 h 163.052 51.7750 1 1 1 2 2 -86 h 50.9620 50.9620 1 1 1 1 3 -86 h 0 0 1 1 1 0 4 -86 h 0 0 1 1 1 2 4 -86 h 0 0 1 1 1 1 5 -86 h 0 0 1 1 1 0 6 -86 h 107.956 107.956 1 1 1 2 6 -86 h 0 0 1 1 1 1 7 -86 h 0 0Итак, целые числа h, k, l - три колонки _refln.index_h _refln.index_k _refln.index_l присутствуют.
Название колонки _refln.status есть, она говорит о числе структурных факторов, использованных для оптимизации модели ("о"-если использованы, "h","f","<"-есть еще и такие значения).
Колонки _refln.F_meas_au и _refln.F_meas_sigma_au означают среднее значение измерений структурного фактора и среднее квадратичное оклонение от среднего, соответственно.
Число измеренных структурных факторов поищем следующей командой grep
Получаем 85742.
общее число структурных факторов | 85742 |
число структурных факторов, служащих для оптимизации | 65435 |
число структурных факторов со значением "f" | 7097 |
число структурных факторов со значением "<" | 8517 |
число структурных факторов со значением "h" | 4693 |
полнота данных | 94.5 % |
И вот найдена ссылка на описания значений _refln.status.
Таким образом, "<"-означает, что он ненаблюдаемый фактор по некоторому критерию, но не помечен, как систематически отсутствующий или ненадежный.
"f" означает, что он наблюдается по некоторому критерию, не помечен как ненадежный или систематически отсутствующий, а кроме того, он исключен из уточнения (оптимизации), но включен в расчет модели.
"h" означает несоответствие некоторому критерию (_refine.ls_d_res_high).
Приведем примеры структурных факторов с флагами "<", "h", "f", "o":
1 1 1 1 15 -85 h 245.323 41.8810 1 1 1 0 16 -85 h 0 0 1 1 1 0 0 -84 < 0 0 1 1 1 2 0 -84 < 0 0 1 1 1 4 0 -84 h 0 0 1 1 1 1 1 -84 o 114.394 57.1290 1 1 1 3 1 -84 h 71.0220 71.0220 1 1 1 5 1 -84 h 0 0 1 1 1 0 2 -84 < 0 0 1 1 1 2 2 -84 o 194.836 30.5640 1 1 1 4 2 -84 h 205.746 76.5110 1 1 1 1 3 -84 o 294.591 27.0400 1 1 1 3 3 -84 h 210.219 37.6800 1 1 1 0 4 -84 o 502.777 33.1390 1 1 1 2 4 -84 f 290.729 43.3720 1 1 1 4 4 -84 h 0 0
Поищем число неизмеренных структурных факторов. Явно пропущенные - это такие, что (1) их нет в файле; (2) хотя бы одна тройка (h',k', l') с h'>=h, k'>=k, l'>=l присутствует в файле. Приведем примеры пропущенных структурных факторов:
1 1 1 1 0 -84 1 1 1 3 0 -84 1 1 1 4 1 -84 1 1 1 2 1 -84 1 1 1 2 3 -84