Изучение файла структурных факторов

В данном практикуме был проанализирован файл структурных данных 4kr2. С PDB был скачан файл "Structure Factors" в формате mmCIF. После импорта файла в Excel из него был удален ряд колонок (_refln.F_calc; _refln.phase_calc и т.д.). Таким образом, в файле остались следующие колонки: h, k, l, status (использован или нет структурный фактор для оптимизации модели), F (среднее значение измерений структурного фактора), sigmaF (среднее квадратичное отклонение от среднего).

Всего 29706 измеренных структурных факторов в файле.

Я посчитала количество "хороших" структурных факторов и рассчитала их процент от числа всех измеренных. Фактор считался "хорошим", если для него выполнялось условие: отношение F к SigmaF (сила сигнала) не меньше трех. Колонка "Сила сигнала" (F/SigmaF) также была добавлена в файл Excel.

В файле присутствовала колонка _refln.status, поэтому были посчитаны число и процент структурных факторов, использованных для оптимизации модели (в данной колонке стоит "o").

Также необходимо было привести 5 примеров "пропущенных" троек h,k,l. Тройка точно пропущена, если ее нет среди измеренных структурных факторов, но есть измеренный структурный фактор (h',k', l') с h'>=h, k'>=k, l'>=l. На рисунке 1 приведены примеры "пропущенных" троек h,k,l.

Файл Excel: ссылка

Таблица 1. Краткая характеристика файла структурных факторов

Параметр Значение
Число измеренных структурных факторов 29706
Число "хороших" структурных факторов 11712
Процент "хороших" структурных факторов 39.43%
Число структурных факторов, использованных для оптимизации модели 12946
Процент структурных факторов, использованных для оптимизации модели 44%

Рис. 1 - Примеры "пропущенных" троек h,k,l