В данном практикуме был проанализирован файл структурных данных 4kr2.
С PDB был скачан файл "Structure Factors" в формате mmCIF.
После импорта файла в Excel из него был удален ряд колонок (_refln.F_calc; _refln.phase_calc и т.д.).
Таким образом, в файле остались следующие колонки:
h, k, l, status (использован или нет структурный фактор для оптимизации модели),
F (среднее значение измерений структурного фактора),
sigmaF (среднее квадратичное отклонение от среднего).
Всего 29706 измеренных структурных факторов в файле.
Я посчитала количество "хороших" структурных факторов и рассчитала их процент от числа всех измеренных.
Фактор считался "хорошим", если для него выполнялось условие: отношение F к SigmaF (сила сигнала) не меньше трех.
Колонка "Сила сигнала" (F/SigmaF) также была добавлена в файл Excel.
В файле присутствовала колонка _refln.status, поэтому были посчитаны число и процент структурных факторов, использованных для оптимизации модели (в данной колонке стоит "o").
Также необходимо было привести 5 примеров "пропущенных" троек h,k,l.
Тройка точно пропущена, если ее нет среди измеренных структурных факторов, но есть измеренный структурный фактор (h',k', l') с h'>=h, k'>=k, l'>=l.
На рисунке 1 приведены примеры "пропущенных" троек h,k,l.
Файл Excel: ссылка
Таблица 1. Краткая характеристика файла структурных факторов
Параметр | Значение |
Число измеренных структурных факторов | 29706 |
Число "хороших" структурных факторов | 11712 |
Процент "хороших" структурных факторов | 39.43% |
Число структурных факторов, использованных для оптимизации модели | 12946 |
Процент структурных факторов, использованных для оптимизации модели | 44% |
Рис. 1 - Примеры "пропущенных" троек h,k,l