Седьмой семестр

Изучение файла структурных факторов

Для анализа файла структурных факторов был взят белок с PDB ID 2OLR, для которого с сайта PDB был скачан файл в формате mmCIF. В данном формате содержатся:

  1. данные об измеренных структурных факторах, которые начинаются со строки "loop_"
  2. ниже построчно идут названия колонок
  3. ниже идут строки с измерениями

Один структурный фактор соответствует одной строке, в которой указаны следующие данные:
  1. целые числа h, k, l в трех колонках: _refln.index_h, _refln.index_k, _refln.index_l
  2. F - среднее значение измерений структурного фактора: _refln.F_meas_au
  3. F_sigma - ср. кв. отклонение от среднего: _refln.F_meas_sigma_au
  4. _refln.status - использован ли структурный фактор для оптимизации модели
  5. _refln.F_calc - структурный фактор, рассчитанный по модели
  6. _refln.phase_calc - фаза, рассчитанная по модели

Для удобства работы таблица была сохранена в виде Excel таблицы.

В файле присутствуют 71300 структурных фактора, из которых 71055 использовались для оптимизации модели.

Пример неиспользованных структурных факторов

Неизмеренные структурные факторы соответствуют явно пропущенным тройкам чисел (h,k,l). Явно пропущенные - это такие, что (1)их нет в файле,(2)хотя бы одна тройка (h',k',l') с h'>=h, k'>=k, l'>=l присутствует в файле.

Как видно из таблицы, явно пропущенными являются тройки чисел (структурные факторы):(0,2,1), (0,2,2), (2,0,1), (2,0,2), (2,3,1). Причем для некоторых структурных факторов отсутствуют среднее значение и ср. кв. отклонение структурнрго фактора.