Изучение файла структурных факторов







Изучение файла структурных факторов

Для выполнения данного задания из PDB был скачан файл, содержащий структурные факторы для записи с PDB ID 3R1R. Дальнейший анализ производился в программе Excel.
Итоговый xlsx-файл со структурными факторами доступен по ссылке.
Из исходного файла были взяты только колонки h, k, l, status, F, F_sigma.
Всего файл содержит 63245 структурных фактора. Для расчета числа факторов, имеющих отношение F/SigmaF не менее 3, был создан столбец силы сигнала. По нему было подсчитано, что таких факторов 83.7%. Также было найдено, что 97.9% факторов участвовали в оптимизации модели.
Помимо этого были найдены "пропущенные тройки" h, k, l (считается, что тройка точно пропущена, если ее нет среди измеренных структурных факторов,но есть измеренный структурный фактор (h',k', l') с h'>=h, k'>=k, l'>=l). Найденные пропущенные факторы представлены в таблице 1.

Таблица 1. "Пропущенные тройки" h, k, l.

6 3 -33 (Есть 6 3 -30 и 6 3 -27)
8 0 4 (Есть 8 0 5 и 8 0 8)
50 22 3 (Есть 50 22 4 и 50 22 7)
61 1 11 (Есть 61 1 12 и 61 1 15)
24 22 61 (Есть 24 22 62 и 24 22 65)
18 14 30 (Есть 18 14 31 и 18 14 34)


Исходя из полученных результатов можно сделать вывод, что в оптимизации модели участвовало 97.9% структурных факторов, что из общих соображений можно назвать несколько большим значением для обучающей выборки. Интересно было бы посмотреть, насколько построенная функция электронной плотности остается стабильна при уменьшении числа факторов, на которых происходила оптимизация. Также мне было интересно, как выбираются значения для валидации. Оказалось, что они распределены по нормальному закону (рис 1). Учитывая, что по h,k,l факторы распределены нормально, то такая валидация вполне законна.



Рисунок 1. Распределение структурных факторов по значению оси h в валидационной выборке




Рисунок 2. Распределение структурных факторов по значению оси h в оптимизационной выборке




Ссылки

  1. PDB: 3R1R