Для выполнения данного задания из PDB был скачан файл, содержащий структурные факторы для записи с PDB ID 3R1R.
Дальнейший анализ производился в программе Excel.
Итоговый xlsx-файл со структурными факторами доступен по ссылке.
Из исходного файла были взяты только колонки h, k, l, status, F, F_sigma.
Всего файл содержит 63245 структурных фактора. Для расчета числа факторов, имеющих отношение F/SigmaF не менее 3, был создан столбец силы сигнала.
По нему было подсчитано, что таких факторов 83.7%.
Также было найдено, что 97.9% факторов участвовали в оптимизации модели.
Помимо этого были найдены "пропущенные тройки" h, k, l (считается, что тройка точно пропущена, если ее нет среди измеренных
структурных факторов,но есть измеренный структурный фактор (h',k', l') с h'>=h, k'>=k, l'>=l). Найденные пропущенные факторы представлены в таблице 1.
6 3 -33 | (Есть 6 3 -30 и 6 3 -27) |
8 0 4 | (Есть 8 0 5 и 8 0 8) |
50 22 3 | (Есть 50 22 4 и 50 22 7) |
61 1 11 | (Есть 61 1 12 и 61 1 15) |
24 22 61 | (Есть 24 22 62 и 24 22 65) |
18 14 30 | (Есть 18 14 31 и 18 14 34) |
Исходя из полученных результатов можно сделать вывод, что в оптимизации модели участвовало 97.9% структурных факторов, что из общих соображений можно назвать несколько большим значением для обучающей выборки. Интересно было бы посмотреть, насколько построенная функция электронной плотности остается стабильна при уменьшении числа факторов, на которых происходила оптимизация. Также мне было интересно, как выбираются значения для валидации. Оказалось, что они распределены по нормальному закону (рис 1). Учитывая, что по h,k,l факторы распределены нормально, то такая валидация вполне законна.