Пример использования трехмерного QSAR анализа для предсказания активности низкомолекулярных соединений в отношении данного белка
1..2
Для проведения 3DQSAR анализа использовались программы Open3DQSAR и Open3DALIGN.
Дан набор из 88 ингибиторов тромбина, из которых известна активности 85. Чтобы определить активную конформацию
(в нашем приближении это конформация с наименьшей энергией), надо запустить obconformer (на самом деле был взят готовый файл compounds_best_conformer.sdf)
Затем было сделано выравнивание полученных конформеров:
open3dalign.sh > import type=SDF file=compounds_best_conformer.sdf > align object_list=1 > save file=aligned.sdf
После изменения кодировки на ascii и удаления ненужной информации из заголовков получился файл, который читается пимолом. Выравнивание несколько сомнительное получилось:
![](images/12/al1.png)
Для оценки r2 и q2 в 3DQSAR анализе я нашла такую табличку, которой вроде бы можно доверять:
Application | R2 | Q2 |
---|---|---|
Spectroscopic Calibration | 0.99 | 0.98 |
Good QSAR model | 0.78 | 0.65 |
Biological PCA model | 0.5 | 0.4 |
PCA Stable Process | 0.3 | 0.2 |
PCA Market research | 0.3 | 0.2 |
Попутно выяснилось, что r2 не может быть больше q2, чем на 0.2.
3
Попробуем выполнить 3DQSAR анализ с помощью этого выравнивания. Скрипт:
import type=sdf file=aligned_ok.sdf import type=dependent file=activity.txt box set object_list=60-85 attribute=TEST set object_list=86-88 attribute=EXCLUDED calc_field type=VDW force_field=MMFF94 probe_type=CR cutoff type=max level=5.0 field_list=1 cutoff type=min level=-5.0 field_list=1 zero type=all level=0.05 sdcut level=0.1 nlevel remove_x_vars type=nlevel
При этом соединения с неизвестной активностью были исключены, а молекулы 60-85 использовались для теста.
open3dqsar.sh -i script -o scr_out
Регрессионная модель:
pls file=pls.sdf Exp. Cum. exp. Exp. Cum. exp. PC var. X % var. X % var. Y % var. Y % SDEC r2 -------------------------------------------------------------------------- 0 0.0000 0.0000 0.0000 0.0000 0.9494 0.0000 1 15.9480 15.9480 32.8386 32.8386 0.7780 0.3284 2 5.1333 21.0813 36.3625 69.2011 0.5269 0.6920 3 4.6235 25.7048 15.6991 84.9002 0.3689 0.8490 4 3.8908 29.5956 7.5246 92.4248 0.2613 0.9242 5 4.0108 33.6064 2.8661 95.2909 0.2060 0.9529
r2 для пяти компонент близок к единице, что должно свидетельствовать о применимости построенной модели для расчетов.
Кросс-валидация (с дефолтными параметрами):
cv type=loo runs=20 file=cv.sdf PC SDEP q2 -------------------------- 0 0.9658 -0.0348 1 0.9164 0.0683 2 0.9733 -0.0509 3 0.9667 -0.0368 4 0.9880 -0.0829 5 0.9497 -0.0006
q2 отрицательное, модель должна работать плохо. А точнее, вообще не работать.
И, наконец, предсказание для тестовой выборки:
predict file=predict.sdf PC r2(pred) SDEP -------------------------- 0 0.0000 1.0362 1 0.2655 0.8881 2 0.3296 0.8484 3 0.2353 0.9061 4 0.2754 0.8821 5 0.2536 0.8953
И, судя по r2, она действительно работает плохо.
4
Все то же самое было проделано для выравнивания, полученного с учетом структуры активного центра белка-мишени. Выглядит выравнивание действительно лучше:
![](images/12/al2.png)
Построение модели:
Exp. Cum. exp. Exp. Cum. exp. PC var. X % var. X % var. Y % var. Y % SDEC r2 -------------------------------------------------------------------------- 0 0.0000 0.0000 0.0000 0.0000 0.9494 0.0000 1 12.1342 12.1342 48.4736 48.4736 0.6815 0.4847 2 13.2295 25.3637 14.5885 63.0621 0.5770 0.6306 3 7.6412 33.0049 13.2040 76.2661 0.4625 0.7627 4 8.0257 41.0305 4.3684 80.6345 0.4178 0.8063 5 6.0521 47.0827 3.8642 84.4987 0.3738 0.8450
Кросс-валидация:
PC SDEP q2 -------------------------- 0 0.9658 -0.0348 1 0.8027 0.2851 2 0.7664 0.3484 3 0.7061 0.4468 4 0.6735 0.4968 5 0.6401 0.5454
Для пяти компонент значение q2 уже неплохое, можно надеяться, что эта модель будет работать.
Предсказание:
PC r2(pred) SDEP -------------------------- 0 0.0000 1.0362 1 0.3451 0.8385 2 0.3226 0.8529 3 0.2998 0.8671 4 0.3012 0.8662 5 0.2693 0.8858
r2 выросло по сравнению с первой моделью, но все равно как-то не особо.
5
Была построена модель уже по всем соединениям с известной активностью:
Exp. Cum. exp. Exp. Cum. exp. PC var. X % var. X % var. Y % var. Y % SDEC r2 -------------------------------------------------------------------------- 0 0.0000 0.0000 0.0000 0.0000 0.9749 0.0000 1 12.5822 12.5822 46.4042 46.4042 0.7137 0.4640 2 14.2226 26.8048 15.5157 61.9199 0.6016 0.6192 3 6.7847 33.5895 11.1828 73.1027 0.5056 0.7310 4 8.7614 42.3509 4.2898 77.3925 0.4635 0.7739 5 4.7029 47.0537 4.5965 81.9889 0.4137 0.8199 PC SDEP q2 -------------------------- 0 0.9865 -0.0240 1 0.8233 0.2868 2 0.7521 0.4049 3 0.7084 0.4720 4 0.6963 0.4899 5 0.7061 0.4754
Модель получилась не самая лучшая, поэтому я бы не стала слишком доверять предсказанию активностей по ней. Собственно, предсказание:
--------------------------------------------------------------------------------------- N ID Name Actual 1 2 3 4 5 Opt PC n --------------------------------------------------------------------------------------- 86 86 01 0.0000 7.1119 7.5466 7.4119 7.6262 7.7234 1 87 87 44 0.0000 6.9428 7.1202 7.0946 7.3278 7.5477 1 88 88 72 0.0000 5.5073 5.2436 5.1697 5.4378 5.4696 3
Лучшее q2 было для четырех компонент, поэтому были выбраны соответствующие значения активностей:
86 | 7.6262 |
---|---|
87 | 7.3278 |
88 | 5.4378 |
6
7
После добавления в модель электростатических взаимодействий:
Exp. Cum. exp. Exp. Cum. exp. PC var. X % var. X % var. Y % var. Y % SDEC r2 -------------------------------------------------------------------------- 0 0.0000 0.0000 0.0000 0.0000 0.9749 0.0000 1 67.2015 67.2015 6.8003 6.8003 0.9412 0.0680 2 10.2685 77.4700 34.6923 41.4927 0.7457 0.4149 3 3.1887 80.6587 10.6126 52.1053 0.6747 0.5211 4 1.7399 82.3986 7.7020 59.8074 0.6181 0.5981 5 2.8250 85.2236 4.0150 63.8224 0.5864 0.6382 SDEP q2 -------------------------- 0 0.9865 -0.0240 1 0.9926 -0.0367 2 0.9009 0.1461 3 0.8410 0.2559 4 0.8369 0.2630 5 0.8735 0.1972 ----------------------------------------------------------------------------------------------------------------------------------- N ID Name Actual 1 2 3 4 5 Opt PC n ----------------------------------------------------------------------------------------------------------------------------------- 86 86 01 0.0000 6.7253 6.8959 7.4705 7.1657 6.9955 1 87 87 44 0.0000 6.6806 6.6057 7.0092 7.1010 7.3498 2 88 88 72 0.0000 6.4609 4.9254 5.0383 4.4726 4.7491 4
И r2, и q2 уменьшились, значит, модель стала хуже. Наилучшее для нее предсказание - для четырех компонент, соответственно, предсказанные активности:
86 | 7.1657 |
---|---|
87 | 7.1010 |
88 | 4.4726 |