Пример использования трехмерного QSAR анализа для предсказания активности низкомолекулярных соединений в отношении данного белка
Скрипт, подготавливающий файл: 12.bash
Файл: aligned_ok.sdf.
Регрессионная модель:
Exp. Cum. exp. Exp. Cum. exp.
PC var. X % var. X % var. Y % var. Y % SDEC r2
--------------------------------------------------------------------------
0 0.0000 0.0000 0.0000 0.0000 0.9494 0.0000
1 15.9480 15.9480 32.8386 32.8386 0.7780 0.3284
2 5.1333 21.0813 36.3625 69.2011 0.5269 0.6920
3 4.6235 25.7048 15.6991 84.9002 0.3689 0.8490
4 3.8908 29.5956 7.5246 92.4248 0.2613 0.9242
5 4.0108 33.6064 2.8661 95.2909 0.2060 0.9529
r^2 приближается к 1у 5 компоненты, что есть хорошо.
Кросс-валидация:
PC SDEP q2
--------------------------
0 0.9658 -0.0348
1 0.9164 0.0683
2 0.9733 -0.0509
3 0.9667 -0.0368
4 0.9880 -0.0829
5 0.9497 -0.0006
Плохие значения q^2 - стремятся к 0.
Предсказание:
PC r2(pred) SDEP
--------------------------
0 0.0000 1.0362
1 0.2655 0.8881
2 0.3296 0.8484
3 0.2353 0.9061
4 0.2754 0.8821
5 0.2536 0.8953
Тут немного получше.
Построение регрессии с учетом структуры активного центра молекулы.
Файл: act_ok.sdf.
Регрессионная модель:
Exp. Cum. exp. Exp. Cum. exp.
PC var. X % var. X % var. Y % var. Y % SDEC r2
--------------------------------------------------------------------------
0 0.0000 0.0000 0.0000 0.0000 0.9494 0.0000
1 12.1342 12.1342 48.4736 48.4736 0.6815 0.4847
2 13.2295 25.3637 14.5885 63.0621 0.5770 0.6306
3 7.6412 33.0049 13.2040 76.2661 0.4625 0.7627
4 8.0257 41.0305 4.3684 80.6345 0.4178 0.8063
5 6.0521 47.0827 3.8642 84.4987 0.3738 0.8450
Кросс-валидация:
PC SDEP q2
--------------------------
0 0.9658 -0.0348
1 0.8027 0.2851
2 0.7664 0.3484
3 0.7061 0.4468
4 0.6735 0.4968
5 0.6401 0.5454
Предсказание:
PC r2(pred) SDEP
--------------------------
0 0.0000 1.0362
1 0.3451 0.8385
2 0.3226 0.8529
3 0.2998 0.8671
4 0.3012 0.8662
5 0.2693 0.8858
Значения r2 стали лучше.
Предсказание активности с помощью полученной модели.
Кросс-валидация:
PC SDEP q2
--------------------------
0 0.9865 -0.0240
1 0.8233 0.2868
2 0.7521 0.4049
3 0.7084 0.4720
4 0.6963 0.4899
5 0.7061 0.4754
Регрессионная модель:
Exp. Cum. exp. Exp. Cum. exp.
PC var. X % var. X % var. Y % var. Y % SDEC r2
--------------------------------------------------------------------------
0 0.0000 0.0000 0.0000 0.0000 0.9749 0.0000
1 12.5822 12.5822 46.4042 46.4042 0.7137 0.4640
2 14.2226 26.8048 15.5157 61.9199 0.6016 0.6192
3 6.7847 33.5895 11.1828 73.1027 0.5056 0.7310
4 8.7614 42.3509 4.2898 77.3925 0.4635 0.7739
5 4.7029 47.0537 4.5965 81.9889 0.4137 0.8199
Предсказание:
PC r2(pred) SDEP
--------------------------
0 0.0000 6.6604
1 0.0298 6.5603
2 -0.0155 6.7118
3 0.0082 6.6331
4 -0.0627 6.8660
5 -0.1011 6.9889
External predictions for dependent variable 1 (activity)
--------------------------------------------------------------------------------------------------------------------------------------
N ID Name Actual 1 2 3 4 5 Opt PC n
--------------------------------------------------------------------------------------------------------------------------------------
86 86 01 0.0000 7.1119 7.5466 7.4119 7.6262 7.7234 1
87 87 44 0.0000 6.9428 7.1202 7.0946 7.3278 7.5477 1
88 88 72 0.0000 5.5073 5.2436 5.1697 5.4378 5.4696 3
Наилучшее q^2 для PC = 4. Тогда предсказанные активности:
86 | 7.6623 |
87 | 7.1990 |
88 | 5.3788 |
© Almukhametov Azat