- Пример использования трехмерного QSAR анализа для предсказания активности низкомолекулярных соединений в отношении данного белка
1.Ниже приведен результат построения регрессионой модели (считаем, что с белком взаимодействует вещество с наименьшей энергией)
Exp. Cum. exp. Exp. Cum. exp.
PC var. X % var. X % var. Y % var. Y % SDEC r2
--------------------------------------------------------------------------
0 0.0000 0.0000 0.0000 0.0000 0.9494 0.0000
1 15.9480 15.9480 32.8386 32.8386 0.7780 0.3284
2 5.1333 21.0813 36.3625 69.2011 0.5269 0.6920
3 4.6235 25.7048 15.6991 84.9002 0.3689 0.8490
4 3.8908 29.5956 7.5246 92.4248 0.2613 0.9242
5 4.0108 33.6064 2.8661 95.2909 0.2060 0.9529
Данную регрессионую модель вероятно должна работать неплохо, т.к. для 5 компонент коэффициент r^2 практически равен 1 (об этом можно сказать лишь закрыв глаза)
После кросс-валидации:
PC SDEP q2
--------------------------
0 0.9658 -0.0348
1 0.9164 0.0683
2 0.9733 -0.0509
3 0.9667 -0.0368
4 0.9880 -0.0829
5 0.9497 -0.0006
получили достаточно плохие значени (близки к 0)
При предсказании для тестовой выборки
PC r2(pred) SDEP
--------------------------
0 0.0000 1.0362
1 0.2655 0.8881
2 0.3296 0.8484
3 0.2353 0.9061
4 0.2754 0.8821
5 0.2536 0.8953
External predictions for dependent variable 1 (activity)
--------------------------------------------------------------------------------------------------------------------------------------
N ID Name Actual 1 2 3 4 5 Opt PC n
--------------------------------------------------------------------------------------------------------------------------------------
60 60 05 8.1300 6.5362 6.5649 6.3036 6.1863 5.9037 2
61 61 07 7.8500 6.4288 5.8625 5.6520 6.0942 6.2735 1
62 62 10 7.7400 6.4525 6.8117 6.4491 6.5000 6.6354 2
63 63 11 7.7200 6.8459 7.0126 6.9466 6.9444 6.8063 2
64 64 14 7.5900 7.3339 7.2983 7.3018 7.2489 7.2357 1
65 65 16 7.4900 6.2337 6.9087 6.2785 6.2531 6.2390 2
66 66 20 7.3800 6.6250 6.2796 6.6885 6.5894 6.4578 3
67 67 21 7.3800 7.2617 6.7962 6.7349 6.6871 6.6377 1
68 68 29 6.9200 6.0938 5.9982 6.5703 6.5950 6.6329 5
69 69 30 6.9200 7.0488 6.8133 6.9456 6.7432 6.6088 3
70 70 31 6.9200 6.2497 6.9553 6.5524 6.6453 6.5897 2
71 71 35 6.7400 6.3576 6.7909 6.5704 6.7257 6.8988 4
72 72 39 6.6400 6.9040 7.4506 7.4324 7.5115 7.4146 1
73 73 46 6.4600 6.5787 6.3273 6.7238 6.2675 6.3233 1
74 74 49 6.2900 6.7069 6.5479 6.8242 6.8664 6.8862 2
75 75 51 6.2000 6.4310 6.7395 6.9855 6.8379 6.7511 1
76 76 54 6.0500 6.5177 6.3290 5.6878 6.0452 6.2058 4
77 77 56 5.9200 6.7963 7.2268 7.2174 6.9654 6.8699 1
78 78 58 5.6800 6.8033 6.6625 6.5011 6.4594 6.3098 5
79 79 61 5.5100 6.8759 6.9176 6.5928 6.6264 6.5714 5
80 80 65 5.1400 5.9560 5.2147 5.9189 5.9486 5.8982 2
81 81 67 4.8200 6.2282 5.7426 5.4340 5.7148 5.8929 3
82 82 70 4.5200 5.7210 5.5225 5.5448 5.7092 5.7558 2
83 83 71 4.4600 5.4736 4.9005 5.3628 5.3651 5.3559 2
84 84 81 6.5900 7.2111 7.0976 6.8200 6.6761 6.5722 5
85 85 82 6.5500 6.2816 6.7431 6.6970 6.8455 6.9410 3
Тут значения, конечно, получше но оставляют желать лучшего
2. выполним тот же анализ, но используя выравнивание и конформации, полученные с учетом структуры активного центра белка-мишени (на самом деле они находятся в исходном файле compounds.sdf)
модель
Exp. Cum. exp. Exp. Cum. exp.
PC var. X % var. X % var. Y % var. Y % SDEC r2
--------------------------------------------------------------------------
0 0.0000 0.0000 0.0000 0.0000 0.9494 0.0000
1 12.1342 12.1342 48.4736 48.4736 0.6815 0.4847
2 13.2295 25.3637 14.5885 63.0621 0.5770 0.6306
3 7.6412 33.0049 13.2040 76.2661 0.4625 0.7627
4 8.0257 41.0305 4.3684 80.6345 0.4178 0.8063
5 6.0521 47.0827 3.8642 84.4987 0.3738 0.8450
кросс-валидация:
PC SDEP q2
--------------------------
0 0.9658 -0.0348
1 0.8027 0.2851
2 0.7664 0.3484
3 0.7061 0.4468
4 0.6735 0.4968
5 0.6401 0.5454
предсказание:
External predictions for dependent variable 1 (activity)
--------------------------------------------------------------------------------------------------------------------------------------
N ID Name Actual 1 2 3 4 5 Opt PC n
--------------------------------------------------------------------------------------------------------------------------------------
60 60 05 8.1300 7.8242 8.3027 8.4469 8.4282 8.1373 5
61 61 07 7.8500 6.4778 6.7144 6.2771 6.3645 6.1222 2
62 62 10 7.7400 7.2452 7.0656 7.2068 7.4376 7.3230 4
63 63 11 7.7200 7.6375 7.7144 7.8404 7.8458 7.7871 2
64 64 14 7.5900 7.1132 7.2879 7.4345 7.4701 7.3577 4
65 65 16 7.4900 7.0379 7.4351 7.3003 7.6168 7.6091 2
66 66 20 7.3800 7.0451 7.0807 7.6269 7.7125 7.5696 5
67 67 21 7.3800 6.6323 6.5107 6.7671 6.6284 6.5963 3
68 68 29 6.9200 7.1483 7.1651 7.6502 7.7134 7.5493 1
69 69 30 6.9200 7.0308 7.0890 7.5595 7.6340 7.6237 1
70 70 31 6.9200 6.8983 7.0028 7.7750 7.8847 7.7025 1
71 71 35 6.7400 6.5888 6.8182 6.2524 6.4197 6.4862 2
72 72 39 6.6400 5.7744 6.7056 6.6515 6.8244 6.8768 3
73 73 46 6.4600 5.9984 5.7132 5.7748 5.8811 6.0657 5
74 74 49 6.2900 6.5493 6.7236 6.8609 6.5919 6.9988 1
75 75 51 6.2000 6.0694 6.1966 6.3561 6.0004 6.1955 2
76 76 54 6.0500 5.2846 6.3125 6.0498 6.0197 6.3106 3
77 77 56 5.9200 6.4134 6.4729 5.9423 6.0789 5.9353 5
78 78 58 5.6800 7.1586 7.2264 6.4843 6.1598 6.0545 5
79 79 61 5.5100 7.1860 7.3900 6.7100 6.4666 6.4878 4
80 80 65 5.1400 5.7143 6.5006 6.2754 6.4480 6.1988 1
81 81 67 4.8200 5.9485 4.9121 4.3849 4.4630 4.2796 2
82 82 70 4.5200 5.1084 4.6466 4.3519 4.3077 4.1848 2
83 83 71 4.4600 6.9103 6.9730 7.4976 7.5830 7.6988 1
84 84 81 6.5900 6.7543 6.9522 7.2011 7.0336 7.3282 1
85 85 82 6.5500 6.4404 7.4006 7.0525 7.3994 7.2651 1
PC r2(pred) SDEP
--------------------------
0 0.0000 1.0362
1 0.3451 0.8385
2 0.3226 0.8529
3 0.2998 0.8671
4 0.3012 0.8662
5 0.2693 0.8858
Из предсказания видно, что наиболее близкие значения получаются при использовании 1 компоненты. При кросс-валидации 1 компоненте соответствовало наименьшее значение q^2.
При предсказании активностей неизветсных соединений делаем аналогично: возьмем то количество компонент, которому соответствовало наименьшее значение q^2
при кросс-валидации. (это конечно странно, но...)
Плюс, стоит отметить, что качество предсказания улучшилось, по сравнению с моделью, построенной для конформаций с минимальной энергией.
Используем модель для предсказания активностей соединений:
- Модель:
Exp. Cum. exp. Exp. Cum. exp.
PC var. X % var. X % var. Y % var. Y % SDEC r2
--------------------------------------------------------------------------
0 0.0000 0.0000 0.0000 0.0000 0.9749 0.0000
1 12.5822 12.5822 46.4042 46.4042 0.7137 0.4640
2 14.2226 26.8048 15.5157 61.9199 0.6016 0.6192
3 6.7847 33.5895 11.1828 73.1027 0.5056 0.7310
4 8.7614 42.3509 4.2898 77.3925 0.4635 0.7739
5 4.7029 47.0537 4.5965 81.9889 0.4137 0.8199
- Кросс-валидация:
PC SDEP q2
--------------------------
0 0.9865 -0.0240
1 0.8233 0.2868
2 0.7521 0.4049
3 0.7084 0.4720
4 0.6963 0.4899
5 0.7061 0.4754
- Прдесказание активностей выбранных соединений:
External predictions for dependent variable 1 (activity)
--------------------------------------------------------------------------------------------------------------------------------------
N ID Name Actual 1 2 3 4 5 Opt PC n
--------------------------------------------------------------------------------------------------------------------------------------
86 86 01 0.0000 7.1119 7.5466 7.4119 7.6262 7.7234 1
87 87 44 0.0000 6.9428 7.1202 7.0946 7.3278 7.5477 1
88 88 72 0.0000 5.5073 5.2436 5.1697 5.4378 5.4696 3
PC r2(pred) SDEP
--------------------------
0 0.0000 6.6604
1 0.0298 6.5603
2 -0.0155 6.7118
3 0.0082 6.6331
4 -0.0627 6.8660
5 -0.1011 6.9889
Ниже приведены активности трех соединений, выбранных из соображения, описанного выше: Из предсказания видно, что наиболее близкие значения получаются при использовании 1 компоненты. При кросс-валидации 1 компоненте соответствовало наименьшее значение q^2.
При предсказании активностей неизветсных соединений делаем аналогично: возьмем то количество компонент, которому соответствовало наименьшее значение q^2
при кросс-валидации. (это конечно странно, но...):
N Activity
================
86 7.1119
87 6.9428
88 5.5073
Ниже приведены активности тестируемых соединений (выбрали 4 компоненты, т.к. при кросс валидации наилучшее значение q^2 именно для четырех компонент. В данном случае
мы имеем также аналог кросс валидации: при кросс валидации мы берем группу соединений, выбросывая по очереди одно из этой группы, и строим модель. а потом предсказываем активность выброшенного соединения по построенной модели. В результате этих операций мы проверяем
как подобная модель работает на предсказание. И это напоминает процесс предсказания активности вещества с нуля)
N Activity
================
86 7.6262
87 7.3278
88 5.4378
Но, вообщще больше за первый результат.
4. Влияние заместителей на активность соеинединений.
Рис.1.
Рис.2.
Рис.3.
На приведенных выше рисунках продемонстрировано влияние взаимодействий белка с той или иной частью ингииторов. Красным цветом - негативное влияние (
взаимодействие с данной областью отрицательно сказывается на эффективности ингибитора), зеленом - положительное влияние.
Взаимодействие с пи-системой ароматического кольца, представленного на первом рисунке оказывает благоприятное влияние на эффективность ингибиторов. В то же время,
взаимодействие с боковой поверхностью данного ароматического кольца и его заместителями - отрицательно (рис. 3.). Аналогичный эффект имеет взаимодействие
с пи-системой и заместителями другого ароматического кольца (Рис. 2.)
©Анисенко Андрей