Занятие 12
Замечания
Обработка файла в конце второго пункта:
---
sed -e 's/.*HEADER.*\([0-9][0-9]\).*/\1/' -e 's/\(.*M END.*\)/\1\n$$$$/' aligned_ascii.sdf > temp
sed -n '/^[0-9a-zA-Z \$\.-]*$/ p' temp > aligned_ok.sdf
rm temp
---
не нужна и даже вредна.
Результаты работы open3dqsar по выравниванию open3dalign на первых 59 веществах, с предсказанием для 60 - 85
Скрипт
- Регресс. модель (r^2 - показатель) при построении модели:
Exp. Cum. exp. Exp. Cum. exp.
PC var. X % var. X % var. Y % var. Y % SDEC r2
---------------------------------------------------------------------- ----
0 0.0000 0.0000 0.0000 0.0000 0.9494 0.0000
1 9.6130 9.6130 35.5502 35.5502 0.7622 0.3555
2 5.9167 15.5297 32.4253 67.9755 0.5373 0.6798
3 3.9754 19.5052 19.6206 87.5961 0.3344 0.8760
4 3.9726 23.4777 6.2434 93.8395 0.2356 0.9384
5 7.1482 30.6259 2.2437 96.0832 0.1879 0.9608
r^2 близок к единице для 5 компонент, поэтому модель должна работать хорошо.
- При кросс-валидации (отвратительно, как и должно было получиться):
PC SDEP q2
--------------------------
0 0.9658 -0.0348
1 0.9850 -0.0764
2 1.0305 -0.1781
3 0.9740 -0.0526
4 0.9482 0.0025
5 0.9209 0.0592
С такими значениями q^2, модель должна работать плохо.
- При предсказании (отвратительно, чего получиться не должно было):
PC r2(pred) SDEP
--------------------------
0 0.0000 1.0362
1 -0.0173 1.0451
2 -0.3011 1.1820
3 -0.3655 1.2109
4 -0.3092 1.1856
5 -0.3633 1.2099
Результаты работы open3dqsar по "истинному" вырваниванию на первых 59 веществах, с предсказанием для 60 - 85
- Построение модели:
Exp. Cum. exp. Exp. Cum. exp.
PC var. X % var. X % var. Y % var. Y % SDEC r2
---------------------------------------------------------------------- ----
0 0.0000 0.0000 0.0000 0.0000 0.9494 0.0000
1 12.1342 12.1342 48.4736 48.4736 0.6815 0.4847
2 13.2295 25.3637 14.5885 63.0621 0.5770 0.6306
3 7.6412 33.0049 13.2040 76.2661 0.4625 0.7627
4 8.0257 41.0305 4.3684 80.6345 0.4178 0.8063
5 6.0521 47.0827 3.8642 84.4987 0.3738 0.8450
- Кросс-валидация:
PC SDEP q2
--------------------------
0 0.9658 -0.0348
1 0.8027 0.2851
2 0.7664 0.3484
3 0.7061 0.4468
4 0.6735 0.4968
5 0.6401 0.5454
Вот тут значения q^2 уже приличные, поэтому доверять результатам в какой-то степени можно.
- Предсказание:
PC r2(pred) SDEP
--------------------------
0 0.0000 1.0362
1 0.3451 0.8385
2 0.3226 0.8529
3 0.2998 0.8671
4 0.3012 0.8662
5 0.2693 0.8858
Результаты работы open3dqsar по "истинному" вырваниванию на все 85 веществах, с предсказанием для 86 - 88
- Построение модели:
Exp. Cum. exp. Exp. Cum. exp.
PC var. X % var. X % var. Y % var. Y % SDEC r2
--------------------------------------------------------------------------
0 0.0000 0.0000 0.0000 0.0000 0.9749 0.0000
1 12.8375 12.8375 44.4004 44.4004 0.7269 0.4440
2 14.5264 27.3638 14.3748 58.7753 0.6260 0.5878
3 6.9607 34.3245 11.2007 69.9760 0.5342 0.6998
4 8.4659 42.7904 5.4939 75.4699 0.4828 0.7547
5 4.7600 47.5503 5.7466 81.2166 0.4225 0.8122
- Кросс-валидация:
PC SDEP q2
--------------------------
0 0.9865 -0.0240
1 0.8305 0.2743
2 0.7666 0.3816
3 0.7394 0.4247
4 0.7339 0.4332
5 0.7380 0.4269
- Предсказание:
PC r2(pred) SDEP
--------------------------
0 0.0000 6.6604
1 0.0294 6.5616
2 -0.0102 6.6942
3 0.0265 6.5717
4 -0.0480 6.8183
5 -0.0950 6.9696
External predictions for dependent variable 1 (activity)
--------------------------------------------------------------------------------------------------------------------------------------
N ID Name Actual 1 2 3 4 5 Opt PC n
--------------------------------------------------------------------------------------------------------------------------------------
86 86 01 0.0000 7.0954 7.5090 7.3772 7.6623 7.8822 1
87 87 44 0.0000 6.9300 7.0808 6.9883 7.1990 7.4119 1
88 88 72 0.0000 5.5493 5.2836 5.1285 5.3788 5.3537 3
Для того, чтобы выбрать необходимое число компонент, воспользуемся данными q^2 из кросс-валидации, как наиболее точно отображающими предсказательную силу модели.
Наилучшее q^2 для PC = 4. Значит, предсказанные активности:
86 | 7.6623 |
87 | 7.1990 |
88 | 5.3788 |
*Анализ в PyMOL
Красный - положительное влияние, синий - отрицательное.
Как видно, взаимодействия с группами (обычно - ароматическими кольцами) ингибиторов, соединенными через серу с остальной молекулой (на рисунке - снизу) положительно влияют на значение активности, в то время как взаимодействие с остальными группами (ароматическими кольцами или алифатическими группами) - отрицательно.