Пример использования трехмерного QSAR анализа для предсказания активности низкомолекулярных соединений в отношении данного белка. |
На Главную Шестой семестр |
|||
Пространственное выравнивание активных конформаций исследуемых веществГенерируем наиболее энергетически выгодные конформации веществ:obconformer 100 100 compounds.sdf > compounds_best_conformer.sdfВыравниваем с помощью Open3DALIGN import type=SDF file=compounds_best_conformer.sdf align object_list=1 save file=aligned.sdf ![]() aligned.sdf Меняем кодировку и удаляем ненужную информацию из заголовка: iconv -c -f utf-8 -t ascii aligned.sdf > aligned_ascii.sdf sed -e 's/.*HEADER.*\([0-9][0-9]\).*/\1/' -e 's/\(.*M END.*\)/\1\n$$$$/' aligned_ascii.sdf > temp sed -n '/^[0-9a-zA-Z \$\.-]*$/ p' temp > aligned_ok.sdf rm temp 3DQSARopen3dqsar.sh import type=sdf file=aligned_ok.sdf import type=dependent file=activity.txt set object_list=60-85 attribute=TEST set object_list=86-88 attribute=EXCLUDED box calc_field type=VDW force_field=MMFF94 probe_type=CR cutoff type=max level=5.0 field_list=1 cutoff type=min level=-5.0 field_list=1 zero type=all level=0.05 sdcut level=0.1 nlevel remove_x_vars type=nlevel plsПостроим регрессионную модель: Exp. Cum. exp. Exp. Cum. exp. PC var. X % var. X % var. Y % var. Y % SDEC r2 -------------------------------------------------------------------------- 0 0.0000 0.0000 0.0000 0.0000 0.9494 0.0000 1 15.9480 15.9480 32.8386 32.8386 0.7780 0.3284 2 5.1333 21.0813 36.3625 69.2011 0.5269 0.6920 3 4.6235 25.7048 15.6991 84.9002 0.3689 0.8490 4 3.8908 29.5956 7.5246 92.4248 0.2613 0.9242 5 4.0108 33.6064 2.8661 95.2909 0.2060 0.9529Коэффицент корреляции r2 для данной регрессионной модели близок к 1, для всех, кроме 1. Проведем кросс-валидацию: cv type=loo runs=20получаем довольно плохие значения q2 PC SDEP q2 -------------------------- 0 0.9658 -0.0348 1 0.9164 0.0683 2 0.9733 -0.0509 3 0.9667 -0.0368 4 0.9880 -0.0829 5 0.9497 -0.0006Предсказание активности тестовой выборки: PC r2(pred) SDEP -------------------------- 0 0.0000 1.0362 1 0.2655 0.8881 2 0.3296 0.8484 3 0.2353 0.9061 4 0.2754 0.8821 5 0.2536 0.8953Хотя r2 значительно больше 0, но еще далеко до 1. Попробуем предсказать активность 3 веществ с 86 по 88Проведем тот же анализ, но используя выравнивание и конформации, полученные с учетом структуры активного центра белка-мишени (берем конформации из compounds.sdf)Exp. Cum. exp. Exp. Cum. exp. PC var. X % var. X % var. Y % var. Y % SDEC r2 -------------------------------------------------------------------------- 0 0.0000 0.0000 0.0000 0.0000 1.7139 0.0000 1 15.0134 15.0134 30.0279 30.0279 1.4337 0.3003 2 9.8880 24.9014 16.2796 46.3075 1.2559 0.4631 3 7.1471 32.0485 9.1218 55.4294 1.1442 0.5543 4 7.3622 39.4107 4.7591 60.1884 1.0814 0.6019 5 4.8158 44.2265 6.2423 66.4308 0.9930 0.6643 PC SDEP q2 -------------------------- 0 1.7420 -0.0331 1 1.6679 0.0530 2 1.6959 0.0209 3 1.7622 -0.0572 4 1.8490 -0.1638 5 1.9588 -0.3062> PC r2(pred) SDEP -------------------------- 0 0.0000 1.0253 1 -0.2270 1.1357 2 -0.0213 1.0361 3 0.0973 0.9742 4 0.1156 0.9642 5 0.0336 1.0079Используя данную модель, предскажем активности 3 веществ из тестовой выборки: set object_list=60-85 attribute=TRAINING set object_list=86-88 attribute=TEST pls predictПолучаем: External predictions for dependent variable 1 (activity) -------------------------------------------------------------------------------------------------------------------------------------- N ID Name Actual 1 2 3 4 5 Opt PC n -------------------------------------------------------------------------------------------------------------------------------------- 86 86 01 0.0000 7.1119 7.5466 7.4119 7.6262 7.7234 1 87 87 44 0.0000 6.9428 7.1202 7.0946 7.3278 7.5477 1 88 88 72 0.0000 5.5073 5.2436 5.1697 5.4378 5.4696 3Наилучшее значение q2 достигается при PC=1, значит наиболее точное предсказание активностей: External predictions for dependent variable 1 (activity) ---------------------------------------- N ID Name 1 --------------------------------------- 86 86 01 7.1119 87 87 44 6.9428 88 88 72 5.5073 |