Пример использования трехмерного QSAR анализа для предсказания активности низкомолекулярных соединений в отношении данного белка.
1. Для 3DQSAR анализа использовала Open3DQSAR и Open3DALIGN
obconformer 100 100 compounds.sdf > compounds_best_conformer.sdf
генерирует наиболее выгодные конформации веществ
import type=SDF file=compounds_best_conformer.sdf
align object_list=1
save file=aligned.sdf
выравнивание
aligned.sdf
оно не прочиталось PyMol, поэтому мне пришлось поменять кодировку и убрать лишнее из заголовка
iconv -c -f utf-8 -t ascii aligned.sdf > aligned_ascii.sdf
sed -e 's/.*HEADER.*\([0-9][0-9]\).*/\1/' -e 's/\(.*M END.*\)/\1\n$$$$/' aligned_ascii.sdf > temp
sed -n '/^[0-9a-zA-Z \$\.-]*$/ p' temp > aligned_ok.sdf
rm temp
2. open3dqsar.sh
import type=sdf file=aligned_ok.sdf
import type=dependent file=activity.txt
set object_list=60-85 attribute=TEST
set object_list=86-88 attribute=EXCLUDED
box
calc_field type=VDW force_field=MMFF94 probe_type=CR
cutoff type=max level=5.0 field_list=1
cutoff type=min level=-5.0 field_list=1
zero type=all level=0.05
sdcut level=0.1
nlevel
remove_x_vars type=nlevel
pls
Коэффициенты корреляции для разного количества компонент, выделенных PLS.
Exp. Cum. exp. Exp. Cum. exp.
PC var. X % var. X % var. Y % var. Y % SDEC r2
--------------------------------------------------------------------------
0 0.0000 0.0000 0.0000 0.0000 0.9494 0.0000
1 15.9480 15.9480 32.8386 32.8386 0.7780 0.3284
2 5.1333 21.0813 36.3625 69.2011 0.5269 0.6920
3 4.6235 25.7048 15.6991 84.9002 0.3689 0.8490
4 3.8908 29.5956 7.5246 92.4248 0.2613 0.9242
5 4.0108 33.6064 2.8661 95.2909 0.2060 0.9529
Elapsed time: 0.2951 seconds.
коэффициенты корреляции везде больше 0, а в трех случаях из 5 близки к 1 и поэтомумодель можно считать хорошей.
Кросс-валидация
PC SDEP q2
--------------------------
0 0.9658 -0.0348
1 0.9164 0.0683
2 0.9733 -0.0509
3 0.9667 -0.0368
4 0.9880 -0.0829
5 0.9497 -0.0006
Elapsed time: 0.9555 seconds.
q2 наверное новый коэффициент корреляции и он в большинтсве случаев меньше 0, что не оч хорошо
Предсказание активности
PC r2(pred) SDEP
--------------------------
0 0.0000 1.0362
1 0.2655 0.8881
2 0.3296 0.8484
3 0.2353 0.9061
4 0.2754 0.8821
5 0.2536 0.8953
Elapsed time: 0.0191 seconds.
коэффициенты корреляции больше 0, но в среднем не оч большие.
3. Анализ с учетом структуры активного центра белка-мишени.
команды в open3dqsar.sh те же самые, но import будет первоначальный файл compounds.sdf
© Garanina Irina