Пример использования трехмерного QSAR анализа для предсказания активности низкомолекулярных соединений в отношении данного белка.



1. Для 3DQSAR анализа использовала Open3DQSAR и Open3DALIGN
obconformer 100 100 compounds.sdf > compounds_best_conformer.sdf генерирует наиболее выгодные конформации веществ
import type=SDF file=compounds_best_conformer.sdf
align object_list=1
save file=aligned.sdf
выравнивание aligned.sdf

оно не прочиталось PyMol, поэтому мне пришлось поменять кодировку и убрать лишнее из заголовка
iconv -c -f utf-8 -t ascii aligned.sdf > aligned_ascii.sdf
sed -e 's/.*HEADER.*\([0-9][0-9]\).*/\1/' -e 's/\(.*M END.*\)/\1\n$$$$/' aligned_ascii.sdf > temp
sed -n '/^[0-9a-zA-Z \$\.-]*$/ p' temp > aligned_ok.sdf
rm temp


2. open3dqsar.sh
import type=sdf file=aligned_ok.sdf
import type=dependent file=activity.txt
set object_list=60-85 attribute=TEST
set object_list=86-88 attribute=EXCLUDED
box
calc_field type=VDW force_field=MMFF94 probe_type=CR
cutoff type=max level=5.0 field_list=1
cutoff type=min level=-5.0 field_list=1
zero type=all level=0.05
sdcut level=0.1
nlevel
remove_x_vars type=nlevel
pls

Коэффициенты корреляции для разного количества компонент, выделенных PLS. 
          Exp.   Cum. exp.        Exp.   Cum. exp.
PC    var. X %    var. X %    var. Y %    var. Y %        SDEC          r2
--------------------------------------------------------------------------
 0      0.0000      0.0000      0.0000      0.0000      0.9494      0.0000
 1     15.9480     15.9480     32.8386     32.8386      0.7780      0.3284
 2      5.1333     21.0813     36.3625     69.2011      0.5269      0.6920
 3      4.6235     25.7048     15.6991     84.9002      0.3689      0.8490
 4      3.8908     29.5956      7.5246     92.4248      0.2613      0.9242
 5      4.0108     33.6064      2.8661     95.2909      0.2060      0.9529


Elapsed time: 0.2951 seconds.

коэффициенты корреляции везде больше 0, а в трех случаях из 5 близки к 1 и поэтомумодель можно считать хорошей.
Кросс-валидация
PC        SDEP          q2
--------------------------
 0      0.9658     -0.0348
 1      0.9164      0.0683
 2      0.9733     -0.0509
 3      0.9667     -0.0368
 4      0.9880     -0.0829
 5      0.9497     -0.0006

Elapsed time: 0.9555 seconds.

q2 наверное новый коэффициент корреляции и он в большинтсве случаев меньше 0, что не оч хорошо
Предсказание активности
PC    r2(pred)        SDEP
--------------------------
 0      0.0000      1.0362
 1      0.2655      0.8881
 2      0.3296      0.8484
 3      0.2353      0.9061
 4      0.2754      0.8821
 5      0.2536      0.8953


Elapsed time: 0.0191 seconds.

коэффициенты корреляции больше 0, но в среднем не оч большие.

3. Анализ с учетом структуры активного центра белка-мишени.
команды в open3dqsar.sh те же самые, но import будет первоначальный файл compounds.sdf
© Garanina Irina