Пример использования трехмерного QSAR анализа для предсказания активности низкомолекулярных соединений в отношении данного белка

1..2

Для проведения 3DQSAR анализа использовались программы Open3DQSAR и Open3DALIGN.

Дан набор из 88 ингибиторов тромбина, из которых известна активности 85. Чтобы определить активную конформацию (в нашем приближении это конформация с наименьшей энергией), надо запустить obconformer (на самом деле был взят готовый файл compounds_best_conformer.sdf)

Затем было сделано выравнивание полученных конформеров:


open3dalign.sh
> import type=SDF file=compounds_best_conformer.sdf 
> align object_list=1
> save file=aligned.sdf

После изменения кодировки на ascii и удаления ненужной информации из заголовков получился файл, который читается пимолом. Выравнивание несколько сомнительное получилось:


Для оценки r2 и q2 в 3DQSAR анализе я нашла такую табличку, которой вроде бы можно доверять:

ApplicationR2Q2
Spectroscopic Calibration 0.99 0.98
Good QSAR model 0.78 0.65
Biological PCA model 0.5 0.4
PCA Stable Process 0.3 0.2
PCA Market research 0.3 0.2

Попутно выяснилось, что r2 не может быть больше q2, чем на 0.2.

3

Попробуем выполнить 3DQSAR анализ с помощью этого выравнивания. Скрипт:


import  type=sdf file=aligned_ok.sdf
import type=dependent file=activity.txt
box
set object_list=60-85 attribute=TEST
set object_list=86-88 attribute=EXCLUDED
calc_field type=VDW force_field=MMFF94 probe_type=CR
cutoff type=max level=5.0 field_list=1
cutoff type=min level=-5.0 field_list=1
zero type=all level=0.05
sdcut level=0.1
nlevel
remove_x_vars type=nlevel

При этом соединения с неизвестной активностью были исключены, а молекулы 60-85 использовались для теста.


open3dqsar.sh -i script -o scr_out

Регрессионная модель:


pls file=pls.sdf

          Exp.   Cum. exp.        Exp.   Cum. exp.
PC    var. X %    var. X %    var. Y %    var. Y %        SDEC          r2
--------------------------------------------------------------------------
 0      0.0000      0.0000      0.0000      0.0000      0.9494      0.0000
 1     15.9480     15.9480     32.8386     32.8386      0.7780      0.3284
 2      5.1333     21.0813     36.3625     69.2011      0.5269      0.6920
 3      4.6235     25.7048     15.6991     84.9002      0.3689      0.8490
 4      3.8908     29.5956      7.5246     92.4248      0.2613      0.9242
 5      4.0108     33.6064      2.8661     95.2909      0.2060      0.9529

r2 для пяти компонент близок к единице, что должно свидетельствовать о применимости построенной модели для расчетов.


Кросс-валидация (с дефолтными параметрами):


cv type=loo runs=20 file=cv.sdf

PC        SDEP          q2
--------------------------
 0      0.9658     -0.0348
 1      0.9164      0.0683
 2      0.9733     -0.0509
 3      0.9667     -0.0368
 4      0.9880     -0.0829
 5      0.9497     -0.0006

q2 отрицательное, модель должна работать плохо. А точнее, вообще не работать.


И, наконец, предсказание для тестовой выборки:


predict file=predict.sdf

PC    r2(pred)        SDEP
--------------------------
 0      0.0000      1.0362
 1      0.2655      0.8881
 2      0.3296      0.8484
 3      0.2353      0.9061
 4      0.2754      0.8821
 5      0.2536      0.8953

И, судя по r2, она действительно работает плохо.

4

Все то же самое было проделано для выравнивания, полученного с учетом структуры активного центра белка-мишени. Выглядит выравнивание действительно лучше:


Построение модели:


          Exp.   Cum. exp.        Exp.   Cum. exp.
PC    var. X %    var. X %    var. Y %    var. Y %        SDEC          r2
--------------------------------------------------------------------------
 0      0.0000      0.0000      0.0000      0.0000      0.9494      0.0000
 1     12.1342     12.1342     48.4736     48.4736      0.6815      0.4847
 2     13.2295     25.3637     14.5885     63.0621      0.5770      0.6306
 3      7.6412     33.0049     13.2040     76.2661      0.4625      0.7627
 4      8.0257     41.0305      4.3684     80.6345      0.4178      0.8063
 5      6.0521     47.0827      3.8642     84.4987      0.3738      0.8450

Кросс-валидация:


PC        SDEP          q2
--------------------------
 0      0.9658     -0.0348
 1      0.8027      0.2851
 2      0.7664      0.3484
 3      0.7061      0.4468
 4      0.6735      0.4968
 5      0.6401      0.5454

Для пяти компонент значение q2 уже неплохое, можно надеяться, что эта модель будет работать.


Предсказание:


PC    r2(pred)        SDEP
--------------------------
 0      0.0000      1.0362
 1      0.3451      0.8385
 2      0.3226      0.8529
 3      0.2998      0.8671
 4      0.3012      0.8662
 5      0.2693      0.8858

r2 выросло по сравнению с первой моделью, но все равно как-то не особо.

5

Была построена модель уже по всем соединениям с известной активностью:


          Exp.   Cum. exp.        Exp.   Cum. exp.
PC    var. X %    var. X %    var. Y %    var. Y %        SDEC          r2
--------------------------------------------------------------------------
 0      0.0000      0.0000      0.0000      0.0000      0.9749      0.0000
 1     12.5822     12.5822     46.4042     46.4042      0.7137      0.4640
 2     14.2226     26.8048     15.5157     61.9199      0.6016      0.6192
 3      6.7847     33.5895     11.1828     73.1027      0.5056      0.7310
 4      8.7614     42.3509      4.2898     77.3925      0.4635      0.7739
 5      4.7029     47.0537      4.5965     81.9889      0.4137      0.8199

PC        SDEP          q2
--------------------------
 0      0.9865     -0.0240
 1      0.8233      0.2868
 2      0.7521      0.4049
 3      0.7084      0.4720
 4      0.6963      0.4899
 5      0.7061      0.4754

Модель получилась не самая лучшая, поэтому я бы не стала слишком доверять предсказанию активностей по ней. Собственно, предсказание:


---------------------------------------------------------------------------------------
   N   ID    Name      Actual        1        2        3        4        5    Opt PC n
---------------------------------------------------------------------------------------
  86   86    01        0.0000   7.1119   7.5466   7.4119   7.6262   7.7234           1
  87   87    44        0.0000   6.9428   7.1202   7.0946   7.3278   7.5477           1
  88   88    72        0.0000   5.5073   5.2436   5.1697   5.4378   5.4696           3

Лучшее q2 было для четырех компонент, поэтому были выбраны соответствующие значения активностей:


867.6262
877.3278
885.4378

6

7

После добавления в модель электростатических взаимодействий:


          Exp.   Cum. exp.        Exp.   Cum. exp.
PC    var. X %    var. X %    var. Y %    var. Y %        SDEC          r2
--------------------------------------------------------------------------
 0      0.0000      0.0000      0.0000      0.0000      0.9749      0.0000
 1     67.2015     67.2015      6.8003      6.8003      0.9412      0.0680
 2     10.2685     77.4700     34.6923     41.4927      0.7457      0.4149
 3      3.1887     80.6587     10.6126     52.1053      0.6747      0.5211
 4      1.7399     82.3986      7.7020     59.8074      0.6181      0.5981
 5      2.8250     85.2236      4.0150     63.8224      0.5864      0.6382

         SDEP          q2
--------------------------
 0      0.9865     -0.0240
 1      0.9926     -0.0367
 2      0.9009      0.1461
 3      0.8410      0.2559
 4      0.8369      0.2630
 5      0.8735      0.1972

-----------------------------------------------------------------------------------------------------------------------------------
  N   ID    Name       Actual        1        2        3        4        5  Opt PC n
-----------------------------------------------------------------------------------------------------------------------------------
 86   86    01         0.0000   6.7253   6.8959   7.4705   7.1657   6.9955         1
 87   87    44         0.0000   6.6806   6.6057   7.0092   7.1010   7.3498         2
 88   88    72         0.0000   6.4609   4.9254   5.0383   4.4726   4.7491         4

И r2, и q2 уменьшились, значит, модель стала хуже. Наилучшее для нее предсказание - для четырех компонент, соответственно, предсказанные активности:


867.1657
877.1010
884.4726