Суть задания построить 3DQSAR модель для ингибиторов тромбина и предсказать активность для трех веществ, активность которых не известна.
Все файлы лежат в директории Practice12
Для проведения 3DQSAR анализа использовались программы Open3DQSAR и Open3DALIGN (open3dqsar.sourceforge.net).
- Экспорт программ:
export PATH=$PATH:/home/preps/grishin/open3dtools/bin
- Нам дан набор из 88 веществ – ингибиторов тромбина compounds.sdf. Для 85 из них активность известна, для трех – предстоит предсказать.
Генерация конформаций и построение выравниваний:
obconformer 100 100 compounds.sdf > compounds_best_conformer.sdf open3dalign.sh >> import type=sdf file=compounds_best_conformer.sdf >>align object_list=1 >>save file=aligned.sdf
Затем был перекодирован этот файл:iconv -c -f utf-8 -t ascii aligned.sdf > aligned_ascii.sdf sed -e 's/.*HEADER.*\([0-9][0-9]\).*/\1/' -e 's/\(.*M END.*\)/\1\n$$$$/' aligned_ascii.sdf > temp sed -n '/^[0-9a-zA-Z \$\.-]*$/ p' temp > aligned_ok.sdf rm temp
- 3DQSAR анализ: скрипт
import type=sdf file=aligned_ok.sdf # Импорт файлов import type=dependent file=activity.txt box # Задаю решетку set object_list=60-85 attribute=TEST # Создание тестового набора set object_list=86-88 attribute=EXCLUDED calc_field type=VDW force_field=MMFF94 probe_type=CR # подсчет Ван-дер-Ваальсовых взаимодействий cutoff type=max level=5.0 field_list=1 # Ограничения на значения энергий cutoff type=min level=-5.0 field_list=1 zero type=all level=0.05 # Слишком маленькие значения энергии приравняем к 0 sdcut level=0.1 # Исключим из анализа ячейки, в которых nlevel вариабельность в энергии взаимодействия с remove_x_vars type=nlevel зондом для разных соединений мала pls # Построение регрессионной модели cv type=loo runs=20 # кросс-валидация predict
activity.txt - файл с активностями. Для трех последних соединений указана нулевая активность, так как их нужно предсказать. Исключим из анализа ячейки, в которых вариабельность в энергии взаимодействия с зондом для разных соединений мала: В результате выполнения программы PLS мы получили коэффициенты корреляции для разного количества компонентExp. Cum. exp. Exp. Cum. exp. PC var. X % var. X % var. Y % var. Y % SDEC r2 -------------------------------------------------------------------------- 0 0.0000 0.0000 0.0000 0.0000 0.9494 0.0000 1 15.9480 15.9480 32.8386 32.8386 0.7780 0.3284 2 5.1333 21.0813 36.3625 69.2011 0.5269 0.6920 3 4.6235 25.7048 15.6991 84.9002 0.3689 0.8490 4 3.8908 29.5956 7.5246 92.4248 0.2613 0.9242 5 4.0108 33.6064 2.8661 95.2909 0.2060 0.9529
Коэффициенты корреляции почти все больше 0.5. После кросс-валидации:PC SDEP q2 -------------------------- 0 0.9658 -0.0348 1 0.9164 0.0683 2 0.9733 -0.0509 3 0.9667 -0.0368 4 0.9880 -0.0829 5 0.9497 -0.0006
Предсказание активности для тестовых соединений:PC r2(pred) SDEP -------------------------- 0 0.0000 1.0362 1 0.2655 0.8881 2 0.3296 0.8484 3 0.2353 0.9061 4 0.2754 0.8821 5 0.2536 0.8953
После кросс-валидации коэффициенты корреляции сильно ухудшились, вплоть до отрицательных размеров. Предсказание дало положительный коэффициент корреляции, удерживающийся на уровне 0,25-0,3. - Теперь попробуем выполнить тот же анализ, но используя выравнивание и конформации, полученные с учетом структуры активного центра белка-мишени
Exp. Cum. exp. Exp. Cum. exp. PC var. X % var. X % var. Y % var. Y % SDEC r2 -------------------------------------------------------------------------- 0 0.0000 0.0000 0.0000 0.0000 0.9494 0.0000 1 12.1342 12.1342 48.4736 48.4736 0.6815 0.4847 2 13.2295 25.3637 14.5885 63.0621 0.5770 0.6306 3 7.6412 33.0049 13.2040 76.2661 0.4625 0.7627 4 8.0257 41.0305 4.3684 80.6345 0.4178 0.8063 5 6.0521 47.0827 3.8642 84.4987 0.3738 0.8450 кросс-валидация: PC SDEP q2 -------------------------- 0 0.9658 -0.0348 1 0.8027 0.2851 2 0.7664 0.3484 3 0.7061 0.4468 4 0.6735 0.4968 5 0.6401 0.5454 предсказание PC r2(pred) SDEP -------------------------- 0 0.0000 1.0362 1 0.3451 0.8385 2 0.3226 0.8529 3 0.2998 0.8671 4 0.3012 0.8662 5 0.2693 0.8858
Коэффициенты, полученные после кросс-валидации стали положительными, значит, эта модель лучше выдерживает кросс-валидацию. Коэффициенты, полученные в результате предсказания активноти, также выросли. Однако, коэффициенты после построения регрессионной модели уменьшились. В целом, качество модели можно считать лучше, чем качество предсказания модели, построенной для конформаций с минимальной энергией. - Предсказание активностей
> pls Exp. Cum. exp. Exp. Cum. exp. PC var. X % var. X % var. Y % var. Y % SDEC r2 -------------------------------------------------------------------------- 0 0.0000 0.0000 0.0000 0.0000 0.9749 0.0000 1 12.8375 12.8375 44.4004 44.4004 0.7269 0.4440 2 14.5264 27.3638 14.3748 58.7753 0.6260 0.5878 3 6.9607 34.3245 11.2007 69.9760 0.5342 0.6998 4 8.4659 42.7904 5.4939 75.4699 0.4828 0.7547 5 4.7600 47.5503 5.7466 81.2166 0.4225 0.8122
> predictPC r2(pred) SDEP -------------------------- 0 0.0000 6.6604 1 0.0294 6.5616 2 -0.0102 6.6942 3 0.0265 6.5717 4 -0.0480 6.8183 5 -0.0950 6.9696
По r2 видно, что наиболее близкие значения получаются при использовании 1 компоненты. Таким образом:# activity 86 7.0954 87 6.9300 88 5.5493