Prody и электронная плотность



Задание 1. Prody и B-факторы часть 1

Многие задачи структурной биоинформатики требуют использования автоматизированного инструмента для корректной работы с большим массивом данных. Примером такого инструмента является пакет Prody, написанный на языке программирования Python. Он позволяет анализировать структуру белка, например, с его помощью можно узнать остаток, средний В-фактор атомов которого максимален. Для примера возьмем PDB ID 6AF7, для него таким остатком является LYS 188 со средним значением 46.95, причем распределение значений структурного фактора для атомов этого остатка оказалось следующим:

Таблица 1. Распределение В-фактора остатка LYS 188

Имя атома
В-фактор
N
21.12
CA
28.51
C
41.03
O
53.24
CB
31.67
CG
40.79
CD
54.86
CE
64.77
NZ
86.54


Из приведенной выше таблицы можно сразу сделать вывод о позиции этого остатка в белке. Так, структурный фактор атомов углерода и кислорода карбонильной группы остова LYS 188 заметно выше, чем у остальных остовных атомов, что говорит о возможной С-концевой позиции. Также наблюдается увеличение В-фактора к концу боковой цепи, что говорит о возможной подвижности этого радикала.

Аналогично можно вычислить остаток белка, среднее В-фактора атомов которого минимально. В этой структуре этим остатком оказался ASP 24 со значением 8.63. Теперь посмотрим на расположение этих двух остатков в структуре:

Рис.1 Положение остатков LYS 188 и ASP 24 в структуре белка

На рис.1 можно убедиться, что остаток лизина занимает С-концевое положение и полностью окружен раствором, в то время как остаток аспартата находится в составе альфа спирали и окружен гидрофобными остатками, также образует водородную связь с боковой группой аргинина:



Рис.2 Окружение ASP 24, водородная связь показана желтым пунктиром



Ссылка на скрипт: prody_bfactor.ipynb

Задание 2. Prody и В-факторы часть 2

Используя такой инструмент как Prody, можно рассчитать положения геометрического центра и центра масс белка, что может быть полезно, например, при анализе распределения значений структурного фактора в белке. Так, можно построить график зависимости среднего значения В-фактора остатка от удаленности его центра масс от центра масс всей структуры:



Рис.3 Зависимость среднего значения В-фактора остатка от удаленности его центра масс от центра масс всего белка.



На графике на рис.3 можно заметить, что на участке по оси Х от 0 до 6 ангстрем В-фактор принимает значения в районе 10, на участке после 6 ангстрем появляется разброс этих значений, причем увеличивающийся по мере удаленности центра масс остатка от центра масс всей структуры, при этом значения В-фактора также увеличиваются, однако общая тенденция остается в районе 10, что может говорить о слабой подвижности всей структуры.

Ссылка на скрипт: prody_bfactor2.ipynb

Задание 3. Как работает восстановление функции электронной плотности (ЭП) по экспериментальным данным

В этом задании было предложено смоделировать восстановление функции "реальной" ЭП по "экспериментальным" данным. Для этого были использованы различные скрипты на python:

python compile-func.py -g 2,3.5,3+10,3,4+2,3.5,5+2,3.5,10+10,3,11+2,3.5,12

python func2fourier.py -F x -P y

python fourier-filter.py -r x-y,z-w

python fourier2func.py -f func.txt -i func_ft_filtered.txt -o two_func.txt


В качестве модели были взяты две молекулы НОН на расстоянии 5 ангстрем, причем длины связей О-Н полагались равными 1 ангстрем. Для начала надо было найти такой номер гармоники n0, что для полного набора гамроник 1,...,n0 разрешение можно было считать отличным, то есть видны все пики гауссовых слагаемых или "атомов".

Таблица 1. Восстановление функции по коэффициентам ряда Фурье. Полный набор гармоник

Набор гармоник
Разрешение (А)
Полнота данных (%)
Шум амплитуды (% от величины F)
Шум фазы (% от величины phi)
Качество восстановления
График исходной и восстановленной ЭП
0-1
30
100
0
0
плохое
0-10
3
100
0
0
среднее
0-20
1.5
100
0
0
хорошее
0-30
1
100
0
0
отличное
0-30
1
100
5
5
отличное
0-30
1
100
10
10
хорошее
0-30
1
100
15
15
хорошее
0-30
1
100
20
20
среднее




В Таблице 1 видно, что такое n0 соответствует величине 30, для набора 0-1 пики вообще неразличимы и качество модели плохое, для набора 0-10 можно уже выделить пики атомов с большим количеством электронов, то есть кислорода, и качество можно считать средним, для набора 0-20 уже появляются пики соседних водородов, которые, впрочем, мало отличимы от шума, качество можно назвать хорошим, наконец, для набора 0-30 хорошо выделяются пики, соответствующие всем атомам системы, такое качество является отличным. Для последнего полного набора гармоник было произведено моделирование ошибки при подсчете модулей и фаз структурного фактора в размере 5, 10, 15 и 20 %. В результате это увеличило амплитуды пиков шума и ухудшило качество восстановления ЭП, в то время как в случае меньшего полного набора гармоник происходит просто потеря данных.

Далее надо было из полного набора гармоник 0-30 исключить начальные гармоники, гармоники, расположенные в середине выборки, и добавить выбивающуюся гармонику с лучшим разрешением, то есть гармонику с номером, превышающим на 10 n0, и оценить качество полученного восстановления. Для рассмотрения эффекта только неполноты набора ошибки при подсчете модулей и фаз были исключены.

Таблица 2. Восстановление функции по коэффициентам ряда Фурье. Неполный набор гармоник

Набор гармоник
Разрешение (А)
Полнота данных (%)
Шум амплитуды (% от величины F)
Шум фазы (% от величины phi)
Качество восстановления
График исходной и восстановленной ЭП
3-30
1
90.32
0
0
отличное
0-10,14-30
1
90.32
0
0
отличное
0-20,23-30
1
93.55
0
0
хорошее
0-30,40
1
100
0
0
отличное


В Таблице 2 видно, что в случае отсутствия первых гармоник ожидаемо наблюдается более скачкообразный шум, но качество все еще можно считать отличным, для случая исключения 9.68 % гармоник в начале набора все пики все еще можно отличить от шума, качество отличное, хотя опять же заметно увеличение шума, для случая исключения 6.45 % гармоник ближе к концу набора пики шума становятся настолько большими, что отличить пики "атомов" водорода представляется сложным. При добавлении гармоники с номером 40 заметных улучшений не наблюдается и качество остается отличным, здесь за разрешение я взяла 1, потому что полнота данных в данном случае составляет 100 %, в то время как для разрешения 0.75 полнота набора гармоник - 78.05 %, а хотелось бы больше 90 %.

В целом мы видим, что чем больше гармоник мы "видим" в эксперименте тем лучше, причем в случае неполного набора, если полнота не ниже 90 %, результат можно считать удовлетворительным, наличие шума ниже 15 % также не приводит к значительному ухудшению.



©Makarikova Olga 2020