Andanotherone

Для первого задания была дана структура 3PVE. В этом задании нам было интересно найти остаток с минимальным и максимальным по структуре белка значением В-фактора. Оказалось, что минимальное среднее по своим атомам значение В-фактора имеет остаток ALA1515 из цепи В (8.218), а максимальное - GLY1636, цепь А (35.88). (Рис.1)

Рисунок 1. Минимальное значение В-фактора - остаток ALA1515 из цепи В (8.218), а максимальное - GLY1636, цепь А (35.88).

Глицин находится на поверхности белковой глобулы, поэтому обладает большей подвижностью. Аланин, с другой стороны, находится ближе к центру глобулы и участвует в формировании вторичной структуры (бета-листа) (Рис.2). Кроме того, аланин - достаточно небольшая аминокислота, поэтому 2 аминокислотные связи обеспечивают большую степень фиксации.

Рисунок 2. ALA1515 из цепи В.

В задании 2 нам было интересно посмотреть, есть ли какая-то зависимость среднего по атомам аминокислотного остатка значения В-фактора и расстояния его центра масс до центра масс всего белка. Чтобы посмотреть, есть ли закономерность была построена диаграмма рассеяния для одной цепи (Рис.3).

Рисунок 3. Зависимость B-фактора от расстояния между центрами масс в цепи А.

Можно заметить, что с удалением от центра масс средний В-фактор увеличивается, что, в общем-то, интуитивно понятно: на периферии белка подвижность остатков больше, поскольку там меньше стабилизирующих взаимодействий, а в центре наоборот находится основное количество аминокислот, образующих структуру.
Также были посчитаны корреляции по Пирсону (rho=0.61, p-val=8.97e-19) и по Спирману (rho=0.59, p-val=8.97e-18), можно предположить, что существует монотонная зависимость (не обязательно линейная, судя по Спирману).

Задание 3. Восстановление функции электронной плотности по экспериментальным данным

Цель практикума попытаться воспроизвести ход кристаллографического эксперимента на умозрительном и крайне упрощенном примере. Мы сами сгенерируем электронную плотность, разложим ее в ряд Фурье, а затем будем восстанавливать исходную функцию, имитируя ту или иную степень потери данных в ходе эксперимента.

При создании функции использовался ряд ограничений: атомы находятся на одном отрезке длиной 30 Å, электронная плотность атома описывается гауссовой кривой (максимум колокола находится в центре атома, в молекулах атомы располагаются на расстоянии 1-1,5 Å (ковалентная связь), молекулы на расстоянии 3-5 Å.

Для оценки качества восстановления модели использовали систему:

> Отличное восстановление – по графику восстановленной функции можно определить положение максимума всех гауссовых слагаемых функции ("атомов").
> Хорошее восстановление – можно угадать положение всех максимумов, зная число слагаемых ("атомов"), хотя на восстановленной функции максимумы от атомов не отличимы от шума.
> Среднее восстановление – положение каких-то атомов определить по восстановленной функции нельзя, других - можно
> Плохое восстановление – положение атомов определить не представляется возможным; можно только предсказать примерный размер "молекулы".

Создание модели

Функция, имитирующая распределение электронной плотности, задана на интервале [0,30] (30 здесь соответствует 30 Å). Она имеет вид суммы нескольких гауссовых кривых с центром в разных точках. Каждая гауссова функция задается уравнением gauss = lambda*exp(-(beta^2)*(X-gamma)^2). В данной формуле lambda — задает высоту гауссиана и отражает число электронов у атома. Beta задает ширину гауссиана (значение 3 cоответсвует ширине колокола плотности около 1 ангстрем, что похоже на реальную ситуацию). Gamma задает положение центра атома.
Функция была создана с помощью скрипта compile-func.py:

> %run compile-func.py -g 16,3,2+6,3,3.4+12,3,4.6+2,3,9+16,3,10.5+4,3,11.8 -o func.txt

Модель состоит из двух молекул и шести атомов (Рис. 4).

Рисунок 4. Моделируемая система

Восстановление электронной плотности

Амплитуды и фазы рассчитываются однозначно по входной функции ЭП (в реальности, не зная исходной электронной плотности, мы бы из эксперимента получили только амплитуды, а фазы восстанавливали бы из других экспериментов).
При моделировании экспериментальных данных учитывается, что в эксперименте, во-первых, определяются амплитуды не для всех сигналов; во-вторых, интенсивности сигналов (следовательно, и амплитуды) определяются с ошибкой; в-третьих, фазы определяется для всех измененных сигналов, но тоже с ошибкой. Поэтому мы искусственно искажаем вычисленные амплитуды и фазы, а также имитируем потерю данных.
Набор гармоник ряда Фурье называется полным, если известны все гармоники с номерами 0, 1, 2, ...,n. Было проведено восстановление ЭП по полным наборам гармоник (количество гармоник разное). Графики начальной (непрерывная линия) и восстановленной (пунктирная линия) функций электронной плотности можно увидеть ниже (Рис. 5-9).

Рисунок 5. Восстановление по полному набору гармоник с номерами от 0 до 10.

Рисунок 6. Восстановление по полному набору гармоник с номерами от 0 до 15.

Рисунок 7. Восстановление по полному набору гармоник с номерами от 0 до 23.

Рисунок 8. Восстановление по полному набору гармоник с номерами от 0 до 30.

Рисунок 9. Восстановление по полному набору гармоник с номерами от 0 до 35.

Можно заметить, что качество ЭП тем лучше, чем больше мы взяли гармоник, что достаточно закономерно. Так видно, что качество восстановления для полного набора до 10 гармоники включительно плохое (Рис. 5), для набора до 15 - среднее (Рис. 6), для набора до 23 - хорошее (Рис. 7), для наборов до 30 и до 35 - отличное (Рис. 8-9).

Восстановление ЭП по полному набору гармоник с номерами от 0 до 35

Поскольку мы хотим максимально приблизить наш эксперимент к реальности, для воссоздания неточностей в определении амплитуд и фаз мы добавляли к их значениям шум (Пример: -F 20 (шум 20%) приводит к тому, что к каждой амплитуде прибавляется случайное число, распределенное нормально с параметрами: среднее = 0, среднее квадратичное отклонение (сигма)=0.2*F. Аналогично действует параметр -P :число: )
Шум добавляли к полному набору гармоник от 0 до 35, без него качество восстановления было отличным. (Рис. 10-14)
При добавлении 30% шума к амплитудам качество сборки почти не снижается, хотя пики крупных атомов (с большим количеством электронов) остаются различимы, однако пики небольших атомов различить может быть сложно (Рис. 10)
При добавлении такого же шума к фазам (Рис. 11) качество снижается до среднего и в целом можно заметить, что уровень шума выше. Та же закономерность наблюдается в ситуации, когда добавляется 30% шума к амплитудам и 70% к фазам, и в ситуации наоборот (70% и 30% соответственно) (Рис. 13-14): не смотря на высокий уровень искажения амплитуд и сравнительно небольшой фаз, пики крупных атомов все равно различимы, тогда как повышение уровня искажения фаз и уменьшение его у амплитуд делает картинку практически нечитаемой. То есть неточности значения фаз сильнее искажают картину.

Рисунок 10. Восстановление с добавленным к амплитудам 30% гауссовым шумом.

Рисунок 11. Восстановление добавленным к фазам 30% гауссовым шумом.

Рисунок 12. Восстановление с добавленным к амплитудам и к фазам 30% гауссовым шумом.

Рисунок 13. Восстановление с добавленным к амплитудам 30%, а к фазам 70% гауссовым шумом.

Рисунок 14. Восстановление с добавленным к амплитудам 70%, а к фазам 30% гауссовым шумом.

Восстановление по неполному набору гармоник

Чаще всего набор гармоник, который мы получаем, является неполным. Поэтому нам интересно посмотреть, как изменяется наша ЭП в зависимости от того, какие гармоники отсутствуют. (Рис. 15-19)
Можно увидеть, что потеря первых гармоник особо не влияет на качество восстановления (Рис. 15), график немного просел по оси ординат, но все пики остались на месте, качество - отличное (за разрешение этого набора взята гармоника с номером 35). При удалении части гармоник из середины картина несколько ухудшается (Рис. 16-17): качество становится средним, некоторые атомы практически неразличимы на уровне шума. Однако при потере гармоник ближе к концу качество меняется несильно (Рис. 18), его даже можно назвать отличным. Добавление "старшей" по номеру гармоники в набор на качество практически не влияет (Рис. 19). Разрешение для этих гармоник выбиралось так, чтобы полнота данных составляла минимум 90%.