Python для структур и не только

Python для структур и не только

Prody и B-факторы

С помощью пакета Prody были найдены средние B-факторы остатков в составе белка 3Q6V. Под B-фактором остатка в данном случае понимается среднее значение B-факторов всех атомов в его составе. Наибольшим средним B-фактором среди аминокислотных остатков (36.487) характеризуется пролин 305 в цепи A (красный на рисунке 1). Все составляющие его атомы обладают достаточно большим температурным фактором: от 36.09 у CD атома, до 37.18 у кислорода. Pro-305 является C-концевым, окружён в основном молекулами растворителя, более того этот аминокислотный остаток расположен на конце достаточно "подвижной" &alpha-спирали.
Наименьший средний B-фактор, равный 7.945, имеет глицин 84 в цепи B (синий на рисунке 1). Здесь разброс температурных факторов атомов немного больше, чем в пролине: от 7.42 у азота до 8.92 у кислорода. Этот остаток находится почти в центре белковой глобулы и окружен высокоорганизованными элементами вторичной структуры (рисунок 2). Глицин является маленькой аминокислотой, радикал которой состоит по сути только из водорода, поэтому две ковалентные (аминокислотные) связи с высокоструктурированным окружением обеспечивают ему большую степень фиксации.

Рисунок 1: аминокислоты с самым большим и самым маленьким B-фактором в белке 3Q6V (раскраска по B-фактору с максимумом 50, подвижные аминокислоты — красные, наиболее фиксированные — синие).

Рисунок 2: окружение GLY-84 chain B в белке 3Q6V (раскраска по B-фактору с максимумом 50, подвижные аминокислоты — красные, наиболее фиксированные — синие).

Как показано в предыдущем задании средний B-фактор аминокислоты в составе белка зависит от окружения. Чтобы посмотреть, есть ли закономерность между B-фактором остатка и расстоянием от его центра масс до центра масс всего белка была построена диаграмма рассеяния (рисунок 3). В записи PDB для данного белка содержится две идентичных белковых глобулы, диаграмма построена для одной из них ("цепи А"). На графике видно, что с удалением от центра масс средний B-фактор остатков увеличивается. Как было упомянуто в предыдущих практикумах, подвижность аминокислот по периферии обычно больше, так как там меньше стабилизирующих взаимодействий. Аналогичное рассуждение может быть верно для центра масс, так как у большинства белков именно там находиться основное количество аминокислот, образующих упорядоченную структуру.

Рисунок 4: соотношение B-фактора остатка в составе единичной глобулы белка 3Q6V и расстояния от центра масс остатка до центра масс глобулы (линия тренда добавлена, чтобы показать характер монотонности).

Моделирование восстановления функции ЭП по экспериментальным данным

В этом задании было смоделировано восстановление функции электронной плотности по экспериментальным данным. Была создана функция в одномерном пространстве имитирующая значительно упрощенную версию начальных, "экспериментальных", данных. При создании функции использовался ряд ограничений: атомы находятся на одном отрезке длиной 30 Å, электронная плотность атома описывается гауссовой кривой (максимум колокола находится в центре атома, в молекулах атомы располагаются на расстоянии 1-1,5 Å (ковалентная связь), молекулы на расстоянии 3-5 Å. Полученную функцию разложили в ряд Фурье, затем несколько раз восстановили исходную функцию, имитируя разную степень потери и искажения данных. Для оценки качества восстановления модели использовали систему:


Создание модели:
Функция, имитирующая распределение электронной плотности, задана на интервале [0,30] (30 здесь соответствует 30 Å). Она имеет вид суммы нескольких гауссовых кривых с центром в разных точках. Каждая гауссова функция задается уравнением gauss = lambda*exp(-(beta^2)*(X-gamma)^2). В данной формуле lambda — задает высоту гауссиана и отражает число электронов у атома (для водорода lambda взята равной 2, для остальных атомов — четырехкратному количеству электронов у них). Beta задает ширину гауссиана (значение 3 cоответсвует ширине колокола плотности около 1 ангстрем, что похоже на реальную ситуацию). Gamma задает положение центра атома. Функция ЭП трех молекул, состоящих из в общем семи атомов, была создана, как сумма семи гауссовых функций, с параметрами: lambda — 2, 2, 24, 32, 28, 32, beta — 3 (для всех семи атомов), gamma — 1, 2, 7, 8.5,12.5, 13.75. График полученной функции приведен на рисунке 4.

Рисунок 4: модельная функция ЭП системы из трех молекул, включающей суммарно семь атомов.


Восстановление электронной плотности:
По входной функции ЭП амплитуды и фазы рассчитываются однозначно, однако в реальном эксперименте можно было бы получить только амплитуды, а фазы восстанавливать из других экспериментов, к тому же амплитуды определяются не для всех сигналов, а фазы и амплитуды определяются с ошибкой. Поэтому в модели мы искусственно мы создаем искажение вычисленных амплитуд и фаз, а также имитируем потерю определенной части данных.
Набор гармоник ряда Фурье называется полным, если известны все гармоники с номерами 0, 1, 2, ...,n. Было проведено восстановление ЭП по полным наборам, содержащим различное количество гармоник (рисунки 5-8). Достаточно закономерно что, качество восстановления ЭП тем лучше, чем больше гармоник содержит полный набор. Для полного набора до 10-ой гармоники включительно качество восстановления плохое (рисунок 5), для набора до 16-ой — среднее (рисунок 6) до 22-ой уже хорошее (рисунок 7), до 35-ой — отличное (рисунок 8).

Рисунок 5: графики начальной (непрерывная линия) и восстановленной (пунктирная линия) функций электронной плотности. Восстановление по полному набору гармоник с номерами от 0 до 10.

Рисунок 6: графики начальной (непрерывная линия) и восстановленной (пунктирная линия) функций электронной плотности. Восстановление по полному набору гармоник с номерами от 0 до 16.

Рисунок 7: графики начальной (непрерывная линия) и восстановленной (пунктирная линия) функций электронной плотности. Восстановление по полному набору гармоник с номерами от 0 до 22.

Рисунок 8: графики начальной (непрерывная линия) и восстановленной (пунктирная линия) функций электронной плотности.

Восстановление по полному набору гармоник с номерами от 0 до 35.

Как упоминалось ранее, фазы и амплитуды определяются в эксперименте с ошибкой, поэтому в модели были искусственно воссозданы данные неточности (при F=20 (шум 20%), например, к каждой амплитуде прибавляли бы случайное число, распределенное нормально с параметрами: среднее = 0, среднее квадратичное отклонение (сигма)=0.2*F). Шум добавляли к полному набору из 35 гармоник, без шума он дает отличное восстановление ЭП (рисунки 9-13). При добавлении 25% шума к амплитудам (рисунок 9), пики, соответствующие ЭП различных атомов, остаются различимы, однако пики атомов водорода перестают отличаться по высоте от незначащих колебаний, качество разрешения хорошее. При добавлении шума той же силы к фазам (рисунок 10) качество разрешения снижается до среднего (шум в целом увеличивается сильнее). Та же тенденция наблюдется если сравнить разрешения при добавлении 25% шума к амплитудам, 75% к фазам или наоборот (75% к амплитудам и 25% к фазам), рисунки 12-13. В первом случае, не смотря на высокий уровень искажения амплитуд, график восстановленной ЭП остается читаемым. Для всех атомов, кроме атомов водорода, на нем есть отчетливые пики. В то же время при сравнительно меньшем уровне искажения амплитуд и сильном искажении фаз, качество восстановления становиться плохим (пики, соответствующие «реальным» атомам такой же высоты, как и шум). То есть искажение фаз приводит к более сильному ухудшению разрешения.

Рисунок 9: графики начальной (непрерывная линия) и восстановленной (пунктирная линия) функций электронной плотности. Восстановление по полному набору гармоник с номерами от 0 до 35 с добавленным к амплитудам 25% гауссовым шумом.

Рисунок 10: графики начальной (непрерывная линия) и восстановленной (пунктирная линия) функций электронной плотности. Восстановление по полному набору гармоник с номерами от 0 до 35 с добавленным к фазам 25% гауссовым шумом.

Рисунок 11: графики начальной (непрерывная линия) и восстановленной (пунктирная линия) функций электронной плотности. Восстановление по полному набору гармоник с номерами от 0 до 35 с добавленным к фазам и амплитудам 25% гауссовым шумом.

Рисунок 12: графики начальной (непрерывная линия) и восстановленной (пунктирная линия) функций электронной плотности.

Восстановление по полному набору гармоник с номерами от 0 до 35 с добавленным гауссовым шумом: 75% — к амплитудам, 25% — к фазам.

Рисунок 13: графики начальной (непрерывная линия) и восстановленной (пунктирная линия) функций электронной плотности. Восстановление по полному набору гармоник с номерами от 0 до 35 с добавленным гауссовым шумом: 25% — к амплитудам, 75% — к фазам.

Полученный в ходе эксперимента набор гармоник чаще всего не является полным, поэтому также провели восстановление ЭП по неполным наборам гармоник. При потере первых двух начальных гармоник (рисунок 14) почти не изменяется положение пиков функции, однако появляется значительное колебание "базовой линии". В данном примитивном примере, смотря на график, можно определить положение всех атомов, хотя пики атомов водорода можно отличить от шума, только если изначально знать об их наличии в системе. Таким образом, для какого-либо численного анализа такие данные не очень подходят. Чтобы проверить, как влияет номер «исключенных» гармоник на качество восстановление, построили ЭП по трем неполным наборам, в каждом из которых отсутствовало одинаковое количество гармоник, но в разных местах (результаты приведены на рисунках 15-17). При потере гармоник ближе к началу набора (рисунок 15) пики, соответствующие атомам водорода почти неразличимы, однако, чем ближе исключенные гармоники к концу набора, тем более явные эти пики, хотя амплитуда значительно не снижается. При добавлении к рассматриваемым 35 гармоникам еще 45-ой качество восстановления значительно не меняется, оно, как и было, остается отличным. В качестве разрешения неполного набора гармоник принимался период гармоники с наибольшим номером в наборе, но таким образом, чтобы полнота данных от 0 гармоники до выбранной была не менее 90%.

Рисунок 14: графики начальной (непрерывная линия) и восстановленной (пунктирная линия) функций электронной плотности. Восстановление по неполному набору гармоник с номерами 2-35.

Рисунок 15: графики начальной (непрерывная линия) и восстановленной (пунктирная линия) функций электронной плотности. Восстановление по неполному набору гармоник с номерами 0-5, 9-35.

Рисунок 16: графики начальной (непрерывная линия) и восстановленной (пунктирная линия) функций электронной плотности. Восстановление по неполному набору гармоник с номерами 0-15, 19-35.

Рисунок 17: графики начальной (непрерывная линия) и восстановленной (пунктирная линия) функций электронной плотности. Восстановление по неполному набору гармоник с номерами 0-25, 29-35.

Рисунок 18: графики начальной (непрерывная линия) и восстановленной (пунктирная линия) функций электронной плотности. Восстановление по неполному набору гармоник с номерами 0-35, 45.

Результаты практикума в виде таблицы.

Седьмой семестр (осенний семестр 2020)


© Болихoва Анастасия 2020