Task4

In [3]:

betas = []
names = []
for residue in prot.iterResidues():
    if "CA" in residue.getNames():
        mean_beta = np.mean(residue.getBetas())
        betas.append(mean_beta)
        names.append(residue)
betas = np.array(betas)
names = np.array(names)

<ipython-input-3-db3fa53bc7a3>:9: VisibleDeprecationWarning: Creating an ndarray from ragged nested sequences (which is a list-or-tuple of lists-or-tuples-or ndarrays with different lengths or shapes) is deprecated. If you meant to do this, you must specify 'dtype=object' when creating the ndarray.
  names = np.array(names)

Остаток с максимальным средним b-фактором

Остаток с минимальным средним b-фактором

В белке эти остатки расположены следующим образом:

Остаток с минимальным значением фактора является частью альфа-спирали. Его боковой радикал представлен атомом водорода, то есть у этой аминокислоты у самой по себе мало степеней свободы движения, и она является частью стабильной структуры.

Остаток с максимальным значением фактора принадлежит неупорядоченному фрагменту структуры белка, а также он имеет длинный радикал экспонированный наружу. Всё это делает остаток очень подвижным.

Распределение значений фактора бета вдоль углеродного скелета молекулы выглядит следующим образом:

	atom	beta
0	CA	30.18
1	CB	36.95
2	CG	53.87
3	CD	60.22

То есть чем дальше атом находится от альфа атома, тем выше его b-фактор.

Задание 2. Prody и B-факторы часть 2¶

Зависимость значения B-фактора от расстояния до центра масс, представлена ниже:

In [30]:

from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression


polynomial_regression = Pipeline([
    ("poly_features", PolynomialFeatures(degree=2, include_bias=False)),
    ("lin_reg", LinearRegression())
    ])

B_model = polynomial_regression.fit(dists[betas<15].reshape(-1, 1), betas[betas<15].reshape(-1, 1))

dists_mesh = np.arange(0, 22, 0.01).reshape(-1, 1)
betas_predicted = B_model.predict(dists_mesh)

Мы видим, что за рядом исключений, значения B-фактора монотонно зависят расстояния аминокислоты до центра масс. Более того эту зависимость можно характеризовать, как квадратичную.

Исключением из наблюдаемой зависимости является группа остатков со значениями B-фактора больше 15. Они находятся на большом расстоянии центра масс. Высокие значения B-фактора характеризуют высокую подвижность этих остатков. Возможно они принадлежат либо линкерным участкам на поверхности глобулы, либо концам аминокислотной последовательности.

Задание 3. Как работает восстановление функции электронной плотности по экспериментальным данным¶

В этом задании мы провели моделирование одномерного PCA эксперимента. Для этого мы сначала задали электронную плотность и разложили её в ряд Фурье с помощью команды:

compile_func.py -g 17.5,3,8+41.8,3,11+11.6,3,15+93,3,29

Затем мы проводили восстановление электронной плотности, используя разное количество гармоник.

Изначальная функция¶

Полный набор гармоник¶

Первые 5 гармоник:¶

Плохое качество – определить положение атомов невозможно

Первые 15 гармоник:¶

Среднее качество – положения первого и третьего атомов плохо определяются

Первые 30 гармоник:¶

Хорошее качество – можно точно определить положение всех атомов

Первые 45 гармоник:¶

Хорошее качество – можно точно определить положение всех атомов

Первые 60 гармоник:¶

Хорошее качество – можно точно определить положение всех атомов

Вывод:¶

При увеличении количества гармоник качество сигнала возрастает, при этом сигналы становятся полностью различимы уже при 30 гармониках.

Неполный набор гармоник¶

Мы также изучили, как использование неполного набора гармоник влияет на восстановление функции.

Гармоники на отрезке от 5 до 30:¶

По сравнению с плотностью, построенной на отрезке 0-30, качество сильно ухудшилось. Первый и третий пики не разобрать. Наблюдается сильная осцилляция фона, который в норме должен быть равен нулю.

Гармоники на отрезке от 10 до 60:¶

По сравнению с плотностью, построенной на отрезке 0-60, качество сильно ухудшилось. Первый и третий пики не разобрать.

Гармоники на отрезках от 0 до 20 и от 25 до 60:¶

По сравнению с плотностью, построенной на отрезке 0-60, качество ухудшилось. Третий пик не разобрать.

Гармоники на отрезке от 0 до 15 и 60 гармоника:¶

В сравнении с плотностью, построенной на отрезке 0-15, почти ничего не изменилось.

Вывод:¶

Для хорошего восстановления электронной плотности неободим весь набор гармоник на отрезке. Если пропустить всего лишь 5 гармоник в начале или в середине – качество сигнала становится средним или плохим.

Добавление шума¶

Мы также исследовали, как добавление шума влияет на восстановление электронной плотности

Добавление 20% шума по фазам к первым 60 гармоникам:¶

Качество очень сильно ухудшается. Первые три пика почти не различимы.

Добавление 20% шума по амплитудам к первым 60 гармоникам:¶

Качество не так сильно ухудшается,в целом остается хорошим. Все пики различимы.

Вывод:¶

Добавление шума по фазам сильнее влияет на сигнал, чем добавление шума по амплитудам. Даже при добавлении значительного количества шума по амплитудам качество остается хорошим.

Python для структур и не только¶

Задание 1. Prody и B-факторы часть 1¶

Задание 2. Prody и B-факторы часть 2¶

Задание 3. Как работает восстановление функции электронной плотности по экспериментальным данным¶

Изначальная функция¶

Полный набор гармоник¶

Первые 5 гармоник:¶

Первые 15 гармоник:¶

Первые 30 гармоник:¶

Первые 45 гармоник:¶

Первые 60 гармоник:¶

Вывод:¶

Неполный набор гармоник¶

Гармоники на отрезке от 5 до 30:¶

Гармоники на отрезке от 10 до 60:¶

Гармоники на отрезках от 0 до 20 и от 25 до 60:¶

Гармоники на отрезке от 0 до 15 и 60 гармоника:¶

Вывод:¶

Добавление шума¶

Добавление 20% шума по фазам к первым 60 гармоникам:¶

Добавление 20% шума по амплитудам к первым 60 гармоникам:¶

Вывод:¶