Задание 1. Prody и B-факторы часть 1

В этом практикуме используем тот же PDB id, что и в предыдущем, - 3CZF. При помощи библиотеки prody найдём остаток, средний B-фактор которого максимален. Таким остатком является GLN 226 цепи А, его средний B-фактор составляет 31.56. Стандартное отклонение B-факторов атомов для данного остатка - 2.72. B-факторы наиболее велики у азота и кислорода радикала. Наблюдается возрастание B-факторов в направлении от остова.

Остаток, средний B-фактор которого минимален - GLY 26 цепи A. Средний B-фактор равен 5.74 со стандартным отклонением 0.28.

Рассмотрим положение обоих остатков на структуре (рис. 1).

Рис. 1. Остатки с максимальным (GLN 226) и минимальным (GLY 26) B-факторами

Глутамин расположен в петле и торчит на поверхности, в то время как глицин спрятан внутри белковой глобулы. Глицин находится в бета-листе, его соседи - тирозин и валин, и, в целом, окружение гидрофобное, что и обуславливает минимальную подвижность данного участка.

Задание 2. Prody и B-факторы часть 2

Посмотрим, как связаны B-фактор и положение остатка относительно центра масс белка. Найдём центр масс, а также средний B-фактор каждого остатка. Вычислим центр масс всего белка и посчитаем расстояние от него до центра масс остатков. На рис. 2 приведён scatter plot зависимости B-фактора от расстояния до центра белка.

Видно, что точки на графике расположены неслучайно, наблюдается нечто похожее на линейную зависимость. Более строго, коэффициент корреляции Пирсона равен 0.5 с p-value 1e-25. Если пытаться описать данные линейной зависимостью, то можно заметить, что на малых растояниях она неплохо соответствует наблюдениям, однако с увеличением расстояния дисперсия увеличивается, прямая проходит через очень малое число экспериментальных точек. Видно, что к концу облако точек как бы раздваивается, что наводит на мысль о существовании двух разных зависисимостей. Заметим ещё, что точки явно не независимы на графике: они собираются в цепочки по три и более. Скорее всего, такие цепочки соответствуют элементам вторичной структуры. Если разделить точки на два класса по положению относительно проведённой прямой, то коэффициенты корреляции Пирсона для них будут 0.79 и 0.65. Посмотрим, где на структуре расположены остатки, принадлежащие двум этим группам.

Рис. 2. Зависимость B-фактора от расстояния до центра масс белка. Scatterplot (верх.) и density plot (ниж.). Красная линия на верхнем графике соответствует лучшему линейному приближению. На графике плотности заметно два "рога".
Рис. 3. Розовым покрашены остатки, лежащие выше красной прямой на предыдущем рисунке, синим - ниже.

Не наблюдаем двух сортов остатков или двух вторичных структур, которые с точки зрения изучаемой зависимости вели бы себя по-разному. Похоже, что на достаточно большом расстоянии от центра масс зависимости просто нет: действительно, откуда остатку знать, находится он на расстоянии 20 Å от центра или 25. Предположу, что на маленьких расстояниях наличие зависимости связано с тем, что положение центра масс может примерно соответствовать положению гидрофобного ядра, и остатки вблизи ядра будут менее подвижны.

Задание 3. Как работает восстановление функции электронной плотности по экспериментальным данным

В этом задании мы рассматриваем игрушечный одномерный пример, иллюстрирующий восстановление функции электронной плотности по экспериментальным данным.

Мы сами задаём функцию электронной плотности на отрезке длиной 30 Å. Функция имеет вид суммы нескольких гауссовых кривых с центром в разных точках. Иногда - на расстоянии 1-1.5 Å - модель ковалентно связанных атомов; иногда 3-5 Å (расстояние между молекулами). В моей молекулярной системе будет 3 молекулы: с двумя, тремя и одним атомом. Электронная плотность такой системы представлена на рисунке 4.

Рис. 4. Смоделированная электронная плотность.

Теперь смоделируем эксперимент. При моделировании экспериментальных данных учитывается, что в эксперименте, во-первых, определяются амплитуды не для всех сигналов; во-вторых, интенсивности сигналов (следовательно, и амплитуды) определяются с ошибкой; в-третьих, фазы определяются для всех измененных сигналов, но тоже с ошибкой.

В итоге, мы получаем наборы смоделированных экспериментальных данных, по которым можем начать восстанавливать нашу исходную электронную плотность, с целью сравнить ее с исходной, и определить как именно неполнота данных из эксперимента влияет на качество восстановления электронной плотности.

Результаты наших компьютерных экспериментов приведены в следующей таблице:

Набор гармоник Разрешение
(Å)
Полнота данных
(%)
Шум амплитуды (% от величины F) Шум фазы
(% от величины phi)
Качество восстановления
(отличное, хорошее, среднее, плохое)
Комментарии
Полный набор гармоник
0–498 0.06 100% 0 0 Отличное
0–200 0.15 100% 0 0 Отличное
0–100 0.3 100% 0 0 Отличное
0-50 0.6 100% 0 0 Отличное
0-30 1 100% 0 0 Отличное
0-20 1.5 100% 0 0 Среднее
Низкие пики уже неотличимы от шума. Число гармоник, при котором мы точно ничего не потеряем, примерно равно 30
0-30 1 100% 10 0 Отличное
Несмотря на погрешность, структуру можно восстановить
0-30 1 100% 0 10 Среднее
Низкие пики неотличимы от шума. Таким образом, можем видеть, более точно измерить фазу критичнее, чем модуль
0-30 1 100% 10 10 Среднее
Низкие пики неотличимы от шума
Неполный набор гармоник
2–30 1 93% 0 0 Отличное Первые гармоники практически не влияют на качество, в реальном эксперименте мы их и не сможем получить
1-10,15-30 1 83% 0 0 Среднее
Пропажа средних гармоник куда более ощутима: невозможжно отличить малые пики от шума
1-10,15-30,40 1 83% 0 0 Среднее Для подсчёта разрешения выбрана гармоника с номером 30, а не 40, потому что в противном случае полнота данных составила бы 62,5%. И, кроме того, одна гармоника с хорошим разрешением не спасает от потери низких пиков.
Ссылка на папку с картинками

© Быкова Даша, 2020