Практикум 3. Структурная биоинформатика в Python

Задание 1. Prody и B-факторы (часть 1)

В этом задании я работала со структурой из практикума 2 (7B94). Я применяла ProDy - пакет для Python, служащий для анализа белковых структур и динамики. Были найдены остатки с наибольшим и наименьшим средним B-факторам (среднее вычислялось по атомам, входящим в состав остатка). Получилось, что максимальным по структуре значением B-фактора обладает сульфат-анион (SO4 404). Этот лиганд с белком не связан и плавает в растворе, так что я рассмотрела следующий по убыванию B-фактора аминокислотный остаток. Им оказался C-терминальный остаток аспарагина (ASP-382). Действительно, его боковая цепь обращена к раствору. Минимальным B-фактором характеризуется остаток глицина GLY-250. Этот остаток находится в альфа-спирали, которая является стабильной структурой. Их расположение можно посмотреть на Рисунках 1 и 2.

При том что 2 цепи белка идентичны, аналогичные атомы остатков в разных цепях имеют разные значения B-фактора. Поэтому я изобразила остатки, принадлежащие разным цепям.

varA
Рисунок 1. Положение остатков с максимальным и минимальным средним B-фактором в структуре 7B94

GLY-250 образует водородные связи с атомами остова других аминокислот (характерные для альфа-спиралей). Кроме того, этот остаток находится в гидрофобном окружении.

varB
Рисунок 2. Взаимодействия остатка GLY-250.

Задание 2. Prody и B-факторы часть 2

Для каждого остатка вашего белка я вычислила средний B-фактор по его атомам и его центр масс. Для каждого остатка было найдено расстояние от его центра масс до центра масс всего белка. На Рисунке 3 отражена зависимость B-фактора от расстояния до центра белка.

Я предполагаю, что зависимость имеет такой характер, поскольку для двухсубъединичного белка центр масс попадет примерно в место контакта субъединиц. Субъединицы контактируют неплотно, и в "щель" попадают молекулы растворителя. При отдалении от этой области в целом атомы характеризуются меньшим B-фактором. В эту зоны попадает больше остатков, входящих в состав доменов. По мере отдаления от центра масс значение B-фактора растет, так как попадает всё больше остатков, относящихся к поверхности белка.

Scatter
Рисунок 3. Зависомость значения B-фактора от расстояния а.о. до центра массы белка.

Задание 3. Восстановление функции электронной плотности по экспериментальным данным

Для начала я сгенерировала функцию электронной плотности. Мы задавали функцию на интервале [0, 30], подразумевая длину 30 ангстрем. Она представляет собой сумму нескольких гауссовых кривых с цетром в разных точках. В нашей модели расстояния между атомами составляли 1-1,5 ангстрем (длина ковалентной связи), расстояния между молекулами брались в интервале 3-5 ангстрем. Я создала систему из двух молекул с двумя и тремя атомами.

Уже написанный скрипт принимает на вход характеристики атомов и положение на отрезке. Гауссова функция определялась тремя числами: первое задает высоту колокола (имитация числа электронов данного атома), второе задает ширину колокола (было подобрано, что её хорошо описывает значение ~3), третье задает положение центра атома. Атомы разделены знаком +. Первая команда выглядела так:

%run compile-func.py -g 5,3,3+36,3,4.3+15,3.5,5.4+26,3,9.4+8,3,10.8
Scatter
Рисунок 1. Сгенерированная модель функции электронной плотности.

Я строила графики восстановленной функции по разным полным наборам гармоник. В итоге восстановления по полному набору гармоник я считаю, что набор гармоник 0-40 наиболее оптимален, и в следующих задачах я использовала его.

Таблица 1. Полный набор гармоник.
График Набор гармоник Разрешение (А) Полнота данных (%) Шум амплитуды (%) Шум фазы (%) Качество восстановления Комментарии
0–2 - 100% 0 0 Плохое Не определяются молекулы и атомы, только видно, в какой части отрезка они находятся
0–10 5 100% 0 0 Плохое Различаются отдельные молекулы
0–20 2 100% 0 0 Среднее Различим даже водород
но не различает 2 близко расположенных атома,
создается ложный пик
0–30 1 100% 0 0 Отличное Четко видно все атомы, но повторяет функция не целиком
0–40 0.75 100% 0 0 Отличное Отличное восстановление.
Есть шум, но он минимален.
0–60 0.75 100% 0 0 Отличное Идеальное восстановление

Жизнь неидеальна. Поэтому далее я проводила восстановление по полному набору гармоник (0-40) с зашумлением. Шум амплитуды можно добавить с помощью параметра -F с указанием уровня помехи в %. Также можно указать желаемый шум по фазе с параметром - P. Пример команды для полного набора гармоник с шумом:

 run func2fourier.py -i func.txt -o outF25.txt -F 25 -P 20
Таблица 2. Полный набор гармоник c помехами.
График Набор гармоник Разрешение (А) Полнота данных (%) Шум амплитуды (%) Шум фазы (%) Качество восстановления Комментарии
0–40 0.75 100% 20% 0 Отличное Зашумление 20% по амплитуде
радикально не ухудшило восстановление,
хотя "водород" уже выделить не так просто
0–40 0.75 100% 50% 0 Среднее Зашумление 50% по амплитуде
ухудшило читаемость: атомы с меньшим числом электронов неразличимы
0–40 0.75 100% 75% 0 Среднее Зашумление 75% по амплитуде: сложно читать, более менее различимы 2 атомы с большим числом электронов

0–40 0.75 100% 0 25% Хорошее Зашумление 25% по фазе:
 небольшие пики неотличимы от шума,
но остальные атомы видны.
0–40 0.75 100% 0 50% Плохое Зашумление 50% по фазе:
едва различим выский пик
0–40 0.75 100% 0% 75% Плохое Очень-очень шумно,
плохое восстановление
0–40 0.75 100% 20% 20% Среднее Зашумление 20% по амплитуде и 20% по фазе:
Нечетко, но можно отличить три пика, низкие пики сливаются с шумом

Сложилась ощущение, что шум по фазе сильнее влияет на качество восстановления, чем шум по амплитуде. При одинаковых значениям параметров для фазы и амплитуды, качество восстановления только для шумной амплитуды было выше. Сочетание шума по амплитуде и фазе приводило к читаемым результатам при значениях 20% для обоих параметров.

Затем мы рассматривали восстановление функции ЭП по неполному набору гармоник без помех. Я смотрела, что происходит при выпадении первых, низкочастотных гармоник, а также диапазона гармоник.

Таблица 2. Неполный набор гармоник.
График Набор гармоник Разрешение (А) Полнота данных (%) Шум амплитуды (%) Шум фазы (%) Качество восстановления Комментарии
1–40 0.75 97.5% 0% 0 Отличное Качество по-прежнему отличное,
но восстановление теперь хуже повторяет функцию. "Нулевой" уровень сместился
5-40 0.75 87.5% 0% 0 Хорошее Убрала первые 5 гармоник. Это повлияло на качество, низкие пики электронной плотности неотличимы от шума

0–14, 20-40 0.75 87.5% 0% 0 Хорошее Убрала ряд гармоник ближе к середине диапазона. Качество восстановления по-прежнему считаю отличным, хотя есть шум и небольшие атомы определяются хуже

1-18, 24-40 0.75 87.5% 0 0 Среднее Убрала ряд гармоник, близких к середине диапазона, но более высокочастотных, чем в предыдущем примере. Частота шума увеличилась, функция восстанавливается хуже

На одномерном примере была воссоздана функция электронной плотности. Работа была проделана для теоретического идеального случая (полный набор гармоник, без помех) и для эксперимента с помехами (нет данных о части гармоник, шум по фазе и амплитуде). Уже при полном наборе гармоник 0-20 (без помех) удалось воссоздать функцию со средним качеством. Пики читаются легче и не сливаются с шумом, если состоят из большего числа электронов. В первую очередь мы теряем информацию о легких атомах (условно водород в этом практикуме).

С учетом помех, в идеале, стоит разрешать больше гармоник. При модели добавления шума фаз качество модели снижалось более резко, чем для тех же значений шума амплитуд. При неполном наборе гармоник сильно на качество влиял пропуск низкочастотных гармоник. Однако если убирать гармоники примерно в середине диапазона 0-40, то лучше восстановление проходило при пропуске гармоники 15-19, чем 19-23. Таким образом, особенно важно присутствие первых гармоник ряда (не обязательно с 0, но пропуск 5 уже сильно влиял), средние также вносят существенный вклад, а последние в наборе отвечают за детализацию.

[1]Peroxisome proliferator-activated receptor (PPAR)-alpha: a pharmacological target with a promising future

[2] Macromolecular Crystallography

Вернуться на главную