Практикум 3. Python для структур и не только.

Задание 1. Prody и B-факторы, часть 1.

С помощью Prody в pdb-файле структуры 6AIS для каждого аминокислотного остатка было посчитано среденее по атомам остатка значение B-фактора, после чего список остатков был отсортирован по В-фактору. Остатком с минимальным средним В-фактором оказался треонин-89, среднее значение В-фактора у его атомов - 5.6, при этом у остовных атомов этого остатка значения чуть поменьше, чем у атомов радикала (наверное, последнее верно для большинства остатков). . Разброс значений среди атомов остатка небольшой: от 3.5 до 7.2. Треонин-89 принадлежит бета-листу, что делает его остовные атомы малоподвижными, а радикал короткий и гидрофобный, что позволяет ему взаимодействовать с растворителем. Общий план показан на рисунке 1.

Рис. 1 6AIS, "лучший" и "худший" остатки по В-фактору. Рис. 2. 6AIS, ASN28, остаток с максимальным В-фактором.

Максимальный средний по остатку В-фактор у остатка у аспарагина-28 (показан на рисунке 2). Среднее значение В-фактора по остатку равно 35.1, разброс значений внутри остатка - от 27 до 44 (у кислорода карбоксамидной группы). Это остаток на N-конце белка, на рисунке 1 видно, что он торчит из белка в растворитель и не координирован взаимодействиями с другими аминокислотными остатками, что и делает его таким подвижным (а его электронную плотность, соответственно, размазанной). Возможно, такое нестабильное положение этого остатка связано ещё и с тем, что структура 6AIS соответствует не природному белку, а мутанту из группы белков, на которых изучают стабильность линкерных петель, соединяющих домены. Как я поняла, в других мутантных белках из эксперимента к N-концу белка присоединялся линкер к другому домену, поэтому аспарагин-28 не был последним остатком, торчащим из глобулы.

Интересно, что распределение всех остатков белка по среднему В-фактору остатка сдвинуто сильно влево (положительная асимметрия): медианное по остаткам значение В-фактора равно 9.7, то есть лучший (по В-фактору) остаток отличается от медианного примерно так же, как два худших остатка между собой. Это связано с тем, что большая часть остатков относятся к бета-листу, и большие значения В-фактора имеют только немногие остатки, принадлежащие петлям по краям бета-листа, и остатки маленьких спиралей.

Задание 2. Prody и B-факторы, часть 2.

Для каждого остатка были посчитаны сначала координаты центра масс, а затем - расстояние от центра масс остатка до центра масс белка. Зависимость этих значений "удалённости" остатка от В-фактора приведено на рисунке 3 в виде dot-plot.

Рис. 3. Зависимость среднего В-фактора остатка от удалённости центра масс остатка от центра масс всего белка.

Видно, что для небольших значений удалённости (грубо говоря, меньше 20 ангстрем от центра масс) зависимости В-фактора от удалённости нет (или она совсем слабая и её не видно). Для остатков, удалённых от центра, кажется, что есть зависимость от В-фактора: более удалённые остатки имеют бОльшие В-факторы. Зависимость не кажется (на взгляд) линейной, но похожа на монотонную, поэтому я посчитала коэффициент корреляции Спирмена, и коэффициент корреляции = 0.43 получился значимым (1е-12). UPD. Коэффициент построен по всем значениям; возможно, было бы интересно посмотреть на корреляцию только в той области, где "на глаз" кажется, что зависимость есть, т.е. для удалённости больше 20 ангстрем.

В целом, вполне логично, что зависимость В-фактора от удалённости не видна для остатков, находящихся недалеко от центра. Большинство таких остатков принадлежат одному большому бета-листу, и вряд ли (с точки зрения количества взаимодействий, координирующих конкретный остаток) важно, к какой именно цепи внутри бета-листа относится конкретный остаток.

Задание 3. Восстановление функции электронной плотности.

Цель данного задания - смоделировать электронную плотность для одномерной системы из нескольких атомов, по ней рассчитать параметры сигнала, моделирующие экспериментальные данные, и по этим параметрам попытаться восстановить исходную электронную плотность, "потеряв" часть сигналов или изменив их, добавив шум. Нужно оценить, как потеря части сигналов и шум влияют на возможность по восстановленной электронной плотности определить исходные положения атомов в системе.

Функция электронной плотности была смоделирована (скрипт compile-func.py) для одномерной системы из молекулы воды и молекулы кислорода, расположенных на расстоянии 6 ангстерм друг от друга. Ниже привдены точные параметры (плюсы разделяют параметры отдельных атомов, для каждого атома (пика) первый параметр - это высота пика, т.е. удвоенное количество электронов в атоме, второй - определяет ширину пика, третий - координата центра пика.

За расстояние между атомами в молекуле мне показалось разумным брать сумму ковалентных радиусов атомов. При таком расстоянии между атомами и взятой "стандартной" ширине пиков электронные плотности двух кислородов, образующих молекулу, почти не перекрывались (что не соответствует тому, что между этими атомами есть ковалентная связь). Поэтому для этих двух атомов я немного уменьшила параметр beta, т.е. увеличила ширину гауссиана.

 %run scripts/compile-func.py -g 2,3,2+16,3,3.03+2,3,4.06+16,2.5,10+16,2.5,11.46 -o func.txt 

Рис. 4. Исходная электронная плотность, записанная в файле func.txt.

Следующий шаг моделирует получение экспериментальных данных: по файлу со смоделированной электронной плотностью скрипт func2fourier.py получает амплитуды и фазы всех сигналов (гармоник), хотя в реальном эксперименте можно получить только амплитуды, а для получения фаз приходится использовать разные трюки (методы решения фазовой проблемы). Выходной файл all_coeff.txt в каждой сроке содержит информацию об одной гармонике (её номер, амплитуда и фаза). Всего в выходном файле 499 гармоник.

 %run scripts/func2fourier.py -i func.txt -o all_coeff.txt 

Скрипт fourier2func.py позволяет по набору гармоник восстановить электронную плотность. Очевидно, что если восстановить электронную плотность по всем гармоникам без добавления шумов, то восстановление будет идеальным, и восстановленный график электронной плотности совпадёт с тем, который и был исходно смоделирован.

В таблице 1 представлены восстановления по полным наборам гармоник без шума. Полнота данных везде 100% (по определению, ведь наборы гармоник полные).

Таблица 1. Восстановление по полному набору гармоник без учёта шума.

Набор гармоник Разрешение, А Качество восстановления Функция электронной плотности (восстановленная- пунктиром)
0 - Нулевая гармоника - это константа. Насколько я понимаю, по высоте этой константы можно понять (?), много ли электронов в системе (кажется, что интеграл под восстановленной кривой примерно пропорционален интегралу под исходной кривой, чем больше электронов в системе - тем выше прямая). Но, конечно, ничего о положении атомов в системе сказать нельзя.
0-1 30 Две гармоники дают разрешение 30 ангстрем, при таком разрешении нельзя различить детали мельче 15 ангстрем. Поэтому по восстановленной функции можно только предположить, что в левой половине системы атомы есть, а в правой их нет.
0-3 10 На фукции, восстановленной по четырем гармоникам, уже можно различить два пика, соответствующие двум молекулам системы. Интересно, что уже при таком разрешении эти пики отличаются по высоте: в молекуле кислорода больше электронов, поэтому соответствующий пик более высокий. Однако, в правой части системы есть низкие пики, которые могут быть ошибочно интерпретированы как малоэлектронные атомы.
0-9 3.3 По десяти гармоникам уже однозначно восстанавливается положение молекул в системе и нет "лишних" пиков. Пик молекулы воды меньше, чем пик молекулы кислорода, но отдельные атомы внутри молекул не различимы.
0-14 2.14 По 15 гармоникам восстановление среднее: положение максимумов кислородов угадывается легко, однако пики водорода не видны совсем (не отличимы от шума). Пики кислорода в составе молекулы кислорода уже разделяются.
0-19 1.57 По 20 гармоникам восстановление почти хорошее: пики водорода ещё плохо различимы, но молекула кислорода видна хорошо, и если знать состав системы, можно предположить, где должны располагаться кислороды.
0-24 1.25 По 25 гармоникам восстановление хорошее: атомы водорода отличимы от шума. Максимумы пиков водорода смещены относительно исходной функции, чтобы определить правильное положение атомов, нужно знать исходный состав системы (т.е. расстояние между пиком кислорода и пиками водородов).
0-29 1.0 Восстановление по 30 гармоникам отличное: по графику восстановленной функции можно определить положение максимумов пиков плотности всех атомов. Но при таком разрешении на высоту пика атома влияет его окружение: пик кислорода в составе воды ниже, чем в составе молекулы кислорода. Наверное, это может затруднить распознавание типов атомов.
0-34 0.88 Восстановление по 35 гармоникам близко к исходной функции: сигнал даже от атомов водорода сильно отличается от шума, пики атомов кислорода выглядят одинаково независимо от того, к какой молекуле они относятся.

Восстановление по 35 гармоникам (n_0 = 34) было выбрано для дальнейших экспериментов с уровнем шума. Результаты представлены в таблице 2, набор гармоник везде одинаковый (0-34), полнота 100%. График исходной функции плотности не показан, чтобы пики шума были лучше видны.

Таблица 2. Восстановление по полному набору гармоник с учётом шума.

Шум амплитуды (-F) Шум фазы (-P) Качество восстановления Функция электронной плотности
0% 0% Восстановление без шума по 35 гармоникам близко к идеальному: даже пики атомов водорода легко отличимы от шума.
10% 0% Добавим 10%-ный шум только к амплитудам. Видно, что шум влияет на качество восстановления, но не так, как недостаточное число используемых гармоник: при добавлении шума появляются новые маленькие пики, не соответствующие никаким атомам. Видно, что эти ложные пики имеют немного другую форму (ложные пики более низкие и широкие) по сравнению с истинными пиками, поэтому даже атомы водорода легко различимы на глаз.
0% 10% При добавлении 10% шума только к фазам картина немного другая: колебания в правой части системы (где нет атомов) имеют большую амплитуду, чем при добавлении такого же шума к амплитудам гармоник. Высоты пиков кислородов отличаются друг от друга сильнее. Можно предположить, что добавление такого же шума к фазам гармоник сильнее влияет на высоту пиков, чем добавление шума к амплитудам: при добавлении шума к амплитудам высота этого пика в составе каждой гармоники немного изменяется (в разные стороны), а при добавлении шума к фазам гармоники немного "разъезжаются" друг от друга, поэтому не все они попадают своим максимумом на пик, и суммарный пик становится ниже. Пики водорода ещё можно различить, т.к. они по форме отличаются от пиков шума.
10% 10% При добавлении 10%-ного шума и к амплитудам, и к пикам уже нельзя различить атомы водорода на фоне шума.
30% 30% При добавлении 30%-ного шума к амплитудам и пикам ещё можно различить атомы кислорода (их пики уже и выше, чем пики шума). Однако, три пика кислорода уже настолько не похожи друг на друга, что, если бы в системе были разные тяжёлые атомы, их нельзя было бы уже отличть друг от друга.
50% 0% Кажется, что добавление очень сильного (50%) шума только к амплитудам даёт лучшую картину восстановления, чем 30%-ный шум и фазам, и амплитудам. Водороды, конечно, не видны, но кислороды сильнее отличются от шума.

Вывод не очень утешительный: несмотря на то, что небольшой шум в амплитуде, получаемый в эксперименте, не мешает восстановлению,такой же шум в фазах мешает восстановлению гораздо сильнее. Кроме того, получается, что в эксперименте стоит стремиться к получению сигналов без шума, и небольшие потери в полноте данных влияют слабее, чем наличие шума в полученных сигналах.

Таблица 3. Восстановление по неполному набору гармоник (без шума).

Набор гармоник Разрешение, А Полнота данных Качество восстановления Функция электронной плотности
0-34 0.88 100% Восстановление без шума по 35 гармоникам близко к идеальному. Далее будем рассматривать восстановления для случая, когда из этих 34 гармоник некоторые были потеряны в эксперименте.
2-34 0.88 94% Если потерялись первые две гармоники, проблем с определением максимумов всех пиков не возникает: нулевая гармоника - это константа, поэтому если её убрать, восстановленная плотность будет ниже на её амплитуду. Первая гармоника - это волна с большим (относительно системы) периодом, поэтому если её убрать, у восставовленной функции будет горб вверх справа и провал вниз слева.
5-34 0.88 86% Если из отлично восстановленной по 35 гармоникам функции вычесть первые пять гармоник, на графике появятся новые шумовые пики. Но, т.к. убранные гармоники имеют период 7.5 ангстрем и меньше, а ширина пиков атомов около одного ангстрема, эти шумовые пики не мешают различать узкие пики атомов.
0-9, 14-34 0.88 89% Если убрать 4 подряд идущие гармоники из первой половины списка (но не из самого начала), шум на восстановленной функции будет иметь меньший период, но всё ещё не будет влиять на возможность распознать атомы системы, ведь убранные гармоники всё ещё имеют период больше двух ангстрем.
0-23, 28-34 0.88 89% Если убрать 4 гармоники, но из второй половины списка, появляющиеся новые пики будут достаточно узкими, поэтому их уже можно спутать с водородами. Можно предположить, что сильно сказывается на качестве восстановления потеря именно гармоник с периодом, сопоставимым с шириной настоящих пиков. Заметим, что у этого восстановления и у предыдущего одинаковое разрешение (0.88 А) при одинаковой полноте (89%). Это логично: из 35 гармоник в обоих случаях осталась 31 гармоника. При этом видно, что одинаковые цифры не означают одинаковое качество восстановления.
0-34, 44 0.88 100% Добавление к полному набору из 34 гармоник одной гармоники с номером 44 (т.е. n_0 + 10) почти не улучшает качество восстановления. По одной 44-ой гармонике нет смысла указывать разрешение 0.68, ведь тогда полнота данных будет всего 78%, поэтому разрешение указано по 34-ой гармонике.

Можно сделать вывод, что потеря нескольких гармоник всё ещё позволяет восстановить исходные положения атомов, особенно тяжелых. Логично, что при уменьшении полноты данных первыми не восстанавливаются атомы водорода.

Вернуться на страницу 7 семестра

Вернуться на главную


© potapenko 2017-2021