На главную

Практикум 3. Python для структур и не только

Задание 1. Prody и B-факторы часть 1

В этом задании я работала со структурой с PDB id 3D95. Первое, что бросилось мне в глаза, относительно значений среднего B-фактора, это то, что средний В-фактор для остатков из разных цепей распределен по -разному. Видно, что распределение среднего В-фактора для остатков из цепи В несколько сдвинуто в сторону больших значений В-фактора, относительно остатков цепи А. Средние значения В-фактора также отличаются, но не очень значительно 20.31 для цепи А и 21.35 для цепи В.

Распределение значений В-фактора для разных цепей

Исходя из этих распределений мы можем ожидать, что остаток с наименьшим В-фактором у нас окажется в цепи А, а с наибольшим - в цепи В.

Раскраска обеих цепей согласно В-фактору. Видно, что несмотря на идентичность последовательностей обеих цепей, аналогичные структурные элементы характеризуются различными значениями В-фактора.

И действительно остаток с наибольшим средним В фактором по всей ассиметрической ячейке это GLU 103 из цепи В с В-фактором равным 32.09. Этот остаток располагается в петле, которые зачастую в белках довольно подвижны (характеризуются бОльшими значениями В-фактора, чем белок в среднем), что обсуждалось в предыдущем практикуме.

Остаток GLU 103 не имеет никаких нековалентных взаимодействий с другими остатками. Единственное нековалентное взаимодействие, которое я нашла, это водородная связь с молекулой воды, которая, судя по всему, не взаимодействует больше ни с чем (а, значит, возможно, и вовсе была обнаружена в данном месте по ошибке, хотя ее В-фактор не так и ужасен - 47), а значит и не ограничивает подвижность GLU 103. Атомы этого остатка характеризуются различающимися В-факторами. Можно проследить закономерность - чем дальше атом от остова белковой цепи, тем больше его В-фактор. Это тоже обсуждалось в прошлом практикуме и является следствием того, что атомы радикала имеют меньше ограничений подвижности, чем атомы остова, и их электронная плотность размазывается сильнее,что характеризуется большим В-фактором. В случае глутамата, чем дальше атом от остова, тем больше свободно вращающихся связей определяют его положение в пространстве и тем больше у этого атома возможных положений в пространстве (и степеней свободы).

Остаток с минимальным В-фактором во всей кристаллической ячейке ожидаемо находится в цепи А. Это VAL 133, средний В-фактор которого 13.23. Этот остаток входит в состав бета-листа и смотрит своим радикалом наружу бета-бочонка. Несмотря на то, что этот остаток находится на поверхности белка, он расположен в гидрофобном кармане, сформированным бета-листом цепи А и альфа-спиралью цепи В соседа по кристаллу. Подвижность ограничена соседними остатками. Кроме того, количество возможных конформаций (а следовательно и подвижность) ограничено тем, что некоторые из них будут приводить к контакту с растворителем, что невыгодно термодинамически.

В-фактор у атомов VAL 133 тоже увеличивается при удалении от остова.

Остатки с максимальным и минимальным В-фактором

Задание 2. Prody и B-факторы часть 2

В целом видно, что В-фактор линейно растет с увеличением расстояния от центра масс белка. Этот тренд наблюдается для обеих цепей. Однако описывать это все линейной регрессией у меня недостаточно оснований, потому что R-squared получается очень небольшим в силу большой дисперсии данных. Возможно эти данные хорошо описываются не одной а несколькими линейными зависимостями с разными коэффицентами. Одна компонента, соответствует аминокислотным остаткам В фактор которых быстрее всего увеличивается с увеличением расстояния от центра масс, вторая компонента описывает большую часть аминокислотных остатков и соответствует прямой, проведенной примерно под 45` к оси х. Третья компонента соответствует аминокислотным остаткам, чей В-фактор слабо зависит от расстояния от центра и она хорошо выражена на kde плоте как красный "хвост" внизу справа. Третья компонента может описывать аминокислоты, участвующие в контакте с соседями по кристаллу, тогда их В-фактор мал в силу стерических ограничений, не смотря на то, что они находятся на поверхности. Вторая компонента описывает большинство аминокислотных остатков. Первая компонента может описывать аминокислоты подвижных элементов, например петель.

Задание 3. Как работает восстановление функции электронной плотности по экспериментальным данным

Таблица

Полные наборы гармоник

В данном задании я моделировала, раскладывала в ряд фурье, а затем восстанавливала функцию ЭП двух молекул лежащих на одной прямой - молекулу углекислого газа CO2 и молекулу синильной кислоты HCN. Расстояния между атомами при моделировании функции электронной плотности были приближены к реальным. Высота гауссианов задавалась по правилу 2* число электронов атома. Файл с параметрами для compile-func.py "Левая" молекула - "ОСО" "правая" - "HCN" порядок атомов слева направо.

Мы видим, что при n_0=40 качество восстановления можно назвать отличным, поэтому я и дальше буду работать с этим набором гармоник.

Мы видим, что небольшой шум 10-20% как для амплитуд так и для фаз позволяет нам получить хорошее или отличное восстановление. Проблемы при небольшом уровне шума иногда возникают с определением координат атома водорода, потому что сигнал от него очень маленький. Если рассмотреть случаи когда имеется сильная погрешность в определении амплитуд (50%) относительно небольшого фоновой погрешности определения фаз (10%) мы видим, что качество восстановления не сильно отличается от того случая, когда погрешность определения амплитуд составляла 20%, а погрешность определения фаз так же 10% : пики от всех элементов кроме водорода хорошо отличимы от шума, они достаточно точно указывают на изначальное положение атомов, а высота пиков относительно друг друга позволяет нам сказать атом какого типа мы видим (например мы понимаем что атомы синильной кислоты лежат в порядке HCN а не NCH). В случае же, когда погрешность определения амплитуд небольшая - 10% а фаз больше - 50% возникают некоторые трудности с определением положения атомов: пики указывают на несколько смещенное относительно реального положения атомов расположение, может теряться информация о расположении достаточно тяжелых атомов (углерода в HCN), а не только водорода, высота пиков перестает указывать на тип атома, например высоты пиков кислорода и углерода в СО2 практически равны.
Все это указывает нам на то, что фазы несут гораздо больше информации об объекте, чем амплитуды.

Неполные наборы гармоник

Удаление части гармоник из набора снижает качество данных. Удаляя первые две гармоники мы видим, что базальная линия функции начинает колебаться по синусоиде, потому что мы удалили компоненту компенсирующую эти колебания. Однако эти колебания происходят на слишком большом периоде и не мешают нам хорошо различить пики соответствующие всем атомам с хорошей точностью. Удалив часть гармоник из середины набора, мы видим, что уровень шума заметно увеличивается. Этот шум не мешает нам определить положение тяжелых атомов, но не дает определить положение атома водорода. Добавление одной гармоники с номером большим n_0 на 10 практически никак не меняет функцию плотности построенную по гармоникам с 0-40, потому что амплитуда 50 гармоники очень мала (и по ней хорошо определяется положение всех атомов).
Очевидно, что удаляя гармоники мы снижаем разрешение набора. Самой простой корректировкой разрешения неполного набора относительно полного будет разделить разрешение на полноту набора. Эта корректировка однако не учитывает разный вклад гармоник в информацию об ЭП. Тогда я могу предложить улучшенную формулу: Разрешение=(разрешение минимальной гармоники)/(полнота*(1+0.1*(к-1)))
к в формуле это матожидание квартиля, в котором находятся потерянные гармоники (то есть если мы потеряли 2 гармоники в 3 и 4 квартилях, то к=3.5). Эта формула сконструирована таким образом, чтобы сильнее штрафовать потерю гармоник с малыми периодами и слабее с большими.