Python для структур и не только

Задание 1. Prody и В-факторы часть 1

PDB_ID: 3Q3Y

В данном задании с помощью пакета Prody для Python нужно было определить остатки с минимальным и максимальным средними значениями B-фактора и установить связанные с этим закономерности.

Остатком с максимальным средним значением B-фактора является LYS 0 цепи В. Среднее значение B-фактора атомов данного остатка составляет 58.693333333333335. Распределение значений B-фактора по атомам выглядит следующим образом:

Разброс значений В-фактора составляет 57.26.

Остатком с минимальным средним значением B-фактора является ALA 172 цепи А. Среднее значение B-фактора атомов данного остатка составляет 5.106. Распределение значений В-фактора по атомам:

Разброс значений В-фактора составляет 0.83

Посмотрим как выглядет распределение В-фактора данных остатков в PyMol.

Рис.1. Раскраска молекулы по В-фактору

На данном изображении можно заметить, что LYS0 является терминальным остатком альфа-спирали и располагается практически на самом краю белковой молекулы и не образует взаимодействий с другими остатками, тем самым обеспечивая себе высокую подвижность. Другой же остаток наоборот, входит в состав В-тяжа и располагается довольно глубоко в структурированном участке молекулы. И если рассмотреть его подробнее, то можно заметить, что он окружён большим числом гидрофобных остатков, что вполне вероятно сильно ограничивает его движение:

Рис.2. Окружение остатка ALA172

Задание 2. Prody и B-факторы часть 2

В данном задании с помощью пакета Prody нужно было для каждого остатка белка вычислить средний В-фактор по его атомам и средний центр масс, и далее от каждого центра масс остатка найти расстояние до центра масс всего белка. После этого построить scatter-plot зависимости В-фактора от расстояния до центра белка. Стоит также отметить, что центр масс был посчитан не для всего белка, а только для одной цепи (chain A).

Просчитав все необходимые расстояния, был получен следующий график:

Рис.3. График зависимости В-фактора от расстояния до центра масс белка

На полученном графике можно заметить, что при увеличении расстояния от центра масс средний В-фактор остатков увеличивается. Как известно, на периферии аминокислотные остатки обладают большей подвижностью, а следовательно и В-фактором, ввиду их большей свободы и меньшего количества стабилизирующих взаимодействий, чего не сказать про сам центр масс. На этом же графике на расстоянии примерно в 20 ангстрем от центра масс также можно заметить некий выброс; вполне вероятно что он и соответствует тому самому LYS0 с самым высоким В-фактором (только его "двойник" из цепи А).

Задание 3. Восстановление функции электронной плотности по экспериментальным данным

В данном задании нужно было воспроизвести ход кристаллографического эксперимента в упрощённой форме. При этом нужно было самостоятельно сгенерировать функцию электроонной плотности, затем разложить её в ряд Фурье и восстановить исходную функцию, имитируя ту или иную степень потери данных в ходе эксперимента. Задать нужно было расположение 2-3 молекул состоящих из 2-3 атомов, и соответственно раскидать на отрезке 30 ангстрем 5-7 точек.

В качестве модели были созданы две молекулы, находящиеся на расстоянии 4.5 ангстрем друг от друга. Первая молекула состоит из 3-х атомов, располоденных соответственно друг от друга на расстоянии 1 и 1.4 ангстрема. Во второй молекуле два атома на расстоянии 1.2 ангстрема друг от друга.

Заданные параметры для скрипта: 30,3,2+37,3,3+2,3,4.4+30,3,9+19,3,10.2

Рис.4. Смоделированная электронная плотность двух молекул

После того как получили элекьтронную плотность, пришло время моделировать экспериментальные данные. С помощью уже другого скрипта будет осуществлён посик коэффициентов Фурье. В результате разложения функции электронной плотности в ряд Фурье было получено 498 гармоник, с которыми далее будет произволиться работа (удаление части гармоник, внесение погрешностей (зашумление по фазам, по амплитудам и фазам)).

На первом этапе было проведено восстановление функции ЭП без зашумления амплитуд и фаз по полному набору гармоник. Будем повышать число выбранных гармоник до тех пор, пока не получим отличное восстановление (при котором на графике можно определить положение максимума всех гауссовых слагаемых функции, по сути атомов)

Как пример, на первой картинке показана выборка гармоник с 0-1 (чтобы показать как это работает)

Рис.5. Восстановление по полному набору гармоник с номерами 0-1. Здесь сплошная линия - график изначальной функции ЭП, пунктирная - график восстановленной

О качестве восстановления конечно здесь ничего не скажешь, поэтому нужно повышать номера выборки гармоник.

Далее будут представлены графики, полученные в результате выбора разного количества полного набора гармоник.

Рис.6. Восстановление по полному набору гармоник с номерами 0-7. Восстановление в данном случае явно плохое - определить положения атомов не представляется возможным.

Рис.7. Восстановление по полному набору гармоник с номерами 0-22. В данном случае восстановление можно охарактеризовать как среднее, положение некоторых атомов можно определить.

Рис.8. Восстановление по полному набору гармоник с номерами 0-25. Здесь уже восстановление можно определить как хорошее.

Рис.9. Восстановление по полному набору гармоник с номерами 0-39. Пример отличного восстановления. Вполне определяется положение всех атомов.

Если же взять полный набор гармоник с номерами 0-50, то можно получить практически исходный график ЭП. Пожалуй, можно остановиться на значении 0-39.

Рис.10. Восстановление по полному набору гармоник с номерами 0-50. Слишком отличное восстановление.

Далее попробуем посмотреть как будет выглядеть восстановление функции ЭП без зашумления амплитуд и фаз по неполному набору гармоник, поскольку при получении экспериментальных данных набор гармоник не всегда является полным.

Для начала посмотрим, как выглядит график восстановления без первых двух гармоник (т.е. от 2-39)

Рис.11. Восстановление по неполному набору гармоник с номерами 2-39.

Можно заметить довольно сильное "прогибание" базовой линии, хотя при этом пики атомов всё равно заметны и их можно определить, но какие-либо точные численные анализы сомневаюсь что можно проводить.

Посмотрим как будут выглядеть графики, если потерять определённый набор гармоник (например 5), но при этом в разных местах

Рис.12. Восстановление по неполному набору гармоник с номерами 0-4,9-39. Заметен большой уровень шума, и пик атома водорода практически неразличим.

Рис.13. Восстановление по неполному набору гармоник с номерами 0-16,21-39. Пик атома водорода становится чуть заметнее, при этом пики других атомов явно характеризуемые.

Рис.14. Восстановление по неполному набору гармоник с номерами 0-30,35-39. Пик атома водорода различим ещё лучше, но при этом шум всё равно присутствует.

Также можно посмотреть как будет выглядеть график восстановления функции, если увеличить процент потерянных гармоник.

Рис.15. Восстановление по неполному набору гармоник с номерами 0-15,29-39 (~65%)

Рис.16 Восстановление по неполному набору гармоник с номерами 0-9,32-39 (~42%)

Если к 39 выбранным гармоникам добавить ещё одну (10-ю после максимума, т.е. 49-ю), то явных отличий от полного набора не наблюдается, восстановление всё также отличное.

Рис.17. Восстановление по неполному набору гармоник с номерами 0-39,49

Однако в эксперименте фазы и амплитуды определяются с ошибкой. В связи с чем при моделировании восстановления функции ЭП искусственно добавляется гауссовый шум к амплитудам (параметр F) и к фазам (параметр P). Например, шум по амплитуде в 20% приводит к тому, что к каждой амплитуде прибавляется случайное число, распределенное нормально с параметрами: среднее = 0, среднее квадратичное отклонение (сигма)=0.2*F, и точно также с шумом по фазе.

Восстановления проводились по полному набору гармоник с номерами 0-39.

Если добавить шум по амплитуде в 25%, то пики практически всех атомов остаются хорошо различимыми, за исключением атома водорода, пик которого не сильно отличается от незначительных колебаний. Т.е. качество восстановления можно охарактеризовать как хорошее, но всё же немного ближе к среднему.

Рис.18. Восстановление по полному набору гармоник с номерами 0-39 и с добавлением к амплитудам гауссова шума 25%

Если увеличить гауссовый шум к амплитуде, например до 80%, то можно заметить некоторое изменение в графике, качество стало похуже, но при этом пики атомов помимо водорода всё равно хорошо выделяются.

Рис.19 Восстановление по полному набору гармоник с номерами 0-39 и с добавлением к амплитудам гауссова шума 80%

Если добавить шум по фазе в 25%, то пики всех атомов кроме водорода хорошо различимы, при этом уровень шума довольно высокий, и в целом картина немного хуже, чем при добавлении шума 25% к амплитуде.

Рис.20 Восстановление по полному набору гармоник с номерами 0-39 и с добавлением к фазе гауссова шума 25%

Данная тенденция наблюдается ещё лучше, если добавить к фазе шум 80%. Качество заметно становится хуже, даже вполне плохим, ни один атом нельзя конкретно охарактеризовать.

Рис.21. Восстановление по полному набору гармоник с номерами 0-39 и с добавлением к фазе гауссова шума 80%

Рис.22 Восстановление по полному набору гармоник с номерами 0-39 и с добавлением гауссова шума к амплитуде и к фазе по 25%. Качество можно охарактеризовать как среднее.

Также можно проанализиировать как будет изменяться качество восстановления при добавлении разного % шума к амплитуде и к фазе одновременно, т.е. например 70% шума к амплитуде и 25% шума к фазе, и наоборот.

Рис.23. Восстановление по полному набору гармоник с номерами 0-39 и с добавлением гауссова шума 70% к амплитуде и 25% к фазе.

Рис.24. Восстановление по полному набору гармоник с номерами 0-39 и с добавлением гауссова шума 25% к амплитуде и 70% к фазе.

При таком сочетании оба восстановления выглядят не совсем хорошо, но при большем шуме в фазе качество выходит хуже, чем при большем шуме по амплитуде, в первом случае по крайней мере 4 атома выделяются довольно хорошо, качество ближе к среднему, во втором случае с этим есть некоторые проблемы, качество приближается к плохому, но всё ещё не сильно плохое. Т.е. можно предположить, что искажая фазы, мы сильнее ухудшаем разрешение, чем бы искажали амплитуды (то же было показано при шумах в 25% и 80% отдельно для амплитуды и отдельно для фазы).

Файл с итогом по эксперименту: Tablichka


© Иззи Антон,2020