Учебный сайт Алены Корягиной

Реконструкция "одномерного белка" по данным РСА

Целью данной работы было изучение зависимости качества восстановления функции электронной плотности (ЭП) через разложения Фурье от количества и качества (какие именно) используемых гармоник ряда. Задание включает следующие этапы:

  • Создание модельной одномерной функции электронной плотности;
  • Разложение Фурье модельной функции: расчет амплитуд и фаз;
  • Фильтрация гармоник;
  • Обратное преобразование Фурье: восстановление ЭП по неполному набору данных;
  • Оценка качества восстановления функции ЭП.

Создание модельной одномерной функции электронной плотности

При помощи скрипта compile-func.py (все скрипты для работы были взяты здесь) было смоделировано одномерное распределение ЭП для двух гипотетических молекул, в сумме состоящих из 5 атомов (Рис. 1). Эти молекулы располагались на отрезке от 0 до 30 Å,атомы в молекуле связаны ковалентно и находятся на расстоянии 1-1.5 Å друг от друга, молекулы расположены на расстоянии 3-5 Å (водородная связь или гидрофобное взаимодействие между ними). ЭП атомов описывается суммой гауссовых кривых, максимум электронной плотности в центре атома пропорционален числу электронов в атоме. Выходной файл используемого скрипта содержит таблицу X, Y, где X - координата, а Y - значение ЭП.

Рис.1. Функция электронной плотности атомов двух гипотетических молекул на отрезке [0;30]Å.

Разложение Фурье модельной функции: расчет амплитуд и фаз

Разложение функции в ряд Фурье были проведено с помощью скрипта func2fourier.py, на вход которому подается таблица ЭП, полученная на предыдущем шаге. На выходе мы получаем файл, к котором приведены амплитуды и фазы гармоник, а также их номера.

Фильтрация гармоник

Для исследования зависимости качества восстановления функции ЭП от количества и качества гармоник разложения Фурье сначала был проведен поиск полного набора гармоник, по графику ЭП которых можно определить положение максимумов всех гауссовых слагаемых ("отличное восстановление"). А потом были проведены следующие манипуляции с этим набором:
1) добавление шума к амплитудам (F) и фазам (P)
2) удаление первых гармоник;
3) удаление гармоник из середины набора;
4) добавление гармоники N0+10.
Отбор определенных гармоник осуществлялся с помощью скрипта fourier-filter.py, а шум добавлялся с помощью скрипта func2fourier.py.

Обратное преобразование Фурье: восстановление ЭП по неполному набору данных

Далее после каждой манипуляции производили восстановление функции электронной плотности (скрипт fourier2func.py) по неполному набору гармоник. После чего оценивалось качество восстановленной функции по сравнению с исходной. Категории сравнения:
Отличное восстановление — по графику восстановленной функции можно определить положение максимума всех гауссовых слагаемых функции ("атомов");
Хорошее восстановление — можно угадать положение всех максимумов, зная число слагаемых ("атомов"), хотя на восстановленной функции максимумы от атомов не отличимы от шума;
Среднее восстановление — положение каких-то атомов определить по восстановленной функции нельзя, других — можно;
Плохое восстановление — положение атомов определить не представляется возможным; можно только предсказать примерный размер "молекулы".

Полный набор гармоник

Из 499 гармоник отбиралось разное количество первых гармоник (n= 5, 10, 20, 30, 40, 50, 70). Для них восстанавливалась функция электронной плотности и оценивалось качество восстановления.

Было выявлено, что начиная с n=20 четыре пика для тяжелых атомов хорошо различимы, но пик легкого атома выделяется только при n = 45, поэтому за минимальный полный набор гармоник примем n0=45. Если брать еще большие значения n для полных наборов гармоник, то восстановить исходную функцию получается еще точнее (рис.2). Основная трудность восстановления заключается в разрешение соседних пиков, а также отличие пиков малых атомом (водород) от шума.

Рис.2. Восстановленная ЭП для двух гипетотических молекул, в сумме состоящих из 5 атомов, по n-первым гармоникам.

Оценка качества восстановления функции ЭП

1) После добавления шума к амплитудам (F) и фазам (P)
Было добавлено по 20% шума для каждого параметра в отдельности и совместно для полного набора гармоник 0,...,n0=45 (рис.3). На основании полученных результатов можно утверждать, что шум в фазе сильнее мешает верному определению пиков, чем такой же шум в амплитуде. Поэтому решение проблемы фаз в настоящем эксперименте — важная задача, так как неверное определение фазы сильно влияет на результат.

Рис.3. Восстановленная ЭП после добавления 20% шума к амплитудам (F) и фазам (P) в отдельности и совместно по полному набору гармоник 0,...,n0=45.

2) После удаления нескольких первых гармоник

Для того чтобы оценить влияние первых гармоник на качество восстановления, было произведено три эксперимента:удаление первой гармоники (0), первых двух гармоник (0-1) и первых трех (0-3) (рис.4). При удалении первой гармоники функция смещается по оси ординат, при этом результат восстановления можно считать «отличным». При удалении первых двух и трех гармоник восстановленная функция сильно искажается, но значения максимумов для больших атомов можно однозначно определить (водород, как и ожидается, не отличим от шума). Таком образом, удаление первых гармоник значительно искажает фоновое значение (фон теперь не образует "прямую" вдоль оси абсцисс) и увеличивает шум.

Рис.4. Восстановленная ЭП по неполному набору гармоник. Неполный набор был получен в результате удаления нескольких первых гармоник.

3) После удаления гармоник из середины набора

Было удалено 3 (16, 24 и 32 гармоники) и 5 (8, 16, 24, 32, 40) гармоник из середины набора, что соответствует удалению 6,7% и 11,1% гармоник (рис.5). Такое удаление гармоник приводит к увеличению фонового шума, а следовательно к к тому,что максимумы от «атомов» становятся менее отличимы от фонового шума. Восстановление ЭП по таким неполным наборам гармоник можно охарактеризовать как "среднее".

Рис.5. Восстановленная ЭП по неполному набору гармоник. Неполный набор был получен в результате удаления 6,7% и 11,1% гармоник из середины набора.

4) После добавления гармоники N0+10

К полному набору гармоник 0-45 была добавлена гармоника 55 (рис.6). Это добавление никак не повлияло на качество восстановления функции ЭП.

Рис.6. Восстановленная ЭП по набору гармоник 0-45,55.

Ниже представлена сводная таблица по качеству восстановления функции ЭП.

Таблица 1. Сводная таблица по качеству восстановления функции ЭП

Набор гармоник Разрешение, Å Полнота данных, % Шум амплитуды (% от F) Шум фазы (% от P) Качество восстановления
Полный набор гармоник
0-10 3 100 0 0 плохое
0-20 1.5 100 0 0 среднее
0-30 1 100 0 0 хорошее
0-45 0.67 100 0 0 отличное
0-45 0.67 100 20 0 хорошее
0-45 0.67 100 0 20 среднее
0-45 0.67 100 20 20 среднее
Неполный набор гармоник
1-45 0.67 97.82 0 0 отличное
2-45 0.67 95.65 0 0 хорошее
3-45 0.67 93.48 0 0 хорошее
0-15,17-23,25-31,33-45 0.67 93.48 0 0 среднее
0-7,9-15,17-23,25-31,33-39,41-45 0.67 89.13 0 0 среднее
0-45, 55 0.67 100 0 0 отличное


© Alyona Koryagina aakor@fbb.msu.ru

Дата последнего изменения: 24.12.16