ProDy. Синтез Фурье

ProDy — модуль для анализа динамики белковых структур

Начало практикума посвящено работе с модулем ProDy. Мы используем его возможности для анализа B-факторов, как в практикуме 3, но уже не «на глаз», по цветовой палитре, а численного анализа.

Остатки с экстремальными значениями B-фактора

В первом задании посмотрим на остатки с наибольшим и наименьшим средним B-фактором атомов. Для начала найдём их в белке.

Загрузим модули и файл PDB.

Пройдёмся по остаткам и вычислим B-факторы.

Таким образом, остаток с наименьшим B-фактором — L22, с наибольшим — A127. Они отображены на рис.&nbsp.1.

Рисунок 1.

Остатки с наименьшим (слева) и наибольшим (справа) B-фактором.

Остаток с минимальным B-фактором входит в альфа-спираль, это лейцин в окружении других гидрофобных разветвлённых остатков, должно быть, его движение стерически затруднено. Остаток с максимальным B-фактором предтерминальный, это небольшой остаток аланина вблизи конца альфа-спирали, погружённой в растворитель. Посмотрим на B-факторы отдельных атомов этого остатка.

Можно заметить, что большие B-факторы характерны для атомов остова, особенно для карбонильного кислорода. Возможно, именно поэтому не терминальный серин, а этот аланин имеет наибольший средний B-фактор: доля атомов остова в аланине больше, потому что боковая цепь меньше. Проверим эту гипотезу, посмотрев на B-факторы терминального серина.

Гипотеза не подтвердилась, B-факторы терминального остатка почему-то ниже в целом.

Для наглядности также покажем найденные остатки на одном изображении (рис. 2).

Рисунок 2.

Остатки с минимальным и максимальным средним B-фактором.

Двадцать второй лейцин повёрнут от своей альфа-спирали в сторону другой, тут можно вспомнить «лейциновые молнии». Видимо, подвижность этого остатка снижена за счёт подобного взаимодействия.

Общая картина распределения B-факторов

Вычислим положение центра масс белка. Для каждого остатка вычислим расстояние его центра масс от общего центра.

С полученными данными можно визуализировать зависимость между средним B-фактором остатка (эти величины для всех остатков уже вычислены в первом задании) и расстоянием от центра масс белка — см. диаграмму рассеяния ниже.

По графику видно, что в среднем B-фактор возрастает с удалением от центра масс белка. Кроме того, наблюдается два кластера точек, в которых скорость возрастания отличается. Вероятно, эти кластеры соответствуют C- и N-концевому доменам белка. Наибольший B-фактор наблюдался как раз вблизи C-конца.

Синтез Фурье

Во второй части практикума используются сценарии на языке Python, чтобы смоделировать восстановление положений атомов по данным о гармониках Фурье. Вначале создаём «истинное» распределение электронной плотности, которое в дальнейшем и будем восстанавливать. Вот какие параметры я выбрал:

python3 compile-func.py -g 25,3,3.5+30,3.5,4.5+30,3,9+2,3,10+25,3,15+30,3,16.4+2,3,17.4

Затем вычисляются первые несколько сотен гармоник Фурье для выбранной функции. Оказалось, что для «отличного» восстановления функции достаточно $n_0=37$ первых гармоник. Восстановление по этим гармоникам показано на рис. 3.

Рисунок 3.

Восстановление функции по $n_0=37$ первым гармоникам Фурье.

Для сравнения приведём восстановление по 36 гармоникам и по избыточному набору из 50 гармоник (рис. 4).

Рисунок 4.

Восстановление функции по недостаточному (A) и избыточному (B) набору гармоник.

A.

B.

Зашумлённые данные

Попробуем восстанавливать функцию по 37 гармоникам, но внесём в данные шум. Попробуем разные варианты: гауссовский шум в $50\,\%$ сигнала, добавленный только к амплитудам, добавленный только к фазам, или $10\,\%$-й шум, добавленный и к фазам, и к амплитудам гармоник. Результаты представлены на рис. 5.

Рисунок 5.

Результаты восстановления исходной функции по набору гармоник с шумом. A — шум добавлен к амплитуде, B — шум добавлен к фазе, C — небольшой шум добавлен к амплитуде и фазе.

A.

B.

C.

Маленькие пики восстановить не получается ни на одном из графиков. При этом в случаях A и C качество восстановления можно назвать средним, график B же не тянет и на «плохое» — слишком уж велика амплитуда шума.

Неполные наборы гармоник

Вернёмся к незашумлённым данным, однако теперь будем брать не все гармоники подряд, начиная с первой и до какой-то. Попробуем убрать одну гармонику низкого порядка или несколько средних гармоник. Также попытаемся добавить к полному набору из 37 гармоник ещё одну, с номером 47. Результаты представлены на рис. 6.

Рисунок 6.

Восстановление функции по наборам гармоник, отличным от 0–37. A — 0, 2–37; B — 0–15, 17–20, 22–25, 27–37; C — 0–37, 47.

A.

B.

C.

В случае отсутствия гармоники низкого порядка появилось небольшое низкочастотное искажение. Отсутствие трёх промежуточных гармоник по влиянию похоже на присутствие шума, но, в отличие от шума, появляющееся искажение периодично. Появление одной гармоники высокого порядка не изменило вид графика.

Данные по всем представленным наблюдениям представлены в таблице 1.

Таблица 1.

Восстановление функции по коэффициентам ряда Фурье.

Набор гармоник Разрешение (Å) Полнота данных (%) Шум амплитуды (% от величины $F$) Шум фазы (% от величины $\varphi$) Качество восстановления
Полный набор гармоник
0–37 $0{,}81$ 100 0 0 Отличное
0–36 $0{,}83$ 100 0 0 Хорошее
0–50 $0{,}60$ 100 0 0 Отличное
0–37 $0{,}81$ 100 50 0 Среднее
0–37 $0{,}81$ 100 0 50 Отсутствует
0–37 $0{,}81$ 100 10 10 Среднее
Неполный набор гармоник
0, 2–37 $0{,}81$ $97{,}3$ 0 0 Отличное
0–15, 17–20, 22–25, 27–37 $0{,}81$ $91{,}9$ 0 0 Среднее
0–37, 47 $0{,}81$ 100 0 0 Отличное

В разделе с полным набором гармоник разрешение было оценено по гармонике с наибольшим номером. В разделе с неполным набором гармоник в качестве старшей была взята гармоника 37.

Можно заметить, что при полноте около $92\,\%$ качество восстановления структуры всё ещё приемлемое, если при полном наборе оно было отличным. Поэтому я бы предложил задать порог полноты, скажем, $90\,\%$, и оценивать разрешение по самой старшей гармонике, которую удалось измерить и для которой полнота превосходит порог.

Заключение

В упражнениях мне удалось продемонстрировать, что как зашумлённые данные, так и неполнота измерения гармоник могут вносить погрешности при определении структуры. Хорошо иметь полноту хотя бы $90\,\%$. Кроме того, можно обратить внимание на важность решения фазовой проблемы: при внесении одинакового $50\,\%$-го шума в данные об амплитудах и о фазах искажение фаз делает анализ данных полностью невозможным, в то время как зашумление амплитуд лишь снижает качество до «среднего» уровня.