Python для структурной биоинформатики

7BF5 - кристаллографическая расшифровка макродомена третьего неструктурированного белка (NSP3) коронавируса SARS-CoV-2. Данный домен обеспечивает АДФ-рибозилгидролазную активность белка, позволяющую вирусу обходить PARP-индуцированный иммунитет.
 Эта структура использовалась при выполнении заданий 1 и 2.

Задание 1. ProDy и В-факторы, часть 1.

 Остаток, средний В-фактор атомов которого максимален, - это метионин-2. Среднее значение В-фактора его атомов равно 54,61. Остаток находится очень близко к N-концу, не входит в состав регулярной структуры, подвижен. Значения В-фактора у остовных атомов находятся в интервале ~(42-50), у крайних атомов радикала - SD и CE - они повышаются до ~74, то есть радикал подвижнее остова.
 Остаток, средний В-фактор атомов которого минимален, - это лейцин-140. Среднее значение В-фактора его атомов равно 16,57. Остаток входит в состав α-спирали (не концевой), радикал довольно короткий, смотрит скорее внутрь белковой глобулы, чем наружу, относительно неподвижен. Для всех атомов значения В-фактора лежат в интервале ~(16-17).

Картиночка из паймола
Рис. 1. Аминокислотные остатки NSP3 с максимальным (метионин-2) и минимальным (лейцин-140) значениями В-фактора. Цепь Е расшифровки 7BF5, покрашена в соответствии со значениями В-фактора.

  Находящийся в концевом наружном неструктурированном участке белка остаток метионина имеет высокое среднее значение В-фактора, в отличие от входящего в состав α-спирали и расположенного внутри белковой глобулы остатка лейцина, имеющего низкое среднее значение В-фактора.

Задание 2. ProDy и В-факторы, часть 2.

Питоно-график
Рис. 2. Зависимость В-фактора остатка от расстояния до центра масс белка.

 В целом, на графике виден тренд к повышению значения В-фактора остатка при увеличении расстояния от него до центра масс белка, что соответствует наблюдениям о том, что внутри белковой глобулы в структурированных областях остатки менее подвижны, в отличие от наружных в неструктурированных участках. При этом вдоль всей оси х расположены точки, отвечающие остаткам с низким значением В-фактора. Думаю, что это остатки, формирующие регулярные структуры. Проверим с помощью ProDy.

Питоно-график
Рис. 3. Зависимость В-фактора остатка от расстояния до центра масс белка. Цвет точек отвечает вторичной структруре, в состав которой входят соответствующие остатки: С (фиолетовый) - неструктурированые участки; Н (зеленый) - α-спирали; Е (синий) - β-листы; G (розовый) - 3_10-спирали.

 На рисунке 3 видно, что минимальный разброс в средних значениях В-фактора наблюдается у остатков, формирующих β-листы (Е, синие точки), то есть такие структуры наиболее стабильны, неподвижны. Сильно удалённые от центра масс остатки с низкими средними значениями В-фактора действительно формируют α-спирали (Н, зеленые точки), как я предположила по рисунку 2. Высокие средние значения В-фактора у группы Н (зеленые точки) соответствуют остаткам С-концевой подвижной α-спирали белка.
 Чтобы разобраться с группами С (неструктурированные участки) и G (3_10-спирали), посмотрим на рисунок 4.

Аро-график
Рис. 4. Квартили распределения средних значений В-фактора остатков. Каждый бокс и цвет отвечает вторичной структруре, в состав которой входят соответствующие остатки: С (фиолетовый) - неструктурированые участки; Н (зеленый) - α-спирали; Е (синий) - β-листы; G (розовый) - 3_10-спирали.

 На рисунке 4 видим, что медиана для средних значений В-фактора остатков в неструктурированных областях (С, фиолетовый) выше таковых для остатков β-листов (Е, синий) и α-спиралей (Н, зеленый). 3_10-спирали в данном белке представлены двумя короткими фрагментами (по 5 остатков), они находятся на поворотах аминокислотной цепи снаружи глобулы (одну из них можно увидеть в правом нижнем углу рисунка 1) - отсюда и высокие квартили для средних значений В-фактора их остатков.

Теперь немного статистики.

 Тест Шапиро-Уилка (который подходит по величине выборки: у нас 173 остатка, а интервал, указанный в документации R, - от 3 до 5000) показал, что расстояния от остатков до центра масс белка распределены нормально (p-value = 0,52), а вот средние значения В-фактора остатков - нет (p-value = 6e-14). Исходя из этого, посчитан коэффициент корреляции Спирмана (для которого не предполагается нормальность распределений исследуемых величин): он равен 0,56 (p-value = 2e-16), что может говорить о положительной монотонной зависимости. Линейной моделью эта зависимость не описывается из-за несоблюдения допущений о нормальности распределения остатков (которые residuals) и гомоскедастичности.

Аро-графики
Рис. 5. Графики, описывающие линейную модель зависимости величины среднего В-фактора по остатку от расстояния остатка до центра масс белка.

Задание 3. Восстановление функции ЭП по экспериментальным данным.

 Я задала следующую функцию ЭП: 2,3.5,6+30,3,7+2,3.5,8+20,3,12+8,3,13.5

Питоно-графикПитоно-графикПитоно-график

Питоно-графикПитоно-графикПитоно-график

Питоно-графикПитоно-графикПитоно-график

Питоно-графикПитоно-график

Рис. 6. Графики восстановленных функций ЭП.
Таблица
Табл. 1. Результаты восстановления функции ЭП.

Некоторые выводы по результатам выполнения 3его задания:

  1. Ошибки определения амплитуд структурных факторов в эксперименте влияют на качество восстановленной функции ЭП меньше, чем ошибки определения фаз (графики 4-6).

  2. Единичное отсутствие первых гармоник ряда Фурье в наборе вносит низкочастотное искажение, в целом не влияющее на качество восстановленной функции ЭП (график 9).
    Отсутствие нескольких гармоник из середины набора довольно существенно ухудшает качество восстановленной функции ЭП (график 10).
    Наличие единичных дополнительных гармоник высокого порядка не улучшает качество восстановленной функции ЭП (график 11).

  3. Модели присваиваиватся разрешение гармоники с наибольшим номером, для которой полнота данных выше определенного порога (о котором учёные не договорились). Приблизительно при 90-процентной полноте экспериментальных данных с условием наличия большинства гармоник из середины и начала набора можно ожидать хорошее качество восстановленной функции ЭП c высоким разрешением (графики 9 и 10). Мне кажется, что честнее присваивать модели разрешение пониже, но с полнотой побольше, так как разрешение считается первичным показателем качества модели.