Что может Альфафолд2

В данном практикуме стояла задача предсказать структуру протеазы папаина (ID: P00784) и ее субстрата олигопептида: LRVGFYES с помощью AlphaFold2 на платформе ColabFold. Папаин является цистеиновой пептидазой. Исходя из описания в MEROPS мой олигопептид является последовательностью узнавания папаином белка, который называется альфа-2-макроглобулин, и является физиологически значимым субстратом.
Для наглядной оценки моделей был проведен blast против PDB, для поиска структуры. Лучшая находка соответствовала PDB ID: 3TNX.
При выравнивании предсказанных моделей на структуру 3TNX (для начала без субсратов) видно довольно сильное сходство (рис. 1). Местами наблюдаются изменения хода петлей (рис. 2) и потеря вторичных структур (бета-листов) (рис. 3). Особенно сильно у моделей различаются N-концы, что объясняется низкой уверенностью в правильности помещения остатков (рис. 4) и малым количеством гомологичных структур, по которым этот участок можно было бы предсказать с большей точностью (рис. 5).

Дерево выбранных организмов — Рис. 1. Выравнивание предсказанных моделей по структуре 3TNX (серый цвет).

Для дальнейшей работы с субстратом я взял только первую модель.
В целом расположение субстрата в предсказанных моделях довольно странное. Только в первой и второй моделях субстрат располагается рядом с активным сайтом фермента. В остальных случаях он расположен от него очень далеко и в основном на поверхности структуры. Как уже было сказано выше данный олигопептид является частью крупного белка альфа-2-макроглобулина, что подтвердилось и бластом (первой находкой оказался этот белок из Homo sapiens). Этот белок относится к семейству белков , включающих в себя ингибиторы протеаз. Данная мне последовательность является участком-приманкой, которая у разных белков этого семейства специфична к определенному типу протеаз. Разрезание этого участка приводит к конформационным изменениям альфа-2-макроглобулина или его аналогов, что приводит к стерическому экранированию сайта протеазы от других белковых субстратов.
Чтобы примерно представлять структуру папаина с каким-либо субстратом (грубо говоря понимать, как субстрат должен располагаться) я взял структуру 3IMA, в которой папаин связан с ингибитором: тароцистатином. После этого я постарался изобразить выравненные структуры 3IMA и первой предсказанной модели и отобразить расположение субстратов из моделей 1 и 2 (рис. 6). Таким образом можно увидеть, что расположение субстратов в предсказанных моделях имеет место быть (по крайней мере их приблизительное расположение).

Так же забыл упомянуть, что 3TNX - структура предшественника папаина. Среди находок бласта так же были и другие хорошие находки, длина последовательности которых была примерно на 150 аминокислот меньше (среди которых кстати была и структура 3IMA). Предшественники попаина как я понял содержит на N-конце последовательность, которая блокирует активный центр фермента. Этот участок потом удаляется.
Этот же участок располагается, кстати, примерно в том же месте, что и субстраты из модели 1 и 2 (рис. 7).

Вероятно этот факт позволил нейронной сети обучиться и на структурах предшественников без субстратов и на структурах уже зрелого фермента с субстратами (причем структуры с заданным субстратом или структуры для комплекса папаина с альфа-2-макроглобулином нет) и на выходе предложить 2 модели, где расположение заданного субстрата имеет место быть.
В итоге сложно сказать на сколько можно использовать предсказания AlphaFold2 для комплексов ферментов с субстратами. Ведь даже в моем случае только 2 модели из 5 имеют расположение субстрата хотя бы примерно в области активного центра. В качестве контроля было бы неплохо использовать уже существующие структуры ферментов с их субстратами. Причем с качественно аннотированными взаимодействиями, которые участвуют в узнавании субстрата.
Ссылка на архив