Практикум №4: AlphaFold

Задание A8: Амилоиды.

В ходе выполнения первой задачи в центр внимания ставится вопрос о качестве предсказания нашумевшей нейросетьевой моделью AlphaFold ненативных белковых структур, называемых амилоидами. Амилоид - это скопление неправильно сложенных белков, принимающих форму так называемой амилоидной фибриллы, в которой β-листы, расположенные перпендикулярно оси фибриллы, складываются в стопку и, взаимодействуя друг с другом, стабилизируют образованную структуру.

С помощью фреймворка BLAST удобно было идентифицировать происхождение выданного участка аминокислотной последовательности (A8: LYVGSKTKEGVVHGVATVAEKTKEQVTNVGGAVVTGVTAVAQKTVEGAGSIAAATGFV). Со 100% Identity было установлено сходство с белком α-синуклеином, локализованном преимущественно в ядрах нейронов головного мозга млекопитающих [1]. Данные свидетельствуют о том, что α-синуклеин - участник процесса синаптической активации, действующий в качестве молекулярного шаперона при образовании комплекса SNARE [2].

В случае гиперэкспрессии или наличия некоторых мутантных форм α-синуклеин способен формировать нерастворимые тельца включения, приводя к нейродегенеративным заболеваниям, названным синуклеинопатиями [3]. Наиболее известная из них - болезнь Паркинсона.

Являясь белком, состоящим из 140 АО (Рис. 1), α-синуклеин в том числе содержит центральную гидрофобную область (с 61 по 95 остатки), включающую область неамилоидного β-компонента, участвующую в агрегации белков [4].

Sorry!
Рисунок 1. Структура мономера белка α-синуклеина (1XQ8). Зелёным цветом выделен предоставленный мне для предсказания AlphaFold-ом участок 38-95, включающий центральную гидрофобную область белка.

В банке PDB была найдена структура мономера α-синуклеина (1XQ8), полученного с помощью ЯМР. Выданный мне участок представляет из себя фрагмент 38-95 (Рис. 1), включающий в себя центральную гидрофобную область, вовлечённую в формирование амилоидных фибрилл.

Также была найдена структура (получена методом КриоЭМ с разрешением 3.07 Å) самой амилоидной фибриллы (6A6B), гомо 12-мера, в каждом мономере которой отображены остатки 37-99, принимающие ключевое участие в её формировании (Рис. 2).

Амилоидная фибрилла α-синуклеина в качестве структурной единицы демонстрирует два протофиламента, переплетающихся вдоль 21-винтовой оси (поворот на π со сдвигом на полпериода). Каждый протофиламент (из 6 мономеров) напоминает организацией греческий ключ (Рис. 2).

Sorry!
Sorry!
Рисунок 2. Слева - общий вид фибриллы и двух протофиламентов, организованных в винтовую спираль 21, [5]. Справа - вид двух протофиламинтов (6A6B) в PyMOL (гомо 12-мер), каждый из которых образован 6 мономерами.

Полагаю, что AlphaFold вряд ли сможет хорошо предсказать устройство такого интересного протофиламента =) А вот у мономера есть все шансы.

Посмотрим на метрики предсказания мономера (Рис. 3): PAE (Predicted Aligned Error - ожидаемая ошибка позиционирования для каждого из остатков в каждом "блоке". В данном случае блок один - мономер. Для пентамера будет 5 - A, B, C, D, E; для декамера - 10), pIDDT - знаменитая степень уверенности AlphaFold в своём предсказании (приводится для каждой из 5 построенных моделей: rank 1-5) и sequence coverage - соответствие последовательности запросу (для каждого блока).

Sorry!
Sorry!
Sorry!
Рисунок 3. Сверху - PAE. Снизу: слева - Sequence coverage, справа - pIDDT. Ожидаемая ошибка позиционирования для каждого из остатков (PAE) имеет околонулевые значения почти для всех пар остатков. pIDDT имеет, как правило (исключая C-конец), очень высокие (меньше 90) значения для всех определённых моделей (но немного лучше, как мне кажется, модель rank 1).

Как видим, метрики говорят о хорошем... Давайте рассмотрим структурное выравнивание модели (они все примерно одинаковые, но мы возьмём rank 1) со структурой 1XQ8. При этом вряд ли стоит ожидать точного сходства, ведь 1XQ8 - это весь белок (140 АО), а структура модели - это лишь участок белка (38-95), который сам по себе будет сворачиваться, конечно, иначе в отсутствие контекста всего белка (Рис. 4).

И, действительно, результат получается странным: модель содержит β-листы, которые в экспериментальной структуре отсутствуют. Это понятно, поскольку выбранный фрагмент содержит центральную гидрофобную область белка, который имеет все потенции для образования таких β-листов. Но в большом количестве эти β-листы образовываются только при взаимодействии большого количества мономеров. В отдельном же мономере их образование оказывается энергетически невыгодным.

Sorry!
Рисунок 4. Струкурное выравнивание модели мономера rank 1 и структуры 1XQ8 белка α-синуклеина. Зелёным отмечен фрагмент 38-95 (выданный мне в качестве АК последовательности для генерации) экспериментально определённой структуры, бежевым - предсказанный модель. Сомнительная картина =)

Рассмотрим предсказание пентамера. Тургенев сказал бы:"Мимо, читатель, мимо!"... Как и предполагалось, предсказания вышли "с особенностями". Степень уверенности модели (pIDDT), PAE и Coverage (Рис. 5) оказались неудовлетворительными. pIDDT

Sorry!
Sorry!
Sorry!
Рисунок 5. Сверху - PAE. Снизу: слева - Sequence coverage, справа - pIDDT. Ожидаемая ошибка позиционирования для каждого из остатков (PAE) имеет околонулевые значения почти лишь только на прямой, являющейся совокупностью точек-пар идентичных остатков в предсказании и "истинной" структуре соответственно. pIDDT имеет очень низкие (меньше 50) значения для всех определённых моделей.

Аналогичная картина разворачивается с метриками при предсказании декамера (Рис. 6).

Sorry!
Sorry!
Sorry!
Рисунок 6. Сверху - PAE. Снизу: слева - Sequence coverage, справа - pIDDT. Ожидаемая ошибка позиционирования для каждого из остатков (PAE) имеет околонулевые значения лишь в некоторой небольшой области, ограниченной двумя прямыми, при этом совершенно вряд ли какой-то конкретный остаток имеет правильную ориентацию относительно далеко расположенного от него остатка. pIDDT имеет очень низкие (меньше 50) значения для всех определённых моделей.

Ниже продемонстрированы структуры (Рис. 7) двух предсказанных моделей: пентамера и декамера. AlphaFold плохо справился с предсказанием амилоидной фибриллы белка α-синуклеина. Быть может, правильнее было бы моделировать не пента- и декамер, а гекса- и додекамер, поскольку в нативном виде именно в 6- и 12-меры собирается выданный белок. Но, думаю, результат от этого сильно не поменялся бы.

Структура фибриллы α-синуклеина кажется мне достаточно нераспространённой, поэтому, видимо, предсказание получилось таким неудачным. И, по-видимому, AlphaFold в принципе с фибриллами справляется несколько менее удачно, чем с глобулярными белками, примеров структур PDB которых - масса (и большая!) в отличие от структур фибриллярных белков, которых немного меньше.

Sorry!
Sorry!
Рисунок 7. Сверху - структура пентамера. Справа - структура декамера. И без структурного выравнивания видно, что модели не имеют ничего схожего с тем, что наблюдалось в рамках эксперимента.

Ссылка на сессию pymol: 4pr_A8.pse.

Задание C: Протеаза и субстрат.

В рамках данного задания необходимо было исследовать, насколько хорошо AlphaFold предсказывает фермент-субстратные взаимодействия на примере протеазы Катепсина K (P43235) и небольшого пептида NSLVAYKA. Катепсин K - цистеиновая протеаза, присутствующая в остеокластах костей. Синтезируется фермент (как и многие протеазы) в виде зимогена, который впоследствии подвергается аутопротеолизу при низком значении pH [6].

В банке PDB была найдена структура профермента катепсина K (1BY8, РСА, 2.60 Å), который в дальнейшем сравнивался с продуктом фантазии AlphaFold.

По результатам структурного выравнивания (Рис. 8) можно сказать, что AlphaFold прекрасно справился с задачей воссоздания структуры белка. Имеется лишь N-концевой неструктурированный участок, который имеет низкую степень уверенности в предсказании.

Далее решено было сделать предсказание уже со зрелым белком, прошедшим этап аутопротеолиза.

Sorry!
Рисунок 8. Результат структурного выравнивания зимогенов катепсина K. Модель, предсказанная AlphaFold, представлена бежевым, экспериментальная структура - жёлтым. В виде "spheres" представлен субстрат, который близко подходит к активному центру, но, кажется, "испытывает трудности" в виду наличия двух α-спиралей, отрезаемых от зимогена.

При предсказании "рабочей" версии катепсина K результат оказался отличным (Рис. 9). AlphaFold очень точно предсказал структуру белка (не привожу метрики и структурное выравнивание с экспериментальной версией, но поверьте на слово... =)) и правильно определил место связывания субстрата (небольшого пептида) в активном центре фермента. Это оказалось достаточно неожиданным и приятным сюрпризом.

Sorry!
Рисунок 9. Результат предсказания AlphaFold пептидазы катепсина K и его субстрата (небольшого пептида). Катепсин K показан розовым, субстрат - синим (в форме licorice).

Ссылка на сессию PyMol: 4pr_C.pse.

Кирилл Кузенков, студент четвёртого курса ФББ