Практикум 10. Что может Альфафолд2

В этом практикуме использовался инструмент AlphaFold2 для предсказания структуры белка по его аминокислотной последовательности. Я выбрала кейс Helices B3. Здесь дано три последовательности: seqA, seqB (это seqA, у которой позиции 59-62 заменены на Pro) и seqC (это seqA, у которой позиции 49-71 заменены на Pro).(рис.1)

Скульптура

Рисунок 1. Выравнивание отличающегося участка в seqA, seqB, seqC

Сначала было сделано предсказание структуры для seqA. AlphaFold2 выдал пять моделей (рис.2). Можно видеть, что “левая часть'' структуры совпала у всех моделей. При чём хорошо выравнялись как вторичные структуры, так и петли. А вот “правая часть” у моделей различается. Рассматриваемый отличающийся участок (на рис.2 выделен чёрным – seqB, красный+чёрный - segC) находится в “левой” совпавшей части в альфа-спирали.

Скульптура

Рисунок 2. Выравнивание пяти моделей альфафолда. Чёрный - участок, различающийся у пары seqA-seqB; чёрный+красный - участок, различающийся у пары seqA-seqС

В практикуме 8 было показано, что пролин склонен к формированию петель, поэтому в случае seqB я ожидаю, что чёрный участок (рис.1) превратится в петлю и останутся две короткие альфа-спирали, а в случае seqC вся альфа-спираль превратится в полипролиновую спираль.
На рис.3 представлено выравнивание моделей для seqB. Интересующий нас участок совпадает у всех моделей, поэтому смотрим на лучшую модель. Странно, что участок из 4 пролинов здесь входит в состав альфа-спирали, ведь пролины не образуют водородные связи между остовом. pLDDT в этом участке хороший, выше, чем в правой части структуры (рис.4). Если посмотреть на карту Рамачандрана для пролина (рис.5 – получена с помощью MolProbity), то видно, что в модели seqB все пролины попадают в разрешённую зону, соответствующую альфа-спирали (характерные углы (φ, ψ) примерно (-65°, -40°)), а не полипролинового участка (-75°, 150°). Т.е. в этом случае альфафолд ошибся, возможно потому что участок Pro здесь короткий и разделяет две альфа-спирали, и АФ считает, что из них можно сделать одну длинную альфа-спираль, а несколько пролинов подряд в альфа-спирали для него не проблема, т.к. было мало данных для обучения таким случаям.

Скульптура

Рисунок 3. Выравнивание моделей seqB. Чёрным – участок пролинов

Скульптура

Рисунок 4. Покраска по pLDDT лучшей модели seqB

Скульптура

Рисунок 5. Карты рамачандрана для транс-Pro для лучших структур seqA, seqB, seqC

Далее были получены модели для seqC. (рис.6) Чёрным на рис.6 показан полипролиновый участок. В этом случае модели на рассматриваемом участке различаются. Покраска по pLDDT лучшей модели (рис.7) показала, что альфафолд не уверен верности предсказания структуры полипролинового участка. Характерные для полипролиновой спирали торсионные углы - (φ, ψ) примерно (-75°, 150°). Если посмотреть на карту рамачандрана для пролинов из рассматриваемой модели, то можно увидеть, что Pro из рассматриваемого участка действительно попадают в область полипролиновой спирали. Таким образом, мои ожидания совпали с предсказанием альфафолда. Но вот насколько предсказание реалистичное, не очень ясно. Найти реальную структуру с таким количеством пролинов подряд очень сложно, т.к. такие полипролиновые участки сложно кристаллизовать [1]. Вероятно поэтому модели на таких участках имеют низкие значения pLDDT, т.к. сам альфафолд видел мало подобных случаев.

Скульптура

Рисунок 6. Выравнивание моделей seqC. Чёрным- участок полипролинов

Скульптура

Рисунок 7. Покраска по pLDDT лучшей модели seqC

Теперь сравним предсказание альфафолда для seqA с реальной структурой. Последовательность seqA соответствует лизисному ферменту микобактериофага – лизину B (PDB id =3HC7). Выравнивание реальной структуры и предсказания представлено на рис.8. Структуры практически везде совпали.

Скульптура

Рисунок 8. Выравнивание реальной структуры и лучшей предсказанной seqA

Судя по результатам, полученным в этом практикуме, Alphafold хорошо предсказывает общие паттерны структуры (как в случае seqA и реальной последовательности 3HC7). С предсказанием таких экзотических случаев, как например, полипролиновые участки, альфафолд ошибся в случае короткого Pro-участка, и предложил несколько вариантов с низким pLDDT для длинного участка. Таким образом, не следует доверять предсказаниям альфафолда для редких случаев, т.к. АФ имеет мало реальных данных для качественного предсказания.

Выдача ColabFold

seqA
seqB
seqC