AlphaFold + PROTAK

Задание 1B Helices, последовательности B11

В задании 1 я выбрала подпункт B (Helices), в котором даны три последовательности. В первой (оригинальной последовтаельности, seqA) находится структура из альфа-спиралей; в seqB и seqC находится та же последовательностб, только с полиPro стрэтчем (разной длины) внутри одной из альфа-спиралей. Я ожидаю, что такие пролиновые вставки будут нарушать структуру спирали: спираль удерживает свою структуру за счет водородных связей NH i-го остатка и C=O i+4 остатка (в самой дефолтной спирали), для такой укладки должно быть возможно образование характерных φ и ѱ торсионных углов. Для пролина, вследствие его цикличности с участием N, при образовании пептидной связи N оказывается связан с 3мя атомами углерода, то есть не протонирован, а значт, не может быть донором водородной связи. Я посмотрела карты Рамачандрана и заономерно обнаружила, что в целом, для Pro допустимая (и особенно предпочитаемая) области заметно меньше, чем для остальных остатков, поэтому ему сложно встраиваться в альфа-спирали.

Я выбрала последовательности B11. Оригинал нашла в PDB: 1Y9B, длина последовательности 90 АК. В seqB остатки 66-69 заменены на Pro, в seqC - остатки 59-69.

Рис. 1. Слева - структура из PDB; справа - выравнивание структуры из PDB и предсказание AF2
Рис. 2. Выранивание структуры из PDB с предсказанными AF2 для всех трех последовательностей (seqA, seqB, seqC)
Рис. 3A. окраска по plDDT для SeqA. Ссылка на выдачу AF2 (zip)
Рис. 3B. окраска по plDDT для SeqB. Ссылка на выдачу AF2 (zip)
Рис. 3C. окраска по plDDT для SeqC. Ссылка на выдачу AF2 (zip)

В PDB структура описана как "предполагаемый консревативный домен транскрипционного фактора, выделенного из холерного вибриона". На рисунке 1 мы видим, что предсказание AF2 в целом неудачное, выровнялась только часть структуры с plDDT > 0.9 (рис 3A). Почему-то AF2 не захотел предсказывать единую длинную спираль и разбил ее на две, вставив между кусками disorder region. Из-за этого вторая часть спирали развернулась, и мы видим, что левая часть совсем не выровнена.

На рисунке 2 показано выравниваие всех предсказанных структур с структурой из PDB. интересно, что для seqB (синяя) AF2 предсказывает более длинную спираль посередине, чем для SeqA. В принципе для самой правой (N-концевой) альфа-спирали выровнено хорошо, на риснуке 3 эта область помечена как high confidence (plDDT > 0.9) для всех последовательностей. Интересно, что мы видим, что disorder region seqC длиннее, чем у seqB (в центре), так как именно здесь находится полипролиновая замена, но тем не менее в SeqA эта область тоже есть, просто потом собирается во вторую часьт спирали.

Рис. 4. Выравнивание структуры с PDB с SeqA и SeqB, место пролиновой вставки показано желтым.
Рис. 5. Выравнивание SeqA и SeqB, место пролиновой вставки показано желтым.

На рисунках 4-5 наблюдаем за влиянием замены C-конца альфа-спирали на пролины. Как и ожидалось, видим, что в оригинальной структуре и SeqA на месье этих остатков (66-69) находится C-конец альфа-спирали, а в SeqB, где resi 66-69 == PPPP, спираль не собралась, вместо нее disorder region. Ожидаемое поведение

Рис. 6. Выравнивание SeqA, SeqB и SeqC, место пролиновой вставки показано оранжевым (тут уже пролиновая ставка длины 10).
Рис. 7. Выравнивание структуры PDB с SeqA, SeqB и SeqC, место пролиновой вставки показано оранжевым (тут уже пролиновая ставка длины 10).

На рисунках 6-7 показаны структуры, на которых выделены остатки 59-69, в SeqC на их месте стоят Pro. Видим, что в PDB и предсказании SeqA эти остатки образуют часть альфа спирали. В SeqB на остатках 65-69 находится disorder region (не удивительно, 66-69 - пролины), а незамененная часть тоже собралась в кусок альфа-спирали. В SeqC на месте всех этих остатков находится disorder region. Ожидаемо

общий вывод

В целом AF2 работает с вставкой пролинов в альфа-спираль ровно так, как я ожидала - так как пролин не может образовывть H-связи для удержания остова спирали, то в месте вставки AF2 предсказывает disorder region. Больше вопросов к предсказанию самой структуры последовательности, мы видим непонятно вставку disorder region посреди большой альфа-спирали. Эта область находится на остатках 52-58, последовательность Gln-Ala-Leu-Cys-Leu-Ser. Пролинов тут нет, хз почему не свернулось в спираль.

Задания 2-3: PROTAK

Ссылка на колаб тут . У меня был белок 3FRO, chain A . В колабе я запустила подсчет для деления белка на 2 части: домен А заканчивается на остатке i, домен B начинается с i+1 остатка (я так поняла, что задание было таким). У меня получился вот такой вот график:

Рис. 8. График зависимости split_value от номера остатка

Также выведем топ позиций с максимальным предсказанным значением: 187, 188, 189, 186, 190, 185, 431, 191, 182, 184, 192, 183, 181, 179

. В общем-то это просто расположение самого высоко пика на позициях 179-192, также здесь выделена позиция 431. Позиция с самым высоким split_value #187. Поищем ее в белке.
Рис. 9. График зависимости split_value от номера остатка
Также можно посмотреть на остатки пиков, но они хуже, чем 187й, так как либо делят домен непонятно, либо вообще находятся внутри вторичной структуры. Кстати, пик на 431м из 439 остатков скорее всего показывает конец домена B. Вот можно было бы предположить деление на несколько доменов, только у нас очень близкие пики получаются (расстояние пиков в центре ~20 позиций), к тому же, мне кажется, 187й остаток визуально хорошо делит наш белок на структурные домены.
Рис. 10. Пики PROTAK

Сравним с бд структурных доменов - SCOP и CATH.

CATH

Рис. 11. разбиение на структурные домены by CATH

Видим, что визуально похоже, НО PROTAK относит центральные петли (сравните левый рисунок с Рис 11 с левым рисунком Рис 9), петли между доменами относятся к разным участкам. При чем PROTAK определил пик на 213 (CATH предсказывает 218, оба остатка из disorder region, так что вполне похоже), но PROTAK не предсказывает важный пик для второй спорной петли в позиции 412.

PROK

PROK предсказывает единственный структурный домен из суперсемейства Type B Glycogentransferase-like, домен GlgA glycogen synthase. Он находится в позициях 220-415, то есть он выделяет часть домена 3froA02 из CATH.

Рис. 12. разбиение на структурные домены by PROK

В общем, предсказание PROTAK получается похожим, но так мы считаем разделением между доменами единственный остаток, то в прицнипе хорошо получилось. Если бы по двум-трем остаткам предсказывали, возможно бы получилось больше похоже на CATH, но по-моему и так неплохо вышло.