Вторичная структура

Работа с разметкой вторичной структуры в ручном режиме

Воспользуемся онлайн-сервисом 2StrucCompare, чтобы получить аннотацию вторичной структуры конкретного белка при помощи алгоритмов DSSP и STRIDE, и сравним полученные выходы.

В этом задании предполагалось работать с тем же PDB ID, что и в практикуме 6, но у меня для него не работал DSSP, поэтому беру PDB3 из практикума 2: это 7BDE.

2Struc выдаёт аннотации в удобном для визуального анализа виде — в виде выравнивания. На рис. 1 приведена его выдача.

Рисунок 1.

Сравнение двух аннотаций, полученных DSSP и STRIDE, на выравнивании.

Разберём несколько примеров расхождений в выдаче. Так, в позициях 66–68 DSSP разметил $3_{10}$-спираль, в то время как у STRIDE это просто поворот. У DSSP имеется специальный тип аннотации bend, которого нет в STRIDE (например, в позиции 31, где у STRIDE обычный поворот). Также есть отличия в разметке точных границ альфа-спиралей, например, на 53 позиции DSSP ещё отмечает спираль, а STRIDE — уже нет. Посмотрим на эти места в структуре (рис. 2).

Рисунок 2.

Спорные места при сравнении двух вариантов разметки. Слева направо: предположительная $3_{10}$-спираль, место разметки bend в DSSP и turn в STRIDE, спорный конец альфа-спирали. Остатки, аннотация которых представляет интерес, выделены цветом.

Для участка спирали $3_{10}$ я измерил углы $\varphi$. Видно, что по крайней мере один из них ($-42{,}7\,^\circ$) далёк от значений, характерных для спиральных участков. Весь паттерн из трёх остатков выглядит в связи с этим несколько уплощённо, я бы согласился с аннотацией STRIDE, что это поворот, а не спираль.

Во втором случае для начала вспомним, что такое bend. Так помечаются остатки, на которых остов делает крутой поворот — более $70\,^\circ$. Критерий формальный, со справедливостью определения не поспоришь, можно только думать об осмыслености выделения в данном случае. DSSP, скажем, не выделяет этот тип структуры, когда можно говорить о спиралях (даёт спиралям более высокий приоритет). В данном случае DSSP не выделил никакой структуры вокруг, в то время как STRIDE считает четыре подряд идущих остатка поворотом. Если внимательно посмотреть, то этот «поворот» стабилизируется только одной водородной связью между боковым радикалом T32 и кислородом остова D29. Длина связи в данной структуре пограничная, 3,5 Å, угол практически прямой. Мне кажется, о полноценном повороте здесь говорить не стоит — склоняюсь к аннотации DSSP. Скорее всего, вне кристалла эта конформация не очень устойчива. Наверное, в данном случае торсионные углы сложились так, что STRIDE допустил осмысленность этого поворота.

И последний случай, с предположительной альфа-спиралью. Здесь водородную связь с предыдущим витком спирали образует NH-группа и этого остатка, и даже следующего, но углы $\varphi$ и $\psi$ для остатка C53 не соответствуют альфа-спиральной конформации. Поэтому, я считаю, логичнее говорить, что 53-й остаток в спираль не входит.

Подводя итог задания, можно сказать, что и человеку может быть нелегко по разным критериям решить, какой тип структуры перед ним. Становится как никогда ясно, что во имя формализации алгоритмов разметки непременно придётся чем-то жертвовать. В данном случае при аннотации спиралей лучше справлялась программа STRIDE, так как она более явно учитывает торсионные углы. Но иногда, как в случае рассмотренного поворота, и это не помогает.

Работа с разметкой вторичной структуры в автоматическом режиме

В этом задании мне дан набор белков в папке на сервере kodomo. Проведём в нём аннотацию вторичной структуры при помощи DSSP, находясь в рабочей папке практикума в домашней директории:

for file in $(ls /srv/www/htdocs/FBB/year_18/sbinf2021/2021.T8/russal2010 ); do mkdssp -i /srv/www/htdocs/FBB/year_18/sbinf2021/2021.T8/russal2010/$file -o ./${file}.dssp done

Обработаем полученные выходы при помощи сценария, предоставленного в задании, чтобы сгруппировать остатки по типам вторичной структуры — спиралям, листам и «петлям».

for file in *.dssp; do python3 parse_dssp.py $file out_$file; done

Выходы скрипта для 30 файлов сольём вместе.

cat out* > out.txt

Теперь просто загрузим получившийся файл и проанализируем средствами Python. Прочтём таблицу и рассчитаем, насколько склонны различные остатки в обработанных файлах к образованию трёх выделенных типов вторичной структуры.

Чтение данных:

Подсчёт статистики участия в типах вторичной структуры:

Вот какие склонности получаются в итоге (см. таблицу в выдаче ячейки ниже).

Опишем несколько характерных примеров. Например, глицин чаще встречается в неструктурированных участках. Это объясняется тем, что у остатков глицина слабые ограничения на торсионные углы, они более «гибкие». Аланин чаще встречается в составе спиралей, валин предпочитает бета-листы. Вообще многие малополярные остатки, как оказалось, имеют склонность к образованию листов. Возможно, их боковые радикалы им просто не мешают укладываться, образуя связи между атомами остова. В случае спиралей это, должно быть, влияет не так сильно, ведь там боковые цепи расходятся радиально в разные стороны, у них больше пространства. Почему аланин, хоть не обладает полярным радикалом, всё равно тяготеет к спиралям, мне объяснить сложно. Может быть, это как-то связано с тем, что его боковой радикал достаточно маленький (а значит, не образует большой площади гидрофобных контактов с соседями по листу).