#pragma css /css/2018.css
<<BI>>

= Вторичная структура =

== Задание 1. Работа с разметкой вторичной структуры в ручном режиме ==

1.5 балла

Возьмите ваш PDB из практикума 6 (Валидация). 


Сгенерируйте для него аннотации вторичной структуры с помощью [[https://2struccompare.cryst.bbk.ac.uk/index.php|2Struc]] (правое окно). Выберите генерацию с помощью DSSP и с помощью STRIDE. 


Найдите участки, которые эти две программы аннотировали по-разному. Выберите 3 таких участка, изучите их вручную. Вынесите свой вердикт -- какой тип вторичной структуры в этом месте? Какая программа оказалась ближе к вашему мнению? Как вам кажется, почему, какие особенности алгоритма на это могли повлиять?


{{{#!wiki note blue
Баллы: Добавьте другие программы в это сравнение}}}


'''Подсказка''': Включение дополнительных разметок (например, STRIDE) происходит путем выбора в панели прямо над выравниванием внизу слева.


== Задание 2. Работа с разметкой вторичной структуры в автоматическом режиме ==

1.5 балла

Вам дан [[https://kodomo.fbb.msu.ru/FBB/year_18/sbinf2021/2021.T8/|набор белков]]. Полный путь к этой папке такой: /srv/www/htdocs/FBB/year_18/sbinf2021/2021.T8

Для каждого из 30 pdb в этом наборе сгенерируйте разметку вторичной структуры с помощью dssp (на кодомо есть под именем mkdssp, напишите цикл). Используя python, расчитайте склонности каждого типа аминокислоты образовывать тот или иной тип вторичной структуры (amino acid secondary structure propensity):

P_ik = (n_ik/n_i) / (N_k/N)

Где P_ik это propensity аминокислотного остатка i образовывать тип вторичной структуры j

n_ik это количество остатков i в датасете, образующих тип вторичной структуры j

n_i это общее количество остатков i в датасете

N_k это общее количество остатков, образующих тип вторичной структуры j во всем датасете

N это общее количество остатков в датасете

{{{#!wiki note orange
Склонность аминокислотного остатка i образовывать вторичную структуру j является интегральным свойством этого остатка и не зависит от того, в каком белке он находится. Поэтому вам в этом задании нужно объединить данные с 10 белков в один набор, тем самым мы имитируем то, как расчитываются склонности в реальности (на всей базе PDB), но на уменьшенном масштабе, чтобы сделать это задание выполнимым в рамках практикума.
}}}

{{{#!wiki note orange
Вспомните, что такое псевдокаунты, какие они бывают и зачем они нужны. Возможно, в этом практикуме вы столкнетесь с проблемой, которую они решают}}}


Используйте упрощенную классификацию, расценивая все, что не является бета-листом ('E') или альфа-спиралью ('H'), как петлю ('C'). Таким образом, работайте с 3 классами вторичной структуры.

Приведите таблицу на сайте или в виде ссылки для скачивания. Опишите три примера: 
 * Какой тип остатка заметно чаще образует альфа-спирали, чем бета-листы и петли? 
 * Какой тип остатка заметно чаще образует бета-листы, чем альфа-спирали и петли?
 * Какой тип остатка заметно чаще образует петли, чем альфа-спирали и бета-листы?

NB: вы можете использовать [[http://kodomo.fbb.msu.ru/FBB/year_17/sbinf2020/parse_dssp.py|мой небольшой скрипт]] как промежуточный этап в сборе нужной информации. Он вчитывает аннотацию dssp и выводит просто устроенный файл, где через пробелы перечислены: <номер остатка> <тип (однобуквенный)> <класс (E, H или C)>. Использование: python parse_dssp.py <some.dssp> <some.out>

NB2: Если скрипт не работает или работает не так, как вам кажется, он должен работать, напишите в телеграме. Либо можете написать свой.