Учебная страница курса биоинформатики,
год поступления 2018
Вторичная структура
Задание 1. Работа с разметкой вторичной структуры в ручном режиме
1.5 балла
Возьмите ваш PDB из практикума 6 (Валидация).
Сгенерируйте для него аннотации вторичной структуры с помощью 2Struc (правое окно). Выберите генерацию с помощью DSSP и с помощью STRIDE.
Найдите участки, которые эти две программы аннотировали по-разному. Выберите 3 таких участка, изучите их вручную. Вынесите свой вердикт – какой тип вторичной структуры в этом месте? Какая программа оказалась ближе к вашему мнению? Как вам кажется, почему, какие особенности алгоритма на это могли повлиять?
Баллы: Добавьте другие программы в это сравнение
Подсказка: Включение дополнительных разметок (например, STRIDE) происходит путем выбора в панели прямо над выравниванием внизу слева.
Задание 2. Работа с разметкой вторичной структуры в автоматическом режиме
1.5 балла
Вам дан набор белков. Полный путь к этой папке такой: /srv/www/htdocs/FBB/year_18/sbinf2021/2021.T8
Для каждого из 30 pdb в этом наборе сгенерируйте разметку вторичной структуры с помощью dssp (на кодомо есть под именем mkdssp, напишите цикл). Используя python, расчитайте склонности каждого типа аминокислоты образовывать тот или иной тип вторичной структуры (amino acid secondary structure propensity):
P_ik = (n_ik/n_i) / (N_k/N)
Где P_ik это propensity аминокислотного остатка i образовывать тип вторичной структуры j
n_ik это количество остатков i в датасете, образующих тип вторичной структуры j
n_i это общее количество остатков i в датасете
N_k это общее количество остатков, образующих тип вторичной структуры j во всем датасете
N это общее количество остатков в датасете
Склонность аминокислотного остатка i образовывать вторичную структуру j является интегральным свойством этого остатка и не зависит от того, в каком белке он находится. Поэтому вам в этом задании нужно объединить данные с 10 белков в один набор, тем самым мы имитируем то, как расчитываются склонности в реальности (на всей базе PDB), но на уменьшенном масштабе, чтобы сделать это задание выполнимым в рамках практикума.
Вспомните, что такое псевдокаунты, какие они бывают и зачем они нужны. Возможно, в этом практикуме вы столкнетесь с проблемой, которую они решают
Используйте упрощенную классификацию, расценивая все, что не является бета-листом ('E') или альфа-спиралью ('H'), как петлю ('C'). Таким образом, работайте с 3 классами вторичной структуры.
Приведите таблицу на сайте или в виде ссылки для скачивания. Опишите три примера:
- Какой тип остатка заметно чаще образует альфа-спирали, чем бета-листы и петли?
- Какой тип остатка заметно чаще образует бета-листы, чем альфа-спирали и петли?
- Какой тип остатка заметно чаще образует петли, чем альфа-спирали и бета-листы?
NB: вы можете использовать мой небольшой скрипт как промежуточный этап в сборе нужной информации. Он вчитывает аннотацию dssp и выводит просто устроенный файл, где через пробелы перечислены: <номер остатка> <тип (однобуквенный)> <класс (E, H или C)>. Использование: python parse_dssp.py <some.dssp> <some.out>
NB2: Если скрипт не работает или работает не так, как вам кажется, он должен работать, напишите в телеграме. Либо можете написать свой.