Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2018

Вторичная структура

Задание 1. Работа с разметкой вторичной структуры в ручном режиме

1.5 балла

Возьмите ваш PDB из практикума 6 (Валидация).

Сгенерируйте для него аннотации вторичной структуры с помощью 2Struc (правое окно). Выберите генерацию с помощью DSSP и с помощью STRIDE.

Найдите участки, которые эти две программы аннотировали по-разному. Выберите 3 таких участка, изучите их вручную. Вынесите свой вердикт – какой тип вторичной структуры в этом месте? Какая программа оказалась ближе к вашему мнению? Как вам кажется, почему, какие особенности алгоритма на это могли повлиять?

Баллы: Добавьте другие программы в это сравнение

Подсказка: Включение дополнительных разметок (например, STRIDE) происходит путем выбора в панели прямо над выравниванием внизу слева.

Задание 2. Работа с разметкой вторичной структуры в автоматическом режиме

1.5 балла

Вам дан набор белков. Полный путь к этой папке такой: /srv/www/htdocs/FBB/year_18/sbinf2021/2021.T8

Для каждого из 30 pdb в этом наборе сгенерируйте разметку вторичной структуры с помощью dssp (на кодомо есть под именем mkdssp, напишите цикл). Используя python, расчитайте склонности каждого типа аминокислоты образовывать тот или иной тип вторичной структуры (amino acid secondary structure propensity):

P_ik = (n_ik/n_i) / (N_k/N)

Где P_ik это propensity аминокислотного остатка i образовывать тип вторичной структуры j

n_ik это количество остатков i в датасете, образующих тип вторичной структуры j

n_i это общее количество остатков i в датасете

N_k это общее количество остатков, образующих тип вторичной структуры j во всем датасете

N это общее количество остатков в датасете

Склонность аминокислотного остатка i образовывать вторичную структуру j является интегральным свойством этого остатка и не зависит от того, в каком белке он находится. Поэтому вам в этом задании нужно объединить данные с 10 белков в один набор, тем самым мы имитируем то, как расчитываются склонности в реальности (на всей базе PDB), но на уменьшенном масштабе, чтобы сделать это задание выполнимым в рамках практикума.

Вспомните, что такое псевдокаунты, какие они бывают и зачем они нужны. Возможно, в этом практикуме вы столкнетесь с проблемой, которую они решают

Используйте упрощенную классификацию, расценивая все, что не является бета-листом ('E') или альфа-спиралью ('H'), как петлю ('C'). Таким образом, работайте с 3 классами вторичной структуры.

Приведите таблицу на сайте или в виде ссылки для скачивания. Опишите три примера:

NB: вы можете использовать мой небольшой скрипт как промежуточный этап в сборе нужной информации. Он вчитывает аннотацию dssp и выводит просто устроенный файл, где через пробелы перечислены: <номер остатка> <тип (однобуквенный)> <класс (E, H или C)>. Использование: python parse_dssp.py <some.dssp> <some.out>

NB2: Если скрипт не работает или работает не так, как вам кажется, он должен работать, напишите в телеграме. Либо можете написать свой.

2018/7/task8 (последним исправлял пользователь alexander.zlobin 2021-12-05 08:25:03)