Учебная страница курса биоинформатики,
год поступления 2017
Разметка вторичной структуры
Задание 1. Знакомство с укладками
0.75 балла
Вам дано 10 записей PDB. Соответствующие этим структурам последовательности демонстрируют не более 40% попарного сходства.
Откройте записи в Pymol. Выберите одну как опорную и выровняйте все остальные по ней (super <pdb2>, <pdb1>). Сохраните изображение, приведите в отчете. Можно ли сказать, что эти структуры имеют одинаковую третичную структуру/укладку? Что общего между этими структурами, а в чем они различаются?
Задание 2. Работа с разметкой вторичной структуры в ручном режиме
1.25 балла
Для любой пары изучите разметку вторичной структуры, которую Pymol сделал по умолчанию (внутри он использовал dssp). Найдите участок, в котором участок одного белка, проходя через то же место в пространстве, что и аналогичный участок второго белка, имеет отличную от него разметку вторичной структуры. Оправдано ли это различие?
Задание 3. Работа с разметкой вторичной структуры в автоматическом режиме
1.5 балла
Для каждого из 10 pdb сгенерируйте разметку вторичной структуры с помощью dssp (на кодомо есть под именем mkdssp). Используя python, расчитайте склонности каждого типа аминокислоты образовывать тот или иной тип вторичной структуры (amino acid secondary structure propensity):
P_ik = (n_ik/n_i) / (N_k/N)
Где P_ik это propensity аминокислотного остатка i образовывать тип вторичной структуры j
n_ik это количество остатков i в датасете, образующих тип вторичной структуры j
n_i это общее количество остатков i в датасете
N_k это общее количество остатков, образующих тип вторичной структуры j во всем датасете
N это общее количество остатков в датасете
Склонность аминокислотного остатка i образовывать вторичную структуру j является интегральным свойством этого остатка и не зависит от того, в каком белке он находится. Поэтому вам в этом задании нужно объединить данные с 10 белков в один набор, тем самым мы имитируем то, как расчитываются склонности в реальности (на всей базе PDB), но на уменьшенном масштабе, чтобы сделать это задание выполнимым в рамках практикума.
Вспомните, что такое псевдокаунты, какие они бывают и зачем они нужны. Возможно, в этом практикуме вы столкнетесь с проблемой, которую они решают
Используйте упрощенную классификацию, расценивая все, что не является бета-листом ('E') или альфа-спиралью ('H'), как петлю ('C'). Таким образом, работайте с 3 классами вторичной структуры.
Приведите таблицу на сайте или в виде ссылки для скачивания. Опишите три примера:
- Какой тип остатка заметно чаще образует альфа-спирали, чем бета-листы и петли?
- Какой тип остатка заметно чаще образует бета-листы, чем альфа-спирали и петли?
- Какой тип остатка заметно чаще образует петли, чем альфа-спирали и бета-листы?
NB: вы можете использовать мой небольшой скрипт как промежуточный этап в сборе нужной информации. Он вчитывает аннотацию dssp и выводит просто устроенный файл, где через пробелы перечислены: <номер остатка> <тип (однобуквенный)> <класс (E, H или C)>. Использование: python parse_dssp.py <some.dssp> <some.out>