Нормализация PDB-структур
Задание для 2 – 5 человек (можно и больше).
Суть: привести PDB структуру к такому виду, в котором на неё можно запускать мол. динамику.
Автор задачи: Сергей Митрофанов.
Программа максимум:
- если в PDB есть только основная цепь, достроить боковые цепи
починить иррегулярности нумерации остатков; например, если в файле идут остатки 99, 100, 100A, 101, 102, ..., то их нужно перенумеровать в 99, 100, 101, 102, 103, ...
- выбрать одну из альтернативных конформаций
- хороший случай: выбрать все части без alt-кодов и все части с одним (заданным) alt-кодом
- плохой случай: одна и та же конформация задана в PDB разными alt-кодами в разных местах; тогда нужно выбрать все части без alt-кодов и из всех идущих подряд частей с alt-кодами, выбрать первую
- достроить водороды
- на сайте pdb.eu, если долго поискать, есть структуры остатков с водородами в формате sdf
- достраивать водороды умеет программа hicup
- убрать воду
- удалить строки ANISOU (всё равно их никто не использует)
- если есть модифицированные остатки, об этом нужно сообщить; в зависимости от решения пользователя:
- либо их оставить
- либо заменить на немодифицированные
- привести в порядок все HETATM'ы:
- если это молекулы, добавленные в ходе кристаллографического эксперимента, убрать их
- если это молекулы, присутствующие в клетке:
- если это целая молекула, оставить
если это часть молекулы, и её возможно достроить (как-то) до целой – достроить
- в противном случае тоже убрать (половин молекул в структуре оставаться не должно)
- согласовать записи CONNECT с остальным содержимым структуры:
- либо удалить все CONNECT
- либо поправить в CONNECT нумерацию для тех атомов, для которых она изменилась, и удалить CONNECT для тех атомов, которые были выброшены
- если есть разрыв цепи, обозначить его как C или N концевой (для динамики неполных молекул)
- в идеале все изменения должны сохранять порядок атомов (чтобы легче было проверять, что изменилось)
- в идеале должно выглядеть как набор инструментов, которые могут работать полностью автоматически (с параметрами по умолчанию), но можно из них выбрать один и запустить с какими-то параметрами, или можно из них выбрать все, кроме одного
Пожелания Евгения Аксянова:
- вырезать фрагмент PDB (e.g. домен)
- проверить, актуален ли файл (лежит ли он на сервере PDB)
- вырезать первую модель
заменить модифицированные остатки MSE->MET, MLY->LYS, HYP->PRO, CGU->GLU; заменить HETATM на ATOM
- прочитать заголовки про симметрию и применить их
оставить в структуре только гетероатомы на расстоянии <10A от заданного и нуклеотиды на расстоянии <15A от заданного
- собрать данные про то, какие диапазоны во что переименовались
поправить нумерацию там, где она инвертирована (e.g. 3a, 2a, 1a, 0, 1, 2, 3 -> -3, -2, -1, 0, 1, 2, 3)
- разодрать выдачу SSM: сделать из цепочек модели
- проверить файл на все странности и выругаться
- удалить заряды и occupancy
- посмотреть на seqres